[bcn-pm] RS: RS: RS: Consulta sobre parsejar
Agud Pique, Enric
eagud.q a tv3.cat
dij nov 21 00:18:27 PST 2013
Per veure el resultat en R
print(data.frame)
-----Missatge original-----
De: Barcelona-pm en nom de Agud Pique, Enric
Enviat el: dj. 21/11/2013 9:16
Per a: Barcelona Perl Mongers; Barcelona Perl Mongers
Tema: [bcn-pm] RS: RS: Consulta sobre parsejar
Hola Alex, moltes gràcies,
Mira en R, seria una cosa com aquesta (fet ràpidament i segur que es pot millorar, però ho parseja bé)
####TUIXENT####
library(XML)
library(zoo)
##library(RCurl)
isp.url <- "http://www.tuixent-lavansa.com/pagina/inicial"
pag <-readLines(isp.url)
tmp <- htmlParse(pag, encoding = "utf8" )
isp.tabs <- readHTMLTable(tmp, stringsAsFactors = F)
length(isp.tabs)
####En total de 5 taules, només m'interessen la 2 i 3
#####Taula2
isp.tab <- isp.tabs[[2]]
nr <- nrow(isp.tab)
nc <- ncol(isp.tab)
isp.tab[, 1:2]
filas <- as.character(isp.tab[1:nr, 2])
filas
datos <- isp.tab[1:nr, 1:nc]
print(datos)
acces <- datos[2, 2]
print(acces)
####Taula3
isp.tab <- isp.tabs[[3]]
nr <- nrow(isp.tab)
nc <- ncol(isp.tab)
isp.tab[, 1:2]
filas <- as.character(isp.tab[1:nr, 1])
filas
datos <- isp.tab[1:nr, 1:nc]
datost <-t(datos)
print(datost)
datost[1, 1] <- "ESTAT ESTACIÓ"
datost[2, 1] <- acces
write.table(datost[, c(1,2,3,4,5)], "/home/enric/csv/tuixent.csv", sep = ",",col.names = NA)
###############################################################################################
S'ha de pulir (eliminar la capçalera i la primera columna), però em surt una cosa així
Per eliminar la columna faria
draft1$X<-NULL
> print(datf1)
X X1 X2 X3 X4 X5
1 V1 ESTAT ESTACIÓ QUALITAT GRUIX MINÍM GRUIX MÀXIM KM MARCATS
2 V2 OBERT Pols 15 cm 50 cm 20 Km
Probaré de fer-ho tal com m'has indicat en l'enllaç de l'últim mail per aprendre tb en perl. Ahir a la nit ho veia una mica muntanya amb HTML::TableExtract... ho probo avui
Gracies
-----Missatge original-----
De: Barcelona-pm en nom de Alex Muntada
Enviat el: dj. 21/11/2013 6:18
Per a: Barcelona Perl Mongers
Tema: Re: [bcn-pm] RS: Consulta sobre parsejar
Hola Enric, ens podries ensenyar com ho fas amb R?
Veient la documentació del HTML::TableExtract sembla prou fàcil
d'utilitzar. Què et fa tirar enrere? No crec pas que et resulti més fàcil
fer-ho amb PHP.
Salut,
Alex
_______________________________________________
llista dels Barcelona-pm
Barcelona-pm a pm.org
http://mail.pm.org/mailman/listinfo/barcelona-pm
BCN Perl Mongers: http://barcelona.pm.org
-------------- part següent --------------
A non-text attachment was scrubbed...
Name: no disponible
Type: application/ms-tnef
Size: 4490 bytes
Desc: no disponible
URL: <http://mail.pm.org/pipermail/barcelona-pm/attachments/20131121/96a9c0a8/attachment.bin>
Més informació sobre la llista de correu Barcelona-pm