[bcn-pm] RS: RS: RS: Consulta sobre parsejar

Agud Pique, Enric eagud.q a tv3.cat
dij nov 21 00:18:27 PST 2013


Per veure el resultat en R

print(data.frame)


-----Missatge original-----
De: Barcelona-pm en nom de Agud Pique, Enric
Enviat el: dj. 21/11/2013 9:16
Per a: Barcelona Perl Mongers; Barcelona Perl Mongers
Tema: [bcn-pm] RS:  RS: Consulta sobre parsejar
 
Hola Alex, moltes gràcies, 

Mira en R, seria una cosa com aquesta (fet ràpidament i segur que es pot millorar, però ho parseja bé)

####TUIXENT####

library(XML)
library(zoo)
##library(RCurl)


isp.url <- "http://www.tuixent-lavansa.com/pagina/inicial"
pag <-readLines(isp.url)
tmp <- htmlParse(pag, encoding = "utf8" )
isp.tabs <- readHTMLTable(tmp, stringsAsFactors = F)
length(isp.tabs)
####En total de 5 taules, només m'interessen la 2 i 3
#####Taula2
isp.tab <- isp.tabs[[2]]
nr <- nrow(isp.tab)
nc <- ncol(isp.tab)
isp.tab[, 1:2]
filas <- as.character(isp.tab[1:nr, 2])
filas
datos <- isp.tab[1:nr, 1:nc]
print(datos)
acces <- datos[2, 2]
print(acces)

####Taula3
isp.tab <- isp.tabs[[3]]
nr <- nrow(isp.tab)
nc <- ncol(isp.tab)
isp.tab[, 1:2]
filas <- as.character(isp.tab[1:nr, 1])
filas

datos <- isp.tab[1:nr, 1:nc]
datost <-t(datos)
print(datost)


datost[1, 1] <- "ESTAT ESTACIÓ"
datost[2, 1] <- acces

write.table(datost[, c(1,2,3,4,5)], "/home/enric/csv/tuixent.csv", sep = ",",col.names = NA)
###############################################################################################
S'ha de pulir (eliminar la capçalera i la primera columna), però em surt una cosa així
Per eliminar la columna faria
draft1$X<-NULL

> print(datf1)
   X            X1           X2              X3              X4             X5
1 V1 ESTAT ESTACIÓ     QUALITAT     GRUIX MINÍM     GRUIX MÀXIM     KM MARCATS
2 V2         OBERT         Pols           15 cm           50 cm          20 Km


Probaré de fer-ho tal com m'has indicat en l'enllaç de l'últim mail per aprendre tb en perl. Ahir a la nit ho veia una mica muntanya amb HTML::TableExtract... ho probo avui

Gracies


-----Missatge original-----
De: Barcelona-pm en nom de Alex Muntada
Enviat el: dj. 21/11/2013 6:18
Per a: Barcelona Perl Mongers
Tema: Re: [bcn-pm] RS: Consulta sobre parsejar
 
Hola Enric, ens podries ensenyar com ho fas amb R?

Veient la documentació del HTML::TableExtract sembla prou fàcil
d'utilitzar. Què et fa tirar enrere? No crec pas que et resulti més fàcil
fer-ho amb PHP.

Salut,
Alex

_______________________________________________
llista dels Barcelona-pm
Barcelona-pm a pm.org
http://mail.pm.org/mailman/listinfo/barcelona-pm
BCN Perl Mongers: http://barcelona.pm.org

-------------- part següent --------------
A non-text attachment was scrubbed...
Name: no disponible
Type: application/ms-tnef
Size: 4490 bytes
Desc: no disponible
URL: <http://mail.pm.org/pipermail/barcelona-pm/attachments/20131121/96a9c0a8/attachment.bin>


Més informació sobre la llista de correu Barcelona-pm