
Boa noite a todos Estou com um problema idiota em mãos. Preciso ler um arquivo .HTM dentro de um arquivo .zip. Até agora, o jeito que achei mais produtivo foi: 1. baixar o zip (posso fazer isso com o R via download.file) 2. extrair o .HTM do arquivo (posso fazer isso via unzip) 3. ler a tabela contida no HTM utilizando readHTMLTable (lib XML) A questão que tenho é a seguinte: Existe um jeito mais rápido que este? Eu já consegui ler .csv direto de arquivo .zip utilizando o comando unz e read.table. Será que funciona assim também em HTML? Se sim, qual seria a func? Leonard OS: ainda tenho que pensar como fazer webscrap desse htm, kkk

Leonardo, talvez você já tenha alguma vez trilhado o caminho das pedras do webscrapping, mas, se não, recomendo os pacotes XML, RCurl e rvest (eu uso mais os dois primeiros). Abraços, Paulo Em 6 de janeiro de 2016 23:45, Leonard de Assis <assis.leonard@gmail.com> escreveu:
Boa noite a todos
Estou com um problema idiota em mãos. Preciso ler um arquivo .HTM dentro de um arquivo .zip.
Até agora, o jeito que achei mais produtivo foi:
1. baixar o zip (posso fazer isso com o R via download.file)
2. extrair o .HTM do arquivo (posso fazer isso via unzip)
3. ler a tabela contida no HTM utilizando readHTMLTable (lib XML)
A questão que tenho é a seguinte:
Existe um jeito mais rápido que este? Eu já consegui ler .csv direto de arquivo .zip utilizando o comando unz e read.table. Será que funciona assim também em HTML? Se sim, qual seria a func?
Leonard
OS: ainda tenho que pensar como fazer webscrap desse htm, kkk
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Paulo, o que achei via google de ontem pra hoje vai nessa direção mesmo. Estou rodando vários exemplos que achei e, em paralelo, adaptando meu código. Eu já consigo ler os trecos dentro do HTML, o que agarra é esse processo de descompactar o htm dentro. Fiz um esqueminha em C usando curl e xml que funciona. Se ficar demorando muito, porto essa joça pra ficar no formato que o R entende e resolvo por esse caminho. Ou então, deixo como está, que é baixar o zip, descompactar e ler. De: R-br [mailto:r-br-bounces@listas.c3sl.ufpr.br] Em nome de Paulo Nogueira Starzynski Enviada em: quinta-feira, 7 de janeiro de 2016 09:39 Para: R-BR <r-br@listas.c3sl.ufpr.br> Assunto: Re: [R-br] Ler um HTM Leonardo, talvez você já tenha alguma vez trilhado o caminho das pedras do webscrapping, mas, se não, recomendo os pacotes XML, RCurl e rvest (eu uso mais os dois primeiros). Abraços, Paulo Em 6 de janeiro de 2016 23:45, Leonard de Assis <assis.leonard@gmail.com <mailto:assis.leonard@gmail.com> > escreveu: Boa noite a todos Estou com um problema idiota em mãos. Preciso ler um arquivo .HTM dentro de um arquivo .zip. Até agora, o jeito que achei mais produtivo foi: 1. baixar o zip (posso fazer isso com o R via download.file) 2. extrair o .HTM do arquivo (posso fazer isso via unzip) 3. ler a tabela contida no HTM utilizando readHTMLTable (lib XML) A questão que tenho é a seguinte: Existe um jeito mais rápido que este? Eu já consegui ler .csv direto de arquivo .zip utilizando o comando unz e read.table. Será que funciona assim também em HTML? Se sim, qual seria a func? Leonard OS: ainda tenho que pensar como fazer webscrap desse htm, kkk _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br <mailto:R-br@listas.c3sl.ufpr.br> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
participantes (2)
-
Leonard de Assis
-
Paulo Nogueira Starzynski