Leonardo, boa tarde!

Voltando na discussão...

Acredito que não tem como fazer a conexão direta com o arquivo .zip alocado na web, mas uma vez que você baixa o arquivo com download.file(), pode usar unz() para não precisar descompactar. Tem um post antigo em <https://stat.ethz.ch/pipermail/r-help/2008-October/176266.html>.

Abaixo tem um exemplo bem simples, mas que pode ser útil. É feita a leitura de uma tabela .html a partir de um arquivo .zip alocado no Google Drive.

### <code r>
setwd("D:\\TEMP")
url.zip <- sub("^.*\\?(id.*$)", "https://drive.google.com/uc?export=download&\\1", url.zip)

if (!file.exists("html.zip")) download.file(url.zip, "html.zip", mode="wb")
unzip("html.zip", list=T) ### conteúdo

closeAllConnections()
con <- unz("html.zip", "htmlTable.html")
XML::readHTMLTable(readLines(con))
# $`NULL`
#   First Name Last Name Points
# 1       Jill     Smith     50
# 2        Eve   Jackson     94
close(con)
### </code>



================================================
Éder Comunello
PhD Student in Agricultural Systems Engineering (USP/Esalq)
Brazilian Agricultural Research Corporation (Embrapa)
Dourados, MS, Brazil [22 16.5'S, 54 49.0'W]




Em 7 de janeiro de 2016 10:54, Leonard de Assis <assis.leonard@gmail.com> escreveu:

Paulo, o que achei via google de ontem pra hoje vai nessa direção mesmo.

 

Estou rodando vários exemplos que achei e, em paralelo, adaptando meu código.

 

Eu já consigo ler os trecos dentro do HTML, o que agarra é esse processo de descompactar o htm dentro.

 

Fiz um esqueminha em C usando curl e xml que funciona. Se ficar demorando muito, porto essa joça pra ficar no formato que o R entende e resolvo por esse caminho.

 

Ou então, deixo como está, que é baixar o zip, descompactar e ler.

 

De: R-br [mailto:r-br-bounces@listas.c3sl.ufpr.br] Em nome de Paulo Nogueira Starzynski
Enviada em: quinta-feira, 7 de janeiro de 2016 09:39
Para: R-BR <r-br@listas.c3sl.ufpr.br>
Assunto: Re: [R-br] Ler um HTM

 

Leonardo,

talvez você já tenha alguma vez trilhado o caminho das pedras do webscrapping, mas, se não, recomendo os pacotes XML, RCurl e rvest (eu uso mais os dois primeiros).


Abraços,

Paulo

 

Em 6 de janeiro de 2016 23:45, Leonard de Assis <assis.leonard@gmail.com> escreveu:

Boa noite a todos

 

Estou com um problema idiota em mãos. Preciso ler um arquivo .HTM dentro de um arquivo .zip.

Até agora, o jeito que achei mais produtivo foi:

1.       baixar o zip (posso fazer isso com o R via download.file)

2.       extrair o .HTM do arquivo (posso fazer isso via unzip)

3.       ler a tabela contida no HTM utilizando readHTMLTable (lib XML)

 

A questão que tenho é a seguinte:

 

Existe um jeito mais rápido que este? Eu já consegui ler .csv direto de arquivo .zip utilizando o comando unz e read.table. Será que funciona assim também em HTML? Se sim, qual seria a func?

 

Leonard

 

OS: ainda tenho que pensar como fazer webscrap desse htm, kkk

 

 


_______________________________________________
R-br mailing list
R-br@listas.c3sl.ufpr.br
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

 


_______________________________________________
R-br mailing list
R-br@listas.c3sl.ufpr.br
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.