Re: [R-br] Mais códigos HTML e função readlines

Opa, só agora reparei que estávamos trocando email fora da lista... Segue para deixar por lá. abs Em 28 de agosto de 2012 17:58, Paulo Nogueira <paulons@gmail.com> escreveu:
Olá Augusto. As páginas simples, que contém o html puro são simples de importar e trabalhar no R, mas tem algumas outras bem mais complicadas. Já fiz muita pesquisa por "Web Scrapping R" e suas variantes e ainda não consegui resolver problemas como esse proposto no tópico.
Nesse caso, não acho que a página acesse o conteúdo da tabela através de outros links, mas acredito que esse conteúdo seja "dinâmico" e gerado por funções javascript desenvolvidas para o site. Se você utiliza o Chrome ou Firefox, clique na tabela com o botáo direito do mouse e selecione "Inspecionar elemento". Note que o html agora está lá, mas porque provavelmente o browser chama essas funções em tempo real, ou algo assim.
Preciso fazer o R funcionar assim, mas não sei se é possível. Talvez tenha de mudar de ferramenta, o que me colocaria na estaca quase zero novamente.
Abraços, Paulo Nogueira Starzynski
Em 28 de agosto de 2012 15:19, Augusto Ribas <ribas.aca@gmail.com> escreveu:
Rapaz, eu não entendo de web design. Mas eu tava tentando mexer nessa pagina que vc queria. Eu fiz uns scrapper, mas a paginas que procurava era muito mais simples. Essa pagina procura em outros sites, e monta a tabela dela, por isso a pagina que vc faz download so tem links.
Mas se vc fizer uma busca por Screen Scrap vai ver algum material interessante.
Olhe esse exemplo: http://franklincenterhq.org/2068/simple-r-screen-scraping-example/
O cara baixa a pagina, dai baixa os links da tabela e ai retira a informação que deseja.
Eu não consegui replicar o exemplo dele no site que vc precisa, mas se tiver mais sorte que eu poste na lista o seu resultado :) Mas acho que vai ser algo bem similar a esse exemplo que vc vai precisar.
Em 28 de agosto de 2012 00:00, Paulo Nogueira <paulons@gmail.com> escreveu:
Pessoal, não sei se a lista se presta a esclarecer dúvidas como essa minha, mas pelo menos estou usando R para resolver os problemas. rs
Ultimamente tenho trabalhado bastante com determinadas buscas na web para coletar dados e estruturá-los. Porém, como meus conceitos de web se restringem ao conhecimento de usuário, e não de desenvolvedor, acabo tendo alguns problemas. Vou exemplificar uma das minhas dificuldades com um problema prático:
Utilizar readlines() e os pacores RCurl, XML, etc, para tratar o código fonte é algo que já faço até que bem. Mas problemas surgem quando o conteúdo que eu preciso extrair de informação não vem no código fonte? Vejam esse exemplo:
http://www.skyscanner.com.br/passagens-aereas/saoa/slz/121002/130409/tarifas...
Após carregar toda a busca, o site SkyScanner exibe os preços encontrados para o trecho São Paulo - São Luis. [1] No navegador Firefox ou Chrome, ao clicar em "Exibir Código Fonte", não aparecem as informações do vôos, apenas o código que estrutura a página. [2] Ao clicar em "Inspecionar Elemento" eu consigo analisar o código fonte do meu interesse. [3] Ao utilizar readlines passando o a url acima o R importa o código fonte [1] e não o [2], com as informações de interesse.
Imagino que isso tenha a ver com as funções de javascript e coisas
desse tipo...
Alguém sabe contornar essa situação com o R? Se não, o que devo estudar para agilizar a busca dessa solução? Estou meio perdido nessa parte e agradeço ajudas de qualquer tipo. rs
Peço desculpas se por acaso isso for muito off-topic. Abraços, Paulo Nogueira _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Grato Augusto C. A. Ribas
Site Pessoal: http://augustoribas.heliohost.org Lattes: http://lattes.cnpq.br/7355685961127056

Sempre que levantei a bola de web scraping por aqui a participação dos membros do grupo foi pequeno. Como não sei se é desinteresse ou falta de conhecimento do assunto, vou compartilhar as soluções que encontrar. Caso esteja fora do escopo do grupo, podem se manifestar. Bem... O R é muito abrangente e satisfatório inclusive para web scraping, desde que as páginas não sejam muito complexas e o código fonte possa ser extraído com uma função de leitura como readlines. A partir disso, parece que o negócio é aprender Python e, em particular, um framework chamado Scrapy. http://www.scrapy.org/ Estou separando algumas horas para ler a documentação, mas pelo que vi até agora ele é muito bom para buscar informação na web. Se alguém conhecer o Scrapy por favor acrescente um pitaco à discussão. Abraços Paulo Nogueira Starzynski Em 30 de agosto de 2012 11:51, Paulo Nogueira <paulons@gmail.com> escreveu:
Opa, só agora reparei que estávamos trocando email fora da lista... Segue para deixar por lá.
abs
Em 28 de agosto de 2012 17:58, Paulo Nogueira <paulons@gmail.com> escreveu:
Olá Augusto. As páginas simples, que contém o html puro são simples de importar e trabalhar no R, mas tem algumas outras bem mais complicadas. Já fiz muita pesquisa por "Web Scrapping R" e suas variantes e ainda não consegui resolver problemas como esse proposto no tópico.
Nesse caso, não acho que a página acesse o conteúdo da tabela através de outros links, mas acredito que esse conteúdo seja "dinâmico" e gerado por funções javascript desenvolvidas para o site. Se você utiliza o Chrome ou Firefox, clique na tabela com o botáo direito do mouse e selecione "Inspecionar elemento". Note que o html agora está lá, mas porque provavelmente o browser chama essas funções em tempo real, ou algo assim.
Preciso fazer o R funcionar assim, mas não sei se é possível. Talvez tenha de mudar de ferramenta, o que me colocaria na estaca quase zero novamente.
Abraços, Paulo Nogueira Starzynski
Em 28 de agosto de 2012 15:19, Augusto Ribas <ribas.aca@gmail.com> escreveu:
Rapaz, eu não entendo de web design. Mas eu tava tentando mexer nessa pagina que vc queria. Eu fiz uns scrapper, mas a paginas que procurava era muito mais simples. Essa pagina procura em outros sites, e monta a tabela dela, por isso a pagina que vc faz download so tem links.
Mas se vc fizer uma busca por Screen Scrap vai ver algum material interessante.
Olhe esse exemplo: http://franklincenterhq.org/2068/simple-r-screen-scraping-example/
O cara baixa a pagina, dai baixa os links da tabela e ai retira a informação que deseja.
Eu não consegui replicar o exemplo dele no site que vc precisa, mas se tiver mais sorte que eu poste na lista o seu resultado :) Mas acho que vai ser algo bem similar a esse exemplo que vc vai precisar.
Em 28 de agosto de 2012 00:00, Paulo Nogueira <paulons@gmail.com> escreveu:
Pessoal, não sei se a lista se presta a esclarecer dúvidas como essa minha, mas pelo menos estou usando R para resolver os problemas. rs
Ultimamente tenho trabalhado bastante com determinadas buscas na web para coletar dados e estruturá-los. Porém, como meus conceitos de web se restringem ao conhecimento de usuário, e não de desenvolvedor, acabo tendo alguns problemas. Vou exemplificar uma das minhas dificuldades com um problema prático:
Utilizar readlines() e os pacores RCurl, XML, etc, para tratar o código fonte é algo que já faço até que bem. Mas problemas surgem quando o conteúdo que eu preciso extrair de informação não vem no código fonte? Vejam esse exemplo:
http://www.skyscanner.com.br/passagens-aereas/saoa/slz/121002/130409/tarifas...
Após carregar toda a busca, o site SkyScanner exibe os preços encontrados para o trecho São Paulo - São Luis. [1] No navegador Firefox ou Chrome, ao clicar em "Exibir Código Fonte", não aparecem as informações do vôos, apenas o código que estrutura a página. [2] Ao clicar em "Inspecionar Elemento" eu consigo analisar o código fonte do meu interesse. [3] Ao utilizar readlines passando o a url acima o R importa o código fonte [1] e não o [2], com as informações de interesse.
Imagino que isso tenha a ver com as funções de javascript e coisas
desse tipo...
Alguém sabe contornar essa situação com o R? Se não, o que devo estudar para agilizar a busca dessa solução? Estou meio perdido nessa parte e agradeço ajudas de qualquer tipo. rs
Peço desculpas se por acaso isso for muito off-topic. Abraços, Paulo Nogueira _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Grato Augusto C. A. Ribas
Site Pessoal: http://augustoribas.heliohost.org Lattes: http://lattes.cnpq.br/7355685961127056

Olá pessoal! mais questões de principiantes: tenho 2 arrays de 3 dimensões, A e B; A com nrow e ncol, e 10 'layers' (a terceira dimensão); B com os mesmos nrow e ncol, mas com 5 'layers'. Como junto essas duas arrays pra gerar uma array C com 15 layers (10+5)? Valeu!!! Clara Luz B. Sant'Anna Bióloga, Bacharel e Licenciada Mestranda em Ecologia - Unicamp Laboratório de Biogeografia da Conservação e Mudanças Climáticas- UFG (19) 9233.1062

Paulo, Eu já procurei informações sobre esse outro tipo de acesso (inclusive para fazer login em sites com R), mas não consegui implementar nenhuma solução. Me indicaram também o pacote RCurl para isso, mas a documentação do pacote não me ajudou muito. No problema das distâncias entre cidades, o que eu usei foi só readLines mesmo pq o googlemaps dá o resultado direto no html mesmo. Enfim, se você encontrar uma solução pra esse problema específico eu também tenho interesse! Em 30 de agosto de 2012 12:29, Paulo Nogueira <paulons@gmail.com> escreveu:
Sempre que levantei a bola de web scraping por aqui a participação dos membros do grupo foi pequeno. Como não sei se é desinteresse ou falta de conhecimento do assunto, vou compartilhar as soluções que encontrar. Caso esteja fora do escopo do grupo, podem se manifestar.
Bem... O R é muito abrangente e satisfatório inclusive para web scraping, desde que as páginas não sejam muito complexas e o código fonte possa ser extraído com uma função de leitura como readlines. A partir disso, parece que o negócio é aprender Python e, em particular, um framework chamado Scrapy. http://www.scrapy.org/
Estou separando algumas horas para ler a documentação, mas pelo que vi até agora ele é muito bom para buscar informação na web. Se alguém conhecer o Scrapy por favor acrescente um pitaco à discussão.
Abraços Paulo Nogueira Starzynski
Em 30 de agosto de 2012 11:51, Paulo Nogueira <paulons@gmail.com>escreveu:
Opa, só agora reparei que estávamos trocando email fora da lista...
Segue para deixar por lá.
abs
Em 28 de agosto de 2012 17:58, Paulo Nogueira <paulons@gmail.com> escreveu:
Olá Augusto. As páginas simples, que contém o html puro são simples de importar e trabalhar no R, mas tem algumas outras bem mais complicadas. Já fiz muita pesquisa por "Web Scrapping R" e suas variantes e ainda não consegui resolver problemas como esse proposto no tópico.
Nesse caso, não acho que a página acesse o conteúdo da tabela através de outros links, mas acredito que esse conteúdo seja "dinâmico" e gerado por funções javascript desenvolvidas para o site. Se você utiliza o Chrome ou Firefox, clique na tabela com o botáo direito do mouse e selecione "Inspecionar elemento". Note que o html agora está lá, mas porque provavelmente o browser chama essas funções em tempo real, ou algo assim.
Preciso fazer o R funcionar assim, mas não sei se é possível. Talvez tenha de mudar de ferramenta, o que me colocaria na estaca quase zero novamente.
Abraços, Paulo Nogueira Starzynski
Em 28 de agosto de 2012 15:19, Augusto Ribas <ribas.aca@gmail.com> escreveu:
Rapaz, eu não entendo de web design. Mas eu tava tentando mexer nessa pagina que vc queria. Eu fiz uns scrapper, mas a paginas que procurava era muito mais simples. Essa pagina procura em outros sites, e monta a tabela dela, por isso a pagina que vc faz download so tem links.
Mas se vc fizer uma busca por Screen Scrap vai ver algum material interessante.
Olhe esse exemplo: http://franklincenterhq.org/2068/simple-r-screen-scraping-example/
O cara baixa a pagina, dai baixa os links da tabela e ai retira a informação que deseja.
Eu não consegui replicar o exemplo dele no site que vc precisa, mas se tiver mais sorte que eu poste na lista o seu resultado :) Mas acho que vai ser algo bem similar a esse exemplo que vc vai precisar.
Em 28 de agosto de 2012 00:00, Paulo Nogueira <paulons@gmail.com> escreveu:
Pessoal, não sei se a lista se presta a esclarecer dúvidas como essa minha, mas pelo menos estou usando R para resolver os problemas. rs
Ultimamente tenho trabalhado bastante com determinadas buscas na web para coletar dados e estruturá-los. Porém, como meus conceitos de web se restringem ao conhecimento de usuário, e não de desenvolvedor, acabo tendo alguns problemas. Vou exemplificar uma das minhas dificuldades com um problema prático:
Utilizar readlines() e os pacores RCurl, XML, etc, para tratar o código fonte é algo que já faço até que bem. Mas problemas surgem quando o conteúdo que eu preciso extrair de informação não vem no código fonte? Vejam esse exemplo:
http://www.skyscanner.com.br/passagens-aereas/saoa/slz/121002/130409/tarifas...
Após carregar toda a busca, o site SkyScanner exibe os preços encontrados para o trecho São Paulo - São Luis. [1] No navegador Firefox ou Chrome, ao clicar em "Exibir Código Fonte", não aparecem as informações do vôos, apenas o código que estrutura a página. [2] Ao clicar em "Inspecionar Elemento" eu consigo analisar o código fonte do meu interesse. [3] Ao utilizar readlines passando o a url acima o R importa o código fonte [1] e não o [2], com as informações de interesse.
Imagino que isso tenha a ver com as funções de javascript e coisas
desse tipo...
Alguém sabe contornar essa situação com o R? Se não, o que devo estudar para agilizar a busca dessa solução? Estou meio perdido nessa parte e agradeço ajudas de qualquer tipo. rs
Peço desculpas se por acaso isso for muito off-topic. Abraços, Paulo Nogueira _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Grato Augusto C. A. Ribas
Site Pessoal: http://augustoribas.heliohost.org Lattes: http://lattes.cnpq.br/7355685961127056
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
participantes (3)
-
clara luz
-
Lucas Cusinato
-
Paulo Nogueira