Coletar informações (texto) de sites

Boa tarde pessoal, Existe alguma maneira de "pedir" para o R entrar neste site http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=100141003 e me retornar o nome do prefeito de 2008 e de 2004? O objetivo disto é obter a listagem dos prefeitos de 2004 e de 2008 para ver quem foi reeleito, se está no 1° ou 2° mandato. Para cada município, o link muda apenas o final, então tem como programar para que ele abra os links de todos os municípios do estado do PARANÁ, mas não sei como fazer ele me retornar o nome do prefeito. Algo interessante que descobri agora, não sei é por causa do Internet Explorer ou é do site, mas se apertarmos com o botão direito no campo onde está escrito o nome do prefeito, surge-se a opção de exportar para Excel as informações daquele ano. Eu poderia fazer isso 399 (qtde de municípios do PR) vezes para o ano de 2004 e 399 para o ano de 2008 e pedir para o R consolidar em 1 planilha. Mas mesmo assim dá um certo trabalho salvar 798 planilhas. Alguém sabe um procedimento mais simples? Espero que eu tenha consigo me fazer entender. Obrigado, Daniel

Olá Daniel, Tente rodar estas linhas abaixo para um município, caso dê certo, use alguma função da família apply para o restante dos municípios. dados=readLines(paste("http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=100141004")) prefeitos = sapply(strsplit(dados[c(2071,2124,2177)],"\t"),FUN = function(x) paste(x,collapse="")) Abraço Em 20 de outubro de 2011 16:21, Daniel Dantas <daniel.dantas@hotmail.com> escreveu:
Boa tarde pessoal,
Existe alguma maneira de "pedir" para o R entrar neste site http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=100141003 e me retornar o nome do prefeito de 2008 e de 2004?
O objetivo disto é obter a listagem dos prefeitos de 2004 e de 2008 para ver quem foi reeleito, se está no 1° ou 2° mandato.
Para cada município, o link muda apenas o final, então tem como programar para que ele abra os links de todos os municípios do estado do PARANÁ, mas não sei como fazer ele me retornar o nome do prefeito.
Algo interessante que descobri agora, não sei é por causa do Internet Explorer ou é do site, mas se apertarmos com o botão direito no campo onde está escrito o nome do prefeito, surge-se a opção de exportar para Excel as informações daquele ano. Eu poderia fazer isso 399 (qtde de municípios do PR) vezes para o ano de 2004 e 399 para o ano de 2008 e pedir para o R consolidar em 1 planilha. Mas mesmo assim dá um certo trabalho salvar 798 planilhas.
Alguém sabe um procedimento mais simples? Espero que eu tenha consigo me fazer entender.
Obrigado, Daniel
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Luís Gustavo Silva e Silva

Oi Luiz, funcionou perfeitamente!!! já usei algumas funções da família apply mas tenho que dar uma relembrada heheh.... mas muito obrigado mesmo!!! agora é só eu fazer a lista de municípios de interesse e tocar o barco!! ehhehe um abração!!!
From: lgsilvaesilva@gmail.com Date: Thu, 20 Oct 2011 17:45:37 -0200 To: r-br@listas.c3sl.ufpr.br Subject: Re: [R-br] Coletar informações (texto) de sites
Olá Daniel,
Tente rodar estas linhas abaixo para um município, caso dê certo, use alguma função da família apply para o restante dos municípios.
dados=readLines(paste("http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=100141004")) prefeitos = sapply(strsplit(dados[c(2071,2124,2177)],"\t"),FUN = function(x) paste(x,collapse=""))
Abraço
Em 20 de outubro de 2011 16:21, Daniel Dantas <daniel.dantas@hotmail.com> escreveu:
Boa tarde pessoal,
Existe alguma maneira de "pedir" para o R entrar neste site http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=100141003 e me retornar o nome do prefeito de 2008 e de 2004?
O objetivo disto é obter a listagem dos prefeitos de 2004 e de 2008 para ver quem foi reeleito, se está no 1° ou 2° mandato.
Para cada município, o link muda apenas o final, então tem como programar para que ele abra os links de todos os municípios do estado do PARANÁ, mas não sei como fazer ele me retornar o nome do prefeito.
Algo interessante que descobri agora, não sei é por causa do Internet Explorer ou é do site, mas se apertarmos com o botão direito no campo onde está escrito o nome do prefeito, surge-se a opção de exportar para Excel as informações daquele ano. Eu poderia fazer isso 399 (qtde de municípios do PR) vezes para o ano de 2004 e 399 para o ano de 2008 e pedir para o R consolidar em 1 planilha. Mas mesmo assim dá um certo trabalho salvar 798 planilhas.
Alguém sabe um procedimento mais simples? Espero que eu tenha consigo me fazer entender.
Obrigado, Daniel
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Luís Gustavo Silva e Silva _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Tente assim: library(XML) u <- "http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=%s" # Quais munícipios vc precisa ids <- c(100141003, 100141095) # Usando XPATH query fGetNome <- function(x, ...) { Lines <- readLines(x) h <- htmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE) gsub("\n|\t", "", xpathApply(h, "//table//td[@width='80%']", xmlValue)) } lapply(sprintf(u, ids), fGetNome) 2011/10/20 Daniel Dantas <daniel.dantas@hotmail.com>:
Boa tarde pessoal,
Existe alguma maneira de "pedir" para o R entrar neste site http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=100141003 e me retornar o nome do prefeito de 2008 e de 2004?
O objetivo disto é obter a listagem dos prefeitos de 2004 e de 2008 para ver quem foi reeleito, se está no 1° ou 2° mandato.
Para cada município, o link muda apenas o final, então tem como programar para que ele abra os links de todos os municípios do estado do PARANÁ, mas não sei como fazer ele me retornar o nome do prefeito.
Algo interessante que descobri agora, não sei é por causa do Internet Explorer ou é do site, mas se apertarmos com o botão direito no campo onde está escrito o nome do prefeito, surge-se a opção de exportar para Excel as informações daquele ano. Eu poderia fazer isso 399 (qtde de municípios do PR) vezes para o ano de 2004 e 399 para o ano de 2008 e pedir para o R consolidar em 1 planilha. Mas mesmo assim dá um certo trabalho salvar 798 planilhas.
Alguém sabe um procedimento mais simples? Espero que eu tenha consigo me fazer entender.
Obrigado, Daniel
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Henrique Dallazuanna Curitiba-Paraná-Brasil 25° 25' 40" S 49° 16' 22" O

Funcionou perfeitamente!! Depois as pessoas ("que não sabem usar") ainda criticam o R sem saber do que ele é capaz...... Muito obrigado!!!!
From: wwwhsd@gmail.com Date: Thu, 20 Oct 2011 21:07:01 -0200 To: r-br@listas.c3sl.ufpr.br Subject: Re: [R-br] Coletar informações (texto) de sites
Tente assim:
library(XML) u <- "http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=%s"
# Quais munícipios vc precisa ids <- c(100141003, 100141095)
# Usando XPATH query fGetNome <- function(x, ...) { Lines <- readLines(x) h <- htmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE) gsub("\n|\t", "", xpathApply(h, "//table//td[@width='80%']", xmlValue)) }
lapply(sprintf(u, ids), fGetNome)
2011/10/20 Daniel Dantas <daniel.dantas@hotmail.com>:
Boa tarde pessoal,
Existe alguma maneira de "pedir" para o R entrar neste site http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=100141003 e me retornar o nome do prefeito de 2008 e de 2004?
O objetivo disto é obter a listagem dos prefeitos de 2004 e de 2008 para ver quem foi reeleito, se está no 1° ou 2° mandato.
Para cada município, o link muda apenas o final, então tem como programar para que ele abra os links de todos os municípios do estado do PARANÁ, mas não sei como fazer ele me retornar o nome do prefeito.
Algo interessante que descobri agora, não sei é por causa do Internet Explorer ou é do site, mas se apertarmos com o botão direito no campo onde está escrito o nome do prefeito, surge-se a opção de exportar para Excel as informações daquele ano. Eu poderia fazer isso 399 (qtde de municípios do PR) vezes para o ano de 2004 e 399 para o ano de 2008 e pedir para o R consolidar em 1 planilha. Mas mesmo assim dá um certo trabalho salvar 798 planilhas.
Alguém sabe um procedimento mais simples? Espero que eu tenha consigo me fazer entender.
Obrigado, Daniel
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Henrique Dallazuanna Curitiba-Paraná-Brasil 25° 25' 40" S 49° 16' 22" O _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Pessoal, como faço pra "limpar" as strings que eu não quero que surgem quando executo o comando abaixo? ################# url <- "http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12211380" dados=readLines(paste(url)) textos = sapply(strsplit(dados[c(34,35,145)],"\t"),FUN =function(x) paste(x,collapse="")) textos ################# a saída do comando acima é esta:[1] "<meta property=\"og:title\" content=\"Em Curitiba, seminário mostra como Lei Geral contribui para o desenvolvimento municipal\" />" [2] "<meta property=\"og:description\" content=\"Sebrae/PR reúne lideranças da região centro-sul para apresentar casos de sucesso e mostrar formas de implantação da legislação\" />" [3] " <p class=\"left\">04.08.2011 | 09:00" e eu soh quero: da 1° linha: Em Curitiba, seminário mostra como Lei Geral contribui para o desenvolvimento municipal da 2° linha: Sebrae/PR reúne lideranças da região centro-sul para apresentar casos de sucesso e mostrar formas de implantação da legislação da 3° linha: 04.08.2011 então, para facilitar, os excessos são: "<meta property=\ "og:title\ " content=\ "og:description\" <p class=\"left\"> | 09:00" (esse aqui varia quando mudo a URL) outra URL para testar, caso precisem: http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12201212 estava lendo no arquivo de e-mails da lista, sobre strsplit mas n to conseguindo usar.... até o Luiz, hoje mesmo usou essa função mas ele só "pegou" o que queria, e eu quero remover os "excessos" Tenho que fazer isso para vários outros sites, então quero só jogar a URL e que ele me retorne o título, subtítulo e data da notícia e o link. Um abraço e meu agradecimento desde já!!
From: wwwhsd@gmail.com Date: Thu, 20 Oct 2011 21:07:01 -0200 To: r-br@listas.c3sl.ufpr.br Subject: Re: [R-br] Coletar informações (texto) de sites
Tente assim:
library(XML) u <- "http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=%s"
# Quais munícipios vc precisa ids <- c(100141003, 100141095)
# Usando XPATH query fGetNome <- function(x, ...) { Lines <- readLines(x) h <- htmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE) gsub("\n|\t", "", xpathApply(h, "//table//td[@width='80%']", xmlValue)) }
lapply(sprintf(u, ids), fGetNome)
2011/10/20 Daniel Dantas <daniel.dantas@hotmail.com>:
Boa tarde pessoal,
Existe alguma maneira de "pedir" para o R entrar neste site http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=100141003 e me retornar o nome do prefeito de 2008 e de 2004?
O objetivo disto é obter a listagem dos prefeitos de 2004 e de 2008 para ver quem foi reeleito, se está no 1° ou 2° mandato.
Para cada município, o link muda apenas o final, então tem como programar para que ele abra os links de todos os municípios do estado do PARANÁ, mas não sei como fazer ele me retornar o nome do prefeito.
Algo interessante que descobri agora, não sei é por causa do Internet Explorer ou é do site, mas se apertarmos com o botão direito no campo onde está escrito o nome do prefeito, surge-se a opção de exportar para Excel as informações daquele ano. Eu poderia fazer isso 399 (qtde de municípios do PR) vezes para o ano de 2004 e 399 para o ano de 2008 e pedir para o R consolidar em 1 planilha. Mas mesmo assim dá um certo trabalho salvar 798 planilhas.
Alguém sabe um procedimento mais simples? Espero que eu tenha consigo me fazer entender.
Obrigado, Daniel
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Henrique Dallazuanna Curitiba-Paraná-Brasil 25° 25' 40" S 49° 16' 22" O _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Tente assim library(XML) url <- "http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12211380" Lines <- readLines(url) h <- htmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE) xpathApply(h, "//h1|//p[@class='sub_tit']|//div[@class='clr']//p[@class='left']", xmlValue) 2011/10/21 Daniel Dantas <daniel.dantas@hotmail.com>:
Pessoal, como faço pra "limpar" as strings que eu não quero que surgem quando executo o comando abaixo?
################# url <- "http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12211380" dados=readLines(paste(url)) textos = sapply(strsplit(dados[c(34,35,145)],"\t"),FUN =function(x) paste(x,collapse="")) textos #################
a saída do comando acima é esta:
[1] "<meta property=\"og:title\" content=\"Em Curitiba, seminário mostra como Lei Geral contribui para o desenvolvimento municipal\" />" [2] "<meta property=\"og:description\" content=\"Sebrae/PR reúne lideranças da região centro-sul para apresentar casos de sucesso e mostrar formas de implantação da legislação\" />" [3] " <p class=\"left\">04.08.2011 | 09:00"
e eu soh quero: da 1° linha: Em Curitiba, seminário mostra como Lei Geral contribui para o desenvolvimento municipal da 2° linha: Sebrae/PR reúne lideranças da região centro-sul para apresentar casos de sucesso e mostrar formas de implantação da legislação da 3° linha: 04.08.2011
então, para facilitar, os excessos são: "<meta property=\ "og:title\ " content=\ "og:description\" <p class=\"left\"> | 09:00" (esse aqui varia quando mudo a URL)
outra URL para testar, caso precisem: http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12201212
estava lendo no arquivo de e-mails da lista, sobre strsplit mas n to conseguindo usar.... até o Luiz, hoje mesmo usou essa função mas ele só "pegou" o que queria, e eu quero remover os "excessos"
Tenho que fazer isso para vários outros sites, então quero só jogar a URL e que ele me retorne o título, subtítulo e data da notícia e o link.
Um abraço e meu agradecimento desde já!!
From: wwwhsd@gmail.com Date: Thu, 20 Oct 2011 21:07:01 -0200 To: r-br@listas.c3sl.ufpr.br Subject: Re: [R-br] Coletar informações (texto) de sites
Tente assim:
library(XML) u <- "http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=%s"
# Quais munícipios vc precisa ids <- c(100141003, 100141095)
# Usando XPATH query fGetNome <- function(x, ...) { Lines <- readLines(x) h <- htmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE) gsub("\n|\t", "", xpathApply(h, "//table//td[@width='80%']", xmlValue)) }
lapply(sprintf(u, ids), fGetNome)
2011/10/20 Daniel Dantas <daniel.dantas@hotmail.com>:
Boa tarde pessoal,
Existe alguma maneira de "pedir" para o R entrar neste site http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=100141003 e me retornar o nome do prefeito de 2008 e de 2004?
O objetivo disto é obter a listagem dos prefeitos de 2004 e de 2008 para ver quem foi reeleito, se está no 1° ou 2° mandato.
Para cada município, o link muda apenas o final, então tem como programar para que ele abra os links de todos os municípios do estado do PARANÁ, mas não sei como fazer ele me retornar o nome do prefeito.
Algo interessante que descobri agora, não sei é por causa do Internet Explorer ou é do site, mas se apertarmos com o botão direito no campo onde está escrito o nome do prefeito, surge-se a opção de exportar para Excel as informações daquele ano. Eu poderia fazer isso 399 (qtde de municípios do PR) vezes para o ano de 2004 e 399 para o ano de 2008 e pedir para o R consolidar em 1 planilha. Mas mesmo assim dá um certo trabalho salvar 798 planilhas.
Alguém sabe um procedimento mais simples? Espero que eu tenha consigo me fazer entender.
Obrigado, Daniel
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Henrique Dallazuanna Curitiba-Paraná-Brasil 25° 25' 40" S 49° 16' 22" O _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Henrique Dallazuanna Curitiba-Paraná-Brasil 25° 25' 40" S 49° 16' 22" O

Eu costumo usar a *strsplit*, mas só pq ainda não criei coragem de aprender a usar isso aí que o Henrique mostrou. Em 22 de outubro de 2011 14:30, Henrique Dallazuanna <wwwhsd@gmail.com>escreveu:
Tente assim
library(XML)
url <- " http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12211380"
Lines <- readLines(url) h <- htmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE)
xpathApply(h, "//h1|//p[@class='sub_tit']|//div[@class='clr']//p[@class='left']", xmlValue)
2011/10/21 Daniel Dantas <daniel.dantas@hotmail.com>:
Pessoal, como faço pra "limpar" as strings que eu não quero que surgem quando executo o comando abaixo?
################# url <- "http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12211380" dados=readLines(paste(url)) textos = sapply(strsplit(dados[c(34,35,145)],"\t"),FUN =function(x) paste(x,collapse="")) textos #################
a saída do comando acima é esta:
[1] "<meta property=\"og:title\" content=\"Em Curitiba, seminário mostra como Lei Geral contribui para o desenvolvimento municipal\" />" [2] "<meta property=\"og:description\" content=\"Sebrae/PR reúne lideranças da região centro-sul para apresentar casos de sucesso e mostrar formas de implantação da legislação\" />" [3] " <p class=\"left\">04.08.2011 | 09:00"
e eu soh quero: da 1° linha: Em Curitiba, seminário mostra como Lei Geral contribui para o desenvolvimento municipal da 2° linha: Sebrae/PR reúne lideranças da região centro-sul para apresentar casos de sucesso e mostrar formas de implantação da legislação da 3° linha: 04.08.2011
então, para facilitar, os excessos são: "<meta property=\ "og:title\ " content=\ "og:description\" <p class=\"left\"> | 09:00" (esse aqui varia quando mudo a URL)
outra URL para testar, caso precisem: http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12201212
estava lendo no arquivo de e-mails da lista, sobre strsplit mas n to conseguindo usar.... até o Luiz, hoje mesmo usou essa função mas ele só "pegou" o que queria, e eu quero remover os "excessos"
Tenho que fazer isso para vários outros sites, então quero só jogar a URL e que ele me retorne o título, subtítulo e data da notícia e o link.
Um abraço e meu agradecimento desde já!!
From: wwwhsd@gmail.com Date: Thu, 20 Oct 2011 21:07:01 -0200 To: r-br@listas.c3sl.ufpr.br Subject: Re: [R-br] Coletar informações (texto) de sites
Tente assim:
library(XML) u <- "http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=%s"
# Quais munícipios vc precisa ids <- c(100141003, 100141095)
# Usando XPATH query fGetNome <- function(x, ...) { Lines <- readLines(x) h <- htmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE) gsub("\n|\t", "", xpathApply(h, "//table//td[@width='80%']", xmlValue)) }
lapply(sprintf(u, ids), fGetNome)
2011/10/20 Daniel Dantas <daniel.dantas@hotmail.com>:
Boa tarde pessoal,
Existe alguma maneira de "pedir" para o R entrar neste site http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=100141003 e me retornar o nome do prefeito de 2008 e de 2004?
O objetivo disto é obter a listagem dos prefeitos de 2004 e de 2008 para ver quem foi reeleito, se está no 1° ou 2° mandato.
Para cada município, o link muda apenas o final, então tem como programar para que ele abra os links de todos os municípios do estado do PARANÁ, mas não sei como fazer ele me retornar o nome do prefeito.
Algo interessante que descobri agora, não sei é por causa do Internet Explorer ou é do site, mas se apertarmos com o botão direito no campo onde está escrito o nome do prefeito, surge-se a opção de exportar para Excel as informações daquele ano. Eu poderia fazer isso 399 (qtde de municípios do PR) vezes para o ano de 2004 e 399 para o ano de 2008 e pedir para o R consolidar em 1 planilha. Mas mesmo assim dá um certo trabalho salvar 798 planilhas.
Alguém sabe um procedimento mais simples? Espero que eu tenha consigo me fazer entender.
Obrigado, Daniel
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Henrique Dallazuanna Curitiba-Paraná-Brasil 25° 25' 40" S 49° 16' 22" O _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Henrique Dallazuanna Curitiba-Paraná-Brasil 25° 25' 40" S 49° 16' 22" O _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Oi Lucas, vou me intrometer na discussão. Eu também tinha dificuldade com expressões regulares até que aqui na lista me indicaram esse material do Prof. Walmes. Veja as aulas 20 e 21. Muito bom. http://www.leg.ufpr.br/~walmes/ensino/ce223-2011-01/ Abraços Paulo Nogueira Starzynski Em 22 de outubro de 2011 20:28, Lucas Barbosa <lucasbcr@gmail.com> escreveu:
Eu costumo usar a *strsplit*, mas só pq ainda não criei coragem de aprender a usar isso aí que o Henrique mostrou.
Em 22 de outubro de 2011 14:30, Henrique Dallazuanna <wwwhsd@gmail.com>escreveu:
Tente assim
library(XML)
url <- " http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12211380"
Lines <- readLines(url) h <- htmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE)
xpathApply(h, "//h1|//p[@class='sub_tit']|//div[@class='clr']//p[@class='left']", xmlValue)
2011/10/21 Daniel Dantas <daniel.dantas@hotmail.com>:
Pessoal, como faço pra "limpar" as strings que eu não quero que surgem quando executo o comando abaixo?
################# url <- "http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12211380" dados=readLines(paste(url)) textos = sapply(strsplit(dados[c(34,35,145)],"\t"),FUN =function(x) paste(x,collapse="")) textos #################
a saída do comando acima é esta:
[1] "<meta property=\"og:title\" content=\"Em Curitiba, seminário mostra como Lei Geral contribui para o desenvolvimento municipal\" />" [2] "<meta property=\"og:description\" content=\"Sebrae/PR reúne lideranças da região centro-sul para apresentar casos de sucesso e mostrar formas de implantação da legislação\" />" [3] " <p class=\"left\">04.08.2011 | 09:00"
e eu soh quero: da 1° linha: Em Curitiba, seminário mostra como Lei Geral contribui para o desenvolvimento municipal da 2° linha: Sebrae/PR reúne lideranças da região centro-sul para apresentar casos de sucesso e mostrar formas de implantação da legislação da 3° linha: 04.08.2011
então, para facilitar, os excessos são: "<meta property=\ "og:title\ " content=\ "og:description\" <p class=\"left\"> | 09:00" (esse aqui varia quando mudo a URL)
outra URL para testar, caso precisem: http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12201212
estava lendo no arquivo de e-mails da lista, sobre strsplit mas n to conseguindo usar.... até o Luiz, hoje mesmo usou essa função mas ele só "pegou" o que queria, e eu quero remover os "excessos"
Tenho que fazer isso para vários outros sites, então quero só jogar a URL e que ele me retorne o título, subtítulo e data da notícia e o link.
Um abraço e meu agradecimento desde já!!
From: wwwhsd@gmail.com Date: Thu, 20 Oct 2011 21:07:01 -0200 To: r-br@listas.c3sl.ufpr.br Subject: Re: [R-br] Coletar informações (texto) de sites
Tente assim:
library(XML) u <- "http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=%s"
# Quais munícipios vc precisa ids <- c(100141003, 100141095)
# Usando XPATH query fGetNome <- function(x, ...) { Lines <- readLines(x) h <- htmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE) gsub("\n|\t", "", xpathApply(h, "//table//td[@width='80%']", xmlValue)) }
lapply(sprintf(u, ids), fGetNome)
2011/10/20 Daniel Dantas <daniel.dantas@hotmail.com>:
Boa tarde pessoal,
Existe alguma maneira de "pedir" para o R entrar neste site http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=100141003 e me retornar o nome do prefeito de 2008 e de 2004?
O objetivo disto é obter a listagem dos prefeitos de 2004 e de 2008 para ver quem foi reeleito, se está no 1° ou 2° mandato.
Para cada município, o link muda apenas o final, então tem como programar para que ele abra os links de todos os municípios do estado do PARANÁ, mas não sei como fazer ele me retornar o nome do prefeito.
Algo interessante que descobri agora, não sei é por causa do Internet Explorer ou é do site, mas se apertarmos com o botão direito no campo onde está escrito o nome do prefeito, surge-se a opção de exportar para Excel as informações daquele ano. Eu poderia fazer isso 399 (qtde de municípios do PR) vezes para o ano de 2004 e 399 para o ano de 2008 e pedir para o R consolidar em 1 planilha. Mas mesmo assim dá um certo trabalho salvar 798 planilhas.
Alguém sabe um procedimento mais simples? Espero que eu tenha consigo me fazer entender.
Obrigado, Daniel
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Henrique Dallazuanna Curitiba-Paraná-Brasil 25° 25' 40" S 49° 16' 22" O _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Henrique Dallazuanna Curitiba-Paraná-Brasil 25° 25' 40" S 49° 16' 22" O _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Valeu, Paulo! Eu estava mesmo procurando algum material desse tipo. Em 8 de novembro de 2011 11:40, Paulo Nogueira <paulons@gmail.com> escreveu:
Oi Lucas, vou me intrometer na discussão. Eu também tinha dificuldade com expressões regulares até que aqui na lista me indicaram esse material do Prof. Walmes.
Veja as aulas 20 e 21. Muito bom. http://www.leg.ufpr.br/~walmes/ensino/ce223-2011-01/
Abraços Paulo Nogueira Starzynski
Em 22 de outubro de 2011 20:28, Lucas Barbosa <lucasbcr@gmail.com>escreveu:
Eu costumo usar a *strsplit*, mas só pq ainda não criei coragem de
aprender a usar isso aí que o Henrique mostrou.
Em 22 de outubro de 2011 14:30, Henrique Dallazuanna <wwwhsd@gmail.com>escreveu:
Tente assim
library(XML)
url <- " http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12211380"
Lines <- readLines(url) h <- htmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE)
xpathApply(h, "//h1|//p[@class='sub_tit']|//div[@class='clr']//p[@class='left']", xmlValue)
2011/10/21 Daniel Dantas <daniel.dantas@hotmail.com>:
Pessoal, como faço pra "limpar" as strings que eu não quero que surgem quando executo o comando abaixo?
################# url <- "http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12211380 " dados=readLines(paste(url)) textos = sapply(strsplit(dados[c(34,35,145)],"\t"),FUN =function(x) paste(x,collapse="")) textos #################
a saída do comando acima é esta:
[1] "<meta property=\"og:title\" content=\"Em Curitiba, seminário mostra como Lei Geral contribui para o desenvolvimento municipal\" />" [2] "<meta property=\"og:description\" content=\"Sebrae/PR reúne lideranças da região centro-sul para apresentar casos de sucesso e mostrar formas de implantação da legislação\" />" [3] " <p class=\"left\">04.08.2011 | 09:00"
e eu soh quero: da 1° linha: Em Curitiba, seminário mostra como Lei Geral contribui para o desenvolvimento municipal da 2° linha: Sebrae/PR reúne lideranças da região centro-sul para apresentar casos de sucesso e mostrar formas de implantação da legislação da 3° linha: 04.08.2011
então, para facilitar, os excessos são: "<meta property=\ "og:title\ " content=\ "og:description\" <p class=\"left\"> | 09:00" (esse aqui varia quando mudo a URL)
outra URL para testar, caso precisem: http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12201212
estava lendo no arquivo de e-mails da lista, sobre strsplit mas n to conseguindo usar.... até o Luiz, hoje mesmo usou essa função mas ele só "pegou" o que queria, e eu quero remover os "excessos"
Tenho que fazer isso para vários outros sites, então quero só jogar a URL e que ele me retorne o título, subtítulo e data da notícia e o link.
Um abraço e meu agradecimento desde já!!
From: wwwhsd@gmail.com Date: Thu, 20 Oct 2011 21:07:01 -0200 To: r-br@listas.c3sl.ufpr.br Subject: Re: [R-br] Coletar informações (texto) de sites
Tente assim:
library(XML) u <- "http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=%s"
# Quais munícipios vc precisa ids <- c(100141003, 100141095)
# Usando XPATH query fGetNome <- function(x, ...) { Lines <- readLines(x) h <- htmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE) gsub("\n|\t", "", xpathApply(h, "//table//td[@width='80%']", xmlValue)) }
lapply(sprintf(u, ids), fGetNome)
2011/10/20 Daniel Dantas <daniel.dantas@hotmail.com>:
Boa tarde pessoal,
Existe alguma maneira de "pedir" para o R entrar neste site http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=100141003 e me retornar o nome do prefeito de 2008 e de 2004?
O objetivo disto é obter a listagem dos prefeitos de 2004 e de 2008 para ver quem foi reeleito, se está no 1° ou 2° mandato.
Para cada município, o link muda apenas o final, então tem como programar para que ele abra os links de todos os municípios do estado do PARANÁ, mas não sei como fazer ele me retornar o nome do prefeito.
Algo interessante que descobri agora, não sei é por causa do Internet Explorer ou é do site, mas se apertarmos com o botão direito no campo onde está escrito o nome do prefeito, surge-se a opção de exportar para Excel as informações daquele ano. Eu poderia fazer isso 399 (qtde de municípios do PR) vezes para o ano de 2004 e 399 para o ano de 2008 e pedir para o R consolidar em 1 planilha. Mas mesmo assim dá um certo trabalho salvar 798 planilhas.
Alguém sabe um procedimento mais simples? Espero que eu tenha consigo me fazer entender.
Obrigado, Daniel
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Henrique Dallazuanna Curitiba-Paraná-Brasil 25° 25' 40" S 49° 16' 22" O _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Henrique Dallazuanna Curitiba-Paraná-Brasil 25° 25' 40" S 49° 16' 22" O _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
participantes (5)
-
Daniel Dantas
-
Henrique Dallazuanna
-
Lucas Barbosa
-
Luís Gustavo
-
Paulo Nogueira