
Valeu, Paulo! Eu estava mesmo procurando algum material desse tipo. Em 8 de novembro de 2011 11:40, Paulo Nogueira <paulons@gmail.com> escreveu:
Oi Lucas, vou me intrometer na discussão. Eu também tinha dificuldade com expressões regulares até que aqui na lista me indicaram esse material do Prof. Walmes.
Veja as aulas 20 e 21. Muito bom. http://www.leg.ufpr.br/~walmes/ensino/ce223-2011-01/
Abraços Paulo Nogueira Starzynski
Em 22 de outubro de 2011 20:28, Lucas Barbosa <lucasbcr@gmail.com>escreveu:
Eu costumo usar a *strsplit*, mas só pq ainda não criei coragem de
aprender a usar isso aí que o Henrique mostrou.
Em 22 de outubro de 2011 14:30, Henrique Dallazuanna <wwwhsd@gmail.com>escreveu:
Tente assim
library(XML)
url <- " http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12211380"
Lines <- readLines(url) h <- htmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE)
xpathApply(h, "//h1|//p[@class='sub_tit']|//div[@class='clr']//p[@class='left']", xmlValue)
2011/10/21 Daniel Dantas <daniel.dantas@hotmail.com>:
Pessoal, como faço pra "limpar" as strings que eu não quero que surgem quando executo o comando abaixo?
################# url <- "http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12211380 " dados=readLines(paste(url)) textos = sapply(strsplit(dados[c(34,35,145)],"\t"),FUN =function(x) paste(x,collapse="")) textos #################
a saída do comando acima é esta:
[1] "<meta property=\"og:title\" content=\"Em Curitiba, seminário mostra como Lei Geral contribui para o desenvolvimento municipal\" />" [2] "<meta property=\"og:description\" content=\"Sebrae/PR reúne lideranças da região centro-sul para apresentar casos de sucesso e mostrar formas de implantação da legislação\" />" [3] " <p class=\"left\">04.08.2011 | 09:00"
e eu soh quero: da 1° linha: Em Curitiba, seminário mostra como Lei Geral contribui para o desenvolvimento municipal da 2° linha: Sebrae/PR reúne lideranças da região centro-sul para apresentar casos de sucesso e mostrar formas de implantação da legislação da 3° linha: 04.08.2011
então, para facilitar, os excessos são: "<meta property=\ "og:title\ " content=\ "og:description\" <p class=\"left\"> | 09:00" (esse aqui varia quando mudo a URL)
outra URL para testar, caso precisem: http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12201212
estava lendo no arquivo de e-mails da lista, sobre strsplit mas n to conseguindo usar.... até o Luiz, hoje mesmo usou essa função mas ele só "pegou" o que queria, e eu quero remover os "excessos"
Tenho que fazer isso para vários outros sites, então quero só jogar a URL e que ele me retorne o título, subtítulo e data da notícia e o link.
Um abraço e meu agradecimento desde já!!
From: wwwhsd@gmail.com Date: Thu, 20 Oct 2011 21:07:01 -0200 To: r-br@listas.c3sl.ufpr.br Subject: Re: [R-br] Coletar informações (texto) de sites
Tente assim:
library(XML) u <- "http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=%s"
# Quais munícipios vc precisa ids <- c(100141003, 100141095)
# Usando XPATH query fGetNome <- function(x, ...) { Lines <- readLines(x) h <- htmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE) gsub("\n|\t", "", xpathApply(h, "//table//td[@width='80%']", xmlValue)) }
lapply(sprintf(u, ids), fGetNome)
2011/10/20 Daniel Dantas <daniel.dantas@hotmail.com>:
Boa tarde pessoal,
Existe alguma maneira de "pedir" para o R entrar neste site http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=100141003 e me retornar o nome do prefeito de 2008 e de 2004?
O objetivo disto é obter a listagem dos prefeitos de 2004 e de 2008 para ver quem foi reeleito, se está no 1° ou 2° mandato.
Para cada município, o link muda apenas o final, então tem como programar para que ele abra os links de todos os municípios do estado do PARANÁ, mas não sei como fazer ele me retornar o nome do prefeito.
Algo interessante que descobri agora, não sei é por causa do Internet Explorer ou é do site, mas se apertarmos com o botão direito no campo onde está escrito o nome do prefeito, surge-se a opção de exportar para Excel as informações daquele ano. Eu poderia fazer isso 399 (qtde de municípios do PR) vezes para o ano de 2004 e 399 para o ano de 2008 e pedir para o R consolidar em 1 planilha. Mas mesmo assim dá um certo trabalho salvar 798 planilhas.
Alguém sabe um procedimento mais simples? Espero que eu tenha consigo me fazer entender.
Obrigado, Daniel
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Henrique Dallazuanna Curitiba-Paraná-Brasil 25° 25' 40" S 49° 16' 22" O _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Henrique Dallazuanna Curitiba-Paraná-Brasil 25° 25' 40" S 49° 16' 22" O _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.