
Caros amigos, Estou tentando usar o pacote XML para ler alguns dados em tabelas existentes em páginas html. Especificamente, estou tentando ler páginas da previdência social contendo informações sobre o CRP (Certificado de Regularidade Previdenciária) O problema é que estou obtendo uns caracteres estranhos, coisas do tipo "Situação". Estou fazendo da seguinte forma: library(XML) html <- readHTMLTable("F:\\Regime Próprio\\html\\ExtratoPrevidenciario.htm") html <- html[[3]][, c('V1', 'V2')] Já tentei o iconv() sem resultado. Já tentei ler após mudar a opção "encoding" em options(). Ah, estou usando o windows velho de guerra... sorry... :) A página pode ser vista no seguinte link: http://www1.previdencia.gov.br/sps/app/crp/ExtratoRegularidadeRegimes.asp?CD... Se alguém tiver alguma idéia de corrigir... Desde já obrigado. Abs. -- Marcos F. Silva http://sites.google.com/site/marcosfs2006

Em 5 de dezembro de 2012 23:43, Marcos Silva <marcosfs2006@gmail.com>escreveu:
Caros amigos,
Estou tentando usar o pacote XML para ler alguns dados em tabelas existentes em páginas html. Especificamente, estou tentando ler páginas da previdência social contendo informações sobre o CRP (Certificado de Regularidade Previdenciária) O problema é que estou obtendo uns caracteres estranhos, coisas do tipo "Situação". Estou fazendo da seguinte forma:
library(XML) html <- readHTMLTable("F:\\Regime Próprio\\html\\ExtratoPrevidenciario.htm") html <- html[[3]][, c('V1', 'V2')]
Já tentei o iconv() sem resultado. Já tentei ler após mudar a opção "encoding" em options().
Ah, estou usando o windows velho de guerra... sorry... :)
A página pode ser vista no seguinte link:
http://www1.previdencia.gov.br/sps/app/crp/ExtratoRegularidadeRegimes.asp?CD...
Se alguém tiver alguma idéia de corrigir...
Desde já obrigado.
Abs.
-- Marcos F. Silva http://sites.google.com/site/marcosfs2006
-- Marcos F. Silva http://sites.google.com/site/marcosfs2006

Aqui funcionou assim: html <- readHTMLTable("C:\\Users\\rcoster\\Desktop\\teste.htm") html <- html[[3]][, c('V1', 'V2')] head(html) html[,1] = iconv(html[,1],'UTF-8','latin1') html[,2] = iconv(html[,2],'UTF-8','latin1') head(html) E tenha um pouco de paciência, enviar um email a meia noite e esperar que já tenham respondido as 9 da manhã é um pouco d+, nao acha? 2012/12/6 Marcos Silva <marcosfs2006@gmail.com>
Em 5 de dezembro de 2012 23:43, Marcos Silva <marcosfs2006@gmail.com>escreveu:
Caros amigos,
Estou tentando usar o pacote XML para ler alguns dados em tabelas existentes em páginas html. Especificamente, estou tentando ler páginas da previdência social contendo informações sobre o CRP (Certificado de Regularidade Previdenciária) O problema é que estou obtendo uns caracteres estranhos, coisas do tipo "Situação". Estou fazendo da seguinte forma:
library(XML) html <- readHTMLTable("F:\\Regime Próprio\\html\\ExtratoPrevidenciario.htm") html <- html[[3]][, c('V1', 'V2')]
Já tentei o iconv() sem resultado. Já tentei ler após mudar a opção "encoding" em options().
Ah, estou usando o windows velho de guerra... sorry... :)
A página pode ser vista no seguinte link:
http://www1.previdencia.gov.br/sps/app/crp/ExtratoRegularidadeRegimes.asp?CD...
Se alguém tiver alguma idéia de corrigir...
Desde já obrigado.
Abs.
-- Marcos F. Silva http://sites.google.com/site/marcosfs2006
-- Marcos F. Silva http://sites.google.com/site/marcosfs2006
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Caro Rodrigo, Ficou perfeito... Valeu!!! Bem, na verdade eu reenviei a mensagem porque achei que não tinha sido encaminhada corretamente, já que às 09:00 fiz uma consulta e não vi meu email na lista... Muitíssimo obrigado... Abs. Em 6 de dezembro de 2012 09:07, Rodrigo Coster <rcoster@gmail.com> escreveu:
html <- readHTMLTable("C:\\Users\\rcoster\\Desktop\\teste.htm") html <- html[[3]][, c('V1', 'V2')]
head(html) html[,1] = iconv(html[,1],'UTF-8','latin1') html[,2] = iconv(html[,2],'UTF-8','latin1') head(html)
-- Marcos F. Silva http://sites.google.com/site/marcosfs2006
participantes (2)
-
Marcos Silva
-
Rodrigo Coster