
Pessoal, Estou migrando meus processos do SPSS, para o R e tenho encontrado dificuldade na input de bases muito grandes. Tipo: 1,5Gb, com ~3 milhões de registros. Alguém sabe de algum pacote para trabalhar com bases grandes? Aproveitando para compartilhar essa noticia. http://www.revista.espiritolivre.org/a-ambiciosa-linguagem-de-programacao-qu... Abraços *Att,Gerson R. Primo Jr*

Em 07-02-2014 11:14, Gerson R. Primo Jr escreveu:
Estou migrando meus processos do SPSS, para o R e tenho encontrado dificuldade na input de bases muito grandes. Tipo: 1,5Gb, com ~3 milhões de registros. Alguém sabe de algum pacote para trabalhar com bases grandes?
Sugestão de procedimento: 1) Exporte a base de dados para algum formato texto (valores separados por vírgula, ponto e vírgula ou por tabulação). Se o arquivo for realmente muito grande, escolha a opção de salvar as variáveis categóricas como números e não como rótulos e, neste caso, crie também um arquivo com os rótulos. Você pode usar o SPSS ou o PSPP para exportar a base de dados. 2) Se tiver exportado somente os valores numéricos (e não os rótulos) das variáveis categóricas, edite o arquivo com os rótulos das variáveis categóricas para que ele fique no formato de input da função labels2R() do pacote descr. Essa função facilita a criação de código para converter variáveis numéricas em factor. 3a) Se a base de dados for menor do que a RAM (memória do chip do computador), use a função fread() do pacote data.table para ler a base de dados em formato texto porque a função read.table() do pacote base precisa de uma memória várias vezes maior do que o banco de dados. 3b) Se o arquivo da base de dados em formato texto for maior do que a RAM, use as funções do pacote sqldf para trabalhar com apenas parte da base de dados. 4) Use a função labels2R() e o arquivo criado no passo 2 para codificar as variáveis categóricas. -- Jakson Alves de Aquino Universidade Federal do Ceará Departamento de Ciências Sociais www.lepem.ufc.br/aquino.php

Oi Gerson Nesse caso eu prefiro o SPSS, mas tem o Revolution que é o R para grandes bancos. Em 07/02/2014 12:14, "Gerson R. Primo Jr" <gersonprimo@gmail.com> escreveu:
Pessoal,
Estou migrando meus processos do SPSS, para o R e tenho encontrado dificuldade na input de bases muito grandes. Tipo: 1,5Gb, com ~3 milhões de registros. Alguém sabe de algum pacote para trabalhar com bases grandes?
Aproveitando para compartilhar essa noticia.
http://www.revista.espiritolivre.org/a-ambiciosa-linguagem-de-programacao-qu...
Abraços
*Att,Gerson R. Primo Jr*
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Bem interessante o link: http://www.revista.espiritolivre.org/a-ambiciosa-linguagem-de-programacao-qu... Se funcionar bem (como promete) será um sonho! -- ///\\\///\\\///\\\///\\\///\\\///\\\///\\\///\\\ Jose Claudio Faria Estatistica UESC/DCET/Brasil joseclaudio.faria at gmail.com Telefones: 55(73)3680.5545 - UESC 55(73)9100.7351 - TIM 55(73)8817.6159 - OI ///\\\///\\\///\\\///\\\///\\\///\\\///\\\///\\\

Uma resposta mais precisa depende do formato original dos teus dados (são CSV, largura fixa, ...). Eu tive sucesso lendo os microdados do ENEM (6gb) com os pacotes sqldf e RSQLite. Talvez esses links te ajudem: http://metodologiapolitica.com/639/ http://metodologiapolitica.com/microdados-no-r/ e http://metodologiapolitica.com/microdados-parte-2/ http://stackoverflow.com/questions/18720036/reading-big-data-with-fixed-widt... 2014-02-07 Jose Claudio Faria <joseclaudio.faria@gmail.com>:
Bem interessante o link:
http://www.revista.espiritolivre.org/a-ambiciosa-linguagem-de-programacao-qu...
Se funcionar bem (como promete) será um sonho! -- ///\\\///\\\///\\\///\\\///\\\///\\\///\\\///\\\ Jose Claudio Faria Estatistica UESC/DCET/Brasil joseclaudio.faria at gmail.com Telefones: 55(73)3680.5545 - UESC 55(73)9100.7351 - TIM 55(73)8817.6159 - OI ///\\\///\\\///\\\///\\\///\\\///\\\///\\\///\\\ _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

pacotes ff ou bigmemory, dependendo do tipo dos dados. b Em 7 de fevereiro de 2014 13:18, Rodrigo Coster <rcoster@gmail.com>escreveu:
Uma resposta mais precisa depende do formato original dos teus dados (são CSV, largura fixa, ...). Eu tive sucesso lendo os microdados do ENEM (6gb) com os pacotes sqldf e RSQLite.
Talvez esses links te ajudem:
http://metodologiapolitica.com/639/ http://metodologiapolitica.com/microdados-no-r/ e http://metodologiapolitica.com/microdados-parte-2/
http://stackoverflow.com/questions/18720036/reading-big-data-with-fixed-widt...
2014-02-07 Jose Claudio Faria <joseclaudio.faria@gmail.com>:
Bem interessante o link:
http://www.revista.espiritolivre.org/a-ambiciosa-linguagem-de-programacao-qu...
Se funcionar bem (como promete) será um sonho! -- ///\\\///\\\///\\\///\\\///\\\///\\\///\\\///\\\ Jose Claudio Faria Estatistica UESC/DCET/Brasil joseclaudio.faria at gmail.com Telefones: 55(73)3680.5545 - UESC 55(73)9100.7351 - TIM 55(73)8817.6159 - OI ///\\\///\\\///\\\///\\\///\\\///\\\///\\\///\\\ _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Rodrigo e Benilton, Os dados estão no formato .csv e o pacote sqldf foi bastante útil... além de diminuir ~10% no uso de minha memoria RAW, com ele faço alguns agrupamento pelo GROUP BY, que não estava conseguindo pelo aggregate. Um pacote interessante, que encontrei na internet foi o SOAR. Pelo pouco que entendi, esse pacote guarda seus dados em cache no seu HD e deixa as bases "pré-carregados", assim não ocupa a memoria quanto não estiver usando. Para quem trabalha com varias bases ao mesmo tempo... é uma boa. O uso dele é bastante simples. Veja o exemplo no link abaixo. http://www.r-bloggers.com/memory-management-in-r-and-soar/ Obrigado a todos pela ajuda!! :) *Att,Gerson R. Primo Jr* 2014-02-07 13:54 GMT-02:00 Benilton Carvalho <beniltoncarvalho@gmail.com>:
pacotes ff ou bigmemory, dependendo do tipo dos dados. b
Em 7 de fevereiro de 2014 13:18, Rodrigo Coster <rcoster@gmail.com>escreveu:
Uma resposta mais precisa depende do formato original dos teus dados (são
CSV, largura fixa, ...). Eu tive sucesso lendo os microdados do ENEM (6gb) com os pacotes sqldf e RSQLite.
Talvez esses links te ajudem:
http://metodologiapolitica.com/639/ http://metodologiapolitica.com/microdados-no-r/ e http://metodologiapolitica.com/microdados-parte-2/
http://stackoverflow.com/questions/18720036/reading-big-data-with-fixed-widt...
2014-02-07 Jose Claudio Faria <joseclaudio.faria@gmail.com>:
Bem interessante o link:
http://www.revista.espiritolivre.org/a-ambiciosa-linguagem-de-programacao-qu...
Se funcionar bem (como promete) será um sonho! -- ///\\\///\\\///\\\///\\\///\\\///\\\///\\\///\\\ Jose Claudio Faria Estatistica UESC/DCET/Brasil joseclaudio.faria at gmail.com Telefones: 55(73)3680.5545 - UESC 55(73)9100.7351 - TIM 55(73)8817.6159 - OI ///\\\///\\\///\\\///\\\///\\\///\\\///\\\///\\\ _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Senhores, boa tarde! Encontrei essa comparação de pacotes e procedimentos para trabalhar com grandes volumes de dados e acredito que ainda possa ser de interesse. https://www.stat.auckland.ac.nz/~yee/784/files3/ReadingInBigData.pdf Éder Comunello <c <comunello.eder@gmail.com>omunello.eder@gmail.com> Dourados, MS - [22 16.5'S, 54 49'W]
participantes (7)
-
Benilton Carvalho
-
Gerson R. Primo Jr
-
Jakson Alves de Aquino
-
Jose Claudio Faria
-
Rodrigo Coster
-
Sérgio Henrique almeida da silva ju
-
Éder Comunello