Legal, não conhecia esse pacote. Mas no caso de bancos de 20 GB, a memória não basta.... 


2012/11/18 Fabio Mathias Corrêa <fabio.ufla@yahoo.com.br>
O pacote bigmemory permite trabalhar com grandes bancos de dados sem sobrecarregar a memória.


 
        Fábio Mathias Corrêa

   Universidade Estadual de Santa Cruz
Departamento de Ciências Exatas e da Terra - DCET


Campus Soane Nazaré de Andrade, km 16 Rodovia Ilhéus-Itabuna
CEP 45662-900. Ilhéus-Bahia


Tel.: 73-3680-5076

De: Diogo Ferrari <diogoferrari@gmail.com>
Para: r-br@listas.c3sl.ufpr.br; regis barros <regisgbarros@yahoo.com.br>
Enviadas: Domingo, 18 de Novembro de 2012 12:07
Assunto: Re: [R-br] Cluster para r

Ola Regis,

Já trabalhei, ou melhor, tentei trabalhar, com R operando em servidor linux. O principal problema é a divisão do processamento. Não é possível dividir o processamento entre os nós. é possível apenas dividir dentro do próprio núcleo do processador. Eu trabalhei com bases na casa de 20x10^9. A melhor solução que encontrei foi o RevolutionR, fazer proc. paralelo local e converter os arquivos para .xdf (usado pelo revolution). Se o seu problema é computar sobre os dados, e não fazer simulações por exemplo, vc tem que encontrar uma solução que permita isso. É mais um problema de geranciamento e acesso aos dados do que capaciadade de processamento. O R tradicional carrega tudo na memória e, portanto, limita o uso de big data. O .xdf e o RevolutionR solucionam isso permitindo trabalhar com os dados sem carregá-los, além de dividir e indexar o banco, como se faz em SQL, por exemplo. Mas isso vai depender do que vc precisa fazer com os dados. As funções disponível para o RevolutionR são as mais simples.estão no pacote RevoscaleR.

abs


2012/11/18 regis barros <regisgbarros@yahoo.com.br>
Bom dia Pessoal
Gostaria de saber de pessoas que trabalham com cluster para linux e usam o r para executar os cálculos e modelos que venho trabalhando. Li nos e-mails anteriores que pessoas que estavam usando uma base de dados de 1*10^9, todavia gostaria de trabalhar com mais do que isto alguém trabalha?
Grato
Regis Godoy Barros

_______________________________________________
R-br mailing list
R-br@listas.c3sl.ufpr.br
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.



--
Diogo Ferrari
University of San Paulo (USP)
Faculty of Philosophy, Languages, Literature and Human Sciences (FFLCH)
Department of Political Science (DCP)
San Paulo/SP - Brazil

Open Source! Use R! Use Linux!

"A vida é a arte de tirar conclusões suficientes de dados insuficientes"


_______________________________________________
R-br mailing list
R-br@listas.c3sl.ufpr.br
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.


_______________________________________________
R-br mailing list
R-br@listas.c3sl.ufpr.br
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.



--
Diogo Ferrari
University of San Paulo (USP)
Faculty of Philosophy, Languages, Literature and Human Sciences (FFLCH)
Department of Political Science (DCP)
San Paulo/SP - Brazil
E-mail: diogo.ferrari@usp.br

Open Source! Use R! Use Linux!

"A vida é a arte de tirar conclusões suficientes de dados insuficientes"