
Em 07-02-2014 11:14, Gerson R. Primo Jr escreveu:
Estou migrando meus processos do SPSS, para o R e tenho encontrado dificuldade na input de bases muito grandes. Tipo: 1,5Gb, com ~3 milhões de registros. Alguém sabe de algum pacote para trabalhar com bases grandes?
Sugestão de procedimento: 1) Exporte a base de dados para algum formato texto (valores separados por vírgula, ponto e vírgula ou por tabulação). Se o arquivo for realmente muito grande, escolha a opção de salvar as variáveis categóricas como números e não como rótulos e, neste caso, crie também um arquivo com os rótulos. Você pode usar o SPSS ou o PSPP para exportar a base de dados. 2) Se tiver exportado somente os valores numéricos (e não os rótulos) das variáveis categóricas, edite o arquivo com os rótulos das variáveis categóricas para que ele fique no formato de input da função labels2R() do pacote descr. Essa função facilita a criação de código para converter variáveis numéricas em factor. 3a) Se a base de dados for menor do que a RAM (memória do chip do computador), use a função fread() do pacote data.table para ler a base de dados em formato texto porque a função read.table() do pacote base precisa de uma memória várias vezes maior do que o banco de dados. 3b) Se o arquivo da base de dados em formato texto for maior do que a RAM, use as funções do pacote sqldf para trabalhar com apenas parte da base de dados. 4) Use a função labels2R() e o arquivo criado no passo 2 para codificar as variáveis categóricas. -- Jakson Alves de Aquino Universidade Federal do Ceará Departamento de Ciências Sociais www.lepem.ufc.br/aquino.php