[Dúvida] Automatizar um modelo de previsão.

Pessoal a função auto.arima do pacote forecast "presta" realmente para ajustar modelos AR, MA, ARIMA, SARIMA? Existe algum pacote que faz de forma automática e eficiente do ponto de vista estatístico as análises de independências e de auto-correlações? Fico com o pé atrás de usar pacotes de prometem ajustar modelos auto-regressivos de forma automática. No meu caso tenho vários dados de mortalidade por doenças de aparelho circulatório, neoplasias, doenças do aparelho respiratório, etc. Todos os meses aqui na secretaria de saúde tenho mais informações e minha série vai aumentando. No meu computador tenho vários dados de milhares de variáveis distribuídos mensalmente e gostaria de criar algum programa para ajustar essas séries de forma automática. Não necessito do melhor modelo possível, apenas queria um bom modelo. É possível automatizar de tal forma a "dispensar" uma análise cuidadosa de um estatístico? O único problema é tempo para se ajustar série por série, ficar fazendo gráficos de auto correlações, verificando independências etc. Hoje possuo informações mensais desde 1999 a novembro de 2011, 143 pontos para cada uma das variáveis que preciso estimar. -- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.

Em 22/12/2011 15:20, Pedro Rafael escreveu:
Pessoal a função auto.arima do pacote forecast "presta" realmente para ajustar modelos AR, MA, ARIMA, SARIMA?
A resposta adequada será melhor obtida quando você definir "presta" com maior clareza.
Existe algum pacote que faz de forma automática e eficiente do ponto de vista estatístico as análises de independências e de auto-correlações?
Automática, até é possível responder que sim, mas "eficiente do ponto de vista estatístico" para qualquer definição de "eficiente" acho que a resposta é um não.
Fico com o pé atrás de usar pacotes de prometem ajustar modelos auto-regressivos de forma automática.
E deve mesmo!
No meu caso tenho vários dados de mortalidade por doenças de aparelho circulatório, neoplasias, doenças do aparelho respiratório, etc. Todos os meses aqui na secretaria de saúde tenho mais informações e minha série vai aumentando. No meu computador tenho vários dados de milhares de variáveis distribuídos mensalmente e gostaria de criar algum programa para ajustar essas séries de forma automática.
Ajustar as séries ao quê? Qual é o problema que você está tentando resolver?
Não necessito do melhor modelo possível, apenas queria um bom modelo.
Não é possível discutir nada sobre um modelo se você não nos diz qual a hipótese você está estudando/analisando!
É possível automatizar de tal forma a "dispensar" uma análise cuidadosa de um estatístico?
Não. Talvez você consiga um que "dispense" 95% do tempo uma análise perfunctória.
O único problema é tempo para se ajustar série por série, ficar fazendo gráficos de auto correlações, verificando independências etc.
Que reverte à questão inicial: para quê?
Hoje possuo informações mensais desde 1999 a novembro de 2011, 143 pontos para cada uma das variáveis que preciso estimar.
O melhor serviço que esses dados podem fazer é, estando "limpos do ponto de vista de coleta", ficar à disposição da comunidade científica para que estudos epidemiológicos sejam efetuados com eles. Sds., -- Cesar Rabak GNU/Linux User 52247. Get counted: http://counter.li.org/

Na verdade eu tenho dados de óbitos por neoplasias, doenças do aparelho circulatório, doenças do aparelho circulatório e os demais capítulos da CID-10 (Classificação Internacional das Doenças) em que cada capítulo é um conjunto de doenças. Capítulo II, por exemplo, refere-se à neoplasias. Como trabalho na Secretaria de Estado da Saúde - PB tenho acesso as informações mensalmente de todos os capítulos. Os dados estão disponíveis de janeiro de 1999 a novembro de 2011, isto para cada um dos capítulos da CID-10. Gostaria de prever a mortalidade por cada um dos capítulos (Neoplasias, Causas Externas, etc) no máximo doze passos a frente. Estamos desenvolvendo um ambiente web que disponibiliza informações descritivas, gráficos, mapas interativos e algumas analises de conglomerados espaciais (Gets & Ord, Varredura Scan, Besag, etc). Pensei na ideia de ter uma parte do ambiente com algumas estimativas (previsões) de mortalidade. Como serão dados atualizados online pelo servidor do Sistema de Informação sobre Mortalidade - SIM, gostaria que as previsões fossem também atualizadas, ou seja, a cada dado novo um novo modelo fosse ajustado e sempre estimando no máximo 12 passos a frente como dito anteriormente. As previsões poderão ser utilizadas para a tomada de decisão. Vejo o pessoal por aqui tomando decisões pelo simples ACHAR que algo vai ser de um jeito, ou ACHAR que algo vai ser de outro o que não é legal. Um modelo que pelo menos fosse melhor que isto já estaria valendo. Eu acredito muito na frase que diz: "Todos modelos são ruins, alguns são úteis" - George Box. Gostaria de previsões que ajudassem as pessoas saírem do simples achar que algo vai ser de um jeito, mas infelizmente dar muita atenção a cada uma das previsões não vai ser muito possível devido a demandas internas. Será que não é possível dar ao computador o mínimo de instruções que possamos ter um modelo útil? Em 22 de dezembro de 2011 16:24, Cesar Rabak [via R-br] < ml-node+s2285057n4226388h5@n4.nabble.com> escreveu:
Em 22/12/2011 15:20, Pedro Rafael escreveu:
Pessoal a função auto.arima do pacote forecast "presta" realmente para ajustar modelos AR, MA, ARIMA, SARIMA?
A resposta adequada será melhor obtida quando você definir "presta" com maior clareza.
Existe algum pacote que faz de forma automática e eficiente do ponto de vista estatístico as análises de independências e de auto-correlações?
Automática, até é possível responder que sim, mas "eficiente do ponto de vista estatístico" para qualquer definição de "eficiente" acho que a resposta é um não.
Fico com o pé atrás de usar pacotes de prometem ajustar modelos auto-regressivos de forma automática.
E deve mesmo!
No meu caso tenho vários dados de mortalidade por doenças de aparelho circulatório, neoplasias, doenças do aparelho respiratório, etc. Todos os meses aqui na secretaria de saúde tenho mais informações e minha série vai aumentando. No meu computador tenho vários dados de milhares de variáveis distribuídos mensalmente e gostaria de criar algum programa para ajustar essas séries de forma automática.
Ajustar as séries ao quê? Qual é o problema que você está tentando resolver?
Não necessito do melhor modelo possível, apenas queria um bom modelo.
Não é possível discutir nada sobre um modelo se você não nos diz qual a hipótese você está estudando/analisando!
É possível automatizar de tal forma a "dispensar" uma análise cuidadosa de um estatístico?
Não.
Talvez você consiga um que "dispense" 95% do tempo uma análise perfunctória.
O único problema é tempo para se ajustar série por série, ficar fazendo gráficos de auto correlações, verificando independências etc.
Que reverte à questão inicial: para quê?
Hoje possuo informações mensais desde 1999 a novembro de 2011, 143 pontos para cada uma das variáveis que preciso estimar.
O melhor serviço que esses dados podem fazer é, estando "limpos do ponto de vista de coleta", ficar à disposição da comunidade científica para que estudos epidemiológicos sejam efetuados com eles.
Sds.,
-- Cesar Rabak GNU/Linux User 52247. Get counted: http://counter.li.org/ _______________________________________________ R-br mailing list [hidden email] <http://user/SendEmail.jtp?type=node&node=4226388&i=0> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
------------------------------ If you reply to this email, your message will be added to the discussion below:
http://r-br.2285057.n4.nabble.com/R-br-Duvida-Automatizar-um-modelo-de-previ... To unsubscribe from R-br, click here<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=unsubscribe_by_code&node=3357982&code=cGVkcm8ucmFmYWVsLm1hcmluaG9AZ21haWwuY29tfDMzNTc5ODJ8NTAyMjI0MDYw> . NAML<http://r-br.2285057.n4.nabble.com/template/NamlServlet.jtp?macro=macro_viewer&id=instant_html%21nabble%3Aemail.naml&base=nabble.naml.namespaces.BasicNamespace-nabble.view.web.template.NabbleNamespace-nabble.view.web.template.InstantMailNamespace&breadcrumbs=instant+emails%21nabble%3Aemail.naml-instant_emails%21nabble%3Aemail.naml-send_instant_email%21nabble%3Aemail.naml>
-- Saudações, Pedro Rafael Diniz Marinho. Estatístico - Secretaria de Estado da Saúde - PB.

Rafael, "Todos os os modelos estão errados, alguns são úteis, poucos são iluminadores." Essa era a frase que eu conhecia. Sugestão... de uma olhada no pacote surveillance, talvez voce ache alguma coisa que te ajude. Outra sugestão... o pessoal da saude, como eu, aceita as coisas que dominam. Se voce colocar de cara modelos complexos e sofisticados como séries temporais dinâmicas (tsdin) o seu esforço pode ser completamente ignorado. Outra sugestão... se dedique em primeiro lugar na automação com análises e estatísticas simples e não parametricas, como taxa de mortalidade geral. Depois que a automação estiver funcionando bem, e as pessoas que usam os relatórios pra qualquer coisa estiverem digerindo os relatórios gerados, voce começa a sofisticar as análises com limiares epidêmicos e projeções para os meses e anos no futuro com ajustes de modelos. Outra sugestão... Faça mais de um script (pense em talvez fazer uma coleção de scripts relacionados ou pacote) que sigam um ou mais dos seguintes passos. 1. Conectar aos dados 2. Fazer copia de segurança dos dados 3. Fazer verificações (eg duplicatas, inconsistências) 4. Edições dos dados (agrupamento de doenças cardiovasculares, ou diferentes CIDs que representam a mesma entidade) 5. Faça uma série temporal simples de taxa de mortalidade geral bruta(talvez voce vá precisar de bancos do IBGE para saber a estimativa populacional do local das mortes que voce quer trabalhar) 6. Use o Sweave, odfWeave, R2wd ou Sword para colar os gráficos e tabelas num documento texto. 7. Utilize o sendmailR para mandar esse arquivo, por email, para voce mesmo ou para um colega de trabalho que possa verificar essas análises e ter alguma crítica sobe isso, e só depois disponibilizar na web ou para toda a secretaria. 8. Faça com o que o gerenciador de tarefas do seu pc rode esse script toda sexta-feiza por exemplo. 9. Considere em fazer um script para enviar um email para um responsável, digitador ou outro profissional, que erros foram inseridos no banco e que deveria ser revisados, como passo intermediário. Acho que só isso já é muita coisa... mas seria, do meu ponto de vista, mais relevante do que decidir qual modelo seria mais automático e adequado. Abraço forte e que a força esteja com você, Dr. Pedro Emmanuel A. A. do Brasil Instituto de Pesquisa Clínica Evandro Chagas Fundação Oswaldo Cruz Rio de Janeiro - Brasil Av. Brasil 4365, CEP 21040-360, Tel 55 21 3865-9648 email: pedro.brasil@ipec.fiocruz.br email: emmanuel.brasil@gmail.com ---Apoio aos softwares livres www.zotero.org - gerenciamento de referências bibliográficas. www.broffice.org ou www.libreoffice.org - textos, planilhas ou apresentações. www.epidata.dk - entrada de dados. www.r-project.org - análise de dados. www.ubuntu.com - sistema operacional

Valiosíssimo post Pedro E. , Digo que tirarei proveito dele também! QUanto ao modelo, para não ter a resistência que vc cita, por vezes reporto apenas a estimativa que gerei com o modelo mais adequado, utilizando as "unidades de medida" usuais. Ou seja, pode ser a mesma taxa de mortalidade, mas estimada da maneira mais adequada estatisticamente, se estas estimativas realmente aprimorarem os resultados das técnicas usuais...senão é assunto de pesquisa mesmo, produção de artigos na área estatística. Abs a todos e bom final de ano Em 23 de dezembro de 2011 11:56, Pedro Emmanuel Alvarenga Americano do Brasil <emmanuel.brasil@gmail.com> escreveu:
Rafael,
"Todos os os modelos estão errados, alguns são úteis, poucos são iluminadores." Essa era a frase que eu conhecia.
Sugestão... de uma olhada no pacote surveillance, talvez voce ache alguma coisa que te ajude.
Outra sugestão... o pessoal da saude, como eu, aceita as coisas que dominam. Se voce colocar de cara modelos complexos e sofisticados como séries temporais dinâmicas (tsdin) o seu esforço pode ser completamente ignorado.
Outra sugestão... se dedique em primeiro lugar na automação com análises e estatísticas simples e não parametricas, como taxa de mortalidade geral. Depois que a automação estiver funcionando bem, e as pessoas que usam os relatórios pra qualquer coisa estiverem digerindo os relatórios gerados, voce começa a sofisticar as análises com limiares epidêmicos e projeções para os meses e anos no futuro com ajustes de modelos.
Outra sugestão...
Faça mais de um script (pense em talvez fazer uma coleção de scripts relacionados ou pacote) que sigam um ou mais dos seguintes passos.
1. Conectar aos dados
2. Fazer copia de segurança dos dados
3. Fazer verificações (eg duplicatas, inconsistências)
4. Edições dos dados (agrupamento de doenças cardiovasculares, ou diferentes CIDs que representam a mesma entidade)
5. Faça uma série temporal simples de taxa de mortalidade geral bruta(talvez voce vá precisar de bancos do IBGE para saber a estimativa populacional do local das mortes que voce quer trabalhar)
6. Use o Sweave, odfWeave, R2wd ou Sword para colar os gráficos e tabelas num documento texto.
7. Utilize o sendmailR para mandar esse arquivo, por email, para voce mesmo ou para um colega de trabalho que possa verificar essas análises e ter alguma crítica sobe isso, e só depois disponibilizar na web ou para toda a secretaria.
8. Faça com o que o gerenciador de tarefas do seu pc rode esse script toda sexta-feiza por exemplo.
9. Considere em fazer um script para enviar um email para um responsável, digitador ou outro profissional, que erros foram inseridos no banco e que deveria ser revisados, como passo intermediário.
Acho que só isso já é muita coisa... mas seria, do meu ponto de vista, mais relevante do que decidir qual modelo seria mais automático e adequado.
Abraço forte e que a força esteja com você,
Dr. Pedro Emmanuel A. A. do Brasil Instituto de Pesquisa Clínica Evandro Chagas Fundação Oswaldo Cruz Rio de Janeiro - Brasil Av. Brasil 4365, CEP 21040-360, Tel 55 21 3865-9648 email: pedro.brasil@ipec.fiocruz.br email: emmanuel.brasil@gmail.com
---Apoio aos softwares livres www.zotero.org - gerenciamento de referências bibliográficas. www.broffice.org ou www.libreoffice.org - textos, planilhas ou apresentações. www.epidata.dk - entrada de dados. www.r-project.org - análise de dados. www.ubuntu.com - sistema operacional
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- Fernando A.B. Colugnati
participantes (4)
-
Cesar Rabak
-
Fernando Colugnati
-
Pedro Emmanuel Alvarenga Americano do Brasil
-
Pedro Rafael