Regressão polinomial. Uma discussão teórica!

Bom tarde senhores!! Me deparei com uma situação que em outrora não havia questionado tal situação, seguindo então o que a literatura indicava. A situação ao qual me refiro, é que ao desdobrar a soma de quadrados de regressão em termos lineares, quadráticos e cúbicos, os três termos foram significativos. FATORES GL SQ QM F value p value Silag:ordered(Tempo):FosForm11.L 1 16.26 16.26 33.97 0.0000 Silag:ordered(Tempo):FosForm11.Q 1 0.22 0.22 0.46 0.5000 Silag:ordered(Tempo):FosForm11.C 1 10.51 10.51 21.96 0.0000 Residuals 108 51.68 0.48 A literatura nos recomenda escolher o termo significativo de maior grau. Sinceramente, ao pararmos para pensar, porque não escolher o termo com a maior SQ, no caso de significância é claro dos dois termos? Afinal, o SQ nos informa o quanto da variação se deve aquele fator não? Esse pensamento, podemos ter no caso de um cálculo a mão certo! Mais hoje em dia, em que temos o valor do "p value", não seria mais prudente escolhermos o termo com o maior "p value"? que consequentemente, é claro, terá o maior SQ? Gostaria de saber a opinião dos colegas a respeito disso. Abraço a todos! (S,f,P) Allaman \begin{signature} <<>>= Prof. Dr. Ivan Bezerra Allaman Universidade Estadual de Santa Cruz Departamento de Ciências Exatas e Tecnológicas Ilhéus/BA - Brasil Fone: +55 73 3680-5076 E-mail: ivanalaman@yahoo.com.br/ivanalaman@gmail.com @ \end{signature}

Ivan Uma utra forma de pensar nisto e que explica a recomendacao usual é um ajuste sequencial. O linear melhora om relacao a media geral? a seguir, o quadratico em relacao ao linear e assim por diante portanto, mesmo que o SQ do quadratico seja menor que a do linear (ou o p-valor seja menor) ele ainda é significativo. Portanto, o ajuste nao é um campeonato de p-valores ou SQ, mas sim que cada termo acrescenta algo significativo em relacao ao modelo mais simples anterior Em Dom, 2011-10-23 às 12:22 -0700, Ivan Bezerra Allaman escreveu:
Bom tarde senhores!!
Me deparei com uma situação que em outrora não havia questionado tal situação, seguindo então o que a literatura indicava. A situação ao qual me refiro, é que ao desdobrar a soma de quadrados de regressão em termos lineares, quadráticos e cúbicos, os três termos foram significativos.
FATORES GL SQ QM F value p value Silag:ordered(Tempo):FosForm11.L 1 16.26 16.26 33.97 0.0000 Silag:ordered(Tempo):FosForm11.Q 1 0.22 0.22 0.46 0.5000
Silag:ordered(Tempo):FosForm11.C 1 10.51 10.51 21.96 0.0000 Residuals 108 51.68 0.48
A literatura nos recomenda escolher o termo significativo de maior grau. Sinceramente, ao pararmos para pensar, porque não escolher o termo com a maior SQ, no caso de significância é claro dos dois termos? Afinal, o SQ nos informa o quanto da variação se deve aquele fator não? Esse pensamento, podemos ter no caso de um cálculo a mão certo! Mais hoje em dia, em que temos o valor do "p value", não seria mais prudente escolhermos o termo com o maior "p value"? que consequentemente, é claro, terá o maior SQ?
Gostaria de saber a opinião dos colegas a respeito disso.
Abraço a todos!
(S,f,P) Allaman
\begin{signature} <<>>= Prof. Dr. Ivan Bezerra Allaman Universidade Estadual de Santa Cruz Departamento de Ciências Exatas e Tecnológicas Ilhéus/BA - Brasil Fone: +55 73 3680-5076 E-mail: ivanalaman@yahoo.com.br/ivanalaman@gmail.com @ \end{signature} _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Ivan, Concordo plenamente com a opinião do Paulo! Adicionalmente, efeitos cúbicos, embora significativos, são bem difíceis de serem explicados. Uma opção seria encerrar o modelo no quadrático. Abs, -- ///\\\///\\\///\\\///\\\///\\\///\\\///\\\///\\\ Jose Claudio Faria Estatistica - Prof. Pleno UESC/DCET/Brasil joseclaudio.faria at gmail.com ///\\\///\\\///\\\///\\\///\\\///\\\///\\\///\\\ Em 23 de outubro de 2011 16:32, Paulo J Ribeiro Jr <paulojus@leg.ufpr.br> escreveu:
Ivan
Uma utra forma de pensar nisto e que explica a recomendacao usual é um ajuste sequencial. O linear melhora om relacao a media geral? a seguir, o quadratico em relacao ao linear e assim por diante
portanto, mesmo que o SQ do quadratico seja menor que a do linear (ou o p-valor seja menor) ele ainda é significativo.
Portanto, o ajuste nao é um campeonato de p-valores ou SQ, mas sim que cada termo acrescenta algo significativo em relacao ao modelo mais simples anterior
Em Dom, 2011-10-23 às 12:22 -0700, Ivan Bezerra Allaman escreveu:
Bom tarde senhores!!
Me deparei com uma situação que em outrora não havia questionado tal situação, seguindo então o que a literatura indicava. A situação ao qual me refiro, é que ao desdobrar a soma de quadrados de regressão em termos lineares, quadráticos e cúbicos, os três termos foram significativos.
FATORES GL SQ QM F value p value Silag:ordered(Tempo):FosForm11.L 1 16.26 16.26 33.97 0.0000 Silag:ordered(Tempo):FosForm11.Q 1 0.22 0.22 0.46 0.5000
Silag:ordered(Tempo):FosForm11.C 1 10.51 10.51 21.96 0.0000 Residuals 108 51.68 0.48
A literatura nos recomenda escolher o termo significativo de maior grau. Sinceramente, ao pararmos para pensar, porque não escolher o termo com a maior SQ, no caso de significância é claro dos dois termos? Afinal, o SQ nos informa o quanto da variação se deve aquele fator não? Esse pensamento, podemos ter no caso de um cálculo a mão certo! Mais hoje em dia, em que temos o valor do "p value", não seria mais prudente escolhermos o termo com o maior "p value"? que consequentemente, é claro, terá o maior SQ?
Gostaria de saber a opinião dos colegas a respeito disso.
Abraço a todos!
(S,f,P) Allaman
\begin{signature} <<>>= Prof. Dr. Ivan Bezerra Allaman Universidade Estadual de Santa Cruz Departamento de Ciências Exatas e Tecnológicas Ilhéus/BA - Brasil Fone: +55 73 3680-5076 E-mail: ivanalaman@yahoo.com.br/ivanalaman@gmail.com @ \end{signature} _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Bom dia PJ! Realmente eu não havia pensado deste modo (embora já deveria). Obrigado pelo esclarecimento. É justamente uma grande discussão que faço comigo mesmo Faria, desde que fiz um curso em análise real para entender melhor as funções. Será mesmo que deveríamos abandonar o termo cúbico por encontrar dificuldades em interpretação prática deste termo? Após ler alguns trabalhos e fazer algumas reflexões eu não abandonarei mais este termo e nem um outro grau polinomial. Vejamos bem, um dos principais objetivos ao estabelecer uma equação, é estimar uma resposta para pontos não estudados dentro do domínio em que a equação foi estimada é claro. Um outro ponto, é que a derivada primeira da função de ordem 3 nos traz dois pontos locais, ou seja, um mínimo local e um máximo local. A grande dificuldade pode estar aí, em interpretar estes valores. Por sorte, alguns trabalhos encontraram que uma da raízes estavam fora do domínio estudado, facilitando a interpretação final do trabalho. E os trabalhos em que as duas raízes estavam dentro do domínio estudado? O único trabalho que achei (busca rápida) ignorou uma das raízes, baseando sua conclusão na outra raiz. Eu sinceramente não acho correto esta abordagem, pois dentro do âmbito da variação biológica, aquela raiz ignorada pode ter alguma interpretação. Mais o que fazer como um prestador de serviço (não só isso é claro) como a maioria de nós? Bom, na minha opinião, é dar o resultado da equação cúbica, fornecer o mínimo e o máximo local, e sugerir que em experimento futuros, os níveis sejam aumentados para verificar se o comportamento dos pontos se repetem. Qual a opinião dos colegas? Abraços! (S,f,P) Allaman \begin{signature} <<>>= Prof. Dr. Ivan Bezerra Allaman Universidade Estadual de Santa Cruz Departamento de Ciências Exatas e Tecnológicas Ilhéus/BA - Brasil Fone: +55 73 3680-5076 E-mail: ivanalaman@yahoo.com.br/ivanalaman@gmail.com @ \end{signature} ________________________________ De: Paulo J Ribeiro Jr <paulojus@leg.ufpr.br> Para: r-br@listas.c3sl.ufpr.br; Ivan Bezerra Allaman <ivanalaman@yahoo.com.br> Enviadas: Domingo, 23 de Outubro de 2011 16:32 Assunto: Re: [R-br] Regressão polinomial. Uma discussão teórica! Ivan Uma utra forma de pensar nisto e que explica a recomendacao usual é um ajuste sequencial. O linear melhora om relacao a media geral? a seguir, o quadratico em relacao ao linear e assim por diante portanto, mesmo que o SQ do quadratico seja menor que a do linear (ou o p-valor seja menor) ele ainda é significativo. Portanto, o ajuste nao é um campeonato de p-valores ou SQ, mas sim que cada termo acrescenta algo significativo em relacao ao modelo mais simples anterior Em Dom, 2011-10-23 às 12:22 -0700, Ivan Bezerra Allaman escreveu:
Bom tarde senhores!!
Me deparei com uma situação que em outrora não havia questionado tal situação, seguindo então o que a literatura indicava. A situação ao qual me refiro, é que ao desdobrar a soma de quadrados de regressão em termos lineares, quadráticos e cúbicos, os três termos foram significativos.
FATORES GL SQ QM F value p value Silag:ordered(Tempo):FosForm11.L 1 16.26 16.26 33.97 0.0000 Silag:ordered(Tempo):FosForm11.Q 1 0.22 0.22 0.46 0.5000
Silag:ordered(Tempo):FosForm11.C 1 10.51 10.51 21.96 0.0000 Residuals 108 51.68 0.48
A literatura nos recomenda escolher o termo significativo de maior grau. Sinceramente, ao pararmos para pensar, porque não escolher o termo com a maior SQ, no caso de significância é claro dos dois termos? Afinal, o SQ nos informa o quanto da variação se deve aquele fator não? Esse pensamento, podemos ter no caso de um cálculo a mão certo! Mais hoje em dia, em que temos o valor do "p value", não seria mais prudente escolhermos o termo com o maior "p value"? que consequentemente, é claro, terá o maior SQ?
Gostaria de saber a opinião dos colegas a respeito disso.
Abraço a todos!
(S,f,P) Allaman
\begin{signature} <<>>= Prof. Dr. Ivan Bezerra Allaman Universidade Estadual de Santa Cruz Departamento de Ciências Exatas e Tecnológicas Ilhéus/BA - Brasil Fone: +55 73 3680-5076 E-mail: ivanalaman@yahoo.com.br/ivanalaman@gmail.com @ \end{signature} _______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Se sua intencao e' fazer previsao ("estimar uma resposta para pontos não estudados dentro do domínio"), entao quanto maior a complexidade do modelo, maior a chance do seu modelo ter um poder preditivo baixo. Lembre-se: nao existe modelo certo! Existe modelo util. Em Estatistica, voce esta' sempre lidando com a escolha entre vicio e variancia e eles andam em direcoes opostas: quanto maior o vicio, menor a variacia; quanto maior a variancia, menor o vicio. Ao optar por complexidade, voce ate' reduz o vicio para as estimativas que usam pontos observados... em contrapartida, vc tem uma variancia maior em suas previsoes (que e' aparentemente o seu interesse). Para exemplificar, considere o caso abaixo... Deus, num de seus dias de criacao, gerou um processo que segue sin(x)+x/10 ... Nos, como meros mortais, fizemos um experimento, no qual observamos pontos entre [-5, 5]... E, usando essas observacoes, queremos estimar um modelo para fazer previsao em xp=13. Execute o CMR abaixo e veja o comportamento de cada modelo em termos de previsao (apesar das reducoes em soma de quadrados residuais)... b -- modeloDeus <- function(x) sin(x)+x/10 mypred <- function(mod, xpred) predict(mod, newdata=data.frame(x=xpred)) curve(modeloDeus, from=-15, 15, ylim=c(-10, 10), col='gray') x <- seq(-5, 5, .5) xpred <- seq(-15, 15, .5) set.seed(1) y <- modeloDeus(x)+rnorm(length(x)) points(x, y) mod0 <- lm(y~1) lines(xpred, mypred(mod0, xpred), col=2, lwd=2, lty=2) mod1 <- lm(y~x) lines(xpred, mypred(mod1, xpred), col=3, lwd=2, lty=2) mod2 <- lm(y~poly(x, 2)) lines(xpred, mypred(mod2, xpred), col=4, lwd=2, lty=2) mod3 <- lm(y~poly(x, 3)) lines(xpred, mypred(mod3, xpred), col=5, lwd=2, lty=2) abline(v=13, lwd=2, lty=2) text(12, -5, expression(x[p])) arrows(12, -5.5, 13, -10) legend('bottom', paste('Grau', 0:3), col=2:5, lwd=2, lty=2, title='Modelos')

Ivan, Eu dificilmente perco tempo tentando interpretar parâmetros de um modelo polinômial de grau maior ou igual à 2. Isso mesmo, quadrático eu já nem olho para os valores estimados. Só olho para o sinal do termos quadrado que indica a concavidade. Qualquer esforço de interpretação a partir daí eu acho disperdício. Eu prefiro fazer a predição com bandas de confiança e a fazer uma discussão "intervalar". Quando ao modelo cúbico, penso que na maioria das vezes ele seja uma aproximação local para uma curva sigmóide (típicas em estudos de crescimento biológico). Como temos diversas maneiras de ajustar e diversos modelos com padrão sigmóide, vou direto para um modelo de regressão não linear. É difícil imaginar/justificar um fenômeno que função descresça (cresça), alcançe o mínimo (máximo), cresça (descareça), alcance o máximo (mínimo) e volte a decrescer (crescer) [padrão polinômio cúbico]. Exergo como uma simoidal (que não tem os pontos de mínimo e máximo) ou uma trigonométrica em termos de senos ou cosenos (sazonal). A media que o tempo passa, desaconselho mais e mais o uso de polinômios e estimulo à adoção de um modelo não linear. À disposição. Walmes. ========================================================================== Walmes Marques Zeviani LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W) Departamento de Estatística - Universidade Federal do Paraná fone: (+55) 41 3361 3573 VoIP: (3361 3600) 1053 1173 e-mail: walmes@ufpr.br twitter: @walmeszeviani homepage: http://www.leg.ufpr.br/~walmes linux user number: 531218 ==========================================================================

Caros colocando mais alternativas é bom se perguntar em cada contexto se um modelo polinomial é mesmo o que queremos. Modelos polinomiais e nao-lineares sao "globais", ou seja, assumimos (ou esperamos) que sejam válidos e razoáveis em todo o domínio dos dados As vezes quermos um modelo descritivo, localmente ajustado, sem a necessicade de uma equação global. Neste casos splines gam's e similares podem ser de maior utilizada No contexto que o Walmes disse que nao se preocupa em interpretar coeficientes esa questao se coloca. O modelo nao linear é útil desde que motivado fisica/biologicamente. Sendo desconhecido/arbitrário uma gam te ajuda a encotnrar a forma da relacao com certa flexibilidade On Mon, 24 Oct 2011, Walmes Zeviani wrote:
Ivan,
Eu dificilmente perco tempo tentando interpretar parâmetros de um modelo polinômial de grau maior ou igual à 2. Isso mesmo, quadrático eu já nem olho para os valores estimados. Só olho para o sinal do termos quadrado que indica a concavidade. Qualquer esforço de interpretação a partir daí eu acho disperdício. Eu prefiro fazer a predição com bandas de confiança e a fazer uma discussão "intervalar".
Quando ao modelo cúbico, penso que na maioria das vezes ele seja uma aproximação local para uma curva sigmóide (típicas em estudos de crescimento biológico). Como temos diversas maneiras de ajustar e diversos modelos com padrão sigmóide, vou direto para um modelo de regressão não linear. É difícil imaginar/justificar um fenômeno que função descresça (cresça), alcançe o mínimo (máximo), cresça (descareça), alcance o máximo (mínimo) e volte a decrescer (crescer) [padrão polinômio cúbico]. Exergo como uma simoidal (que não tem os pontos de mínimo e máximo) ou uma trigonométrica em termos de senos ou cosenos (sazonal).
A media que o tempo passa, desaconselho mais e mais o uso de polinômios e estimulo à adoção de um modelo não linear.
À disposição. Walmes.
========================================================================== Walmes Marques Zeviani LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W) Departamento de Estatística - Universidade Federal do Paraná fone: (+55) 41 3361 3573 VoIP: (3361 3600) 1053 1173 e-mail: walmes@ufpr.br twitter: @walmeszeviani homepage: http://www.leg.ufpr.br/~walmes linux user number: 531218 ==========================================================================

Ivan, Apenas para não parecer que abandonei a discussão: fecho com o Walmes em relação a polinomiais > 2: melhor não perder tempo. Como alternativas: investigar os não lineares ou as séries de Fourrier (estes úlimos mais flexíveis e poderosos que os polinomiais de nível elevado). Abs, -- ///\\\///\\\///\\\///\\\///\\\///\\\///\\\///\\\ Jose Claudio Faria Estatistica - Prof. Pleno UESC/DCET/Brasil joseclaudio.faria at gmail.com ///\\\///\\\///\\\///\\\///\\\///\\\///\\\///\\\ Em 24 de outubro de 2011 08:38, Paulo Justiniano <paulojus@leg.ufpr.br> escreveu:
Caros
colocando mais alternativas é bom se perguntar em cada contexto se um modelo polinomial é mesmo o que queremos.
Modelos polinomiais e nao-lineares sao "globais", ou seja, assumimos (ou esperamos) que sejam válidos e razoáveis em todo o domínio dos dados
As vezes quermos um modelo descritivo, localmente ajustado, sem a necessicade de uma equação global. Neste casos splines gam's e similares podem ser de maior utilizada
No contexto que o Walmes disse que nao se preocupa em interpretar coeficientes esa questao se coloca. O modelo nao linear é útil desde que motivado fisica/biologicamente. Sendo desconhecido/arbitrário uma gam te ajuda a encotnrar a forma da relacao com certa flexibilidade
On Mon, 24 Oct 2011, Walmes Zeviani wrote:
Ivan,
Eu dificilmente perco tempo tentando interpretar parâmetros de um modelo polinômial de grau maior ou igual à 2. Isso mesmo, quadrático eu já nem olho para os valores estimados. Só olho para o sinal do termos quadrado que indica a concavidade. Qualquer esforço de interpretação a partir daí eu acho disperdício. Eu prefiro fazer a predição com bandas de confiança e a fazer uma discussão "intervalar".
Quando ao modelo cúbico, penso que na maioria das vezes ele seja uma aproximação local para uma curva sigmóide (típicas em estudos de crescimento biológico). Como temos diversas maneiras de ajustar e diversos modelos com padrão sigmóide, vou direto para um modelo de regressão não linear. É difícil imaginar/justificar um fenômeno que função descresça (cresça), alcançe o mínimo (máximo), cresça (descareça), alcance o máximo (mínimo) e volte a decrescer (crescer) [padrão polinômio cúbico]. Exergo como uma simoidal (que não tem os pontos de mínimo e máximo) ou uma trigonométrica em termos de senos ou cosenos (sazonal).
A media que o tempo passa, desaconselho mais e mais o uso de polinômios e estimulo à adoção de um modelo não linear.
À disposição. Walmes.
========================================================================== Walmes Marques Zeviani LEG (Laboratório de Estatística e Geoinformação, 25.450418 S, 49.231759 W) Departamento de Estatística - Universidade Federal do Paraná fone: (+55) 41 3361 3573 VoIP: (3361 3600) 1053 1173 e-mail: walmes@ufpr.br twitter: @walmeszeviani homepage: http://www.leg.ufpr.br/~walmes linux user number: 531218 ==========================================================================
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
participantes (6)
-
Benilton Carvalho
-
Ivan Bezerra Allaman
-
Jose Claudio Faria
-
Paulo J Ribeiro Jr
-
Paulo Justiniano
-
Walmes Zeviani