Embora chegando atrasado a esta discussão, gostaria de contribuir com algumas informações.
Primeiramente, uma questão de conceito: há uma certa confusão na literatura, especialmente quando ela é ligada a algum manual de SW recente a respeito da "premissa de normalidade" numa ANOVA.
Não é distribuição dos dados que precisa ser Gaussiana, mas sim a distribuição dos resíduos após a ANOVA (que na verdade é um elegante teste numa regressão linear onde a hipótese é que certos "fatores" mudam a média da regressão.
Esse equívoco ele é perpetrado e perpetuado por "helps' e manuais de SW que seus fabricantes para ganhar na guerra das features findam por transformá-los em "boas práticas" ou exame obrigatório (quando os indicam para os dados).
Um "contra exemplo" poderia ser ilustrativo. Um experimentador resolve testar uma resposta a um certo estímulo com três tratamentos, e por conveniência, custo ou mesmo necessidade, a variável independente precisa ser uma medida cuja distribuição é o conjunto de {1,2,3,...,10} unidades de medida, e a resposta o conjunto de dez respostas, para três fatores A, B, C.
Ora, como a ANOVA não passa de um uma regressão linear já com resultados formatados para responder a questão a respeito dos tratamentos, por premissa, os vetores de respostas serão números proporcionais ao vetor da VI e tampouco nenhum dos três teria distribuição gaussiana (a soma pode até se aproximar, embora para trinta casos ainda esteja na "beirada", [CLT, G-K, etc.]).
Mas como a matemática é exata e os instrumentos de medida não, nosso antepassado notou que tanto as medidas da VI como a resposta "flutuam" em volta de um valor real, que se for somado subtraído (se fosse conhecido 😎) geraria uns desvios cuja probalidade de serem grandes diminui quanto maior o são e a relação funcional dessa probabilidade tem o formato do sino (a curva que hoje o homenageamos dando-lhe o nome de Curva de Gauss).
Portanto no nosso costume de análise a gente "faz de conta" que as medidas da VI estão "certas" e que o desvio é uma distribuição de Gauss com média zero e desvio padrão que é consequência do desvio padrão da medida vezes o coeficiente angular da relação funcional (premissa de ser linear na ANOVA) somado ao desvio padrão das medidas das respostas.
ESSA distribuição de valores os resíduos que precisam ser normais (gaussianos).
Para isto não virar um tratado, estou eludindo discussões sobre a distribuição mais conveniente dos dados das variáveis e outros aspectos que entram em 'desenho' (projeto pois é trad. da palavra inglesa design) de experimentos, etc.
Para os que não tenham tempo de ver o documento, submeto a vocês um resumo dos pontos importantes:
- É bastante disseminada a crença que o teste t e a regressão linear são válidos apenas para resultados (desfechos) de distribuição normal.
- Essa ideia está errada.
- Esses testes (e acrescento eu por tabela ANOVA) são adequados para determinar se as diferenças têm significação estatística.
- O xis da questão não está nas distribuições, mas sim a detecção e estimação das diferenças nas médias dos desfechos responde à questão científica subjacente.
HTH
--
Cesar Rabak