Do meu ponto de vista, as aplicação do teste também é subjetiva. Por que você escolheu tal teste, com aquele nível de significância? Porque tudo mundo faz assim não é algo convincente para mim. Deve-se fazer por um fator de cada vez, ou seja, aplicar o teste duas vezes, ou considerar a combinação dos níveis como um fator e aplicar? Eu prefiro muito mais fazer uma avaliação gráfica. O ponto é que quando existe desvio grave da suposição, tanto o teste quanto os gráficos vão te apontar isso. A diferença é que pelos gráficos você pode ter uma ideia do que fazer para "remediar", como transformar, remover um outlier. Ou seja, o teste de dá um "sim ou não", os gráficos te dão um "como". O que considero fraqueza é aplicar o teste para um pressuposto, mas esse teste tem pressuposto, então por lógica, deveria ser também testado, então vamos aplicar outro teste, e assim vai. Outro ponto é que para situações simples tem se vários testes, mas para outras situações não está claro como proceder. Já os gráficos, são de certa forma livres de suposições e podem ser considerados para todos os delineamentos. Ou seja, os gráficos que se faz para um delineamento completamente casualidades servem para uma parcela subsubdividida também.