Marcelo,

A primeira questão que vc deve se colocar é a seguinte: qual modelo estatístico poderia servir para estimar os efeitos ("fenômenos") que se vê no Mundo Real®.

Um segundo, e muito relacionado a ele é o seguinte, para a modelagem "apropriada" qual é o número de casos que seria necessário para ter-se significância estatística, com o limiar aceitável para o campo de estudo do seu problema e mais importante ainda, no estágio da sua pesquisa¹.

Um outro ponto que me salta aos olhos da sua descrição (que pode ser uma interpretação minha açodada) é que o 'tipo' de planta automaticamente indica as composições dos 'ene' compostos.

SE o estágio da sua pesquisa é de Análise Exploratória, então um caminho seria fazer investigações indo dessa direção para os compostos, e então tentar identificar daqueles os que biologicamente fariam sentido, posto que já deve haver ciência apontando possibilidades.

Eu "tenho a impressão" que tratar proporções como genes não seria realmente uma abordagem que se pudesse defender mais tarde mesmo que algo "aparecesse" nos resultados.

 [1] tratar os mesmos dados setenta vezes para cada composto pode exigir uma correção no limiar para evitar o erro devido à FDR, embora na fase exploratória o risco de um Erro Tipo II de deixar escapar um Prêmio Nobel precisa ser balanceado❕❕

Por último, muita calma precisaria ser exercitada para assegurar que o emprego de proporções é adequado e não concentrações absolutas dos compostos, coisa que requer mais informações sobre o domínio do problema que vc estuda, mas em Estatística uso de proporções em algumas circunstâncias pode ser errôneo e de difícil percepção pois os SW modernos ainda não são ChatBots e por isso não criitcam o usuário!!

HTH

--
Cesar Rabak


On Thu, Feb 23, 2023 at 11:08 AM Marcelo Laia por (R-br) <r-br@listas.c3sl.ufpr.br> wrote:
Caro(a) listeiro(a), 

Possuo um grupo de dados com valores representando a proporção de dado composto na planta. Esses valores variam de 0 a 100%. Assim, o composto Y pode apresentar valor 41 e o Z valor 0,02, por exemplo. Há em torno de 70 compostos. Nem todas as plantas contém todos os compostos. 

Hipótese: plantas resistentes possuem compostos exclusivos e/ou em proporção significativamente diferente das plantas suscetíveis.

Para os compostos exclusivos, é tranquilo, pois, se o Z está presente somente no resistente, é muito possível que ele tenha influência sobre a resistência. 

O problema são aqueles que aparecem tanto no resistente quanto no suscetível em proporção diferente.

Outra questão que pode acontecer é a interação entre compostos. Ou seja, dois ou mais compostos explicarem o efeito de resistência ou suscetibilidade. Neste caso, um composto pode agir como facilitador para a ação de outro, que seria o composto tóxico. Logo, sem o primeiro, o composto tóxico, sozinho, não teria efeito. 

Pensei em usar abordagem genômica, tratando cada composto como um gene. Não deu certo. Resultado estatístico não explica o biológico. Outra opção seria pensar na análise de QTLs. Não tentei essa. 

Mas, lendo trabalhos na área médica, vi que alguns utilizam vários sintomas para explicar a doença. Por exemplo, associam faixas de valores de hemoglobina, ácido úrico e proteína X para explicar a ocorrência de determinado câncer. 

Pergunto: você já viu ou já fez análises estatísticas no R para esse último caso? Explicar a doença com base em um roll de sintomas? Qual pacote usou? Poderia sugerir alguma literatura? Tutorial? Site? 

Muito obrigado 

Marcelo
_______________________________________________
R-br mailing list
R-br@listas.c3sl.ufpr.br
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.