Correlação entre variáveis categoricas

Boa Tarde Pessoal Tenho um banco de dados com 9 variáveis categóricas binárias e 12 variáveis categóricas ordinais. Preciso saber se há correlação entre elas, preciso de um valor que diga se há uma correlação ou associação baixa, média ou alta. O objetivo é pré-processar um banco de dados antes de criar um grafo de rede (path analysis e rede bayesiana) e eliminar os relacionamentos de variáveis com baixa corrrelação para evitar conexões causais espurias. Lendo alguns materiais foi recomendado o seguinte: - Para variáveis categoricas x categoricas usar o qui-quadrado para determinar se elas são independentes ou não.Sendo o valor P considerado a medida de correlação - Calcular também o v de Crammer (quanto menor maior é a força da correlação) Alguuém pode me confirmar se esse é o melhor método ? Ou sugere outra coisa ? -- *In Jesu et Maria* *Obrigado* *Prof. Elias Carvalho* *"Felix, qui potuit rerum cognoscere causas" (Virgil 29 BC)"Blessed is he who has been able to understand the cause of things"*

Elias, Umas observações: - Ao você « ... e eliminar os relacionamentos de variáveis com baixa corrrelação para evitar conexões causais espurias. » vai deixar as com alta correlação *apenas* e aí ter "colinearidade" para as variáveis? - A recomendação: « Para variáveis categoricas x categoricas. . . Sendo o valor P considerado a medida de correlação » não é muito correta do ponto de vista teórico🤔 Qual material "recomenda isso"? Para ser assertivo seria necessário que você nos contasse mais sobre quem seria (uma binária ou categórica ordinal) a variável resposta. . . HTH -- Cesar Rabak 2017-11-10 15:17 GMT-02:00 Elias Carvalho via R-br <r-br@listas.c3sl.ufpr.br
:
Boa Tarde Pessoal
Tenho um banco de dados com 9 variáveis categóricas binárias e 12 variáveis categóricas ordinais.
Preciso saber se há correlação entre elas, preciso de um valor que diga se há uma correlação ou associação baixa, média ou alta.
O objetivo é pré-processar um banco de dados antes de criar um grafo de rede (path analysis e rede bayesiana) e eliminar os relacionamentos de variáveis com baixa corrrelação para evitar conexões causais espurias.
Lendo alguns materiais foi recomendado o seguinte:
- Para variáveis categoricas x categoricas usar o qui-quadrado para determinar se elas são independentes ou não.Sendo o valor P considerado a medida de correlação - Calcular também o v de Crammer (quanto menor maior é a força da correlação)
Alguuém pode me confirmar se esse é o melhor método ? Ou sugere outra coisa ?
--
*In Jesu et Maria* *Obrigado* *Prof. Elias Carvalho*
*"Felix, qui potuit rerum cognoscere causas" (Virgil 29 BC)"Blessed is he who has been able to understand the cause of things"*
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.

Ola Cesar, obrigado pelo retorno Respostas abaixo: Em 10 de novembro de 2017 16:10, Cesar Rabak <cesar.rabak@gmail.com> escreveu:
Elias,
Umas observações:
- Ao você « ... e eliminar os relacionamentos de variáveis com baixa corrrelação para evitar conexões causais espurias. » vai deixar as com alta correlação *apenas* e aí ter "colinearidade" para as variáveis?
A idéia é remover correlações extremamente baixas, algo como 0.01 para baixo. Eu tenho uma rotina que verificar e remover colinearidades, mas de dados numéricos por meio do VIF. Você conhece algo similar para verificar colinearidade em variáveis categóricas ?
- A recomendação: « Para variáveis categoricas x categoricas. . . Sendo o valor P considerado a medida de correlação » não é muito correta do ponto de vista teórico🤔 Qual material "recomenda isso"?
Eu vi tantos links que até não acho mais, mas foi no stackoverflow e stats.stackexchange.com
- Para ser assertivo seria necessário que você nos contasse mais sobre quem seria (uma binária ou categórica ordinal) a variável resposta.
Abaixo, uma amostra das variáveis, são no total 9 categóricas binárias e 12 categóricas ordinais sendo a de defecho é binaria.
Restaram 23.000 registros após remover respostas que não nos interessam como DON'T KNOW, REFUSAL, NOT STATED. *VARIÁVEL DE DESFECHO* *C121 - Has heart disease* *Content Code Sample * NO 0 4,429 YES 1 57,079 *G001 - In general, how would you say your health is now?* *Content Code Sample * EXCELLENT 1 11,328 VERY GOOD 2 23,290 GOOD 3 18,472 FAIR 4 6,287 POOR 5 2,204 *G008 - Have you worked at a job or business at any time in the past 12 months?* *Content Code Sample * NO 0 15,233 YES 1 35,675 *CCC_071 - Has high blood pressure* *Content Code Sample * NO 0 14,364 YES 1 47,086 *R002 - Does a long-term physical condition or mental condition or health problem, reduce the amount or the kind of activity at your home? * *Content Code Sample * SOMETIMES 1 9,189 OFTEN 2 5,939 NEVER 3 46,419
-
HTH -- Cesar Rabak
2017-11-10 15:17 GMT-02:00 Elias Carvalho via R-br < r-br@listas.c3sl.ufpr.br>:
Boa Tarde Pessoal
Tenho um banco de dados com 9 variáveis categóricas binárias e 12 variáveis categóricas ordinais.
Preciso saber se há correlação entre elas, preciso de um valor que diga se há uma correlação ou associação baixa, média ou alta.
O objetivo é pré-processar um banco de dados antes de criar um grafo de rede (path analysis e rede bayesiana) e eliminar os relacionamentos de variáveis com baixa corrrelação para evitar conexões causais espurias.
Lendo alguns materiais foi recomendado o seguinte:
- Para variáveis categoricas x categoricas usar o qui-quadrado para determinar se elas são independentes ou não.Sendo o valor P considerado a medida de correlação - Calcular também o v de Crammer (quanto menor maior é a força da correlação)
Alguuém pode me confirmar se esse é o melhor método ? Ou sugere outra coisa ?
--
*In Jesu et Maria* *Obrigado* *Prof. Elias Carvalho*
*"Felix, qui potuit rerum cognoscere causas" (Virgil 29 BC)"Blessed is he who has been able to understand the cause of things"*
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
-- *In Jesu et Maria* *Obrigado* *Prof. Elias Carvalho* *"Felix, qui potuit rerum cognoscere causas" (Virgil 29 BC)"Blessed is he who has been able to understand the cause of things"*
participantes (2)
-
Cesar Rabak
-
Elias Carvalho