Bryan Martinez & Daniel Delgado
9/10/2020
Los modelos de regresión contribuyen a la interpretación de los fenómenos a través de funciones matemáticas, sin embrago la interpretación de estos se dificulta cuando la variable de respuesta es categórica ordenada.
Por lo tanto, El propósito de la metodología de un modelo Logit con variable de respuesta ordinal es modelar la probabilidad acumulada asociada a cada categoría menor o igual a la categoría estudiada, dependiendo de los valores de las variables explicativas, que pueden ser categóricas o numéricas (Agresti 2003)
La regresión logística con respuesta ordinal también conocida como modelos Logit acumulativos o Modelos de Odds Proporcionales, son aquellos cuya respuesta tiene una jerarquía.
Generalmente, si una variable respuesta ordinal D tiene G categorıas (D = 0, 1, 2, …, \(G − 1\)), entonces hay \(G-1\) formas de dicotomizar la respuesta.
Dicotomizacion, Fuente (Arias Benı́tez 2018)
En este caso se presenta el modelo referente cuando se tiene una sola variable explicativa \(x_{1}\).
\(P(D\geq g\mid x_{1}) = \frac{1}{1 + exp(-(\alpha_{g} + \beta_{1}x_{1}))}\)
\(P(D< g\mid x_{1}) = \frac{exp(-(\alpha_{g} + \beta_{1}x_{1}))}{1 + exp(-(\alpha_{g} + \beta_{1}x_{1}))}\)
con \(g= 1,2,..,G-1\)
En general podemos decir que el modelo viene dado por la expresion:
\(logit[P(D\leq g \mid X_{1})] = \alpha_{g} + \hat{\beta_{1}}x_{1}\)
Finalmente, se muestra la comparación del modelo ordinal con el polinómico:
Modelo Dicotómico y Polinómico, Fuente (Arias Benı́tez 2018)
Siguiendo con la idea de la presentación del modelo se asume que la variable \(x_{1}\) es dicotómica y toma los valores ( 0 y 1), por lo tanto el Odd Ratio esta dado por:
\(OR(D\geq g\mid x_{1})= \frac{Odds(D\geq g \mid x_{1}=1)}{Odds(D\geq g \mid x_{1}=0)} = \frac{exp^{(\alpha^{g}+\beta_{1})}}{exp^{(\alpha_{g})}} = exp^{(\beta_{1})}\)
Análogamente con el modelo lineal generalizado, se puede realizar la prueba wald para resolver el contraste de hipótesis.
Con su respectivo estadístico de contraste:
\(\frac{\hat{\beta_{k}}}{\sqrt{\hat{F}^{-1}_{k,k}}} \sim N(0,1)\)
El calculo del intervalo de confianza para esta clase de regresión es equivalente a realizado de forma general para el modelo logit. Es decir, que el intervalo de confianza para cualquier nivel de la variable \(x_{1}\) esta dado por:
\(IC95\%= epx[\hat{\beta_{1}}*x_{1}\pm 1.96*x_{1}* s_{\hat{\beta_{1}}}]\)
Del libro de (Agresti 2015) se extrae los datos de un estudio de salud mental para una muestra eleatoria de adultos residentes del condado de Alachua, Florida. Donde se pretendia estudiar el deterioro mental categorizado como: 1=bueno, 2=formación leve de síntomas, 3=formación moderada de síntomas y 4=deteriorado a partir de dos covariables como lo son la cantidad de sucesos vitales y el estado socioeconómico donde esta variables es binaria denominada como 1=alto y 0=bajo.
## Loading required package: stats4
## Loading required package: splines
library(readxl);library(citr)
enfmental <- read_excel("C:/Users/57322/Desktop/modelo/enfmental.xlsx")
attach(enfmental)
modelo=vglm(factor(discapacidad) ~ factor(status) + eventos,
data = enfmental, family =cumulative(parallel = TRUE))## Warning in eval(slot(family, "initialize")): response should be ordinal---see
## ordered()
##
## Call:
## vglm(formula = factor(discapacidad) ~ factor(status) + eventos,
## family = cumulative(parallel = TRUE), data = enfmental)
##
## Pearson residuals:
## Min 1Q Median 3Q Max
## logitlink(P[Y<=1]) -1.568 -0.7048 -0.2102 0.8070 2.713
## logitlink(P[Y<=2]) -2.328 -0.4666 0.2657 0.6904 1.615
## logitlink(P[Y<=3]) -3.688 0.1198 0.2039 0.4194 1.892
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept):1 -0.2819 0.6231 -0.452 0.65096
## (Intercept):2 1.2128 0.6511 1.863 0.06251 .
## (Intercept):3 2.2094 0.7171 3.081 0.00206 **
## factor(status)1 1.1112 0.6143 1.809 0.07045 .
## eventos -0.3189 0.1194 -2.670 0.00759 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Names of linear predictors: logitlink(P[Y<=1]), logitlink(P[Y<=2]),
## logitlink(P[Y<=3])
##
## Residual deviance: 99.0979 on 115 degrees of freedom
##
## Log-likelihood: -49.5489 on 115 degrees of freedom
##
## Number of Fisher scoring iterations: 5
##
## No Hauck-Donner effect found in any of the estimates
##
##
## Exponentiated coefficients:
## factor(status)1 eventos
## 3.0380707 0.7269742
Para evaluar el efecto de la variable Estatus respecto al deterioro mental se propone usar el Odds Ratio, que como se menciono anteriormente viene dado por:
\(OR(D\geq g\mid x_{Estatus})=e^{\beta_{1}}=e^{1.111}=3.03\)
Dada una cantidad de eventos de vida para un individuo con estado socieconomico alto las probabilidades estimadas de sufrir un deterioro mental en un estado leve son 3 veces mayores a las de un individuo con estado socieconomico bajo.
Para un Estado Socieconomico bajo se tiene la siguiente probabilidad:
-\(P(Y=1)= P(Y\leq 1)= \frac{exp[-0.282 - 0.319*(4.274) ]}{1 + exp[-0.282 - 0.319*(4.274) ]} = 0.16\)
Para un Estado Socieconomico alto se tiene la siguiente probabilidad:
-\(P(Y=1)= P(Y\leq 1)= \frac{exp[-0.282 - 0.319*(4.274) + 1.11 ]}{1 + exp[-0.282 - 0.319*(4.274) + 1.11]} = 0.37\)
El caso es analogo para las siguientes probabilidades
## 1 2 3 4
## 1 0.62491696 0.2564211 0.07131461 0.04734732
## 2 0.11502166 0.2518290 0.24398492 0.38916438
## 3 0.39028333 0.3502169 0.14495617 0.11454363
## 4 0.46822857 0.3287367 0.11707622 0.08595848
## 5 0.28503623 0.3548973 0.18808559 0.17198084
## 6 0.69621443 0.2146331 0.05428144 0.03487106
## 7 0.35417182 0.3555308 0.15911192 0.13118548
## 8 0.46822857 0.3287367 0.11707622 0.08595848
## 9 0.46822857 0.3287367 0.11707622 0.08595848
## 10 0.19738576 0.3255923 0.22513134 0.25189056
## 11 0.35417182 0.3555308 0.15911192 0.13118548
## 12 0.28503623 0.3548973 0.18808559 0.17198084
## 13 0.31756480 0.3571759 0.17419568 0.15106363
## 14 0.10019384 0.2315339 0.24178466 0.42648762
## 15 0.46822857 0.3287367 0.11707622 0.08595848
## 16 0.35417182 0.3555308 0.15911192 0.13118548
## 17 0.15166796 0.2918524 0.23993358 0.31654610
## 18 0.54775576 0.2959810 0.09227184 0.06399141
## 19 0.13282500 0.2729361 0.24333321 0.35090571
## 20 0.31756480 0.3571759 0.17419568 0.15106363
## 21 0.11502166 0.2518290 0.24398492 0.38916438
## 22 0.22470070 0.3390041 0.21407748 0.22221773
## 23 0.46822857 0.3287367 0.11707622 0.08595848
## 24 0.62491696 0.2564211 0.07131461 0.04734732
## 25 0.42999120 0.3408036 0.13029406 0.09891116
## 26 0.39028333 0.3502169 0.14495617 0.11454363
## 27 0.22470070 0.3390041 0.21407748 0.22221773
## 28 0.04102571 0.1191429 0.18048190 0.65934948
## 29 0.25277814 0.3485115 0.20206888 0.19664149
## 30 0.17402808 0.3103139 0.23352889 0.28212916
## 31 0.22470070 0.3390041 0.21407748 0.22221773
## 32 0.15166796 0.2918524 0.23993358 0.31654610
## 33 0.54775576 0.2959810 0.09227184 0.06399141
## 34 0.19738576 0.3255923 0.22513134 0.25189056
## 35 0.13282500 0.2729361 0.24333321 0.35090571
## 36 0.17402808 0.3103139 0.23352889 0.28212916
## 37 0.17402808 0.3103139 0.23352889 0.28212916
## 38 0.15166796 0.2918524 0.23993358 0.31654610
## 39 0.05557719 0.1522439 0.20761621 0.58456270
## 40 0.04102571 0.1191429 0.18048190 0.65934948
\(IC95\%: exp[1.11 \pm 1.96 * (0.614)]= (0.91, 10.1)\)
\(IC95\%: epx[-0.3189 \pm 1.96 * (0.1194)]= (0.57, 0.9186)\)
modelo2=vglm(factor(discapacidad) ~ factor(status) + eventos + factor(status)*eventos, data = enfmental , family = cumulative(parallel = TRUE))## Warning in eval(slot(family, "initialize")): response should be ordinal---see
## ordered()
##
## Call:
## vglm(formula = factor(discapacidad) ~ factor(status) + eventos +
## factor(status) * eventos, family = cumulative(parallel = TRUE),
## data = enfmental)
##
## Pearson residuals:
## Min 1Q Median 3Q Max
## logitlink(P[Y<=1]) -1.393 -0.7139 -0.2172 0.9084 2.262
## logitlink(P[Y<=2]) -2.758 -0.4862 0.2781 0.7218 1.797
## logitlink(P[Y<=3]) -3.364 0.1347 0.2062 0.3795 2.344
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept):1 0.09807 0.81102 0.121 0.90375
## (Intercept):2 1.59248 0.83717 1.902 0.05714 .
## (Intercept):3 2.60660 0.90966 2.865 0.00416 **
## factor(status)1 0.37090 1.13022 0.328 0.74279
## eventos -0.42045 0.19031 -2.209 0.02715 *
## factor(status)1:eventos 0.18131 0.23611 0.768 0.44255
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Names of linear predictors: logitlink(P[Y<=1]), logitlink(P[Y<=2]),
## logitlink(P[Y<=3])
##
## Residual deviance: 98.5044 on 114 degrees of freedom
##
## Log-likelihood: -49.2522 on 114 degrees of freedom
##
## Number of Fisher scoring iterations: 5
##
## No Hauck-Donner effect found in any of the estimates
##
##
## Exponentiated coefficients:
## factor(status)1 eventos factor(status)1:eventos
## 1.4490350 0.6567529 1.1987822
## [1] 0.4410848
Como se evidencia anteriormente, el valor-p es \(0.4410\) que hace que el modelo con iteracción no sea significativa.
Agresti, Alan. 2003. Categorical Data Analysis. Vol. 482. John Wiley & Sons.
———. 2015. Foundations of Linear and Generalized Linear Models. John Wiley & Sons.
Arias Benı́tez, Miguel. 2018. “Regresión Ordinal Y Sus Aplicaciones.”