Regresión Logística con Variable de Respuesta Ordinal

Bryan Martinez & Daniel Delgado

9/10/2020

Introducción

Los modelos de regresión contribuyen a la interpretación de los fenómenos a través de funciones matemáticas, sin embrago la interpretación de estos se dificulta cuando la variable de respuesta es categórica ordenada.

Por lo tanto, El propósito de la metodología de un modelo Logit con variable de respuesta ordinal es modelar la probabilidad acumulada asociada a cada categoría menor o igual a la categoría estudiada, dependiendo de los valores de las variables explicativas, que pueden ser categóricas o numéricas (Agresti 2003)

Modelo Logístico con Variable de Respuesta Ordinal

Modelo de Odds Proporcionales

La regresión logística con respuesta ordinal también conocida como modelos Logit acumulativos o Modelos de Odds Proporcionales, son aquellos cuya respuesta tiene una jerarquía.

Generalmente, si una variable respuesta ordinal D tiene G categorıas (D = 0, 1, 2, …, \(G − 1\)), entonces hay \(G-1\) formas de dicotomizar la respuesta.

Dicotomizacion, Fuente (Arias Benı́tez 2018)

Presentación del Modelo

En este caso se presenta el modelo referente cuando se tiene una sola variable explicativa \(x_{1}\).

\(P(D\geq g\mid x_{1}) = \frac{1}{1 + exp(-(\alpha_{g} + \beta_{1}x_{1}))}\)

\(P(D< g\mid x_{1}) = \frac{exp(-(\alpha_{g} + \beta_{1}x_{1}))}{1 + exp(-(\alpha_{g} + \beta_{1}x_{1}))}\)

con \(g= 1,2,..,G-1\)

Presentación general del Modelo

En general podemos decir que el modelo viene dado por la expresion:

\(logit[P(D\leq g \mid X_{1})] = \alpha_{g} + \hat{\beta_{1}}x_{1}\)

Finalmente, se muestra la comparación del modelo ordinal con el polinómico:

Modelo Dicotómico y Polinómico, Fuente (Arias Benı́tez 2018)

Odds Ratio

Siguiendo con la idea de la presentación del modelo se asume que la variable \(x_{1}\) es dicotómica y toma los valores ( 0 y 1), por lo tanto el Odd Ratio esta dado por:

\(OR(D\geq g\mid x_{1})= \frac{Odds(D\geq g \mid x_{1}=1)}{Odds(D\geq g \mid x_{1}=0)} = \frac{exp^{(\alpha^{g}+\beta_{1})}}{exp^{(\alpha_{g})}} = exp^{(\beta_{1})}\)

Contraste de Hipótesis.

Análogamente con el modelo lineal generalizado, se puede realizar la prueba wald para resolver el contraste de hipótesis.

Con su respectivo estadístico de contraste:

\(\frac{\hat{\beta_{k}}}{\sqrt{\hat{F}^{-1}_{k,k}}} \sim N(0,1)\)

Intervalos de Confianza

El calculo del intervalo de confianza para esta clase de regresión es equivalente a realizado de forma general para el modelo logit. Es decir, que el intervalo de confianza para cualquier nivel de la variable \(x_{1}\) esta dado por:

\(IC95\%= epx[\hat{\beta_{1}}*x_{1}\pm 1.96*x_{1}* s_{\hat{\beta_{1}}}]\)

Ejemplo aplicado

Del libro de (Agresti 2015) se extrae los datos de un estudio de salud mental para una muestra eleatoria de adultos residentes del condado de Alachua, Florida. Donde se pretendia estudiar el deterioro mental categorizado como: 1=bueno, 2=formación leve de síntomas, 3=formación moderada de síntomas y 4=deteriorado a partir de dos covariables como lo son la cantidad de sucesos vitales y el estado socioeconómico donde esta variables es binaria denominada como 1=alto y 0=bajo.

Aplicación del modelo en R

library(VGAM) #Libreria necesaria para la estimación del modelo. 
## Loading required package: stats4
## Loading required package: splines
library(readxl);library(citr)
enfmental <- read_excel("C:/Users/57322/Desktop/modelo/enfmental.xlsx")
attach(enfmental)
modelo=vglm(factor(discapacidad) ~ factor(status) + eventos, 
             data = enfmental, family =cumulative(parallel = TRUE))
## Warning in eval(slot(family, "initialize")): response should be ordinal---see
## ordered()

Resumen

summary(modelo)
## 
## Call:
## vglm(formula = factor(discapacidad) ~ factor(status) + eventos, 
##     family = cumulative(parallel = TRUE), data = enfmental)
## 
## Pearson residuals:
##                       Min      1Q  Median     3Q   Max
## logitlink(P[Y<=1]) -1.568 -0.7048 -0.2102 0.8070 2.713
## logitlink(P[Y<=2]) -2.328 -0.4666  0.2657 0.6904 1.615
## logitlink(P[Y<=3]) -3.688  0.1198  0.2039 0.4194 1.892
## 
## Coefficients: 
##                 Estimate Std. Error z value Pr(>|z|)   
## (Intercept):1    -0.2819     0.6231  -0.452  0.65096   
## (Intercept):2     1.2128     0.6511   1.863  0.06251 . 
## (Intercept):3     2.2094     0.7171   3.081  0.00206 **
## factor(status)1   1.1112     0.6143   1.809  0.07045 . 
## eventos          -0.3189     0.1194  -2.670  0.00759 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Names of linear predictors: logitlink(P[Y<=1]), logitlink(P[Y<=2]), 
## logitlink(P[Y<=3])
## 
## Residual deviance: 99.0979 on 115 degrees of freedom
## 
## Log-likelihood: -49.5489 on 115 degrees of freedom
## 
## Number of Fisher scoring iterations: 5 
## 
## No Hauck-Donner effect found in any of the estimates
## 
## 
## Exponentiated coefficients:
## factor(status)1         eventos 
##       3.0380707       0.7269742

Odds Ratios

Para evaluar el efecto de la variable Estatus respecto al deterioro mental se propone usar el Odds Ratio, que como se menciono anteriormente viene dado por:

\(OR(D\geq g\mid x_{Estatus})=e^{\beta_{1}}=e^{1.111}=3.03\)

Dada una cantidad de eventos de vida para un individuo con estado socieconomico alto las probabilidades estimadas de sufrir un deterioro mental en un estado leve son 3 veces mayores a las de un individuo con estado socieconomico bajo.

Iterpretación de los resultados.

Calculo de Probabilidaes de Respuesta Considerando el Estado Socieconomico

Para un Estado Socieconomico bajo se tiene la siguiente probabilidad:

-\(P(Y=1)= P(Y\leq 1)= \frac{exp[-0.282 - 0.319*(4.274) ]}{1 + exp[-0.282 - 0.319*(4.274) ]} = 0.16\)

Para un Estado Socieconomico alto se tiene la siguiente probabilidad:

-\(P(Y=1)= P(Y\leq 1)= \frac{exp[-0.282 - 0.319*(4.274) + 1.11 ]}{1 + exp[-0.282 - 0.319*(4.274) + 1.11]} = 0.37\)

El caso es analogo para las siguientes probabilidades

Estimación de la probabilidad de que cada individuo estudiado tome las diferentes categorias de la variable respuesta.

fitted(modelo)
##             1         2          3          4
## 1  0.62491696 0.2564211 0.07131461 0.04734732
## 2  0.11502166 0.2518290 0.24398492 0.38916438
## 3  0.39028333 0.3502169 0.14495617 0.11454363
## 4  0.46822857 0.3287367 0.11707622 0.08595848
## 5  0.28503623 0.3548973 0.18808559 0.17198084
## 6  0.69621443 0.2146331 0.05428144 0.03487106
## 7  0.35417182 0.3555308 0.15911192 0.13118548
## 8  0.46822857 0.3287367 0.11707622 0.08595848
## 9  0.46822857 0.3287367 0.11707622 0.08595848
## 10 0.19738576 0.3255923 0.22513134 0.25189056
## 11 0.35417182 0.3555308 0.15911192 0.13118548
## 12 0.28503623 0.3548973 0.18808559 0.17198084
## 13 0.31756480 0.3571759 0.17419568 0.15106363
## 14 0.10019384 0.2315339 0.24178466 0.42648762
## 15 0.46822857 0.3287367 0.11707622 0.08595848
## 16 0.35417182 0.3555308 0.15911192 0.13118548
## 17 0.15166796 0.2918524 0.23993358 0.31654610
## 18 0.54775576 0.2959810 0.09227184 0.06399141
## 19 0.13282500 0.2729361 0.24333321 0.35090571
## 20 0.31756480 0.3571759 0.17419568 0.15106363
## 21 0.11502166 0.2518290 0.24398492 0.38916438
## 22 0.22470070 0.3390041 0.21407748 0.22221773
## 23 0.46822857 0.3287367 0.11707622 0.08595848
## 24 0.62491696 0.2564211 0.07131461 0.04734732
## 25 0.42999120 0.3408036 0.13029406 0.09891116
## 26 0.39028333 0.3502169 0.14495617 0.11454363
## 27 0.22470070 0.3390041 0.21407748 0.22221773
## 28 0.04102571 0.1191429 0.18048190 0.65934948
## 29 0.25277814 0.3485115 0.20206888 0.19664149
## 30 0.17402808 0.3103139 0.23352889 0.28212916
## 31 0.22470070 0.3390041 0.21407748 0.22221773
## 32 0.15166796 0.2918524 0.23993358 0.31654610
## 33 0.54775576 0.2959810 0.09227184 0.06399141
## 34 0.19738576 0.3255923 0.22513134 0.25189056
## 35 0.13282500 0.2729361 0.24333321 0.35090571
## 36 0.17402808 0.3103139 0.23352889 0.28212916
## 37 0.17402808 0.3103139 0.23352889 0.28212916
## 38 0.15166796 0.2918524 0.23993358 0.31654610
## 39 0.05557719 0.1522439 0.20761621 0.58456270
## 40 0.04102571 0.1191429 0.18048190 0.65934948

Intervalos de Cofianza del \(95\%\)

\(IC95\%: exp[1.11 \pm 1.96 * (0.614)]= (0.91, 10.1)\)

\(IC95\%: epx[-0.3189 \pm 1.96 * (0.1194)]= (0.57, 0.9186)\)

Al ser las dos variables significativas ¿Por qué no ver que tan relevante puede ser una iteracción estre estas dos variables?

modelo2=vglm(factor(discapacidad) ~ factor(status) + eventos + factor(status)*eventos, data = enfmental ,  family = cumulative(parallel = TRUE))
## Warning in eval(slot(family, "initialize")): response should be ordinal---see
## ordered()
summary(modelo2)
## 
## Call:
## vglm(formula = factor(discapacidad) ~ factor(status) + eventos + 
##     factor(status) * eventos, family = cumulative(parallel = TRUE), 
##     data = enfmental)
## 
## Pearson residuals:
##                       Min      1Q  Median     3Q   Max
## logitlink(P[Y<=1]) -1.393 -0.7139 -0.2172 0.9084 2.262
## logitlink(P[Y<=2]) -2.758 -0.4862  0.2781 0.7218 1.797
## logitlink(P[Y<=3]) -3.364  0.1347  0.2062 0.3795 2.344
## 
## Coefficients: 
##                         Estimate Std. Error z value Pr(>|z|)   
## (Intercept):1            0.09807    0.81102   0.121  0.90375   
## (Intercept):2            1.59248    0.83717   1.902  0.05714 . 
## (Intercept):3            2.60660    0.90966   2.865  0.00416 **
## factor(status)1          0.37090    1.13022   0.328  0.74279   
## eventos                 -0.42045    0.19031  -2.209  0.02715 * 
## factor(status)1:eventos  0.18131    0.23611   0.768  0.44255   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Names of linear predictors: logitlink(P[Y<=1]), logitlink(P[Y<=2]), 
## logitlink(P[Y<=3])
## 
## Residual deviance: 98.5044 on 114 degrees of freedom
## 
## Log-likelihood: -49.2522 on 114 degrees of freedom
## 
## Number of Fisher scoring iterations: 5 
## 
## No Hauck-Donner effect found in any of the estimates
## 
## 
## Exponentiated coefficients:
##         factor(status)1                 eventos factor(status)1:eventos 
##               1.4490350               0.6567529               1.1987822

Interpretación de resultados.

Comparacion de modelos

 1 - pchisq(2*(logLik(modelo2)-logLik(modelo)), df=df.residual(modelo)-df.residual(modelo2))
## [1] 0.4410848

Como se evidencia anteriormente, el valor-p es \(0.4410\) que hace que el modelo con iteracción no sea significativa.

Bibliografia

Agresti, Alan. 2003. Categorical Data Analysis. Vol. 482. John Wiley & Sons.

———. 2015. Foundations of Linear and Generalized Linear Models. John Wiley & Sons.

Arias Benı́tez, Miguel. 2018. “Regresión Ordinal Y Sus Aplicaciones.”