MODELO DE REGRESIÓN REGRESIÓN LOGISTICA BINARIA

Aplicación1

Se tiene un estudio para analizar la relación entre el virus de la Hepatitis B y la cirrosis hepática, a partir de un diseño de casos y control Los resultados de una muestra de 400 pacientes se presenta en la tabla .

Tipo Cirrosis Controles Totales
HepatitisB(+) 51 9 60
HepatitisB(-) 149 191 340
Totales 200 200 400

Ajuste los datos a una regresión logística binaria con función de enlace logit

  1. Formule el MLG de la regresión logística binaria.

  2. Halle e interprete los coeficientes de regresión estimados

3.Pruebe la significación del modelo y analice las medidas de bondad de ajuste.

4.Pruebe la significación de los coeficientes de regresión. Use un α = 0.05.

5.Halle e interprete los Odds y Odds Ratios (OR).

6.Halle un intervalo confianza del 95% para los coeficientes y OR.

7.Utilizando el modelo estimado determine lo siguiente:

7.1 Halle la probabilidad de que un paciente tenga cirrosis, sabiendo que ha tenido hepatitis B.

7.2 ¿Cuál es más probable que un paciente tenga cirrosis, debido a que ha tenido hepatitis B o no la ha tenido?.

8.Ajuste los datos a un modelo de regresión con función de enlace Probit

1. Formule el MLG de la regresión logística binaria.

Variable respuesta: Y = Grupo paciente (1=Cirrosis, 0=No cirrosis)

             π=P(Y= 1)= P(paciente con Cirrosis)
                 

Variables explicativas: X=Hepatitis (1=(+), 0=(-))

Componentes del MLG:

  1. Componente aleatorio: \(Y~Binomial(n,π)\)

b.Componente sistemático \(ni=X'β=β0+β1X1\)

c.Función de enlace \(Logit:Logístico\)

Modelo Logistico

\(P(Y=1)=π=exp(β0+β1X1)/(1+exp(β0+β1X1))\)

Modelo Logit \(logit(P(Y=1))=logit(πi)=log(πi/(1-πi))=β0+β1X1\)

2. Halle e interprete los coeficientes de regresión estimados .

Tipo Cirrosis1 |Controles 0 Totales
HepatitisB(+) 51 9 60
HepatitisB(-) 149 191 340
Totales 200 200 400

Variable respuesta: Y = Grupo paciente (1=Cirrosis, 0=No cirrosis)

             π=P(Y= 1)= P(paciente con Cirrosis)
                 

Variables explicativas: X=Hepatitis (1=(+), 0=(-))

# Entrada de datos
Datos1<-data.frame(cirro=c(1,1,0,0) 
                   ,hepa=c(1,0,1,0), 
                   n=c(51,149,9,191))
Datos1
##   cirro hepa   n
## 1     1    1  51
## 2     1    0 149
## 3     0    1   9
## 4     0    0 191
attach(Datos1)
# Estimaci?n de los coeficientes de regresión
Modelo1<-glm(cirro~hepa,weight=n,family=binomial(link = logit),data=Datos1)
# para indicarle que estamos en una tabla de frecuencia y no con 2 columnas.
summary(Modelo1)
## 
## Call:
## glm(formula = cirro ~ hepa, family = binomial(link = logit), 
##     data = Datos1, weights = n)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  -0.2483     0.1093  -2.272   0.0231 *  
## hepa          1.9829     0.3777   5.250 1.52e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 554.52  on 3  degrees of freedom
## Residual deviance: 516.86  on 2  degrees of freedom
## AIC: 520.86
## 
## Number of Fisher Scoring iterations: 5

MODELO LOGISTICO ESTIMADO :

\(P(Y=1)=πi=exp(β0+β1X1)/(1+exp(β0+β1X1))\)

\(P(Y=1)=πi=exp(-0.2483 +1.9829*X1)/(1+exp(-0.2483 +1.9829*X1))\)

Modelo Logit \(logit(P(Y=1))=logit(\hat{π_{i}})=log(\hat{π_{i}}/(1-\hat{π_{i}}))=\hat{β_{0}}+\hat{β_{1}}X1\)

\(logit(P(Y=1))=logit(\hat{π_{i}})=log(\hat{π_{i}}/(1-\hat{π_{i}}))=-0.2483+1.9829*X1\)

Interpretación de los coeficientes:

La probabilidad que tenga cirrosis un paciente disminuye, cuando no ha tenido hepatitis B (X=0).

Variable respuesta: Y = Grupo paciente (1=Cirrosis, 0=No cirrosis)

             π=P(Y= 1)= P(paciente con Cirrosis)
                 

Variables explicativas: X=Hepatitis (1=(+), 0=(-))

\(\hat{β_{0}}=-0.2483\) La probabilidad que tenga cirrosis un paciente disminuye, cuando no ha tenido hepatitis B (X1=0).

\(\hat{β_{1}}=-0.2483\) La probabilidad que tenga cirrosis un paciente aumenta, cuando haya tenido hepatitis B (X1=1) que cuando no la ha tenido (X=0).

3.Pruebe la prueba bondad de ajuste y significación de los coeficientes .Use un nivel de significancia de nivel de significacia de 0.05

summary(Modelo1)$deviance
## [1] 516.8637
summary(Modelo1)$null.deviance
## [1] 554.5177
summary(Modelo1)$aic
## [1] 520.8637

Formulación de hipótesis

Ho :El Modelo de regresión logístico se ajusta a los datos

H1 :El Modelo de regresión logístico No se ajusta a los datos

Prueba estadística

Formulación de hipótesis

Ho: El Modelo de regresión logístico se ajusta a los datos

H1: El Modelo de regresión logístico No se ajusta a los datos

Prueba estadística

# Prueba de significación del modelo de regresión

Alfa=0.05
Chi_Tab <- qchisq(1- Alfa,Modelo1$df.residual); Chi_Tab
## [1] 5.991465
p_valor <- 1-pchisq(Modelo1$deviance,Modelo1$df.residual); p_valor
## [1] 0
D <- summary(Modelo1)$deviance
D<Chi_Tab #( No se rechaza )
## [1] FALSE

Como : \(D =chi^2=516.86>chi^2(0.05,2)=qchisq(0.95,2)=5.991\) Se rechaza H0

Como : \(p-valor =1- pchisq(516.86,2)=0<alfa=0.05\) . Se rechaza H0

Conclusión

Con un nivel de significación de 0 05 el modelo de la regresión logístico binario no se ajusta a los datos

#Cálculo del coeficiente de determinación (Pseudo R2)
R2= (1-Modelo1$deviance/Modelo1$null.deviance)*100; R2
## [1] 6.79042

Interpretación. El modelo de regresión logístico binario ajustado, explica un 6.8% para predecir un paciente con cirrosis en función de la hepatitis B.

4. Prueba de significación de los coeficientes de regresión

H0: Bi=0

H1: Bi≠0

b <- coef(Modelo1)
b
## (Intercept)        hepa 
##  -0.2483271   1.9829282
EE <- (summary(Modelo1)$coefficients)[,2]
EE
## (Intercept)        hepa 
##   0.1093024   0.3777111
Zc <- c()
for(i in 1:(length(b)-1)){
  Zc[i] <- (b[i+1]-0)/(EE[i+1])
}

Zc
## [1] 5.249854
qnorm(1 -0.05/2)<abs(Zc) # si es TRUE  se rechaza H0
## [1] TRUE

Conclusión.

Se rechaza H0 Con un nivel de significación de 0.05, X1, es significativa al modelo

Con un nivel de significación de 0.05, se puede afirmar, que la presencia hepatitis B permite explicar la existencia de cirrosis. La hepatitis B, es significativa la modelo.

5.Halle e interprete los Odds y Odds Ratios (OR).

# Cálculo de los Odds Ratios
b <- coef(Modelo1)
exp(b)
## (Intercept)        hepa 
##   0.7801047   7.2639821

\[OR_{Hepa} =e^{1.983}=7.2639821\]

El riego de tener cirrosis es 7.2639821 veces más probable para pacientes que tuvieron hepatitis B (X=1) que aquellos que no la tuvieron (X=0).

6.Halle un intervalo confianza del 95% para los coeficientes y OR.

EE
## (Intercept)        hepa 
##   0.1093024   0.3777111
# IC para los coeficientes y OR
NC=0.95
confint.default(Modelo1, level=NC)
##                  2.5 %      97.5 %
## (Intercept) -0.4625559 -0.03409838
## hepa         1.2426280  2.72322835

Para \(β_{1}: IC(β_{1})=b_{1}±Z_{1-\alpha/2}S_{b1}=1.983±1.96*0.377\)

Para \(OR: IC(e^{β_{1}})=e^{b_{1}±Z_{1-\alpha/2}S_{b1}}=e^{1.983±1.96*0.377}\)

7. Utilizando el modelo estimado determine lo siguiente:

# Estimación de valores predecidos (Probabilidades)
Xo=c(1,1)
P_Xo=sum(Xo*coef(Modelo1))
P1=1/(1+exp(-(P_Xo))); P1
## [1] 0.85
# la prb. es 0.85
Xo=c(1,0) #el primer uno siempre va ser del b0
P_Xo=sum(Xo*coef(Modelo1))
P2=1/(1+exp(-(P_Xo))); P2
## [1] 0.4382353
# 0.4382353 Es mas probable que tenga Hepatitis B

7.1 Halle la probabilidad de que un paciente tenga cirrosis, sabiendo ue ha tenido hepatitis B.

Modelo logístico estimado

\(P(Y=1)=πi=exp(β0+β1X1)/(1+exp(β0+β1X1))\)

\(P(Y=1)=πi=exp(-0.2483 +1.9829*X1)/(1+exp(-0.2483 +1.9829*X1))\)

7.2 ¿Cuál es más probable que un paciente tenga cirrosis, debido a que ha tenido hepatitis B o no la ha tenido?.

\(P(Y=1/X=1)=πi=\frac{exp(-0.2483 +1.9829*(1))}{(1+exp(-0.2483 +1.9829*(1))}=0.850\)

\(P(Y=1/X=0)=πi=\frac{exp(-0.2483 +1.9829*(0))}{(1+exp(-0.2483 +1.9829*(0))}=0.4382353\) ->Que tenga hepatitis B.

8. Modelo estimado con la regresión binaria Probit:

Modelo binario Probit: P(Y=1/X)=P(Cirrosis/HepaB) = π=ϕ(β0+β1X1)

# Entrada de datos
Datos1<-data.frame(cirro=c(1,1,0,0),hepa=c(1,0,1,0),n=c(51,149,9,191))
Datos1
##   cirro hepa   n
## 1     1    1  51
## 2     1    0 149
## 3     0    1   9
## 4     0    0 191
# Estimación de los coeficientes de regresi?n
Modelo1_1<-glm(cirro~hepa,weight=n,family=binomial(link=probit),data=Datos1) #probit
summary(Modelo1_1)
## 
## Call:
## glm(formula = cirro ~ hepa, family = binomial(link = probit), 
##     data = Datos1, weights = n)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -0.15544    0.06827  -2.277   0.0228 *  
## hepa         1.19188    0.20916   5.698 1.21e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 554.52  on 3  degrees of freedom
## Residual deviance: 516.86  on 2  degrees of freedom
## AIC: 520.86
## 
## Number of Fisher Scoring iterations: 4
coef(Modelo1_1)
## (Intercept)        hepa 
##  -0.1554449   1.1918783
# Estimación de valores predecidos
Xo=c(1,1); P_Xo=sum(Xo*coef(Modelo1_1))
P1=pnorm(P_Xo); P1
## [1] 0.85
Xo=c(1,0); P_Xo=sum(Xo*coef(Modelo1_1))
P2=pnorm(P_Xo); P2
## [1] 0.4382353

MODELO PROBIT ESTIMADO

\(P(Y=1)=P(Cirrosis)=\hat{π}=ϕ(β0+β1X1)\)

\(P(Y=1)=P(Cirrosis)=\hat{π}=ϕ(-0.1554449+1.1918783X1)\)

8.Ajuste los datos a un modelo de regresión con función de enlace Probit

\(P(Y=1/X=1)=P(Cirrosis/HepaB=1))=\hat{π}=ϕ(-0.1554449+1.1918783(1))=ϕ(-0.155)=0.851\)

\(P(Y=1/X=0)=P(Cirrosis/HepaB=0))=\hat{π}=ϕ(-0.1554449+1.1918783(0))=ϕ(-0.155)=0.436\)

MODELO DE REGRESION LOGISTICO POLIATOMICO

Aplicación

En un estudio sobre la satisfacción de hombres y mujeres por la compra de carros Se avalúo la importancia del aire acondicionado y la potencia al momento de comprar un carro Los datos se presentan en la siguiente tabla .

Ajuste el conjunto de datos a un modelo de una logística nominal.

1. Formule el MLG logístico nominal.

2. Halle los modelos logísticos estimados e interprete sus coeficientes de regresión.

3. Halle e interprete los respectivos OR de los modelos logísticos

4. Halle los intervalos de confianza del 95% para los coeficientes de regresión y los OR.

5. Determine la significación del modelo logístico nominal.

6. Determine la significación de cada coeficiente de regresión.

7. Determine la medida de bondad de ajuste R2

8. Predecir los siguientes casos (calcular las probabilidades):

8.1 ¿Cuál es más probable que compre un carro un hombre o mujer cuyas edades son de 30 años, si consideran importante el AC?

8.2 Para una mujer de 22 años, ¿cuál es más probable que compre un carro debido a que considere importante o muy importante elAC?

8.3 Para un cliente de 45 años, ¿cuál es su preferencia más probable del AC al momento de comprar un carro?

9. Halle la tabla de valores predecidos o ajustados

1. Formule el MLG de la regresión logística nominal

Variable respuesta:

Y : Preferecia por aire acondicionado

1=Poco importante (categoria referencial)

2=Importante

3=Muy importante

Variables explicativas

X1=Sexo

0=Femenino (categoria referencial)

1=Masculino

x2= Edad 1

0= 18-23 años (categoria referencial)

1= 24-40 años

x3= Edad 2

0= 18-23 años (categoria referencial)

1= más de 40 años

MODELO LOGISTICO NOMINAL

\[π_{1}=P(Y=1/X_{1},X_{2},X_{3})=πi=\frac{1}{1+e^{β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3}}+e^{β_{03}+β_{13}X_{1}+β_{23}X_{2}+β_{33}X_{3}}}\]

\[π_{2}=P(Y=2/X_{1},X_{2},X_{3})=πi=\frac{e^{β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3}}}{1+e^{β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3}}+e^{β_{03}+β_{13}X_{1}+β_{23}X_{2}+β_{33}X_{3}}}\] \[π_{3}=P(Y=3/X_{1},X_{2},X_{3})=πi=\frac{e^{β_{03}+β_{13}X_{1}+β_{23}X_{2}+β_{33}X_{3}}}{1+e^{β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3}}+e^{β_{03}+β_{13}X_{1}+β_{23}X_{2}+β_{33}X_{3}}}\]

MODELO LOGIT

\[logit(π_{j})=\frac{π_{j}}{π_{1}}=β_{0j}+β_{1j}X_{1}+β_{2j}X_{2}+β_{3j}X_{3} , j=2,3\]

\[logit(π_{2})=log(\frac{π_{2}}{π_{1}})=β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3} \]

\[logit(Importante)=logit(π_{2})=log(\frac{π_{2}}{π_{1}})=β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3} \]

\[logit(Muy~Importante)=logit(π_{3})=log(\frac{π_{3}}{π_{1}})=β_{03}+β_{13}X_{1}+β_{23}X_{2}+β_{33}X_{3}\]

2. Halle e interprete los coeficientes de regresión estimados

library (nnet)
# Lectura de datos

Datos1 <- data.frame(Poco_Import =c(26,9,5,40,17,8),
                     Import =c(12,21,14,17,15,15),
                     Muy_Import =c(7,15,41,8,12,18),
                     Sexo= c(rep("F",3), rep ("M",3)),
                     Edad=rep(c("18-23","24-40","Mas40"),2))
str(Datos1)
## 'data.frame':    6 obs. of  5 variables:
##  $ Poco_Import: num  26 9 5 40 17 8
##  $ Import     : num  12 21 14 17 15 15
##  $ Muy_Import : num  7 15 41 8 12 18
##  $ Sexo       : chr  "F" "F" "F" "M" ...
##  $ Edad       : chr  "18-23" "24-40" "Mas40" "18-23" ...
Datos1
##   Poco_Import Import Muy_Import Sexo  Edad
## 1          26     12          7    F 18-23
## 2           9     21         15    F 24-40
## 3           5     14         41    F Mas40
## 4          40     17          8    M 18-23
## 5          17     15         12    M 24-40
## 6           8     15         18    M Mas40
# P2.Estimacíón de los coeficientes de regresión

Modelo1 <- multinom(cbind(Poco_Import,Import,Muy_Import)~Sexo+Edad,data =Datos1)
## # weights:  15 (8 variable)
## initial  value 329.583687 
## iter  10 value 290.490920
## final  value 290.351098 
## converged
summary (Modelo1)
## Call:
## multinom(formula = cbind(Poco_Import, Import, Muy_Import) ~ Sexo + 
##     Edad, data = Datos1)
## 
## Coefficients:
##            (Intercept)      SexoM Edad24-40 EdadMas40
## Import      -0.5907992 -0.3881301  1.128268  1.587709
## Muy_Import  -1.0390726 -0.8130202  1.478104  2.916757
## 
## Std. Errors:
##            (Intercept)     SexoM Edad24-40 EdadMas40
## Import       0.2839756 0.3005115 0.3416449 0.4028997
## Muy_Import   0.3305014 0.3210382 0.4009256 0.4229276
## 
## Residual Deviance: 580.7022 
## AIC: 596.7022

MODELO LOGISTICO NOMINAL

\[Poco~Importante=π_{1}=P(Y=1/X_{1},X_{2},X_{3})=πi=\frac{1}{1+e^{β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3}}+e^{β_{03}+β_{13}X_{1}+β_{23}X_{2}+β_{33}X_{3}}}\]

\[Importante =π_{2}=P(Y=2/X_{1},X_{2},X_{3})=πi=\frac{e^{β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3}}}{1+e^{β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3}}+e^{β_{03}+β_{13}X_{1}+β_{23}X_{2}+β_{33}X_{3}}}\]

\[Muy~Importante =π_{3}=P(Y=3/X_{1},X_{2},X_{3})=πi=\frac{e^{β_{03}+β_{13}X_{1}+β_{23}X_{2}+β_{33}X_{3}}}{1+e^{β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3}}+e^{β_{03}+β_{13}X_{1}+β_{23}X_{2}+β_{33}X_{3}}}\]

*Modelo logístico estimado:

\[Poco~Importante =π_{1}=P(Y=1/X_{1},X_{2},X_{3})=πi=\frac{1}{1+e^{-0.5907992-0.3881301 X_{1}+1.128268X_{2}+1.587709X_{3}}+e^{-1.0390726-0.8130202X_{1}+1.478104X_{2}+ 2.916757X_{3}}}\]

\[Importante =π_{2}=P(Y=2/X_{1},X_{2},X_{3})=πi=\frac{e^{-0.5907992-0.3881301 X_{1}+1.128268X_{2}+1.587709X_{3}}}{1+e^{-0.5907992-0.3881301 X_{1}+1.128268X_{2}+1.587709X_{3}}+e^{-1.0390726-0.8130202X_{1}+1.478104X_{2}+ 2.916757X_{3}}}\] \[Muy~Importante =π_{3}=P(Y=3/X_{1},X_{2},X_{3})=πi=\frac{e^{-1.0390726-0.8130202X_{1}+1.478104X_{2}+ 2.916757X_{3}}}{1+e^{-0.5907992-0.3881301 X_{1}+1.128268X_{2}+1.587709X_{3}}+e^{-1.0390726-0.8130202X_{1}+1.478104X_{2}+ 2.916757X_{3}}}\]

MODELO LOGIT ESTIMADO

\[logit(Importante)=logit(π_{2})=log(\frac{π_{2}}{π_{1}})=β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3} \]

\[logit(Muy~Importante)=logit(π_{3})=log(\frac{π_{3}}{π_{1}})=β_{03}+β_{13}X_{1}+β_{23}X_{2}+β_{33}X_{3}\]

*Modelo Logit estimado

\[logit(Importante)=logit(π_{2})=log(\frac{π_{2}}{π_{1}})=-0.5907992-0.3881301 X_{1}+1.128268X_{2}+1.587709X_{3} \]

\[logit(Muy~Importante)=logit(π_{3})=log(\frac{π_{3}}{π_{1}})=-1.0390726-0.8130202X_{1}+1.478104X_{2}+ 2.916757X_{3}\]

2. Halle e interprete los coeficientes de regresión estimados

Para Importante (Y=2):

\(\hat{β}_{12}=-0.3881301\)

La probabilidad de preferir comprar un carro debido a que es importante el aire acondicionado y su potencia, disminuye cuando el cliente es hombre que fuera mujer.

\(\hat{β}_{22}=1.128268\)

La probabilidad de preferir comprar un carro, debido a que es importante el aire acondicionado y su potencia, aumenta cuando la edad del cliente está en el rango de 24-40 años con respecto al rango de 18-23 años

\(\hat{β}_{32}=+1.587709\)

La probabilidad de preferir comprar un carro, debido a que es importante el aire acondicionado y su potencia, aumenta cuando la edad del cliente está en el rango de más de 40 años con respecto al rango de 18-23 años.

Para Muy importante (Y=3)

\(\hat{β}_{13}=-0.8130202\)

La probabilidad de preferir comprar un carro, debido a que es muy importante el aire acondicionado y su potencia, disminuye cuando el cliente es hombre que fuera mujer.

\(\hat{β}_{23}=1.478104\)

La probabilidad de preferir comprar un carro, debido a que es muy importante el aire acondicionado y su potencia, aumenta cuando la edad del cliente está en el rango de 24-40 años con respecto al rango de 18-23 años

\(\hat{β}_{33}= 2.916757\)

La probabilidad de preferir comprar un carro, debido a que es muy importante el aire acondicionado y su potencia, aumenta cuando la edad del cliente está en el rango de más de 40 años con respecto al rango de 18-23 años.

3. Halle e interprete los respectivos OR de los modelos logísticos

# P3. Cálculo de los OR
exp(coef(Modelo1))
##            (Intercept)     SexoM Edad24-40 EdadMas40
## Import       0.5538844 0.6783241  3.090300  4.892529
## Muy_Import   0.3537826 0.4435165  4.384626 18.481251

Para Importante (Y=2):

\(\hat{β}_{33}= 2.916757\) Es 0.678 veces menos probable que compre un carro un cliente hombre debido a que considera Importante el AC que una mujer