Se tiene un estudio para analizar la relación entre el virus de la Hepatitis B y la cirrosis hepática, a partir de un diseño de casos y control Los resultados de una muestra de 400 pacientes se presenta en la tabla .
| Tipo | Cirrosis | Controles | Totales |
|---|---|---|---|
| HepatitisB(+) | 51 | 9 | 60 |
| HepatitisB(-) | 149 | 191 | 340 |
| Totales | 200 | 200 | 400 |
Ajuste los datos a una regresión logística binaria con función de enlace logit
Formule el MLG de la regresión logística binaria.
Halle e interprete los coeficientes de regresión estimados
3.Pruebe la significación del modelo y analice las medidas de bondad de ajuste.
4.Pruebe la significación de los coeficientes de regresión. Use un α = 0.05.
5.Halle e interprete los Odds y Odds Ratios (OR).
6.Halle un intervalo confianza del 95% para los coeficientes y OR.
7.Utilizando el modelo estimado determine lo siguiente:
7.1 Halle la probabilidad de que un paciente tenga cirrosis, sabiendo que ha tenido hepatitis B.
7.2 ¿Cuál es más probable que un paciente tenga cirrosis, debido a que ha tenido hepatitis B o no la ha tenido?.
8.Ajuste los datos a un modelo de regresión con función de enlace Probit
Variable respuesta: Y = Grupo paciente (1=Cirrosis, 0=No cirrosis)
π=P(Y= 1)= P(paciente con Cirrosis)
Variables explicativas: X=Hepatitis (1=(+), 0=(-))
Componentes del MLG:
b.Componente sistemático \(ni=X'β=β0+β1X1\)
c.Función de enlace \(Logit:Logístico\)
Modelo Logistico
\(P(Y=1)=π=exp(β0+β1X1)/(1+exp(β0+β1X1))\)
Modelo Logit \(logit(P(Y=1))=logit(πi)=log(πi/(1-πi))=β0+β1X1\)
| Tipo | Cirrosis1 |Controles 0 | Totales | |
|---|---|---|---|
| HepatitisB(+) | 51 | 9 | 60 |
| HepatitisB(-) | 149 | 191 | 340 |
| Totales | 200 | 200 | 400 |
Variable respuesta: Y = Grupo paciente (1=Cirrosis, 0=No cirrosis)
π=P(Y= 1)= P(paciente con Cirrosis)
Variables explicativas: X=Hepatitis (1=(+), 0=(-))
# Entrada de datos
Datos1<-data.frame(cirro=c(1,1,0,0)
,hepa=c(1,0,1,0),
n=c(51,149,9,191))
Datos1
## cirro hepa n
## 1 1 1 51
## 2 1 0 149
## 3 0 1 9
## 4 0 0 191
attach(Datos1)
# Estimaci?n de los coeficientes de regresión
Modelo1<-glm(cirro~hepa,weight=n,family=binomial(link = logit),data=Datos1)
# para indicarle que estamos en una tabla de frecuencia y no con 2 columnas.
summary(Modelo1)
##
## Call:
## glm(formula = cirro ~ hepa, family = binomial(link = logit),
## data = Datos1, weights = n)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.2483 0.1093 -2.272 0.0231 *
## hepa 1.9829 0.3777 5.250 1.52e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 554.52 on 3 degrees of freedom
## Residual deviance: 516.86 on 2 degrees of freedom
## AIC: 520.86
##
## Number of Fisher Scoring iterations: 5
MODELO LOGISTICO ESTIMADO :
\(P(Y=1)=πi=exp(β0+β1X1)/(1+exp(β0+β1X1))\)
\(P(Y=1)=πi=exp(-0.2483 +1.9829*X1)/(1+exp(-0.2483 +1.9829*X1))\)
Modelo Logit \(logit(P(Y=1))=logit(\hat{π_{i}})=log(\hat{π_{i}}/(1-\hat{π_{i}}))=\hat{β_{0}}+\hat{β_{1}}X1\)
\(logit(P(Y=1))=logit(\hat{π_{i}})=log(\hat{π_{i}}/(1-\hat{π_{i}}))=-0.2483+1.9829*X1\)
Interpretación de los coeficientes:
La probabilidad que tenga cirrosis un paciente disminuye, cuando no ha tenido hepatitis B (X=0).
Variable respuesta: Y = Grupo paciente (1=Cirrosis, 0=No cirrosis)
π=P(Y= 1)= P(paciente con Cirrosis)
Variables explicativas: X=Hepatitis (1=(+), 0=(-))
\(\hat{β_{0}}=-0.2483\) La probabilidad que tenga cirrosis un paciente disminuye, cuando no ha tenido hepatitis B (X1=0).
\(\hat{β_{1}}=-0.2483\) La probabilidad que tenga cirrosis un paciente aumenta, cuando haya tenido hepatitis B (X1=1) que cuando no la ha tenido (X=0).
summary(Modelo1)$deviance
## [1] 516.8637
summary(Modelo1)$null.deviance
## [1] 554.5177
summary(Modelo1)$aic
## [1] 520.8637
Formulación de hipótesis
Ho :El Modelo de regresión logístico se ajusta a los datos
H1 :El Modelo de regresión logístico No se ajusta a los datos
Prueba estadística
Formulación de hipótesis
Ho: El Modelo de regresión logístico se ajusta a los datos
H1: El Modelo de regresión logístico No se ajusta a los datos
Prueba estadística
# Prueba de significación del modelo de regresión
Alfa=0.05
Chi_Tab <- qchisq(1- Alfa,Modelo1$df.residual); Chi_Tab
## [1] 5.991465
p_valor <- 1-pchisq(Modelo1$deviance,Modelo1$df.residual); p_valor
## [1] 0
D <- summary(Modelo1)$deviance
D<Chi_Tab #( No se rechaza )
## [1] FALSE
Como : \(D =chi^2=516.86>chi^2(0.05,2)=qchisq(0.95,2)=5.991\) Se rechaza H0
Como : \(p-valor =1- pchisq(516.86,2)=0<alfa=0.05\) . Se rechaza H0
Conclusión
Con un nivel de significación de 0 05 el modelo de la regresión logístico binario no se ajusta a los datos
#Cálculo del coeficiente de determinación (Pseudo R2)
R2= (1-Modelo1$deviance/Modelo1$null.deviance)*100; R2
## [1] 6.79042
Interpretación. El modelo de regresión logístico binario ajustado, explica un 6.8% para predecir un paciente con cirrosis en función de la hepatitis B.
H0: Bi=0
H1: Bi≠0
b <- coef(Modelo1)
b
## (Intercept) hepa
## -0.2483271 1.9829282
EE <- (summary(Modelo1)$coefficients)[,2]
EE
## (Intercept) hepa
## 0.1093024 0.3777111
Zc <- c()
for(i in 1:(length(b)-1)){
Zc[i] <- (b[i+1]-0)/(EE[i+1])
}
Zc
## [1] 5.249854
qnorm(1 -0.05/2)<abs(Zc) # si es TRUE se rechaza H0
## [1] TRUE
Conclusión.
Se rechaza H0 Con un nivel de significación de 0.05, X1, es significativa al modelo
Con un nivel de significación de 0.05, se puede afirmar, que la presencia hepatitis B permite explicar la existencia de cirrosis. La hepatitis B, es significativa la modelo.
# Cálculo de los Odds Ratios
b <- coef(Modelo1)
exp(b)
## (Intercept) hepa
## 0.7801047 7.2639821
\[OR_{Hepa} =e^{1.983}=7.2639821\]
El riego de tener cirrosis es 7.2639821 veces más probable para pacientes que tuvieron hepatitis B (X=1) que aquellos que no la tuvieron (X=0).
EE
## (Intercept) hepa
## 0.1093024 0.3777111
# IC para los coeficientes y OR
NC=0.95
confint.default(Modelo1, level=NC)
## 2.5 % 97.5 %
## (Intercept) -0.4625559 -0.03409838
## hepa 1.2426280 2.72322835
Para \(β_{1}: IC(β_{1})=b_{1}±Z_{1-\alpha/2}S_{b1}=1.983±1.96*0.377\)
Para \(OR: IC(e^{β_{1}})=e^{b_{1}±Z_{1-\alpha/2}S_{b1}}=e^{1.983±1.96*0.377}\)
# Estimación de valores predecidos (Probabilidades)
Xo=c(1,1)
P_Xo=sum(Xo*coef(Modelo1))
P1=1/(1+exp(-(P_Xo))); P1
## [1] 0.85
# la prb. es 0.85
Xo=c(1,0) #el primer uno siempre va ser del b0
P_Xo=sum(Xo*coef(Modelo1))
P2=1/(1+exp(-(P_Xo))); P2
## [1] 0.4382353
# 0.4382353 Es mas probable que tenga Hepatitis B
Modelo logístico estimado
\(P(Y=1)=πi=exp(β0+β1X1)/(1+exp(β0+β1X1))\)
\(P(Y=1)=πi=exp(-0.2483 +1.9829*X1)/(1+exp(-0.2483 +1.9829*X1))\)
\(P(Y=1/X=1)=πi=\frac{exp(-0.2483 +1.9829*(1))}{(1+exp(-0.2483 +1.9829*(1))}=0.850\)
\(P(Y=1/X=0)=πi=\frac{exp(-0.2483 +1.9829*(0))}{(1+exp(-0.2483 +1.9829*(0))}=0.4382353\) ->Que tenga hepatitis B.
Modelo binario Probit: P(Y=1/X)=P(Cirrosis/HepaB) = π=ϕ(β0+β1X1)
# Entrada de datos
Datos1<-data.frame(cirro=c(1,1,0,0),hepa=c(1,0,1,0),n=c(51,149,9,191))
Datos1
## cirro hepa n
## 1 1 1 51
## 2 1 0 149
## 3 0 1 9
## 4 0 0 191
# Estimación de los coeficientes de regresi?n
Modelo1_1<-glm(cirro~hepa,weight=n,family=binomial(link=probit),data=Datos1) #probit
summary(Modelo1_1)
##
## Call:
## glm(formula = cirro ~ hepa, family = binomial(link = probit),
## data = Datos1, weights = n)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.15544 0.06827 -2.277 0.0228 *
## hepa 1.19188 0.20916 5.698 1.21e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 554.52 on 3 degrees of freedom
## Residual deviance: 516.86 on 2 degrees of freedom
## AIC: 520.86
##
## Number of Fisher Scoring iterations: 4
coef(Modelo1_1)
## (Intercept) hepa
## -0.1554449 1.1918783
# Estimación de valores predecidos
Xo=c(1,1); P_Xo=sum(Xo*coef(Modelo1_1))
P1=pnorm(P_Xo); P1
## [1] 0.85
Xo=c(1,0); P_Xo=sum(Xo*coef(Modelo1_1))
P2=pnorm(P_Xo); P2
## [1] 0.4382353
MODELO PROBIT ESTIMADO
\(P(Y=1)=P(Cirrosis)=\hat{π}=ϕ(β0+β1X1)\)
\(P(Y=1)=P(Cirrosis)=\hat{π}=ϕ(-0.1554449+1.1918783X1)\)
8.Ajuste los datos a un modelo de regresión con función de enlace Probit
\(P(Y=1/X=1)=P(Cirrosis/HepaB=1))=\hat{π}=ϕ(-0.1554449+1.1918783(1))=ϕ(-0.155)=0.851\)
\(P(Y=1/X=0)=P(Cirrosis/HepaB=0))=\hat{π}=ϕ(-0.1554449+1.1918783(0))=ϕ(-0.155)=0.436\)
En un estudio sobre la satisfacción de hombres y mujeres por la compra de carros Se avalúo la importancia del aire acondicionado y la potencia al momento de comprar un carro Los datos se presentan en la siguiente tabla .
Ajuste el conjunto de datos a un modelo de una logística nominal.
1. Formule el MLG logístico nominal.
2. Halle los modelos logísticos estimados e interprete sus coeficientes de regresión.
3. Halle e interprete los respectivos OR de los modelos logísticos
4. Halle los intervalos de confianza del 95% para los coeficientes de regresión y los OR.
5. Determine la significación del modelo logístico nominal.
6. Determine la significación de cada coeficiente de regresión.
7. Determine la medida de bondad de ajuste R2
8. Predecir los siguientes casos (calcular las probabilidades):
8.1 ¿Cuál es más probable que compre un carro un hombre o mujer cuyas edades son de 30 años, si consideran importante el AC?
8.2 Para una mujer de 22 años, ¿cuál es más probable que compre un carro debido a que considere importante o muy importante elAC?
8.3 Para un cliente de 45 años, ¿cuál es su preferencia más probable del AC al momento de comprar un carro?
9. Halle la tabla de valores predecidos o ajustados
Variable respuesta:
Y : Preferecia por aire acondicionado
1=Poco importante (categoria referencial)
2=Importante
3=Muy importante
Variables explicativas
X1=Sexo
0=Femenino (categoria referencial)
1=Masculino
x2= Edad 1
0= 18-23 años (categoria referencial)
1= 24-40 años
x3= Edad 2
0= 18-23 años (categoria referencial)
1= más de 40 años
MODELO LOGISTICO NOMINAL
\[π_{1}=P(Y=1/X_{1},X_{2},X_{3})=πi=\frac{1}{1+e^{β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3}}+e^{β_{03}+β_{13}X_{1}+β_{23}X_{2}+β_{33}X_{3}}}\]
\[π_{2}=P(Y=2/X_{1},X_{2},X_{3})=πi=\frac{e^{β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3}}}{1+e^{β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3}}+e^{β_{03}+β_{13}X_{1}+β_{23}X_{2}+β_{33}X_{3}}}\] \[π_{3}=P(Y=3/X_{1},X_{2},X_{3})=πi=\frac{e^{β_{03}+β_{13}X_{1}+β_{23}X_{2}+β_{33}X_{3}}}{1+e^{β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3}}+e^{β_{03}+β_{13}X_{1}+β_{23}X_{2}+β_{33}X_{3}}}\]
MODELO LOGIT
\[logit(π_{j})=\frac{π_{j}}{π_{1}}=β_{0j}+β_{1j}X_{1}+β_{2j}X_{2}+β_{3j}X_{3} , j=2,3\]
\[logit(π_{2})=log(\frac{π_{2}}{π_{1}})=β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3} \]
\[logit(Importante)=logit(π_{2})=log(\frac{π_{2}}{π_{1}})=β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3} \]
\[logit(Muy~Importante)=logit(π_{3})=log(\frac{π_{3}}{π_{1}})=β_{03}+β_{13}X_{1}+β_{23}X_{2}+β_{33}X_{3}\]
library (nnet)
# Lectura de datos
Datos1 <- data.frame(Poco_Import =c(26,9,5,40,17,8),
Import =c(12,21,14,17,15,15),
Muy_Import =c(7,15,41,8,12,18),
Sexo= c(rep("F",3), rep ("M",3)),
Edad=rep(c("18-23","24-40","Mas40"),2))
str(Datos1)
## 'data.frame': 6 obs. of 5 variables:
## $ Poco_Import: num 26 9 5 40 17 8
## $ Import : num 12 21 14 17 15 15
## $ Muy_Import : num 7 15 41 8 12 18
## $ Sexo : chr "F" "F" "F" "M" ...
## $ Edad : chr "18-23" "24-40" "Mas40" "18-23" ...
Datos1
## Poco_Import Import Muy_Import Sexo Edad
## 1 26 12 7 F 18-23
## 2 9 21 15 F 24-40
## 3 5 14 41 F Mas40
## 4 40 17 8 M 18-23
## 5 17 15 12 M 24-40
## 6 8 15 18 M Mas40
# P2.Estimacíón de los coeficientes de regresión
Modelo1 <- multinom(cbind(Poco_Import,Import,Muy_Import)~Sexo+Edad,data =Datos1)
## # weights: 15 (8 variable)
## initial value 329.583687
## iter 10 value 290.490920
## final value 290.351098
## converged
summary (Modelo1)
## Call:
## multinom(formula = cbind(Poco_Import, Import, Muy_Import) ~ Sexo +
## Edad, data = Datos1)
##
## Coefficients:
## (Intercept) SexoM Edad24-40 EdadMas40
## Import -0.5907992 -0.3881301 1.128268 1.587709
## Muy_Import -1.0390726 -0.8130202 1.478104 2.916757
##
## Std. Errors:
## (Intercept) SexoM Edad24-40 EdadMas40
## Import 0.2839756 0.3005115 0.3416449 0.4028997
## Muy_Import 0.3305014 0.3210382 0.4009256 0.4229276
##
## Residual Deviance: 580.7022
## AIC: 596.7022
MODELO LOGISTICO NOMINAL
\[Poco~Importante=π_{1}=P(Y=1/X_{1},X_{2},X_{3})=πi=\frac{1}{1+e^{β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3}}+e^{β_{03}+β_{13}X_{1}+β_{23}X_{2}+β_{33}X_{3}}}\]
\[Importante =π_{2}=P(Y=2/X_{1},X_{2},X_{3})=πi=\frac{e^{β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3}}}{1+e^{β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3}}+e^{β_{03}+β_{13}X_{1}+β_{23}X_{2}+β_{33}X_{3}}}\]
\[Muy~Importante =π_{3}=P(Y=3/X_{1},X_{2},X_{3})=πi=\frac{e^{β_{03}+β_{13}X_{1}+β_{23}X_{2}+β_{33}X_{3}}}{1+e^{β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3}}+e^{β_{03}+β_{13}X_{1}+β_{23}X_{2}+β_{33}X_{3}}}\]
*Modelo logístico estimado:
\[Poco~Importante =π_{1}=P(Y=1/X_{1},X_{2},X_{3})=πi=\frac{1}{1+e^{-0.5907992-0.3881301 X_{1}+1.128268X_{2}+1.587709X_{3}}+e^{-1.0390726-0.8130202X_{1}+1.478104X_{2}+ 2.916757X_{3}}}\]
\[Importante =π_{2}=P(Y=2/X_{1},X_{2},X_{3})=πi=\frac{e^{-0.5907992-0.3881301 X_{1}+1.128268X_{2}+1.587709X_{3}}}{1+e^{-0.5907992-0.3881301 X_{1}+1.128268X_{2}+1.587709X_{3}}+e^{-1.0390726-0.8130202X_{1}+1.478104X_{2}+ 2.916757X_{3}}}\] \[Muy~Importante =π_{3}=P(Y=3/X_{1},X_{2},X_{3})=πi=\frac{e^{-1.0390726-0.8130202X_{1}+1.478104X_{2}+ 2.916757X_{3}}}{1+e^{-0.5907992-0.3881301 X_{1}+1.128268X_{2}+1.587709X_{3}}+e^{-1.0390726-0.8130202X_{1}+1.478104X_{2}+ 2.916757X_{3}}}\]
MODELO LOGIT ESTIMADO
\[logit(Importante)=logit(π_{2})=log(\frac{π_{2}}{π_{1}})=β_{02}+β_{12}X_{1}+β_{22}X_{2}+β_{32}X_{3} \]
\[logit(Muy~Importante)=logit(π_{3})=log(\frac{π_{3}}{π_{1}})=β_{03}+β_{13}X_{1}+β_{23}X_{2}+β_{33}X_{3}\]
*Modelo Logit estimado
\[logit(Importante)=logit(π_{2})=log(\frac{π_{2}}{π_{1}})=-0.5907992-0.3881301 X_{1}+1.128268X_{2}+1.587709X_{3} \]
\[logit(Muy~Importante)=logit(π_{3})=log(\frac{π_{3}}{π_{1}})=-1.0390726-0.8130202X_{1}+1.478104X_{2}+ 2.916757X_{3}\]
Para Importante (Y=2):
\(\hat{β}_{12}=-0.3881301\)
La probabilidad de preferir comprar un carro debido a que es importante el aire acondicionado y su potencia, disminuye cuando el cliente es hombre que fuera mujer.
\(\hat{β}_{22}=1.128268\)
La probabilidad de preferir comprar un carro, debido a que es importante el aire acondicionado y su potencia, aumenta cuando la edad del cliente está en el rango de 24-40 años con respecto al rango de 18-23 años
\(\hat{β}_{32}=+1.587709\)
La probabilidad de preferir comprar un carro, debido a que es importante el aire acondicionado y su potencia, aumenta cuando la edad del cliente está en el rango de más de 40 años con respecto al rango de 18-23 años.
Para Muy importante (Y=3)
\(\hat{β}_{13}=-0.8130202\)
La probabilidad de preferir comprar un carro, debido a que es muy importante el aire acondicionado y su potencia, disminuye cuando el cliente es hombre que fuera mujer.
\(\hat{β}_{23}=1.478104\)
La probabilidad de preferir comprar un carro, debido a que es muy importante el aire acondicionado y su potencia, aumenta cuando la edad del cliente está en el rango de 24-40 años con respecto al rango de 18-23 años
\(\hat{β}_{33}= 2.916757\)
La probabilidad de preferir comprar un carro, debido a que es muy importante el aire acondicionado y su potencia, aumenta cuando la edad del cliente está en el rango de más de 40 años con respecto al rango de 18-23 años.
# P3. Cálculo de los OR
exp(coef(Modelo1))
## (Intercept) SexoM Edad24-40 EdadMas40
## Import 0.5538844 0.6783241 3.090300 4.892529
## Muy_Import 0.3537826 0.4435165 4.384626 18.481251
Para Importante (Y=2):
\(\hat{β}_{33}= 2.916757\) Es 0.678 veces menos probable que compre un carro un cliente hombre debido a que considera Importante el AC que una mujer