EL CASO BINARIO

Regresión logística (pruebas de hipótesis)

Dr. rer. nat. Humberto LLinás Solano

Departamento de Matemáticas y Estadística, Universidad del Norte (Barranquilla, Colombia)

hllinas@uninorte.edu.co

14/07/22

Abstract

La teoría mencionada puede revisarse en el volumen 8 de mis notas de clase que aparecen en el siguiente documento: 2.2. Regresión logística y en la referencia: LLinás (2006). En Rpubs:: toc se pueden ver otros documentos de posible interés.

hllinas

1 Librerías

library(aplore3)     #Base de datos para los ejemplos
library(lsm)         #Base de datos para ejemplos y estimaciones del Log-verosimilitud
library(tidyverse)   #Incluye a dplyr y ggplot2

2 Introducción

Los métodos de regresión se han convertido en un componente integral de cualquier análisis de datos preocupado por describir la relación entre una variable de respuesta y una o variables más explicativas. Muy a menudo, la variable de resultado es discreta, tomando un valor de dos o más valores posibles. El modelo de regresión logística es el más modelo de regresión de mayor uso frecuente para el análisis de estos datos.

En el documento Rpbus :: Modelos lineales generalizados se explicó que estos modelos hacen parte de los modelos lineales generalizados. Allí se pueden ver los detalles correspondientes. Para conocer con profundidad estos modelos, es importante estudiar los siguientes cuatro tipos de modelos:

Modelo de Bernoulli.
Modelo completo.
Modelo nulo.
Modelo saturado.

En el documento Rpbus :: Modelos completo, nulo y saturado se describieron sus propiedades, con los ejemplos correspondientes y en los documentos Rpbus :: Modelos logísticos (estimaciones) y Rpbus :: Modelos logísticos (intervalos de confianza) se detalló todo lo relacionado con las estimaciones e intervalos de confianza para los parámetros logísticos. En este documento, se utilizarán las notaciones utilizados allá, así como los resultados encontrados en los ejemplos aplicados en esos documentos. A pesar de ello, se hará una breve descripción de los cuatro modelos mencionados arriba, los cuales serán base para la teoría que se explicará posteriormente.

3 Datasets

Para las aplicaciones, se utilizaron bases de datos de las librerías aplore3 (creado por Braglia, 2016) y lsm (creado por LLinás, Fábregas y Villalba, 2020).

library(aplore3) 
library(lsm)

Ambos paquetes incluyen, de manera “no oficial”, todos los conjuntos de datos utilizados en el texto de Hosmer, Lemeshow and Sturdivant (2013). En este link o en este otro se encuentran los nombres de los datasets con los respectivos detalles:

Descripción (description).
Uso (usage).
Formato (format).
Fuente (source) o Referencias (References).

Se resalta el hecho que lsm es un paquete que contiene:

Otros datasets que son de autoría propia.
La función lsm(), la cual nos permite estimar, entre otros, el logaritmo de la función de verosimilitud de los modelos completos, nulo, saturado y logístico. La teoría relacionada con los tres primeros modelos se van a explicar más adelante dentro de este documento. La que se relaciona con lo smodelos logísticos, en otros documentos.

Para los ejemplos, se utilizará chdage, el cual contiene datos recogidos con el fin de estudiar si la edad es un factor influyente en la presencia o no de enfermedades coronarias (CHD). Es un data frame con 100 observaciones. En aplore3 hay cuatro variables y en lsm, tres. A continuación, se describen cada una (entre paréntesis, el nombre de la variable en lsm):

id (ID): código de identificación (1-100).
chd (CHD): Presencia of CHD. En aplore3, los niveles son No, Si. En lsm son 0 (=No) y 1 (=Si).
age (AGE): edad (en años) de los participantes.
agegrp: edad agrupada (1: 20-39, 2: 30-34, 3: 35-39, 4: 40-44, 5: 45-49, 6: 50-54, 7: 55-59, 8: 60-69).

Cargamos el data frame chdage de la librería aplore3:

chdage <- aplore3::chdage
attach(chdage)

Las primeras 10 observaciones son:

ID	age	agegrp	chd
1	20	20-39	No
2	23	20-39	No
3	24	20-39	No
4	25	20-39	No
5	25	20-39	Yes
6	26	20-39	No
7	26	20-39	No
8	28	20-39	No
9	28	20-39	No
10	29	20-39	No

Observe que, en el datasets aplore3::chdage, la variable chd es binaria, pero no numérica. Al convertirla en integer, se codifica como 1=No y 2=Si. Por esta razón, esta variable se puede codificar como 0=No y 1=Si, de la siguiente manera:

CHD <- as.integer(chd)-1

4 Modelo de Bernoulli

La variable de interés $Y$ es de Bernoulli. En símbolo, $Y \sim {\cal B}(1,p)$, siendo

\[p:=E(Y)=P(Y=1)\]

la probabilidad de que ocurra $Y$.

Haciendo $n$ observaciones independientes de $Y$, se obtiene la muestra $Y=(Y_1, \ldots, Y_n)$ con los datos $y_i\in\{0,1\}$, para todo $i=1, \cdots ,n$, donde $y_i$ es un posible valor de $Y_i$, las cuales son independientes entre sí.

Se llega a un modelo estadístico de Bernoulli:

\[Y_i= p_i + e_i \quad\sim\quad {\cal B} (1,p_i), \quad i=1,\cdots,n\]

Fijando $y=(y_1, \cdots ,y_n)^T$ obtenemos la función de verosimilitud en el parámetro $p=(p_1, \cdots, p_n)^T$:

\[L(p)= \prod^n_{i=1}[p_i^{y_i}(1-p_i)^{1-y_i}]\]

Theorem 4.1 (Log-verosimilitud) En un modelo de Bernoulli, el logaritmo de la función de máxima verosimilitud será:

\[\begin{equation} {\cal L}(p):= \ln L(p)= \sum^n_{i=1}[y_i\ln p_i + (1-y_i)\ln (1-p_i)] \tag{4.1} \end{equation}\]

Remark. Como $0 \le f(y,p) \le 1$, de la expresión (4.1), se tiene que

\[-\infty \le {\cal L}(p) \le 0\]

Hay varias situaciones que se pueden presentar en un modelo de Bernoulli. Se dice que éste se puede identificar como alguno de los siguientes modelos: completo, nulo o saturado.

5 Modelo completo

Definition 5.1 El modelo completo es caracterizado por el supuesto de que todos $p_i$, $i=1, \cdots ,n$ son considerados como parámetros.

Remark. El siguiente teorema describe las estimaciones en este modelo:

Theorem 5.1 (Estimaciones en el modelo completo) En el modelo completo, las ML-estimaciones de $p_i$ son $\hat{p}_i=Y_i$ con valores $\hat{p}_i=y_i$, para todo $i=1, \cdots ,n$. Además, la estimación de la función de verosimilitud, de su logaritmo y de la llamada desviación tienen los siguientes valores:

\[{\cal L}(y) = 0, \quad L(y)= 1 \quad \mbox{y}\quad -2\,{\cal L}(y)=0\]

Example 5.1 Para los datos del archivo chdage, en el modelo completo, se tiene que ${\cal L}(y) = -2\; {\cal L}(y)= 0$ y $L(y)=1$. En R, se pueden verificar así:

Y <- CHD
a <- ifelse(Y==0,log(1-Y),log(Y))
LogCompleto <- sum(a)
L_Completo <- exp(LogCompleto)
DevLogCompleto <- -2*LogCompleto

El paquete lsm calcula directamente el valor de ${\cal L}(y)$:

datos <- lsm::chdage
modelo <- lsm(CHD~datos$AGE, data=datos)
modelo$Log_Lik_Complete

## [1] 0

6 Modelo nulo

Definition 6.1 El modelo nulo es caracterizado por el supuesto de que todos los $p_i$, $i=1, \cdots ,n$ son considerados iguales; es decir, se tiene un solo parámetro $p=p_i, i=1, \cdots ,n$.

Theorem 6.1 (Log-verosimilitud en el modelo nulo) En este caso, (4.1) será:

\[\begin{eqnarray} {\cal L}(p)&=& n[\overline{y}\ln p + (1- \overline{y})\ln (1-p)] \tag{6.1} \end{eqnarray}\]

El siguiente teorema describe las estimaciones en este modelo:

Theorem 6.2 (Estimaciones en el modelo nulo) En el modelo nulo, la ML-estimación de $p$ es $\hat{p}=\overline{Y}$ con valor $\hat{p}=\overline{y}$. Además,

\[{\cal L}(\overline{y})<0 \qquad \mbox{si y sólo si}\qquad 0 < \overline{y} < 1\]

Remark. Algunas propiedades de la gráfica de ${\cal L}(p)$ son:

Tiene un único mínimo en $p=\frac{1}{2}$.
Teniendo en cuenta que el dominio de ${\cal L}(p)$ es el intervalo abierto $(0,1)$, la gráfica de ${\cal L}(p)$:
1. Es decreciente en $(0,\frac{1}{2})$ y creciente en $(\frac{1}{2},1)$.
2. No tiene puntos de inflexión en $(0,1)$.
3. Es cóncava hacia arriba.
4. El punto mínimo es $\left(\frac{1}{2},-n\log 2\right)$.

El siguiente teorema indica la forma de la gráfica de ${\cal L}(p)$, para $0<p<1$.

Theorem 6.3 (Gráfica en el modelo nulo) La gráfica de la función ${\cal L}(p$) en el modelo nulo es:

n <- 100
p <- seq(0.0001, 1, 0.00005)
a <- n*(p*log(p)+(1-p)*log(1-p))
D <- data.frame(p,a)

ggplot(D, aes(y = a, x = p)) +
geom_point(aes(color=a), alpha = 1.9) +
labs(x="Probabilidad p", y="Log L(p)", fill= "") + 
ylim(-n*log(2), 0)+
facet_wrap(. ~ "Gráfica del Log L(p) en el modelo nulo con n=100") +    
theme_bw(base_size = 12) +
theme(legend.position = "none")

Example 6.1 Para los datos del archivo chdage, en el modelo nulo:

$\widehat{p} \;=\; \overline{y}\;=\; 43/100 \;=\; 0.43$.
${\cal L}(\overline{y})\;=\; {\cal L}(0.43) \;= \; -68.33$.
$-2{\cal L}(\overline{y}) \;=\; 136.66$.
El punto mínimo es $\left(\frac{1}{2},-69.31\right)$.

En R, se puede verificar así:

n <- length(Y)
YBarra <- mean(Y)
LogNulo <- n*(YBarra*log(YBarra)+(1-YBarra)*log(1-YBarra))
DevNulo <- -2*LogNulo
minimo <- -n*log(2)

El paquete lsm calcula directamente el valor de ${\cal L}(\overline{y})$:

datos <- lsm::chdage
modelo <- lsm(CHD~datos$AGE, data=datos)
modelo$Log_Lik_Null

## [1] -68.33149

7 Modelo saturado

El modelo saturado está caracterizado por dos supuestos.

Hypothesis 7.1 (Supuesto 1 en el modelo saturado) Se supone que:

Se tienen $K$ variables explicativas $X_1, \cdots, X_K$ (algunas pueden ser numéricas y otras categóricas) con valores $x_{i1}, \cdots, x_{iK}$ para $i=1, \cdots, n$ (fijadas u observadas por el estadístico, según sean variables determiní}sticas o aleatorias).
Entre las $n$ kuplas $(x_{i1}, \cdots, x_{iK})$ de los valores de la variable explicativa $X$ haya $J$ kuplas diferentes, definiendo las $J$ poblaciones. Por tanto, $J \le n$.

Remark. Para cada población $j=1, \cdots ,J$ se denota:

El número de observaciones $Y_{ij}$ en cada población $j$ por $n_j$, siendo $n_1+\cdots +n_J=n$;
La suma de las $n_j$ observaciones $Y_{ij}$ en $j$ por

\[Z_j:=\sum\limits_{i=1}^{n_j}Y_{ij} \quad \mbox{con valor}\quad z_j=\sum\limits_{i=1}^{n_j}y_{ij},\quad \mbox{siendo}\quad \sum\limits^J_{j=1}z_j \;= \; \sum\limits^n_{i=1}y_i\]

En la Tabla 7.1 se ilustra hipotéticamente un conjunto de datos con $J=4$ poblaciones.

Table 7.1: Ilustración de un conjunto de datos agrupado en $J=4$ poblaciones
1	2	3	4	5	6	7	8	9
$Y$	$X_1$	$X_2$	$X_3$	$X_4$	$X_5$	$j$	$n_j$	$Z_j$
Población: Bajo, 80, Si, 170, Estrato 1
1	Bajo	80	Si	170	Estrato 1	$j=1$	$n_1=3$	$Z_1=2$
0	Bajo	80	Si	170	Estrato 1
1	Bajo	80	Si	170	Estrato 1
Población: Mediano, 100, Si, 150, Estrato 5
0	Mediano	100	Si	150	Estrato 5	$j=2$	$n_2=4$	$Z_2=3$
1	Mediano	100	Si	150	Estrato 5
1	Mediano	100	Si	150	Estrato 5
1	Mediano	100	Si	150	Estrato 5
Población: Mediano, 100, No, 180, Estrato 2
1	Mediano	100	No	180	Estrato 2	$j=3$	$n_3=2$	$Z_3=1$
0	Mediano	100	No	180	Estrato 2
Población: Alto, 100, No, 100, Estrato 4
0	Alto	100	No	100	Estrato 4	$j=4$	$n_4=3$	$Z_4=2$
1	Alto	100	No	100	Estrato 4
1	Alto	100	No	100	Estrato 4
General. $Y$ es la variable de respuesta; $X_1, \cdots, X_5$ son las variables explicativas; $j$ es la población; $n_j$ es el tamaño de la población $j$; $Z_j$ es el número de éxitos en la población $j$.

Hypothesis 7.2 (Supuesto 2 en el modelo saturado) Para mayor simplicidad en la escritura, se abreviará la j-ésima población $(x_{j1}, \cdots ,x_{jK})$ por el símbolo $\star$. Para cada población $j=1, \cdots ,J$ y cada observación $i=1,\cdots,n$ en $j$, se supone que:

$(Y_{ij}|\star)$ es de Bernoulli. Es decir,

\[(Y_{ij}|\star) \sim {\cal B}(1,p_j)\]

Las variables $(Y_{ij}|\star)$ son independientes entre sí.
La esperanza y la varianza son, respectivamente,

\[p_j=P(Y_{ij}=1|\star)=E(Y_{ij}|\star), \qquad V(Y_{ij}|\star)=p_j(1-p_j)\]

A continuación, se oprimirá el símbolo $\star$.

Remark. El supuesto 2 implica:

Todos los $p_{ij}$, $i=1, \cdots ,n$ dentro de cada población $j$ son iguales. Es decir, se tiene como parámetro el vector $p=(p_1, \cdots ,p_J)^T.$
Para cada población $j=1, \cdots ,J$:
- La variable $Z_j$ es binomial. Es decir,
\[Z_j\sim{\cal B}(n_j,p_j)\]
- Las variables $Z_j$ son independientes entre las poblaciones.

Theorem 7.1 (Log-verosimilitud en el modelo saturado) En el modelo saturado, el logaritmo de la función de máxima verosimilitud será

\[\begin{eqnarray} {\cal L}(p) &=& \sum^J_{j=1}\left(\sum_{i=1}^{n_j}[{y_{ij}}\ln p_j + (1- y_{ij})\ln (1-p_j)]\right)\nonumber\\ &=& \sum^J_{j=1}[{z_j}\ln p_j + (n_j- z_j)\ln (1-p_j)] \tag{7.1} \end{eqnarray}\]

Theorem 7.2 (Estimaciones en el modelo saturado) En el modelo saturado, las ML-estimaciones de $p_j$ son $\tilde{p}_j=\frac{Z_j}{n_j}$, con valores $\tilde{p}_j=\frac{z_j}{n_j}$,$j=1,\cdots ,J$. Además,

\[\begin{eqnarray} {\cal L}_s\;:=\;{\cal L}(\tilde p) &=& \sum^J_{j=1}n_j[\tilde{p}_j\ln \tilde{p}_j +(1-\tilde{p}_j) \ln(1-\tilde{p}_j)] \end{eqnarray}\]

También se cumple que

\[{\cal L}_s<0\quad \mbox{para}\quad 0< \tilde{p}_j <1\]

Example 7.1 Para los datos del archivo chdage, en el modelo saturado,hay $J=43$ poblaciones y se cumple que ${\cal L}(\tilde{p})=-41.7991$, como se indica en la última fila de la Tabla 7.2:

chdage$CHD <- CHD 

chdage %>%
  group_by(age) %>%
  summarise(nj = n(),
            zj = sum(CHD)) %>%
  mutate(pj = zj/nj,
         pj = round(pj,3),
         Lp = ifelse(zj==0 | zj== nj, 0, zj*log(pj)+(nj-zj)*log(1-pj)),
         Lp = round(Lp, 4)
         ) -> saturado

Totales <- c("Total", sum(saturado$nj), sum(saturado$zj), "", sum(saturado$Lp))
Tabla <- rbind(saturado, Totales)

Table 7.2: Estimaciones en el modelo saturado.
age	nj	zj	pj	Lp
20	1	0	0	0
23	1	0	0	0
24	1	0	0	0
25	2	1	0.5	-1.3863
:	:	:	:	:
:	:	:	:	:
63	1	1	1	0
64	2	1	0.5	-1.3863
65	1	1	1	0
69	1	1	1	0

Total	100	43		-41.7991

El paquete lsm calcula directamente los valores de $J$ y ${\cal L}(\overline{y})$, de la siguiente manera:

datos <- lsm::chdage
modelo <- lsm(CHD~datos$AGE, data=datos)
cbind(modelo$Populations, modelo$Log_Lik_Saturate)

##      [,1]      [,2]
## [1,]   43 -41.79938

8 Modelo logístico

Hypothesis 8.1 (Supuesto 3: matriz de diseño) Se hacen los supuestos 1 y 2 del modelo saturado (véase las hipótesis 7.1 y 7.2), donde adicionalmente se supone que la matriz de diseño

\[C=\left(\begin{array}{cccc} 1 & x_{11} &\cdots &x_{1K}\\ 1 & x_{21} &\cdots &x_{2K}\\ \vdots &\vdots & &\vdots\\ 1 &x_{J1} &\cdots &x_{JK}\\ \end{array}\right)\]

tiene rango completo $Rg(C)=1+K\leq J$.

Hypothesis 8.2 (Supuesto 4: modelo logístico) Para llegar a un modelo logístico se hace el supuesto adicional:

\[\begin{equation} \mbox{Logit}(p_j):= \ln\left(\frac{p_j}{1-p_j}\right) = \delta \;+\; \beta_1 \,x_{j1} \;+\;\cdots \;+\; \beta_K \,x_{jK} \tag{8.1} \end{equation}\]

Remark. Tenemos que:

$\alpha =(\delta,\beta_1,\ldots,\beta_K)^T$ es el vector de parámetros en el modelo.
Nótese que el supuesto sobre $Rg( C)=1+K$, hace identificable al parámetro $\alpha$.

9 Riesgo

Definition 9.1 (Riesgo) En la práctica, la probabilidad $p_j$ es conocida como riesgo.

Theorem 9.1 (Fórmula para el riesgo) Sea $g_j:=\delta \;+\; \beta_1\,x_{1j} \;+\;\cdots \;+\; \beta_K \,x_{Kj}$. Entonces, la probabilidad

\[p_j=P(Y_j=1|x_{j1}, \cdots, x_{jK})\]

de obtener un éxito en la población $j=1, \ldots, J$, dado los valores $x_{j1}, \cdots, x_{jK}$, viene dada por:

\[\begin{equation} p_j \;= \; \mbox{Logit}^{-1}(g_j) \;= \; \frac{e^{g_j}} {1 + e^{g_j}} \tag{9.1} \end{equation}\]

Example 9.1 En la figura 9.1 aparece la gráfica de las dos funciones siguientes:

\[\begin{eqnarray*} p &=& \frac{e^{x}} {1 + e^{x}} \qquad \mbox{(Figura a, roja, con $\beta=1$)},\\ p &=&\frac{e^{-x}} {1 + e^{-x}} \qquad \mbox{(Figura b, verde, con $\beta=-1$)} \end{eqnarray*}\]

Observe que el signo de la pendiente (o sea, el valor numérico que multiplica a $x$) influye en el hecho si la gráfica es creciente o decreciente. La No.1 es creciente (por tener pendiente postiva) y la No.2, es decreciente (por tener pendiente negativa).

VI <- seq(-10, 10, 0.05)
Crec <- exp(VI)/(1+exp(VI))
Decr <- exp(-VI)/(1+exp(-VI))

ggplot() +
geom_point(mapping=aes(y=Crec, x = VI, color="Crec"), size=1.5) +
geom_point(mapping=aes(y=Decr, x = VI, color="Decr"),size=1.5) +  
labs(x="Variable explicativa X", y="Probabilidad de éxito p", fill= "") + 
#ylim(0, 100)+
facet_wrap(. ~ "Gráfica de dos logits con una sola variabla explicativa") +    
theme_bw(base_size = 12) +
#theme(legend.position = "none")+
  scale_color_manual(values = c("Crec" = "darkblue","Decr" = "red")) +
  labs(color = "Logits")+
scale_color_discrete(name = expression(paste("Pendiente", " ", beta, ":")), labels = c(expression(paste("(a)", " ", beta>0)), expression(paste("(b)", " ", beta<0)))) # Edit legend title and labels

Figure 9.1: Comparación de dos Logits

Theorem 9.2 (Log de la función de verosimilitud en el modelo logístico) Sea $g_j:=\delta \;+\; \beta_1\,x_{1j} \;+\;\cdots \;+\; \beta_K \,x_{Kj}$. Reescribiendo ${\cal L}(p)$, dada en la ecuación (7.1), el logaritmo de la función de verosimilitud se puede escribir, en función de $\alpha$, como:

\[\begin{eqnarray} {\cal L}({\alpha}) &=& \sum^{J}_{j=1}\left[z_j\ln\left(\frac{p_j}{1-p_j}\right)+ n_j\ln(1-p_j)\right]\\ &=& \sum^{J}_{j=1}z_j\,g_j \;-\; \sum^{J}_{j=1} n_j\ln \left[1+ e^{g_j}\right] \tag{9.2} \end{eqnarray}\]

En la primera expresión se observa que el paso de $p_j$ hacia $\ln\left(\frac{p_j} {1-p_j}\right)$ aparece de una manera natural.

10 Odds

Definition 10.1 (Odds) Un odds se define como la proporción entre las probabilidades de ocurrencia y no ocurrencia del evento que se relaciona con $Y$ en la población $j$. Es decir, es el cociente

\[O_j\;=\;\frac{p_j}{1-p_j}\] ::: {.remark name=“relación entre Riesgo y Odds”} ::: Se resalta el hecho de que los riesgos toman valores entre 0 y 1; los odds, entre 0 e infinito. . Además, observe que:

\[p_j\;=\;\frac{O_j}{1+O_j}\] ::: {.example #unnamed-chunk-40} Para más detalles, aclaraciones y ejemplos relacionados con este tema, puede consultarse el documento Rpbus :: Modelos logísticos (intervalos de confianza). :::

11 Riesgo relativo RR

Definition 11.1 (Riesgo relativo) El riesgo relativo se define como el cociente entre el riesgo en un grupo con un factor de exposición o de riesgo (población $i$) y el riesgo en un grupo de referencia, que no tiene el factor de exposición (población $j$). Es decir, es el siguiente cociente:

\[RR(i\; \mbox{vs} \; j) = \frac{\mbox{Incidencia acumulada en la población $i$}}{\mbox{Incidencia acumulada en la población $j$}}\]

O sea, el cociente entre las siguientes probabilidades de éxitos:

\[RR(i\; \mbox{vs} \; j) \;=\; \frac{p_i}{p_j}=\frac{P(\mbox{$Y=1$ | población $i$})}{P(\mbox{$Y=1$ | población $j$})}\]

Example 11.1 Para más detalles, aclaraciones y ejemplos relacionados con este tema, puede consultarse el documento Rpbus :: Modelos logísticos (intervalos de confianza).

12 Razón odds

En estudios de cohortes el RR se estima de forma directa ya que se conoce la incidencia de la enfermedad en expuestos y en no expuestos. Por el contrario, en los estudios de casos y controles no se puede calcular la incidencia, porque la población de estudio se selecciona a partir de individuos que ya han desarrollado la enfermedad. Por esta razón, en los estudio de casos y controles se calcula la razón de odds u odds ratio (OR).

Definition 12.1 (Razón odds) Una razón ODDS se define como el cociente entre dos odds:

\[OR(i\; \mbox{vs} \;j) \;=\; \frac{O_i}{O_j} \;=\; \frac{\frac{p_i}{1-p_i}}{\frac{p_j}{1-p_j}}\]

Theorem 12.1 (OR es exponencial de la pendiente) Siempre se cumple que $RR(i\; \mbox{vs} \;j)$ es un número entre 0 e infinito. Además, en un modelo de regresión logística, se cumple que:

\[\begin{eqnarray} OR(i\; \mbox{vs} \;j) \;= \; e^{\beta_1(x_{i1}-x_{j1}) \; + \; \beta_2(x_{i2}-x_{j2}) \; + \; \cdots \; + \; \beta_K(x_{iK}-x_{jK})} \end{eqnarray}\]

Cuando $x_{ik}-x_{jk}=1$ para todo $k=1, \ldots, K$, entonces

\[OR:=OR(i\; \mbox{vs} \;j) \;= \;e^{\beta_1\;+\;\cdots \;+\;\beta_K}\]

Es decir, no depende de $X_1, \ldots, X_K$ y muestra el cambio proporcional en la variable de respuesta cuando las variables independientes se incrementen en $1$ unidad.

Example 12.1 Para más detalles, aclaraciones y ejemplos relacionados con este tema, puede consultarse el documento Rpbus :: Modelos logísticos (intervalos de confianza).

13 Método de estimación

El método que se propone para calcular las ML-estimaciones en un modelo logístico es el método iterativo de Newton-Raphson. Generalmente, el método requiere:

Una estimación inicial para el valor que maximiza la función.
La función es aproximada en una vecindad de aquella estimación por un polinomio de segundo grado.
Entonces,la siguiente estimación se calcula como el máximo de dicho polinomio.
Luego, se repite el proceso, usando esta estimación como la estimación inicial.
De esta manera, el método genera una sucesión de estimaciones. Estas estimaciones convergen a la localización del máximo cuando la función es adecuada y/o la estimación inicial es buena.

Para más detalles, ver el teorema 8 en LLinás (2006). En R, las funciones glm() y lsm() calculan estas estimaciones.

14 Casos agrupado y no agrupado

Cuando se trabaja con el modelo saturado, se tiene el caso de utilizar datos agrupados.
Cuando se tiene el caso especial $n_j=1$, para todo $j$ (lo que implica que $J=n$) se habla de datos no agrupados.
La distinción entre datos agrupados y no agrupados es importante por dos razones:
1. Algunos métodos de análisis apropiados a datos agrupados no son aplicables a datos no agrupados.
2. Las aproximaciones asintóticas pueden estar basados en uno de estos dos casos distintos: (i) $n\to\infty$ o (ii) $J\to\infty$, caso que es únicamente es apropiado para datos no agrupados.
En la práctica:
1. Cuando se tienen datos agrupados es importante tener en cuenta que $J$ debe ser fijo. Por esta razón, debe tomarse como base el modelo saturado. Es decir, se empieza el análisis usando los vectores $Z_j$, $j=1,\cdots,J$.
2. Si $J\to\infty$ (por ejemplo, si $J=n$), entonces, en el modelo saturado no se puede considerar a $J$ como fijo. Obsérvese que esta situación se presenta cuando se tienen datos no agrupados. En este caso, no se puede tomar como base el modelo saturado. Ahora se empezaría el análisis utilizando, de una vez, las observaciones $Y_i$, $i=1,\cdots, n$.

15 Ejemplo 1: Enunciado

Considere los datos del archivo chdage. Suponga que se quiere analizar un modelo de regresión logística, considerando a chd como variable dependiente y age como independiente.

Escriba, matemáticamente, el vector de parámetros logísticos y el de sus estimadores.
Escriba, matemáticamente, La probabilidad estimada de que un individuo tenga enfermedades coronarias (chd$=1$), cuando tiene una edad determinada (digamos, age$=x_j$).
Escriba, matemáticamente, el modelo logístico estimado.
Obtenga las estimaciones $\hat{\delta}$ y $\hat{\beta}$ de los parámetros logísticos $\delta$ y $\beta$, sin utilizar la función summary().
Obtenga las estimaciones $\hat{\delta}$ y $\hat{\beta}$ de los parámetros logísticos $\delta$ y $\beta$, utilizando la función summary().
Utilizando las estimaciones halladas en el inciso anterior, escriba en el modelo correspondiente .
Haga la gráfica del riesgo de tener enfermedades coronarias versus la edad. ¿Es directa o indirecta esta relación?
Haga la gráfica del logit estimado versus la edad. ¿Qué tipo de relación hay entres estas dos variables?
Estime el logit estimado, para un sujeto con 50 años.
Estime la proporción estimada de personas con presencia de enfermedades coronarias a la edad de 50.
Halle los errores estándares estimados $\hat{S}_{\hat{\beta}}$ y $\hat{S}_{\hat{\delta}}$ de $\hat{\beta}$ y $\hat{\delta}$, respectivamente.
Calcule ${\cal L}(\hat{\alpha})$, la estimación del logaritmo de la función de máxima verosimilitud en el modelo logístico.
Encuentre el odds estimado para individuos con edad de 50 e interprételo.
Haga la gráfica del odds estimado versus la edad.
Halle la razón odds estimada cuando el incremento la edad se incrementa en 1 año. Inteprétela.

16 Ejemplo 1: Solución

16.0.1 Solución parte (a)

Los vector de parámetros y de sus estimadores son, respectivamente,

\[\alpha =(\delta,\beta)^T, \qquad \hat{\alpha} =\left(\hat{\delta}, \hat{\beta}\right)^T\]

Aquí, $T$ indica la transpuesta del vector.

16.0.2 Solución parte (b)

La probabilidad estimada de que un individuo tenga enfermedades coronarias (chd$=1$), cuando tiene una edad determinada (digamos, age$=x_j$), se puede escribir así:

\[\hat{p}_j = \hat{P}(\mbox{chd}=1 |\mbox{age}=x_j)\]

16.0.3 Solución parte (c)

Sabiendo que $\hat{p}_j$ es como en el inciso anterior, el modelo estimado se puede escribir teniendo en cuenta la ecuación (8.1) o la (9.1):

\[\mbox{Logit}(\hat{p}_j):= \ln\left(\frac{\hat{p}_j}{1-\hat{p}_j}\right) = \hat{\delta} + \hat{\beta} x_j, \qquad \qquad \hat{p}_j \;= \; \frac{e^{\hat{\delta} + \hat{\beta} x_j}} {1 + e^{\hat{\delta} + \hat{\beta} x_j}} \]

16.0.4 Solución parte (d)

En R, las estimaciones de los parámetros logísticos $\delta$ y $\beta$ se pueden obtener con las funciones lsm() o glm():

# Con la función lsm:

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)
modelo$coef     # Todos los coeficientes
modelo$coef[1]  # Intercepto
modelo$coef[2]  # Pendiente

# Con la función glm:

datos <- aplore3::chdage
attach(datos)
CHD <- as.integer(chd)-1  #Para codificar la variable *chd* como 0 y 1
modelo <- glm(CHD~age, family=binomial(link = "logit"), data=datos)
modelo$coefficients     # Todos los coeficientes
modelo$coefficients[1]  # Intercepto
modelo$coefficients[2]  # Pendiente

Con ambas funciones, se obtiene que: $\hat{\delta}=$ -5.3094534 y $\hat{\beta}=$ 0.1109211.

16.0.5 Solución parte (e)

Con la función summary del modelo glm obtenemos una salida en donde los valores de las estimaciones se pueden visualizar en la primera columna (llamada Estimate) de la lista llamada Coefficients (ver recuadro rojo en la figura 16.1):

datos <- aplore3::chdage
attach(datos)
CHD <- as.integer(chd)-1  #Para codificar la variable *chd* como 0 y 1
modelo <- glm(CHD~age, family=binomial(link = "logit"), data=datos)
summary(modelo)

Figure 16.1: Estimaciones de los parámetros logísticos. Fuente: Elaboración propia.

16.0.6 Solución parte (f)

Sabiendo que

\[\hat{p}_j = \hat{P}(\mbox{chd}=1 |\mbox{age}=x_j),\]

El modelo estimado se puede escribir de alguna de las dos maneras siguientes:

\[\mbox{Logit}(\hat{p}_j):= \ln\left(\frac{\hat{p}_j}{1-\hat{p}_j}\right) = -5.3094534 \;+\; 0.1109211 x_j, \qquad \qquad \hat{p}_j \;= \; \frac{e^{-5.3094534 \;+\; 0.1109211 x_j}} {1 + e^{-5.3094534 \;+\; 0.1109211 x_j}} \]

16.0.7 Solución parte (g)

La gráfica correspondiente se muestra en la figura 16.2. Se observa que hay una relación directa entre la edad y el riesgo de tener enfermedades coronarias:

edad <- seq(0, 100, 0.005)
delta <- modelo$coef[1]
beta <- modelo$coef[2]
logit <- delta+ beta*edad
p <- exp(logit)/(1+exp(logit))
D <- data.frame(edad,p)

ggplot(D, aes( x = edad)) +
geom_point(aes(y=p, colour=edad), size=1.5,color="red") +
labs(x="Edad", y="Riesgo de tener CHD", fill= "") + 
facet_wrap(. ~ "Riesgo de CHD versus Edad") +    
theme_bw(base_size = 12)

Figure 16.2: Logit para los datos chdage

16.0.8 Solución parte (h)

La gráfica del logit estimado se puede visualizar en la Figura 16.3. Como es de esperar, hay una relación lineal y creciente entre el logit y la edad:

edad <- seq(0, 100, 0.005)
delta <- modelo$coef[1]
beta <- modelo$coef[2]
logit <- delta+ beta*edad
D <- data.frame(edad,logit)

ggplot(D, aes( x = edad)) +
geom_point(aes(y=logit, colour=edad), size=1.5,color="darkblue")  +
labs(x="Edad", y="Logit del riesgo de tener CHD", fill= "") + 
facet_wrap(. ~ "Logit del riesgo de CHD versus Edad") +    
theme_bw(base_size = 12)

Figure 16.3: Logit para los datos chdage

16.0.9 Solución parte (i)

El logit estimado, para un sujeto con 50 años, es igual a 0.237. Observe que se puede obtener de varias maneras: reemplazando la edad en la ecuación (8.1) y con las funciones lsm() o glm():

\[\mbox{Logit}\Big(\hat{P}(\mbox{chd}=1 |\mbox{age}=50)\Big) \;= \; \hat{\delta} \;+\; 50 \hat{\beta} \; =\; -5.3094534 \;+\; (0.1109211)(50) \;= \; 0.2366\]

#1. Reemplazando:

edad <- 50
delta <- modelo$coef[1]
beta <- modelo$coef[2]
logit50 <- delta+ beta*edad

#2. Con la función lsm:

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)
datos$logit <- modelo$Logit   #Incluye los logits en el data frame
logit50 <- subset(datos, age ==50)[1,4][1]

#3. Con la función glm:

datos <- aplore3::chdage
attach(datos)
CHD <- as.integer(chd)-1  #Para codificar la variable *chd* como 0 y 1
modelo <- glm(CHD~age, family=binomial(link = "logit"), data=datos)

#3a. Primera forma con glm:

datos$logit <- predict(modelo)   #Incluye los logits en el data frame 
logit50 <- subset(datos, age ==50)[1,5][1]

#3b. Segunda forma con glm:

datos$logit <- predict.glm(modelo)  
logit50 <- subset(datos, age ==50)[1,5][1]

#3c. Tercera forma con glm:

logit <- predict(modelo,newdata=data.frame(age=50)) #pj= 0.04347876 para age=20

16.0.10 Solución parte (j)

La proporción estimada de personas con presencia de enfermedades coronarias a la edad de 50 es igual a 0.559. Observe que se puede obtener de varias maneras: reemplazando la edad en la ecuación (9.1) y con las funciones lsm() o glm():

\[ \hat{P}(\mbox{chd}=1/\mbox{age}=50) \;= \; \frac{e^{\hat{\delta} \,+\, 50 \hat{\beta}}} {1 \;+\; e^{\hat{\delta} \,+\, 50\hat{\beta}}} \;= \; \frac{e^{-5.3094534 \;+\; (0.1109211)(50)}} {1 + e^{-5.3094534 \;+\; (0.1109211)(50)}} \;= \; \frac{e^{0.237}} {1 + e^{0.237}} \;= \; 0.5589\]

#1. Reemplazando:

edad <- 50
delta <- modelo$coef[1]
beta <- modelo$coef[2]
logit50 <- delta+ beta*edad
p50 <- exp(logit50)/(1+exp(logit50))

#2. Con la función lsm:

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)
datos$logit <- modelo$Logit   #Incluye los logits en el data frame
logit50 <- subset(datos, age ==50)[1,4][1]
p50 <- exp(logit50)/(1+exp(logit50))

#3. Con la función glm:

datos <- aplore3::chdage
attach(datos)
CHD <- as.integer(chd)-1  #Para codificar la variable *chd* como 0 y 1
modelo <- glm(CHD~age, family=binomial(link = "logit"), data=datos)

#3a. Primera forma con glm:

datos$pj <- predict(modelo, type="response")   #Incluye los pj en el data frame 
p50 <- subset(datos, age ==50)[1,5][1]

#3b. Segunda forma con glm:

datos$pj <- predict.glm(modelo, type="response")  
p50 <- subset(datos, age ==50)[1,5][1]

#3c. Tercera forma con glm:

p50 <- predict(modelo,newdata=data.frame(age=50), type="response")

16.0.11 Solución parte (k)

Los errores estándares de $\hat{\delta}$ y $\hat{\beta}$ son, respectivamente,

\[\hat{S}_{\hat{\delta}}= 1.13363, \qquad \hat{S}_{\hat{\beta}}= 0.0240593 \] Estas estimaciones se pueden obtener de varias maneras: con las funciones lsm() o glm::summary(). Con la función summary del modelo glm obtenemos una salida en donde los valores de las estimaciones de los errores estándares se pueden visualizar en la segunda columna (llamada Std. Error) de la lista llamada Coefficients (ver recuadro rojo en la figura 16.4):

#1. Con la función lsm:

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)
StdError <- modelo$Std.Error

#2. Con la función glm::summary:

datos <- aplore3::chdage
attach(datos)
CHD <- as.integer(chd)-1  #Para codificar la variable *chd* como 0 y 1
modelo <- glm(CHD~age, family=binomial(link = "logit"), data=datos)
summary(modelo)

Figure 16.4: Estimaciones de los errores estándares. Fuente: Elaboración propia.

16.0.12 Solución parte (l)

La estimación del logaritmo de la función de máxima verosimilitud en el modelo logístico se puede obtener de varias maneras. Una es reemplazando los valores correspondientes en la ecuación (9.2):

\[{\cal L}(\hat{\alpha}) \;=\; \sum^{J}_{j=1}z_j\,\hat{g}_j \;-\; \sum^{J}_{j=1} n_j\ln \left[1+ e^{\hat{g}_j}\right] \;=\; -53.67655\]

En la expresión anterior, para un valor determinado $x_j$ de la edad, $\hat{g}_j$ es el logit estimado:

\[\hat{g}_j \;=\; \hat{\delta} \;+\; \hat{\beta} x_j = -5.3094534 \;+\; 0.1109211 \, x_j\]

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)

#sum(modelo$z_j* modelo$Logit) - sum(modelo$n_j * ln(1+ exp(modelo$Logit)))
#modelo$Log_Lik_Logit
#modelo$n_j
dim(modelo$n_j)  #SALE NULL

## [1] 43  2

Las otras maneras para calcular ${\cal L}(\hat{\alpha})$ son con las funciones lsm() o glm::summary(). Con cualquier camino encontramos que ${\cal L}(\hat{\alpha})=$ -53.6765463.

Con la primera función se obtiene así:

#1. Con la función lsm:

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)
modelo
modelo$Log_Lik_Logit

Con la función summary del modelo glm obtenemos una salida en donde se visualiza un valor (llamado Residual deviance) que se divide por -2 para obtener ${\cal L}(\hat{\alpha})$. En la parte (b) del ejemplo 2 de este mismo documento se explica este detalle. Este valor mencionado se puede observar en el último bloque de la salida (ver recuadro rojo en la figura 16.5):

#2. Con la función glm::summary:

datos <- aplore3::chdage
attach(datos)
CHD <- as.integer(chd)-1  #Para codificar la variable *chd* como 0 y 1
modelo <- glm(CHD~age, family=binomial(link = "logit"), data=datos)
summary(modelo)
modelo$deviance/-2

Figure 16.5: Estimación del Log de la función de verosimilitud en el modelo logístico. Fuente: Elaboración propia.

16.0.13 Solución parte (m)

La proporción estimada de personas con presencia de enfermedades coronarias a la edad de 50 es igual a 0.559. Observe que se puede obtener de varias maneras. Un camino es reemplazando la edad en la ecuación (9.1) :

\[ \hat{O}_{50} \;= \;\hat{O}(\mbox{cuando age=50}) \;= \; \frac{\hat{P}(\mbox{chd}=1/\mbox{age}=50)} {1 \;-\; \hat{P}(\mbox{chd}=1/\mbox{age}=50)} \;= \; \frac{0.5588765} {1 \;-\; 0.5588765 } \;= \; 1.266939\] Es decir, el odds estimado para individuos con edad de 50 es $0,560/(1-0,560)=$ 1.266939. Esto significa que, cuando la persona tiene 50 años, la probabilidad de que tenga enfermedades coronarias es aproximadamente 1.27 veces la probabilidad de que no tenga.

Otra forma de hallar este valor estimado es utilizando las funciones lsm() o glm():

#1. Reemplazando:

edad <- 50
delta <- modelo$coef[1]
beta <- modelo$coef[2]
logit50 <- delta+ beta*edad
p50 <- exp(logit50)/(1+exp(logit50))
Odd50 <- p50/(1-p50)

#2. Con la función lsm:

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)
datos$logit <- modelo$Logit   #Incluye los logits en el data frame
logit50 <- subset(datos, age ==50)[1,4][1]
p50 <- exp(logit50)/(1+exp(logit50))
Odd50 <- p50/(1-p50)

#3. Con la función glm:

datos <- aplore3::chdage
attach(datos)
CHD <- as.integer(chd)-1  #Para codificar la variable *chd* como 0 y 1
modelo <- glm(CHD~age, family=binomial(link = "logit"), data=datos)

#3a. Primera forma con glm:

datos$pj <- predict(modelo, type="response")   #Incluye los pj en el data frame 
p50 <- subset(datos, age ==50)[1,5][1]
Odd50 <- p50/(1-p50)

#3b. Segunda forma con glm:

datos$pj <- predict.glm(modelo, type="response")  
p50 <- subset(datos, age ==50)[1,5][1]
Odd50 <- p50/(1-p50)

#3c. Tercera forma con glm:

p50 <- predict(modelo,newdata=data.frame(age=50), type="response") 
Odd50 <- p50/(1-p50)

16.0.14 Solución parte (n)

La gráfica del odds estimado se puede visualizar en la Figura 16.6. Como es de esperar, hay una relación exponencial y creciente entre el odds y la edad:

edad <- seq(0, 100, 0.005)
delta <- modelo$coef[1]
beta <- modelo$coef[2]
logit <- delta+ beta*edad
p <- exp(logit)/(1+exp(logit))
odds <- p/(1-p)
D <- data.frame(edad,odds)

ggplot(D, aes( x = edad)) +
geom_point(aes(y=odds, colour=edad), size=1.5,color="darkgreen")  +
labs(x="Edad", y="Odds del riesgo de tener CHD", fill= "") + 
facet_wrap(. ~ "Odds del riesgo de CHD versus Edad") +    
theme_bw(base_size = 12)

Figure 16.6: Logit para los datos chdage

16.0.15 Solución parte (o)

Por el teorema 12.1, cuando la edad se incrementa en 1 año, la razón odds estimada es 1.1173068:

\[\hat{OR} \;= \;e^{\hat{\beta}} \;=\; e^{0.11092} \;=\; 1.117307\]

Otra forma de hallar este valor estimado es utilizando las funciones lsm() o glm():

#2. Con la función lsm:

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)

# 2a. Primera forma con lsm:

OR <- exp(modelo$coef[2])

#2b. Segunda forma con lsm:
OR <- modelo$ExpB[2,1]

#3. Con la función glm:

datos <- aplore3::chdage
attach(datos)
CHD <- as.integer(chd)-1  #Para codificar la variable *chd* como 0 y 1
modelo <- glm(CHD~age, family=binomial(link = "logit"), data=datos)
OR <- exp(modelo$coefficients[2])

17 Intervalos de confianza

En el documento Rpbus :: Modelos logísticos (intervalos de confianza) se ha desarrollado esta teoría, acompañado de las aplicaciones correspondientes.

18 Comparación de modelos

En esta sección se presentan estadísticas para distintas pruebas de comparación de modelos:

$H_0$: Logístico versus $H_1$: Completo.
$H_0$: Nulo versus $H_1$: Logístico.
$H_0$: Logístico versus $H_1$: Saturado.
$H_0$: Submodelo versus $H_1$: Logístico.
$H_0$: Submodelo con una variable explicativa menos versus $H_1$: Logístico.

En la Tabla 18.1 se presenta un resumen de las mencionadas pruebas. En las secciones siguientes se darán los detalles correspondientes. En especial, se observa que estas estadísticas tienen distribución asintótica chi-cuadrada.

Table 18.1: Pruebas de comparación de modelos con el modelo logístico.
1	2	3	4	5	6	7	8
Pruebas de Hipótesis	No. de parámetros	Vector de parámetros	Logaritmo de la función de verosimilitud	Estadístico de prueba ($D$)	Distribución asintótica de $D$.	Grado de libertad ($\nu$)	P-valor
Modelo logístico	$1+K$	$\hat{\alpha}$	${\cal L}(\hat{\alpha})$
$H_0$: Logit vs $H_1$: Completo	$n$	$\hat{p}=y$	${\cal L}(\hat{p}) =0$	$2[{\cal L}(\hat{p})-{\cal L}(\hat{\alpha})]= -2\,{\cal L}(\hat{\alpha})$	$\chi^2$	$n-(1+K)$	$P(\chi^2_{\nu} \geq D)$
$H_0$: Nulo vs $H_1$: Logit	$1$	$\hat{p}=\hat{\delta}_o=\overline{y}$	${\cal L}(\hat{\delta}_o)$	$2[{\cal L}(\hat{\alpha})-{\cal L}(\hat{\delta}_o)]$	$\chi^2$	$K$	$P(\chi^2_{\nu} \geq D)$
$H_0$: Logit vs $H_1$: Saturado	$J$	$\tilde{p}$	${\cal L}(\tilde{p})$	$2[{\cal L}(\tilde{p})-{\cal L}(\hat{\alpha})]$	$\chi^2$	$J-(1+K)$	$P(\chi^2_{\nu} \geq D)$
$H_0$: Subm. vs $H_1$: Logit	$K$	$\hat{\alpha}_s$	${\cal L}(\hat{\alpha}_s)$	$2[{\cal L}(\hat{\alpha})-{\cal L}(\hat{\alpha}_s)]$	$\chi^2$	$1$	$P(\chi^2_{\nu} \geq D)$
Fuente. Elaboración propia.
Notaciones. ¹ Subm.: Submodelo logístico con una variable explicativa menos. ² Otras notaciones en las secciones siguientes

18.0.1 Logístico vs Completo

Theorem 18.1 (Comparación de un modelo logístico con el modelo completo) Para la hipótesis

$H_0$: el modelo logístico (con $X_1, \ldots, X_K$),

vs la alternativa

$H_1$: el modelo completo (que no se basa en poblaciones)

la estadística de prueba es

\[D_C:=2\ln\left(\frac{L(\hat{p})}{L(\hat{\alpha})}\right)\;=\; 2[{\cal L}(\hat{p})-{\cal L}(\hat{\alpha})] \;= \; -2\,{\cal L}(\hat{\alpha})\]

y tiene distribución asintótica chi-cuadrada con $v=n-(1+K)$ grados de libertad cuando $n\to\infty$.

Remark. Se espera que esta prueba no rechace $H_0$ (p-valor alto), o sea, que los datos obtenidos no estén en contra del modelo logístico. Es decir, que al pasar del modelo completo al modelo logístico no se pierde información estadísticamente significativa.

18.0.2 Nulo vs Logístico

Theorem 18.2 (Comparación de un modelo logístico con el modelo nulo) Para la hipótesis

$H_0$: el modelo nulo (sólo con el intercepto),

vs la alternativa

$H_1$: el modelo logístico (con $X_1,\ldots, X_K$)

la estadística de prueba es \[D_0 \;= \; 2\ln\left(\frac{L(\hat{\alpha})}{L(\hat{\delta}_o)}\right)\; =\; 2[{\cal L}(\hat{\alpha})-{\cal L}(\hat{\delta}_o)]\]

y tiene distribución asintótica chi-cuadrada con $K$ grados de libertad cuando $J\to\infty$.

Aquí $\hat{\delta}_o=logit(\overline{Y})$ es la estimación de $\delta$ en el modelo nulo.

Remark. Tenemos que:

La hipótesis es equivalente a la hipótesis $H_0: \beta=0$.
Esta prueba sólo es válida para el caso de datos no agrupados ($J=n$).
En el trabajo práctico, se espera que esta prueba sí rechace $H_0$ (p-valor bajo). Es decir, que las variables explicativas $X_1, \ldots, X_K$ del modelo logístico, tiene una explicación más informativa que sólo el intercepto.
En caso contrario (si la prueba no rechaza $H_0$), que no es muy común en problemas prácticos, se tendría que chequear otro modelo logístico con más o con otras variables.

18.0.3 Logístico vs Saturado

Theorem 18.3 (Comparación de un modelo logístico con el modelo saturado) La LR-estadística de prueba (según el método de cocientes de funciones de verosimilitud) para la hipótesis

$H_0$: el modelo logístico (con $X_1,\ldots, X_K$),

vs la alternativa

$H_1$: el modelo saturado correspondiente (con sus $J$ poblaciones)

es equivalente a la llamada desviación que tiene el modelo logístico del modelo saturado

\[D_S:=2\ln\left(\frac{L(\tilde{p})}{L(\hat{\alpha})}\right)= 2[{\cal L}(\tilde{p})-{\cal L}(\hat{\alpha})]\]

la cual tiene distribución asintótica chi-cuadrada con $v=J-(1+K)$ grados de libertad cuando $n\to\infty$ y $J$ es fijo.

Remark. Se tiene:

Aquí se requiere que $J>1+K$. Para el caso en que $J=1+K$, el análisis en un modelo logístico es el mismo que en el modelo saturado. En la sección 14 del documento Rpubs:: Regresión logística (estimaciones) se analizaron algunas relaciones entre los modelos logístico y saturado, en especial, estos dos casos.
Esta prueba únicamente se cumple para datos agrupados porque $J$ es fijo (lo que no sucede para el caso de datos no agrupados).
Se espera que esta prueba no rechace $H_0$ (p-valor alto), o sea, que los datos obtenidos no estén en contra del modelo logístico. Es decir, que al pasar del modelo saturado al modelo logístico no se pierde información estadísticamente significativa.

18.0.4 Submodelo vs Logístico

Theorem 18.4 (Comparación de un modelo logístico con algún submodelo) Para la hipótesis

$H_0$: un submodelo logístico con ${X}_1,\cdots, {X}_{\tilde{K}}$,

vs la alternativa

$H_1$: el modelo logístico con ${X}_1,\cdots,{X}_K$ con $\tilde{K}<K$,

se cumplen los siguiente resultados:

Resultado 1:

La estadística de prueba es equivalente a la estadística

\[D_{L}:=2\ln\left(\frac{L(\hat{\alpha})}{L(\hat{\alpha}_s)}\right) = 2[{\cal L}(\hat{\alpha})-{\cal L}(\hat{\alpha}_s)]\]

Aquí

\[\hat{\alpha}=(\hat{\delta},\hat{\beta}_1,\cdots, \hat{\beta}_K)^T\]

es la ML-estimación en el modelo logístico de la alternativa $H_1$ y

\[\hat{\alpha}_s=(\hat{\delta}_s,\hat{\beta}_{s1},\cdots, \hat{\beta}_{s\tilde{K}})^T\]

es la ML-estimación en el submodelo logístico de la hipótesis $H_0$.

Resultado 2:

$D_L$ tiene distribución asintótica chi-cuadrada con $K-\tilde{K}$ grados de libertad cuando $J\to\infty$.

Resultado 3:

Para la situación anterior, una estadística asintóticamente equivalente es la de Wald:

\[W:=\hat{\gamma}^T\cdot\hat{C}ov^{-1}(\hat{\gamma})\cdot\hat{\gamma}\]

la cual también tiene distribución asintótica chi-cuadrada con $K-\tilde{K}$ grados de libertad cuando $J\to\infty$.

Aquí $\hat{\gamma}$ es la estimación de $\gamma$, que es la parte $(K-\tilde{K})$-dimensional del vector $\alpha$ que se anula bajo $H_0$ y $\hat{C}ov(\hat{\gamma})$ es la matriz de covarianzas estimada de $\hat{\gamma}$.

Remark. Se tiene:

Nótese que la hipótesis de la primera parte del teorema es equivalente a la hipótesis $H_0: \gamma=0$.
Esta prueba sólo es válida para datos no agrupados. Aunque, también, es posible realizarla teniendo en cuenta el modelo saturado. Pero, como en la prueba únicamente se considera el modelo logístico, no tiene mucho sentido comparar éste con un submodelo teniendo que pasar por el modelo saturado.
Se espera que no se rechace la prueba (p-valor alto).

18.0.5 Submodelo con una X menos vs Logístico

Theorem 18.5 (Comparación de un modelo logístico con un submodelo que tiene una variable explicativa menos) Para la hipótesis

$H_0$: el submodelo (con ${X}_1,\cdots,{X}_K$ sin un ${X}_k$),

vs la alternativa

$H_1$: el modelo logístico (con ${X}_1,\cdots,{X}_K$)

se puede tomar, alternativamente, una de las dos estadísticas de pruebas que se mencionan en los resultados siguientes:

Resultado 1:

Estadística equivalente a:

\[D_{L}:= 2\ln\left(\frac{L(\hat{\alpha})}{L(\hat{\alpha}_s)}\right)= 2[{\cal L}(\hat{\alpha})-{\cal L}(\hat{\alpha}_s)], \]

donde $\hat{\alpha}_s$ es la estimación bajo $H_0$. Se resalta que $D_L$ tiene distribución asintótica chi-cuadrada con $1$ grado de libertad cuando $J\to\infty$.

Resultado 2:

Estadística de Wald:

\[W= \frac{\hat{\beta}^{2}_{k}}{\hat{V}(\hat{\beta}_k)} = \left(\frac{\hat{\beta}_k}{SE(\hat{\beta}_k)}\right)^2, \]

siendo $\hat{\beta}_k$ la estimación de $\beta_k$, para cada $k=0,1,\cdots,K$ en el modelo (bajo $H_1$) con su varianza estimada $\hat{V}(\hat{\beta}_k)$ y su error estándar

\[SE(\hat{\beta}_k)=\sqrt{\hat{V}(\hat{\beta}_k)}\]

También es importante anotar que $W$ tiene distribución asintótica chi-cuadrada con $1$ grado de libertad cuando $J\to\infty$.

Remark. Tenemos:

En este teorema se está considerando el caso de datos no agrupados.
Con base en todas las pruebas parciales, para cada $k=0,1,\cdots,K$ se eliminará la variable explicativa que menor aporte individual tenga en la explicación. Es decir, la variable que tenga p-valor parcial más alto. Así, se sigue eliminando variable tras variable hasta que se rechacen todas las pruebas parciales (todas las tengan p-valores bajos).

19 Ejemplo 2: Enunciado

Considere los datos del archivo chdage. Suponga que se quiere analizar un modelo de regresión logística, considerando a chd como variable dependiente y age como independiente.

Halle las estimaciones de los parámetros logísticos y el valor estimado ${\cal L}(\hat{\alpha})$.

Luego, haga una prueba de comparación entre este modelo estimado y cada uno de los siguientes modelos que se indican abajo:

Completo.
Nulo.
Saturado.

En cada uno de los incisos anteriores escriba las hipótesis correspondientes y calcule siempre: el número de parámetros que se deben estimar, la estimación del parámetro correspondiente y del logaritmo de la función de verosimilitud y el valor del estadístico de prueba. Además, diga cuál es la distribución de ese estadístico; halle el P-valor de la prueba y escriba, obviamente, la decisión.

Resuma en una tabla algunos de los resultados encontrados en los incisos anteriores.

20 Ejemplo 2: Solución

20.0.1 Solución parte (a)

Como hay $K=1$ variable explicativa (que es age), el número de parámetros logísticos que se deben estimar es $1+K=2$, a saber, el intercepto $\delta$ y la pendiente $\beta$. El vector de parámetros es ($T$ indica la transpuesta del vector):

\[\alpha =(\delta,\beta)^T\]

En los incisos (d) o (e) del Ejemplo 1 (ver Sección 15) se encuentran las estimaciones correspondientes de estos parámetros. Se obtiene que:

\[\hat{\delta}= \mbox{-5.3095 $\;$ y $\; \hat{\beta}=$ 0.1109. $\quad$ Es decir},\quad \hat{\alpha} \;=\; \left(\hat{\delta}, \hat{\beta}\right)^T \;=\; (\mbox{-5.3095, $\,$ 0.1109})^T \]

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)
K <- 1       # Número de variables explicativas
n_alfa <- 1+K  # Número de parámetros logísticos
n_alfa
modelo$coef     # Todos los coeficientes
delta <- modelo$coef[1]  # Intercepto
delta
beta <- modelo$coef[2]  # Pendiente
beta

En el inciso (l) del Ejemplo 1 (ver Sección 15) se encuentra la estimación solicitada. Se obtiene que:

\[{\cal L}(\hat{\alpha}) \;=\; \mbox{-53.6765}\]

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)
Log_Lik_Logit <- modelo$Log_Lik_Logit
Log_Lik_Logit

20.0.2 Solución parte (b)

$H_0$: Logístico versus $H_1$: Completo.
El número de parámetros en el modelo completo que se deben estimar es \[n = \mbox{100}\]
Por el teorema 5.1, tenemos que

\[\hat{p}= y\]

Por el teorema 5.1, se tiene que

\[{\cal L}(\hat{p})\;=\; {\cal L}(y)\;=\; \mbox{0}\]

Por el teorema 18.1, un valor del estadístico de prueba es:

\[D_C \;= \; -2\,{\cal L}(\hat{\alpha}) \;=\; -2(\mbox{-53.6765}) \;=\; \mbox{107.3531}\]

Para justificar el comentario hecho con respecto a la figura 16.5, en la parte (l) del ejemplo 1, solo tiene que observar que:

\[{\cal L}(\hat{\alpha}) \;=\; \frac{D_C}{-2} \;=\; \frac{\mbox{107.3531}}{-2} \;=\; \mbox{-53.6765}\]

Teniendo en cuenta que hay $n=100$ observaciones, el estadístico $D_C$ tiene distribución asintótica chi-cuadrada con los siguientes grados de libertad:

\[v\;=\; n- (1+K)\;=\; \mbox{100} - \mbox{2} \;=\; \mbox{98} \]

El $P$-valor de la prueba es

\[P\mbox{-valor} \;=\;P(\chi^2_{\mbox{98}} > \mbox{107.3531})\;=\; \mbox{0.2435}\]

No se rechaza $H_0$ al nivel del $5\%$. Es decir, el modelo logístico es válido.

En R, los valores obtenidos se pueden hallar así:

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)

# Punto 2 (número de parámetros):
n <- nrow(chdage)
n

# Punto 4 (Log-verosimilitud):
Log_Lik_Complete <- modelo$Log_Lik_Complete  
Log_Lik_Complete

# Punto 5 (Estadístico de prueba):
Logit_vs_Complete <- modelo$Dev_Logit_vs_Complete 
Logit_vs_Complete

# Punto 7 (grados de libertad)
df_c <- modelo$Df_Logit_vs_Complete
df_c

# Punto 8 (P-valor):
pvalor_c <- modelo$P.v_Logit_vs_Complete
pvalor_c

La prueba de comparación se puede llevar a cabo con la función lsm::summary(). Con ella obtenemos una matriz llamada Analysis of Deviance (Chi-squared) en donde se encuentran: el nombre de la prueba de comparación, el valor del estadístico de prueba (Deviance), los grados de libertad (DF) y el correspondiente P-valor de la prueba (P.value) (ver recuadro rojo en la figura 20.1):

También se pueden hallar con la función lsm::summary()

summary(modelo)
Logit_vs_Complete <- summary(modelo)$anova[2,1]
Logit_vs_Complete

Figure 20.1: Prueba de comparación del modelo logístico con el nulo. Fuente: Elaboración propia.

20.0.3 Solución parte (c)

$H_0$: Nulo versus $H_1$: Logístico.
El número de parámetros en el modelo nulo que se deben estimar es \[n = \mbox{1}\]
Por el teorema 6.2, tenemos que

\[\hat{p}\;=\; \hat{\delta}_o\;=\; \overline{y} \;=\; \frac{43}{\mbox{100}} \;=\; 0.43\]

Por la ecuación (6.1) , se tiene que

\[{\cal L}(\hat{p})\;=\; {\cal L}(\overline{y})\;=\; \mbox{-68.3315}\]

Por el teorema 18.2, un valor del estadístico de prueba es: \[D(M) \;= \; 2[{\cal L}(\hat{\alpha})-{\cal L}(\hat{\delta}_o)] \;=\;2[\mbox{-53.6765} - (\mbox{-68.3315})] \;=\; \mbox{29.3099}\]
Teniendo en cuenta que el modelo nulo tiene $n=1$ parámetros, el estadístico $D_0$ tiene distribución asintótica chi-cuadrada con los siguientes grados de libertad:

\[v\;=\; (1+K)-1\;=\; \mbox{2} - \mbox{1} \;=\; \mbox{1} \]

El $P$-valor de la prueba es

\[P\mbox{-valor} \;=\;P(\chi^2_{\mbox{1}} > \mbox{29.3099})\;=\; \mbox{0}\]

Se rechaza $H_0$ al nivel del $5\%$. Es decir, el modelo logístico es válido.

En R, los valores obtenidos se pueden hallar así:

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)

# Punto 2 (número de parámetros):
n <- 1
n

# Punto 3 (Media de CHD):
Media_Y <- mean(CHD)
Media_Y

# Punto 4 (Log-verosimilitud):
Log_Lik_Nulo <- modelo$Log_Lik_Null
Log_Lik_Nulo

# Punto 5 (Estadístico de prueba):
Logit_vs_Nulo <- modelo$Dev_Null_vs_Logit 
Logit_vs_Nulo

# Punto 6 (grados de libertad)
df_0 <- modelo$Df_Null_vs_Logit
df_0

# Punto 7 (P-valor):
pvalor_0 <- modelo$P.v_Null_vs_Logit

También se pueden hallar con la función lsm::summary()

summary(modelo)
Logit_vs_Nulo <- summary(modelo)$anova[1,1]
Logit_vs_Nulo

Figure 20.2: Prueba de comparación del modelo logístico con el nulo. Fuente: Elaboración propia.

20.0.4 Solución parte (d)

$H_0$: Logístico versus $H_1$: Saturado.
El número de parámetros en el modelo saturado que se deben estimar es \[J = \mbox{43}\]
Por el Teorema 7.2 , se tiene que

\[{\cal L}(\tilde{p})\;=\; \mbox{-41.7994}\]

Por el teorema 18.3, un valor del estadístico de prueba es:

\[D_S \;= \; 2[{\cal L}(\tilde{p})-{\cal L}(\hat{\alpha})] \;=\;2[\mbox{-41.7994} - (\mbox{-53.6765})] \;=\; \mbox{23.7543}\]

Teniendo en cuenta que el modelo nulo tiene $n=$ 43 parámetros, el estadístico $D_S$ tiene distribución asintótica chi-cuadrada con los siguientes grados de libertad:

\[v\;=\; J- (1+K)\;=\; \mbox{43} - \mbox{2} \;=\; \mbox{41}\]

El $P$-valor de la prueba es

\[P\mbox{-valor} \;=\;P(\chi^2_{\mbox{41}} > \mbox{23.7543})\;=\; \mbox{0.9857}\]

No se rechaza $H_0$ al nivel del $5\%$. Es decir, el modelo logístico es válido.

En R, los valores obtenidos se pueden hallar así:

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)

# Punto 2 (número de parámetros):
J <- modelo$Populations
J

# Punto 3 (Log-verosimilitud):
Log_Lik_Sat <- modelo$Log_Lik_Saturate 
Log_Lik_Sat

# Punto 4 (Estadístico de prueba):
Logit_vs_Sat <- modelo$Dev_Logit_vs_Saturate 
Logit_vs_Sat

# Punto 5 (grados de libertad)
df_s <- modelo$Df_Logit_vs_Saturate
df_s

# Punto 6 (P-valor):
pvalor_s <- modelo$P.v_Logit_vs_Saturate
pvalor_s

También se pueden hallar con la función lsm::summary()

summary(modelo)
Logit_vs_Saturado <- summary(modelo)$anova[1,1]
Logit_vs_Saturado

Figure 20.3: Prueba de comparación del modelo logístico con el saturado. Fuente: Elaboración propia.

20.0.5 Solución parte (e)

En la Tabla 20.1 se presenta un resumen de los resultados encontrados en los ejercicios anteriores. Se ha tomado como base la tabla18.1.

Table 20.1: Pruebas de comparación de modelos con el modelo logístico para los datos *chdage*.
1	2	3	4	5	6	7	8
Pruebas de Hipótesis	Vector de parámetros	No. de parámetros	Logaritmo de la función de verosimilitud	Estadístico de prueba ($D$)	Distribución asintótica de $D$.	Grado de libertad ($\nu$)	P-valor $P(\chi^2_{\nu} \geq D)$
Modelo logístico	$\hat{\alpha}=(\hat{\delta}, \hat{\beta})^T$ con $\hat{\delta} =-5.3095$ y $\hat{\beta}=0.1109$	$1+K=2$	${\cal L}(\hat{\alpha})=-53.6765$
$H_0$: Logit vs $H_1$: Completo	$\hat{p}=y$	$n=100$	${\cal L}(\hat{p}) =0$	$-2\,{\cal L}(\hat{\alpha})=107.3531$	$\chi^2$	$n-(1+K)=98$	0.2435
$H_0$: Nulo vs $H_1$: Logit	$\hat{p}=\hat{\delta}_o=\overline{y}=0.43$	$1$	${\cal L}(\hat{\delta}_o)=-68.3315$	$2[{\cal L}(\hat{\alpha})-{\cal L}(\hat{\delta}_o)]=29.3099$	$\chi^2$	$K=1$	0
$H_0$: Logit vs $H_1$: Saturado	$\tilde{p}$	$J=43$	${\cal L}(\tilde{p})=-41.7994$	$2[{\cal L}(\tilde{p})-{\cal L}(\hat{\alpha})]=23.7543$	$\chi^2$	$J-(1+K)=41$	0.9857
$H_0$: Subm. vs $H_1$: Logit	$\hat{\alpha}_s$	$K=1$	${\cal L}(\hat{\alpha}_s)$	$2[{\cal L}(\hat{\alpha})-{\cal L}(\hat{\alpha}_s)]$	$\chi^2$	$1$
Fuente. Elaboración propia.
Submodelo. ¹ Subm.: Submodelo logístico con una variable explicativa menos; ² En este ejemplo no hay submodelo.
Notaciones. ^a $T:$ transpuesta de un vector

21 Ejercicios

Para la solución de los siguientes ejercicios, téngase en cuenta los siguientes comentarios:

Todos los datos mencionados aparecen en los paquetes mencionados en este documento.
Siempre debe detallar el análisis del conjunto de datos (con las variables especificadas) basado en lo explicado en este documento.
Verifique cómo se obtienen las estimaciones correspondientes, los logaritmos de las funciones de máxima verosimilitud, estimaciones e intervalos de confianza para $p_j$, ODDS, razones ODDS, intercepto, pendiente, etc.

21.0.1 Ejercicios 1 a 3

Demuestre los teoremas: (a) 5.1; (b) 6.2; (c) 7.1; (d) 7.2; (e) 9.1
Haga un listado de los paquetes de R que estimen el logaritmo de la función de máxima verosimilitud en los modelos completo y nulo.
Haga un listado de los paquetes de R que, en el caso binario, estimen el logaritmo de la función de máxima verosimilitud en los modelos saturado y logístico.

21.0.2 Ejercicio 4

Los datos ICU corresponden a una muestra de 200 sujetos que hicieron parte de un estudio de supervivencia de pacientes que fueron remitidos a una unidad de cuidados intensivos (intensive care unit - ICU). La meta principal de este estudio fue desarrollar un modelo de regresión logística para predecir la probabilidad de supervivencia de estos pacientes en el hospital y estudiar los factores de riesgos asociados con el índice de mortalidad ICU. En estos datos tome a la variable AGE como independiente y STA como dependiente.

Escriba la ecuación general para el modelo de regresión logístico de STA contra AGE y para el logit transformado de este modelo. ¿Qué características de STA nos pone a pensar que debamos considerar el modelo de regresión logística en vez del usual modelo de regresión lineal para describir la relación entre STA y AGE?
Forme un diagrama de dispersión de STA contra AGE.
Usando los intervalos [15,24], [25,34], [35,44], [45,54], [55,64], [65,74], [75,84], [85,94] para AGE, calcule la media de STA de los sujetos dentro de cada intervalo. Grafique estos valores de la media de STA contra el punto medio del intervalo de AGE usando el mismo conjunto de ejes que se utilizaron en la parte (b).
Escriba una expresión para la función de verosimilitud y del logaritmo de esta función para el modelo de regresión logístico de (a) usando los 200 datos no agrupados. Obtenga una expresión para las dos ecuaciones de verosimilitud.
Obtenga las estimaciones de los parámetros del modelo de regresión logístico de (a). Usando estas estimaciones, escriba las correspondientes ecuaciones para los valores ajustados. Grafique la ecuación para los valores ajustados utilizando los mismos ejes como en (b) y (c).
Resuma (describa en palabras) los resultados presentados en la gráfica obtenida en (b), (c) y (e).
Usando los resultados de la parte (e), verifique la significancia del coeficiente de AGE. ¿Qué supuestos se necesitan para realizar dicha prueba?
Usando los resultados de (e), halle un intervalo del 95% de confianza para la pendiente y la constante. Escriba una interpretación con respecto al intervalo encontrado para la pendiente.
Obtenga la matriz de covarianzas estimada para el modelo en (e). Calcule el logit y la probabilidad logística estimada para una persona de 60 años. Calcule un intervalo del 95% de confianza para el logit y la probabilidad logística estimada. Interprete la probabilidad estimada y su intervalo de confianza.
Obtenga el logit estimado y su error estándar para cada persona en el estudio ICU. Grafique el logit estimado y los límites del intervalo del 95 % de confianza versus AGE para cada persona. Explique (en palabras) similaridades y diferencias entre las apariencias de esta gráfica y una gráfica de una gráfica de un modelo de regresión ajustado y sus límites del intervalo del 95 % de confianza.
Realize las siguientes pruebas de comparación de modelos resumiendo en una tabla las pruebas realizadas, el valor y la distribución muestral del estadístico de prueba, los grados de libertad, el P-valor y su decisión.

Nulo vs Logístico.
Logístico vs Completo.
Logístico vs Saturado

21.0.3 Ejercicios 5 a 7

Considere los datos ICU. Repita el ejercicio 4 utilizando la variable TYP (como variable dependiente) en vez de STA.
Considere los datos ICU. Repita todos los análisis realizados en este documento, pero considerando ahora las variables AGE (como variable independiente) y STA (como variable dependiente).
Considere los datos ICU. Haga el análisis correspondiente tomando a STA como variable dependiente y a AGE, SYS y HRA como independientes.

21.0.4 Ejercicios 8 a 9

Los datos UIS se recogieron con el propósito de comparar dos programas de tratamiento A y B para reducir el abuso de la droga y prevenir sus riesgos. La descipción de los datos se puede ver también aquí. Detalle el análisis para estos datos, tomando a DFREE como variable dependiente y AGE, BECK y NDRUGTX como variables independientes.
Los datos PROS corresponden a un estudio realizado pacientes con cáncer de próstata para determinar si las variables medidas en un examen básico pueden ser usadas para predecir si el tumor ha penetrado la cápsula prostática. Los datos fueron recogidos teniendo en cuenta 380 individuos, 153 de los cuales tuvieron un cáncer que penetró la cápsula prostática. En estos datos, una variable que se pensó que era particularmente predictiva para la penetración de cápsula es el nivel de antígeno prostático, PSA. Repita los pasos del ejercicio 4 usando CAPSULE como variable dependiente y utilize para PSA, los intervalos [0.0; 2.4], [2.5; 4.4], [4.5; 6.4], [6.5; 8.4], [8.5; 10.4], [10.5; 12.4], [12.5; 20.4], [20.5; 140].

21.0.5 Ejercicio 10

De todas las variables que aparecen en los datos PROS sólo considere a CAPSULE (como variable dependiente) y PSA (como variable independiente).

Responda:

¿Cuál es la ecuación para el modelo de regresión logística?
¿Cuál es la ecuación para riesgo estimado por este modelo?
¿Qué características de la variable dependiente nos conduce a considerar la regresión logística como más apropiada que el modelo de regresión lineal para describir la relación entre las dos variables mencionadas anteriormente?

Calcule:

$\mathcal{L}(\widetilde{p})$ en el modelo saturado.
$\mathcal{L}(\widehat{\alpha})$ en el modelo logístico.

Halle las estimaciones de los siguientes parámetros e interprételos (justifique en forma clara y precisa todas sus afirmaciones):

$P(CAPSULE=1 \, / \, PSA=11.2$ mg/ml$)$.
$P(CAPSULE=0 \, / \, PSA=11.2$ mg/ml$)$.
El odds cuando PSA=11.2.
La razón odds OR.

Realize las siguientes pruebas de comparación de modelos resumiendo en una tabla las pruebas realizadas, el valor y la distribución muestral del estadístico de prueba, los grados de libertad, el P-valor y su decisión.

Nulo vs Logístico.
Logístico vs Completo.
Logístico vs Saturado

21.0.6 Ejercicios 11 a 13

Considere los datos PROS. Realize un análisis de regresión logística tomando a CAPSULE como variable dependiente y VOL como variable independiente.
Considere los datos PROS. Realize un análisis de regresión logística tomando a CAPSULE como variable dependiente y AGE como variable independiente.
Considere los datos PROS, tomando a CAPSULE como variable dependiente y AGE, PSA y VOL como variables independientes.

21.0.7 Ejercicio 14

Los datos LOWBWT corresponden a un estudio realizado para identificar factores de riesgos asociados a nacimientos de bebés con bajo peso (peso menor que 2.500 gramos). Los datos fueron recogidos teniendo en cuenta 189 mujeres, 59 de las cuales tuvieron bebés con bajo peso y 130 de las cuales tuvieron bebés con peso normal. De todas las variables que aparecen sólo considere a LOW (como variable dependiente) y LWT (como variable independiente).

Responda:

¿Cuál es la ecuación para el modelo de regresión logística?
¿Cuál es la ecuación para el riesgo estimado por este modelo?
¿Qué características de la variable dependiente nos conduce a considerar la regresión logística como más apropiada que el modelo de regresión lineal para describir la relación entre las dos variables mencionadas anteriormente?

Calcule:

$\mathcal{L}(\widetilde{p})$ en el modelo saturado.
$\mathcal{L}(\widehat{\alpha})$ en el modelo logístico.

Halle las estimaciones para los siguientes parámetros e interprételos (justifique en forma clara y precisa todas sus afirmaciones):

$P(LOW=1 \, / \, LWT=100.3$ libras$)$.
$P(LOW=0 \, / \, LWT=100.3$ libras$)$.
El odds cuando LWT=100.3.
La razón odds OR.

Realize las siguientes pruebas de comparación de modelos resumiendo en una tabla las pruebas realizadas, el valor y la distribución muestral del estadístico de prueba, los grados de libertad, el P-valor y su decisión.

Nulo vs Logístico.
Logístico vs Completo.
Logístico vs Saturado

21.0.8 Ejercicios 15 a 18

Considere los datos LOWBWT, tomando a LOW como variable dependiente y AGE como variable independiente.
Considere los datos LOWBWT, tomando a LOW como variable dependiente y LWT como variable independiente.
Considere los datos LOWBWT, tomando a LOW como variable dependiente y BWT como variable independiente.
Considere los datos LOWBWT, tomando a LOW como variable dependiente y AGE, LWT y BWT como variables independientes.

21.0.9 Ejercicios 19 a 21

Considere los datos LOWBWTM11, tomando a LOW como variable dependiente y AGE como variable independiente.
Considere los datos LOWBWTM11, tomando a LOW como variable dependiente y LWT como variable independiente.
Considere los datos LOWBWTM11, tomando a LOW como variable dependiente y AGE y LWT como variables independientes.

21.0.10 Ejercicios 22

En los datos CLSLOWBWT, entre otras variables, una que los físicos consideraron importante para el control del peso del bebé (variable dependiente LOW) fue el peso de la madre durante el último periodo menstrual (LWT). Repita los pasos del ejercicio 4, pero para la parte (c) utilize los intervalos: [80,99], [100,109], [110,114], [115,119], [120,124], [125,129], [130,250]. La gráfica en la parte (c) no parece en forma de $S$. La razón principal es que el rango de los valores graficados está aproximadamente entre 0.2 y 0.56. Explique por qué un modelo para la probabilidad de LOW como una función de LWT pudiese ser el modelo de regresión logística.

21.0.11 Ejercicios 23 a 26

Considere los datos CLSLOWBWT, tomando a LOW como variable dependiente y AGE como variable independiente.
Considere los datos CLSLOWBWT, tomando a LOW como variable dependiente y LWT como variable independiente.
Considere los datos CLSLOWBWT, tomando a LOW como variable dependiente y BWT como variable independiente.
Considere los datos CLSLOWBWT, tomando a LOW como variable dependiente y AGE, LWT y BWT como variables independientes.

Bibliografía

Consultar el documento RPubs :: Regresión logística (bibliografía).

If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.

1	2	3	4	5	6	7	8
Pruebas de Hipótesis	No. de parámetros	Vector de parámetros	Logaritmo de la función de verosimilitud	Estadístico de prueba (\(D\))	Distribución asintótica de \(D\).	Grado de libertad (\(\nu\))	P-valor
Modelo logístico	\(1+K\)	\(\hat{\alpha}\)	\({\cal L}(\hat{\alpha})\)
\(H_0\): Logit vs \(H_1\): Completo	\(n\)	\(\hat{p}=y\)	\({\cal L}(\hat{p}) =0\)	\(2[{\cal L}(\hat{p})-{\cal L}(\hat{\alpha})]= -2\,{\cal L}(\hat{\alpha})\)	\(\chi^2\)	\(n-(1+K)\)	\(P(\chi^2_{\nu} \geq D)\)
\(H_0\): Nulo vs \(H_1\): Logit	\(1\)	\(\hat{p}=\hat{\delta}_o=\overline{y}\)	\({\cal L}(\hat{\delta}_o)\)	\(2[{\cal L}(\hat{\alpha})-{\cal L}(\hat{\delta}_o)]\)	\(\chi^2\)	\(K\)	\(P(\chi^2_{\nu} \geq D)\)
\(H_0\): Logit vs \(H_1\): Saturado	\(J\)	\(\tilde{p}\)	\({\cal L}(\tilde{p})\)	\(2[{\cal L}(\tilde{p})-{\cal L}(\hat{\alpha})]\)	\(\chi^2\)	\(J-(1+K)\)	\(P(\chi^2_{\nu} \geq D)\)
\(H_0\): Subm. vs \(H_1\): Logit	\(K\)	\(\hat{\alpha}_s\)	\({\cal L}(\hat{\alpha}_s)\)	\(2[{\cal L}(\hat{\alpha})-{\cal L}(\hat{\alpha}_s)]\)	\(\chi^2\)	\(1\)	\(P(\chi^2_{\nu} \geq D)\)
Fuente. Elaboración propia.
Notaciones. ¹ Subm.: Submodelo logístico con una variable explicativa menos. ² Otras notaciones en las secciones siguientes

1	2	3	4	5	6	7	8
Pruebas de Hipótesis	Vector de parámetros	No. de parámetros	Logaritmo de la función de verosimilitud	Estadístico de prueba (\(D\))	Distribución asintótica de \(D\).	Grado de libertad (\(\nu\))	P-valor \(P(\chi^2_{\nu} \geq D)\)
Modelo logístico	\(\hat{\alpha}=(\hat{\delta}, \hat{\beta})^T\) con \(\hat{\delta} =-5.3095\) y \(\hat{\beta}=0.1109\)	\(1+K=2\)	\({\cal L}(\hat{\alpha})=-53.6765\)
\(H_0\): Logit vs \(H_1\): Completo	\(\hat{p}=y\)	\(n=100\)	\({\cal L}(\hat{p}) =0\)	\(-2\,{\cal L}(\hat{\alpha})=107.3531\)	\(\chi^2\)	\(n-(1+K)=98\)	0.2435
\(H_0\): Nulo vs \(H_1\): Logit	\(\hat{p}=\hat{\delta}_o=\overline{y}=0.43\)	\(1\)	\({\cal L}(\hat{\delta}_o)=-68.3315\)	\(2[{\cal L}(\hat{\alpha})-{\cal L}(\hat{\delta}_o)]=29.3099\)	\(\chi^2\)	\(K=1\)	0
\(H_0\): Logit vs \(H_1\): Saturado	\(\tilde{p}\)	\(J=43\)	\({\cal L}(\tilde{p})=-41.7994\)	\(2[{\cal L}(\tilde{p})-{\cal L}(\hat{\alpha})]=23.7543\)	\(\chi^2\)	\(J-(1+K)=41\)	0.9857
\(H_0\): Subm. vs \(H_1\): Logit	\(\hat{\alpha}_s\)	\(K=1\)	\({\cal L}(\hat{\alpha}_s)\)	\(2[{\cal L}(\hat{\alpha})-{\cal L}(\hat{\alpha}_s)]\)	\(\chi^2\)	\(1\)
Fuente. Elaboración propia.
Submodelo. ¹ Subm.: Submodelo logístico con una variable explicativa menos; ² En este ejemplo no hay submodelo.
Notaciones. ^a \(T:\) transpuesta de un vector

1	2	3	4	5	6	7	8	9
\(Y\)	\(X_1\)	\(X_2\)	\(X_3\)	\(X_4\)	\(X_5\)	\(j\)	\(n_j\)	\(Z_j\)
Población: Bajo, 80, Si, 170, Estrato 1
1	Bajo	80	Si	170	Estrato 1	\(j=1\)	\(n_1=3\)	\(Z_1=2\)
0	Bajo	80	Si	170	Estrato 1
1	Bajo	80	Si	170	Estrato 1
Población: Mediano, 100, Si, 150, Estrato 5
0	Mediano	100	Si	150	Estrato 5	\(j=2\)	\(n_2=4\)	\(Z_2=3\)
1	Mediano	100	Si	150	Estrato 5
1	Mediano	100	Si	150	Estrato 5
1	Mediano	100	Si	150	Estrato 5
Población: Mediano, 100, No, 180, Estrato 2
1	Mediano	100	No	180	Estrato 2	\(j=3\)	\(n_3=2\)	\(Z_3=1\)
0	Mediano	100	No	180	Estrato 2
Población: Alto, 100, No, 100, Estrato 4
0	Alto	100	No	100	Estrato 4	\(j=4\)	\(n_4=3\)	\(Z_4=2\)
1	Alto	100	No	100	Estrato 4
1	Alto	100	No	100	Estrato 4
General. \(Y\) es la variable de respuesta; \(X_1, \cdots, X_5\) son las variables explicativas; \(j\) es la población; \(n_j\) es el tamaño de la población \(j\); \(Z_j\) es el número de éxitos en la población \(j\).