EL CASO BINARIO

Regresión logística (estimaciones)

Dr. rer. nat. Humberto LLinás Solano

Departamento de Matemáticas y Estadística, Universidad del Norte (Barranquilla, Colombia)

hllinas@uninorte.edu.co

14/07/22

Abstract

La teoría mencionada puede revisarse en el volumen 8 de mis notas de clase que aparecen en el siguiente documento: 2.2. Regresión logística y en la referencia: LLinás (2006). En Rpubs:: toc se pueden ver otros documentos de posible interés.

hllinas

1 Librerías

library(aplore3)     #Base de datos para los ejemplos
library(lsm)         #Base de datos para ejemplos y estimaciones del Log-verosimilitud
library(tidyverse)   #Incluye a dplyr y ggplot2

2 Introducción

Los métodos de regresión se han convertido en un componente integral de cualquier análisis de datos preocupado por describir la relación entre una variable de respuesta y una o variables más explicativas. Muy a menudo, la variable de resultado es discreta, tomando un valor de dos o más valores posibles. El modelo de regresión logística es el más modelo de regresión de mayor uso frecuente para el análisis de estos datos.

En el documento Rpbus :: Modelos lineales generalizados se explicó que estos modelos hacen parte de los modelos lineales generalizados. Allí se pueden ver los detalles correspondientes. Para conocer con profundidad estos modelos, es importante estudiar los siguientes cuatro tipos de modelos:

Modelo de Bernoulli.
Modelo completo.
Modelo nulo.
Modelo saturado.

En el documento Rpbus :: Modelos completo, nulo y saturado se describieron sus propiedades, con los ejemplos correspondientes. En este documento, se utilizarán las notaciones utilizados allá, así como los resultados encontrados en los ejemplos aplicados en esos documentos. A pesar de ello, se hará una breve descripción del modelo saturado, el cual será base para la teoría que se explicará posteriormente.

3 Datasets

Para las aplicaciones, se utilizaron bases de datos de las librerías aplore3 (creado por Braglia, 2016) y lsm (creado por LLinás, Fábregas y Villalba, 2020).

library(aplore3) 
library(lsm)

Ambos paquetes incluyen, de manera “no oficial”, todos los conjuntos de datos utilizados en el texto de Hosmer, Lemeshow and Sturdivant (2013). En este link o en este otro se encuentran los nombres de los datasets con los respectivos detalles:

Descripción (description).
Uso (usage).
Formato (format).
Fuente (source) o Referencias (References).

Se resalta el hecho que lsm es un paquete que contiene:

Otros datasets que son de autoría propia.
La función lsm(), la cual nos permite estimar, entre otros, el logaritmo de la función de verosimilitud de los modelos completos, nulo, saturado y logístico. La teoría relacionada con los tres primeros modelos se van a explicar más adelante dentro de este documento. La que se relaciona con lo smodelos logísticos, en otros documentos.

Para los ejemplos, se utilizará chdage, el cual contiene datos recogidos con el fin de estudiar si la edad es un factor influyente en la presencia o no de enfermedades coronarias (CHD). Es un data frame con 100 observaciones. En aplore3 hay cuatro variables y en lsm, tres. A continuación, se describen cada una (entre paréntesis, el nombre de la variable en lsm):

id (ID): código de identificación (1-100).
chd (CHD): Presencia of CHD. En aplore3, los niveles son No, Si. En lsm son 0 (=No) y 1 (=Si).
age (AGE): edad (en años) de los participantes.
agegrp: edad agrupada (1: 20-39, 2: 30-34, 3: 35-39, 4: 40-44, 5: 45-49, 6: 50-54, 7: 55-59, 8: 60-69).

Cargamos el data frame chdage de la librería aplore3:

chdage <- aplore3::chdage
attach(chdage)

Las primeras 10 observaciones son:

ID	age	agegrp	chd
1	20	20-39	No
2	23	20-39	No
3	24	20-39	No
4	25	20-39	No
5	25	20-39	Yes
6	26	20-39	No
7	26	20-39	No
8	28	20-39	No
9	28	20-39	No
10	29	20-39	No

Observe que, en el datasets aplore3::chdage, la variable chd es binaria, pero no numérica. Al convertirla en integer, se codifica como 1=No y 2=Si. Por esta razón, esta variable se puede codificar como 0=No y 1=Si, de la siguiente manera:

CHD <- as.integer(chd)-1

4 Modelo saturado

El modelo saturado está caracterizado por dos supuestos.

Hypothesis 4.1 (Supuesto 1 en el modelo saturado) Se supone que:

Se tienen $K$ variables explicativas $X_1, \cdots, X_K$ (algunas pueden ser numéricas y otras categóricas) con valores $x_{i1}, \cdots, x_{iK}$ para $i=1, \cdots, n$ (fijadas u observadas por el estadístico, según sean variables determiní}sticas o aleatorias).
Entre las $n$ kuplas $(x_{i1}, \cdots, x_{iK})$ de los valores de la variable explicativa $X$ haya $J$ kuplas diferentes, definiendo las $J$ poblaciones. Por tanto, $J \le n$.

Remark. Para cada población $j=1, \cdots ,J$ se denota:

El número de observaciones $Y_{ij}$ en cada población $j$ por $n_j$, siendo $n_1+\cdots +n_J=n$;
La suma de las $n_j$ observaciones $Y_{ij}$ en $j$ por

\[Z_j:=\sum\limits_{i=1}^{n_j}Y_{ij} \quad \mbox{con valor}\quad z_j=\sum\limits_{i=1}^{n_j}y_{ij},\quad \mbox{siendo}\quad \sum\limits^J_{j=1}z_j \;= \; \sum\limits^n_{i=1}y_i\]

En la Tabla 4.1 se ilustra hipotéticamente un conjunto de datos con $J=4$ poblaciones.

Table 4.1: Ilustración de un cojunto de datos agrupado en $J=4$ poblaciones
1	2	3	4	5	6	7	8	9
$Y$	$X_1$	$X_2$	$X_3$	$X_4$	$X_5$	$j$	$n_j$	$Z_j$
Población: Bajo, 80, Si, 170, Estrato 1
1	Bajo	80	Si	170	Estrato 1	$j=1$	$n_1=3$	$Z_1=2$
0	Bajo	80	Si	170	Estrato 1
1	Bajo	80	Si	170	Estrato 1
Población: Mediano, 100, Si, 150, Estrato 5
0	Mediano	100	Si	150	Estrato 5	$j=2$	$n_2=4$	$Z_2=3$
1	Mediano	100	Si	150	Estrato 5
1	Mediano	100	Si	150	Estrato 5
1	Mediano	100	Si	150	Estrato 5
Población: Mediano, 100, No, 180, Estrato 2
1	Mediano	100	No	180	Estrato 2	$j=3$	$n_3=2$	$Z_3=1$
0	Mediano	100	No	180	Estrato 2
Población: Alto, 100, No, 100, Estrato 4
0	Alto	100	No	100	Estrato 4	$j=4$	$n_4=3$	$Z_4=2$
1	Alto	100	No	100	Estrato 4
1	Alto	100	No	100	Estrato 4
General. $Y$ es la variable de respuesta; $X_1, \cdots, X_5$ son las variables explicativas; $j$ es la població; $n_j$ es el tamaño de la población $j$; $Z_j$ es el número de éxitos en la población $j$.

Hypothesis 4.2 (Supuesto 2 en el modelo saturado) Para mayor simplicidad en la escritura, se abreviará la j-ésima población $(x_{1j}, \cdots ,x_{Kj})$ por el símbolo $\star$. Para cada población $j=1, \cdots ,J$ y cada observación $i=1,\cdots,n$ en $j$, se supone que:

$(Y_{ij}|\star)$ es de Bernoulli. Es decir,

\[(Y_{ij}|\star) \sim {\cal B}(1,p_j)\]

Las variables $(Y_{ij}|\star)$ son independientes entre sí.
La esperanza y la varianza son, respectivamente,

\[p_j=P(Y_{ij}=1|\star)=E(Y_{ij}|\star), \qquad V(Y_{ij}|x_{j})=p_j(1-p_j)\]

A continuación, se oprimirá el símbolo $\star$.

Remark. El supuesto 2 implica:

Todos los $p_{ij}$, $i=1, \cdots ,n$ dentro de cada población $j$ son iguales. Es decir, se tiene como parámetro el vector $p=(p_1, \cdots ,p_J)^T.$
Para cada población $j=1, \cdots ,J$:
- La variable $Z_j$ es binomial. Es decir,
\[Z_j\sim{\cal B}(n_j,p_j)\]
- Las variables $Z_j$ son independientes entre las poblaciones.

Theorem 4.1 (Log-verosimilitud en el modelo saturado) En el modelo saturado, el logaritmo de la función de máxima verosimilitud será

\[\begin{eqnarray} {\cal L}(p) &=& \sum^J_{j=1}\left(\sum_{i=1}^{n_j}[{y_{ij}}\ln p_j + (1- y_{ij})\ln (1-p_j)]\right)\nonumber\\ &=& \sum^J_{j=1}[{z_j}\ln p_j + (n_j- z_j)\ln (1-p_j)] \tag{4.1} \end{eqnarray}\]

Theorem 4.2 (Estimaciones en el modelo saturado) En el modelo saturado, las ML-estimaciones de $p_j$ son $\tilde{p}_j=\frac{Z_j}{n_j}$, con valores $\tilde{p}_j=\frac{z_j}{n_j}$,$j=1,\cdots ,J$. Además,

\[\begin{eqnarray} {\cal L}_s\;:=\;{\cal L}(\tilde p) &=& \sum^J_{j=1}n_j[\tilde{p}_j\ln \tilde{p}_j +(1-\tilde{p}_j) \ln(1-\tilde{p}_j)] \end{eqnarray}\]

También se cumple que

\[{\cal L}_s<0\quad \mbox{para}\quad 0< \tilde{p}_j <1\]

Example 4.1 Para los datos del archivo chdage, en el modelo saturado,hay $J=43$ poblaciones y se cumple que ${\cal L}(\tilde{p})=-41.7991$, como se indica en la última fila de la Tabla 4.2:

chdage$CHD <- CHD 

chdage %>%
  group_by(age) %>%
  summarise(nj = n(),
            zj = sum(CHD)) %>%
  mutate(pj = zj/nj,
         pj = round(pj,3),
         Lp = ifelse(zj==0 | zj== nj, 0, zj*log(pj)+(nj-zj)*log(1-pj)),
         Lp = round(Lp, 4)
         ) -> saturado

Totales <- c("Total", sum(saturado$nj), sum(saturado$zj), "", sum(saturado$Lp))
Tabla <- rbind(saturado, Totales)

Table 4.2: Estimaciones en el modelo saturado.
age	nj	zj	pj	Lp
20	1	0	0	0
23	1	0	0	0
24	1	0	0	0
25	2	1	0.5	-1.3863
:	:	:	:	:
:	:	:	:	:
63	1	1	1	0
64	2	1	0.5	-1.3863
65	1	1	1	0
69	1	1	1	0

Total	100	43		-41.7991

El paquete lsm calcula directamente los valores de $J$ y ${\cal L}(\overline{y})$:

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)
cbind(modelo$Populations, modelo$Log_Lik_Saturate)

##      [,1]      [,2]
## [1,]   43 -41.79938

5 Modelo logístico

Hypothesis 5.1 (Supuesto 3: matriz de diseño) Se hacen los supuestos 1 y 2 del modelo saturado (véase las hipótesis 4.1 y 4.2), donde adicionalmente se supone que la matriz de diseño

\[C=\left(\begin{array}{cccc} 1 & x_{11} &\cdots &x_{1K}\\ 1 & x_{21} &\cdots &x_{2K}\\ \vdots &\vdots & &\vdots\\ 1 &x_{J1} &\cdots &x_{JK}\\ \end{array}\right)\]

tiene rango completo $Rg(C)=1+K\leq J$.

Hypothesis 5.2 (Supuesto 4: modelo logístico) Para llegar a un modelo logístico se hace el supuesto adicional:

\[\begin{equation} \mbox{Logit}(p_j):= \ln\left(\frac{p_j}{1-p_j}\right) = \delta \;+\; \beta_1 \,x_{j1} \;+\;\cdots \;+\; \beta_K \,x_{jK} \tag{5.1} \end{equation}\]

Remark. Tenemos que:

$\alpha =(\delta,\beta_1,\ldots,\beta_K)^T$ es el vector de parámetros en el modelo.
Nótese que el supuesto sobre $Rg( C)=1+K$, hace identificable al parámetro $\alpha$.

6 Riesgo

Definition 6.1 (Riesgo) En la práctica, la probabilidad $p_j$ es conocida como riesgo.

Theorem 6.1 (Fórmula para el riesgo) Sea $g_j:=\delta \;+\; \beta_1\,x_{1j} \;+\;\cdots \;+\; \beta_K \,x_{Kj}$. Entonces, la probabilidad

\[p_j=P(Y_j=1|x_{j1}, \cdots, x_{jK})\]

de obtener un éxito en la población $j=1, \ldots, J$, dado los valores $x_{j1}, \cdots, x_{jK}$, viene dada por:

\[\begin{equation} p_j \;= \; \mbox{Logit}^{-1}(g_j) \;= \; \frac{e^{g_j}} {1 + e^{g_j}} \tag{6.1} \end{equation}\]

Example 6.1 En la figura 6.1 aparece la gráfica de las dos funciones siguientes:

\[\begin{eqnarray*} p &=& \frac{e^{x}} {1 + e^{x}} \qquad \mbox{(Figura a, roja, con $\beta=1$)},\\ p &=&\frac{e^{-x}} {1 + e^{-x}} \qquad \mbox{(Figura b, verde, con $\beta=-1$)} \end{eqnarray*}\]

Observe que el signo de la pendiente (o sea, el valor numérico que multiplica a $x$) influye en el hecho si la gráfica es creciente o decreciente. La No.1 es creciente (por tener pendiente postiva) y la No.2, es decreciente (por tener pendiente negativa).

VI <- seq(-10, 10, 0.05)
Crec <- exp(VI)/(1+exp(VI))
Decr <- exp(-VI)/(1+exp(-VI))

ggplot() +
geom_point(mapping=aes(y=Crec, x = VI, color="Crec"), size=1.5) +
geom_point(mapping=aes(y=Decr, x = VI, color="Decr"),size=1.5) +  
labs(x="Variable explicativa X", y="Probabilidad de éxito p", fill= "") + 
#ylim(0, 100)+
facet_wrap(. ~ "Gráfica de dos logits con una sola variabla explicativa") +    
theme_bw(base_size = 12) +
#theme(legend.position = "none")+
  scale_color_manual(values = c("Crec" = "darkblue","Decr" = "red")) +
  labs(color = "Logits")+
scale_color_discrete(name = expression(paste("Pendiente", " ", beta, ":")), labels = c(expression(paste("(a)", " ", beta>0)), expression(paste("(b)", " ", beta<0)))) # Edit legend title and labels

Figure 6.1: Comparación de dos Logits

Theorem 6.2 (Log de la función de verosimilitud en el modelo logístico) Sea $g_j:=\delta \;+\; \beta_1\,x_{1j} \;+\;\cdots \;+\; \beta_K \,x_{Kj}$. Reescribiendo ${\cal L}(p)$, dada en la ecuación (4.1), el logaritmo de la función de verosimilitud se puede escribir, en función de $\alpha$, como:

\[\begin{eqnarray} {\cal L}({\alpha}) &=& \sum^{J}_{j=1}\left[z_j\ln\left(\frac{p_j}{1-p_j}\right)+ n_j\ln(1-p_j)\right]\\ &=& \sum^{J}_{j=1}z_j\,g_j \;-\; \sum^{J}_{j=1} n_j\ln \left[1+ e^{g_j}\right] \tag{6.2} \end{eqnarray}\]

En la primera expresión se observa que el paso de $p_j$ hacia $\ln\left(\frac{p_j} {1-p_j}\right)$ aparece de una manera natural.

7 Odds

Definition 7.1 (Odds) Un odds se define como la proporción entre las probabilidades de ocurrencia y no ocurrencia del evento que se relaciona con $Y$ en la población $j$. Es decir, es el cociente

\[O_j\;=\;\frac{p_j}{1-p_j}\] ::: {.remark name=“relación entre Riesgo y Odds”} Se resalta el hecho de que los riesgos toman valores entre 0 y 1. En cambio, los odds toman valores entre 0 e infinito. Además, observe que: :::

\[p_j\;=\;\frac{O_j}{1+O_j}\] ::: {.example #unnamed-chunk-27} En la Tabla 7.1 se presenta la relación entre Riesgos y Odds. Se observa que cuando el riesgo aumenta, aumenta el odds. Esta propiedad se puede visualizar de manera más clara en la Figura 7.1.

:::

Table 7.1: Equivalencia entre Riesgo y Odds.
1	2	3
Riesgo ($p_j$)	No Riesgo ($1-p_j$)	Odds ($O_j$)
0.1	0.9	0.1/0.9 = 0.11
0.2	0.8	0.2/0.8 = 0.25
0.3	0.7	0.3/0.7 = 0.43
0.4	0.6	0.4/0.6 = 0.67
0.5	0.5	0.5/0.5 = 1.00
0.6	0.4	0.6/0.4 = 1.50
0.7	0.3	0.7/0.3 = 2.33
0.8	0.2	0.8/0.2 = 4.00
0.9	0.1	0.9/0.1 = 9.00

p <- seq(0.0001, 1, 0.00005)
Odds <- p/(1-p)
D <- data.frame(p,Odds)

ggplot(D, aes(y = Odds, x = p)) +
geom_point(aes(color=Odds), alpha = 1.9) +
labs(x="Riesgo p", y="Odds", fill= "") + 
ylim(0, 100)+
facet_wrap(. ~ "Riesgo versus Odds") +    
theme_bw(base_size = 12) +
theme(legend.position = "none")

Figure 7.1: Relación entre Riesgo y Odds

8 Riesgo relativo RR

Definition 8.1 (Riesgo relativo) El riesgo relativo se define como el cociente entre el riesgo en un grupo con un factor de exposición o de riesgo (población $i$) y el riesgo en un grupo de referencia, que no tiene el factor de exposición (población $j$). Es decir, es el siguiente cociente:

\[RR(i\; \mbox{vs} \; j) = \frac{\mbox{Incidencia acumulada en la población $i$}}{\mbox{Incidencia acumulada en la población $j$}}\]

O sea, el cociente entre las siguientes probabilidades de éxitos:

\[RR(i\; \mbox{vs} \; j) \;=\; \frac{p_i}{p_j}=\frac{P(\mbox{$Y=1$ | población $i$})}{P(\mbox{$Y=1$ | población $j$})}\]

Example 8.1 Una de las aplicaciones del cálculo del riesgo relativo es en el área de las ciencias de la salud, especificamente, en los estudios prospectivos (como, por ejemplo, el estudio de cohortes y el ensayo clínico). Para ello, de la población en estudio, se seleccionan dos muestras sin enfermedad, en donde una está expuesta al factor de riesgo (grupo $i$) y la otra, no (grupo $j$) y se hace un seguimiento del estudio en el tiempo. En la Figura 8.1 se muestra una estructura básica de un estudio de cohortes.

Figure 8.1: Estudio de cohorte. Fuente: Elaboración propia.

Supongamos que los datos encontrados en un estudio de cohorte son los que se muestran en la Tabla 8.1.

Table 8.1: Expuestos y no expuestos.
1	2	3	4
Factor	Expuesto ($x=1$)	No expuesto ($x=0$)	Total
Enfermo ($y=1$)	$a$	$c$	$a+c$
Sano ($y=0$)	$b$	$d$	$b+d$
Total	$a+b$	$c+d$	$n$

De cada muestra se calcula incidencia acumulada de expuestos y se halla su cociente (es decir, el riesgo relativo):

\[RR(i\; \mbox{vs} \; j) = \frac{\mbox{Incidencia acumulada en expuestos (población $i$)}}{\mbox{Incidencia acumulada en no expuestos (población $j$) }} = \frac{P_i(\mbox{Enfermo| Expuesto})}{P_j(\mbox{Enfermo | No expuesto })}=\frac{a/(a+b)}{c/(c+d)}\] ::: {.example #unnamed-chunk-34} Si RR=30, entonces, podemos interpretar de la siguiente manera: la probabilidad de que los expuestos adquieran la enfermedad es 30 veces la probabilidad de que los no expuestos la desarrollen. :::

9 Características del RR

Es adimensional y su valor se encuentra entre 0 e infinito.
Permite comparar la frecuencia de ocurrencia del evento entre los que tienen el factor de riesgo y los que no lo tienen. En este sentido, se puede considerar como medida de la magnitud o fuerza de la asociación. Algunas interpretaciones son las siguiente:
- RR=1: No hay asociación entre la presencia del factor de riesgo y el evento.
- RR>1: Existe asociación positiva. Es decir, la presencia del factor de riesgo se asocia a una mayor frecuencia de suceder el evento.
- RR<1: Existe una asociación negativa. Es decir, no existe factor de riesgo, sino uno protector.
El riesgo relativo no puede utilizarse en los estudios de casos y controles o retrospectivos. Esto es así porque no es posible calcular las tasas de incidencia. En estos casos, se utilizará la razón de momios o razón odds (en inglés: odds ratio), concepto que se explicará a continuación.

10 Razón odds

En estudios de cohortes el RR se estima de forma directa ya que se conoce la incidencia de la enfermedad en expuestos y en no expuestos. Por el contrario, en los estudios de casos y controles no se puede calcular la incidencia, porque la población de estudio se selecciona a partir de individuos que ya han desarrollado la enfermedad. Por esta razón, en los estudio de casos y controles se calcula la razón de odds u odds ratio (OR). En la Figura 10.1 se muestra una estructura básica de un estudio de casos y controles.

Estudio de cohorte. Fuente: [Notas metodológicas](https://www.medwave.cl/link.cgi/Medwave/Revisiones/MetodInvestReport/7716.act)

Figure 10.1: Estudio de cohorte. Fuente: Notas metodológicas

Definition 10.1 (Razón odds) Una razón ODDS se define como el cociente entre dos odds:

\[OR(i\; \mbox{vs} \;j) \;=\; \frac{O_i}{O_j} \;=\; \frac{\frac{p_i}{1-p_i}}{\frac{p_j}{1-p_j}}\]

Theorem 10.1 (OR es exponencial de la pendiente) Siempre se cumple que $OR(i\; \mbox{vs} \;j)$ es un número entre 0 e infinito. Además, en un modelo de regresión logística, se cumple que:

\[\begin{eqnarray} OR(i\; \mbox{vs} \;j) \;= \; e^{\beta_1(x_{i1}-x_{j1}) \; + \; \beta_2(x_{i2}-x_{j2}) \; + \; \cdots \; + \; \beta_K(x_{iK}-x_{jK})} \end{eqnarray}\]

Cuando $x_{ik}-x_{jk}=1$ para todo $k=1, \ldots, K$, entonces

\[OR:=OR(i\; \mbox{vs} \;j) \;= \;e^{\beta_1\;+\;\cdots \;+\;\beta_K}\]

Es decir, no depende de $X_1, \ldots, X_K$ y muestra el cambio proporcional en la variable de respuesta cuando las variables independientes se incrementen en $1$ unidad.

Example 10.1 Supongamos que los datos encontrados en un estudio de casos y controles son los que se muestran en la Tabla 10.1:

Casos: se refiere aquellos individuos con la enfermedad al final del estudio.
Controles: son los que no la padecen.
Expuesto: los sujetos de estudio que tienen el factor de riesgo.
No expuesto: los que no lo tienen.

Table 10.1: Expuestos y no expuestos.
1	2	3	4
Factor	Expuesto ($x=1$)	No expuesto ($x=0$)	Total
Caso ($y=1$)	$a$	$c$	$a+c$
Control ($y=0$)	$b$	$d$	$b+d$
Total	$a+b$	$c+d$	$n$

En este caso, en un estudio de casos y controles, la razón de momios es el cociente entre el odds de enfermedad en el grupo expuesto (o en el grupo tratado, población $i$) $a/b$ y el odds de enfermedad en el grupo no expuesto (o no tratado, población $j$) $c/d$:

\[OR(i\; \mbox{vs} \;j) \;=\; \frac{O_i}{O_j} \;=\; \frac{\frac{p_i}{1-p_i}}{\frac{p_j}{1-p_j}} = \frac{a/b}{c/d} = \frac{ad}{bc}\]

Example 10.2 Supongamos que en un caso particular, OR=3. Entonces, se puede interpretar así: la razón entre la presencia (casos) versus la no presencia de la enfermedad (controles) es 3 veces mayor en las personas expuestas al factor (población $i$) en comparación a las personas no expuestas (población $j$).

11 Método de estimación

El método que se propone para calcular las ML-estimaciones en un modelo logístico es el método iterativo de Newton-Raphson. Generalmente, el método requiere:

Una estimación inicial para el valor que maximiza la función.
La función es aproximada en una vecindad de aquella estimación por un polinomio de segundo grado.
Entonces,la siguiente estimación se calcula como el máximo de dicho polinomio.
Luego, se repite el proceso, usando esta estimación como la estimación inicial.
De esta manera, el método genera una sucesión de estimaciones. Estas estimaciones convergen a la localización del máximo cuando la función es adecuada y/o la estimación inicial es buena.

Para más detalles, ver el teorema 8 en LLinás (2006). En R, las funciones glm() y lsm() calculan estas estimaciones.

12 Ejemplo 1: Enunciado

Considere los datos del archivo chdage. Suponga que se quiere analizar un modelo de regresión logística, considerando a chd como variable dependiente y age como independiente.

Escriba, matemáticamente, el vector de parámetros logísticos y el de sus estimadores.
Escriba, matemáticamente, La probabilidad estimada de que un individuo tenga enfermedades coronarias (chd$=1$), cuando tiene una edad determinada (digamos, age$=x_j$).
Escriba, matemáticamente, el modelo logístico estimado.
Obtenga las estimaciones $\hat{\delta}$ y $\hat{\beta}$ de los parámetros logísticos $\delta$ y $\beta$, sin utilizar la función summary().
Obtenga las estimaciones $\hat{\delta}$ y $\hat{\beta}$ de los parámetros logísticos $\delta$ y $\beta$, utilizando la función summary().
Utilizando las estimaciones halladas en el inciso anterior, escriba en el modelo correspondiente .
Haga la gráfica del riesgo de tener enfermedades coronarias versus la edad. ¿Es directa o indirecta esta relación?
Haga la gráfica del logit estimado versus la edad. ¿Qué tipo de relación hay entres estas dos variables?
Estime el logit estimado, para un sujeto con 50 años.
Estime la proporción estimada de personas con presencia de enfermedades coronarias a la edad de 50.
Halle los errores estándares estimados $\widehat{S}_{\widehat{\beta}}$ y $\widehat{S}_{\widehat{\delta}}$ de $\widehat{\beta}$ y $\widehat{\delta}$, respectivamente.
Calcule ${\cal L}(\hat{\alpha})$, la estimación del logaritmo de la función de máxima verosimilitud en el modelo logístico.
Encuentre el odds estimado para individuos con edad de 50 e interprételo.
Haga la gráfica del odds estimado versus la edad.
Halle la razón odds estimada cuando el incremento la edad se incrementa en 1 año. Inteprétela.

13 Ejemplo 1: Solución

13.0.1 Solución parte (a)

Los vector de parámetros y de sus estimadores son, respectivamente,

\[\alpha =(\delta,\beta)^T, \qquad \hat{\alpha} =\left(\hat{\delta}, \hat{\beta}\right)^T\]

Aquí, $T$ indica la transpuesta del vector.

13.0.2 Solución parte (b)

La probabilidad estimada de que un individuo tenga enfermedades coronarias (chd$=1$), cuando tiene una edad determinada (digamos, age$=x_j$), se puede escribir así:

\[\hat{p}_j = \hat{P}(\mbox{chd}=1 |\mbox{age}=x_j)\]

13.0.3 Solución parte (c)

Sabiendo que $\hat{p}_j$ es como en el inciso anterior, el modelo estimado se puede escribir teniendo en cuenta la ecuación (5.1) o la (6.1):

\[\mbox{Logit}(\hat{p}_j):= \ln\left(\frac{\hat{p}_j}{1-\hat{p}_j}\right) = \hat{\delta} + \hat{\beta} x_j, \qquad \qquad \hat{p}_j \;= \; \frac{e^{\hat{\delta} + \hat{\beta} x_j}} {1 + e^{\hat{\delta} + \hat{\beta} x_j}} \]

13.0.4 Solución parte (d)

En R, las estimaciones de los parámetros logísticos $\delta$ y $\beta$ se pueden obtener con las funciones lsm() o glm():

# Con la función lsm:

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)
modelo$coef     # Todos los coeficientes
modelo$coef[1]  # Intercepto
modelo$coef[2]  # Pendiente

# Con la función glm:

datos <- aplore3::chdage
attach(datos)
CHD <- as.integer(chd)-1  #Para codificar la variable *chd* como 0 y 1
modelo <- glm(CHD~age, family=binomial(link = "logit"), data=datos)
modelo$coefficients     # Todos los coeficientes
modelo$coefficients[1]  # Intercepto
modelo$coefficients[2]  # Pendiente

Con ambas funciones, se obtiene que: $\widehat{\delta}=$ -5.3094534 y $\widehat{\beta}=$ 0.1109211.

13.0.5 Solución parte (e)

Con la función summary del modelo glm obtenemos una salida en donde los valores de las estimaciones se pueden visualizar en la primera columna (llamada Estimate) de la lista llamada Coefficients (ver recuadro rojo en la figura 13.1):

datos <- aplore3::chdage
attach(datos)
CHD <- as.integer(chd)-1  #Para codificar la variable *chd* como 0 y 1
modelo <- glm(CHD~age, family=binomial(link = "logit"), data=datos)
summary(modelo)

Figure 13.1: Estimaciones de los parámetros logísticos. Fuente: Elaboración propia.

13.0.6 Solución parte (f)

Sabiendo que

\[\hat{p}_j = \hat{P}(\mbox{chd}=1 |\mbox{age}=x_j),\]

El modelo estimado se puede escribir de alguna de las dos maneras siguientes:

\[\mbox{Logit}(\hat{p}_j):= \ln\left(\frac{\hat{p}_j}{1-\hat{p}_j}\right) = -5.3094534 \;+\; 0.1109211 x_j, \qquad \qquad \hat{p}_j \;= \; \frac{e^{-5.3094534 \;+\; 0.1109211 x_j}} {1 + e^{-5.3094534 \;+\; 0.1109211 x_j}} \]

13.0.7 Solución parte (g)

La gráfica correspondiente se muestra en la figura 13.2. Se observa que hay una relación directa entre la edad y el riesgo de tener enfermedades coronarias:

edad <- seq(0, 100, 0.005)
delta <- modelo$coef[1]
beta <- modelo$coef[2]
logit <- delta+ beta*edad
p <- exp(logit)/(1+exp(logit))
D <- data.frame(edad,p)

ggplot(D, aes( x = edad)) +
geom_point(aes(y=p, colour=edad), size=1.5,color="red") +
labs(x="Edad", y="Riesgo de tener CHD", fill= "") + 
facet_wrap(. ~ "Riesgo de CHD versus Edad") +    
theme_bw(base_size = 12)

Figure 13.2: Logit para los datos chdage

13.0.8 Solución parte (h)

La gráfica del logit estimado se puede visualizar en la Figura 13.3. Como es de esperar, hay una relación lineal y creciente entre el logit y la edad:

edad <- seq(0, 100, 0.005)
delta <- modelo$coef[1]
beta <- modelo$coef[2]
logit <- delta+ beta*edad
D <- data.frame(edad,logit)

ggplot(D, aes( x = edad)) +
geom_point(aes(y=logit, colour=edad), size=1.5,color="darkblue")  +
labs(x="Edad", y="Logit del riesgo de tener CHD", fill= "") + 
facet_wrap(. ~ "Logit del riesgo de CHD versus Edad") +    
theme_bw(base_size = 12)

Figure 13.3: Logit para los datos chdage

13.0.9 Solución parte (i)

El logit estimado, para un sujeto con 50 años, es igual a 0.237. Observe que se puede obtener de varias maneras: reemplazando la edad en la ecuación (5.1) y con las funciones lsm() o glm():

\[\mbox{Logit}\Big(\hat{P}(\mbox{chd}=1 |\mbox{age}=50)\Big) \;= \; \hat{\delta} \;+\; 50 \hat{\beta} \; =\; -5.3094534 \;+\; (0.1109211)(50) \;= \; 0.2366\]

#1. Reemplazando:

edad <- 50
delta <- modelo$coef[1]
beta <- modelo$coef[2]
logit50 <- delta+ beta*edad

#2. Con la función lsm:

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)
datos$logit <- modelo$Logit   #Incluye los logits en el data frame
logit50 <- subset(datos, age ==50)[1,4][1]

#3. Con la función glm:

datos <- aplore3::chdage
attach(datos)
CHD <- as.integer(chd)-1  #Para codificar la variable *chd* como 0 y 1
modelo <- glm(CHD~age, family=binomial(link = "logit"), data=datos)

#3a. Primera forma con glm:

datos$logit <- predict(modelo)   #Incluye los logits en el data frame 
logit50 <- subset(datos, age ==50)[1,5][1]

#3b. Segunda forma con glm:

datos$logit <- predict.glm(modelo)  
logit50 <- subset(datos, age ==50)[1,5][1]

#3c. Tercera forma con glm:

logit <- predict(modelo,newdata=data.frame(age=50))

13.0.10 Solución parte (j)

La proporción estimada de personas con presencia de enfermedades coronarias a la edad de 50 es igual a 0.559. Observe que se puede obtener de varias maneras: reemplazando la edad en la ecuación (6.1) y con las funciones lsm() o glm():

\[ \widehat{P}(\mbox{chd}=1/\mbox{age}=50) \;= \; \frac{e^{\hat{\delta} \,+\, 50 \hat{\beta}}} {1 \;+\; e^{\hat{\delta} \,+\, 50\hat{\beta}}} \;= \; \frac{e^{-5.3094534 \;+\; (0.1109211)(50)}} {1 + e^{-5.3094534 \;+\; (0.1109211)(50)}} \;= \; \frac{e^{0.237}} {1 + e^{0.237}} \;= \; 0.5589\]

#1. Reemplazando:

edad <- 50
delta <- modelo$coef[1]
beta <- modelo$coef[2]
logit50 <- delta+ beta*edad
p50 <- exp(logit50)/(1+exp(logit50))

#2. Con la función lsm:

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)
datos$logit <- modelo$Logit   #Incluye los logits en el data frame
logit50 <- subset(datos, age ==50)[1,4][1]
p50 <- exp(logit50)/(1+exp(logit50))

#3. Con la función glm:

datos <- aplore3::chdage
attach(datos)
CHD <- as.integer(chd)-1  #Para codificar la variable *chd* como 0 y 1
modelo <- glm(CHD~age, family=binomial(link = "logit"), data=datos)

#3a. Primera forma con glm:

datos$pj <- predict(modelo, type="response")   #Incluye los pj en el data frame 
p50 <- subset(datos, age ==50)[1,5][1]

#3b. Segunda forma con glm:

datos$pj <- predict.glm(modelo, type="response")  
p50 <- subset(datos, age ==50)[1,5][1]

#3c. Tercera forma con glm:

p50 <- predict(modelo,newdata=data.frame(age=50), type="response")

13.0.11 Solución parte (k)

Los errores estándares de $\widehat{\delta}$ y $\widehat{\beta}$ son, respectivamente,

\[\widehat{S}_{\widehat{\delta}}= 1.13363, \qquad \widehat{S}_{\widehat{\beta}}= 0.0240593 \] Estas estimaciones se pueden obtener de varias maneras: con las funciones lsm() o glm::summary(). Con la función summary del modelo glm obtenemos una salida en donde los valores de las estimaciones de los errores estándares se pueden visualizar en la segunda columna (llamada Std. Error) de la lista llamada Coefficients (ver recuadro rojo en la figura 13.4):

#1. Con la función lsm:

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)
StdError <- modelo$Std.Error

#2. Con la función glm::summary:

datos <- aplore3::chdage
attach(datos)
CHD <- as.integer(chd)-1  #Para codificar la variable *chd* como 0 y 1
modelo <- glm(CHD~age, family=binomial(link = "logit"), data=datos)
summary(modelo)

Figure 13.4: Estimaciones de los errores estándares. Fuente: Elaboración propia.

13.0.12 Solución parte (l)

La estimación del logaritmo de la función de máxima verosimilitud en el modelo logístico se puede obtener de varias maneras. Una es reemplazando los valores correspondientes en la ecuación (6.2):

\[{\cal L}(\hat{\alpha}) \;=\; \sum^{J}_{j=1}z_j\,\hat{g}_j \;-\; \sum^{J}_{j=1} n_j\ln \left[1+ e^{\hat{g}_j}\right] \;=\; -53.67655\]

En la expresión anterior, para un valor determinado $x_j$ de la edad, $\hat{g}_j$ es el logit estimado:

\[\hat{g}_j \;=\; \hat{\delta} \;+\; \hat{\beta} x_j = -5.3094534 \;+\; 0.1109211 \, x_j\]

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)

#sum(modelo$z_j* modelo$Logit) - sum(modelo$n_j * ln(1+ exp(modelo$Logit)))
#modelo$Log_Lik_Logit
#modelo$n_j
dim(modelo$n_j)

## [1] 43  2

Las otras maneras para calcular ${\cal L}(\hat{\alpha})$ son con las funciones lsm() o glm::summary(). Con cualquier camino encontramos que ${\cal L}(\hat{\alpha})=$ -53.6765463.

Con la primera función se obtiene así:

#1. Con la función lsm:

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)
modelo
modelo$Log_Lik_Logit

Con la función summary del modelo glm obtenemos una salida en donde se utiliza el valor llamado Residual deviance y se divide por -2 (en documentos posteriores se explicará este detalle). Esto se puede visualizar en el último bloque de la salida (ver recuadro rojo en la figura 13.5):

#2. Con la función glm::summary:

datos <- aplore3::chdage
attach(datos)
CHD <- as.integer(chd)-1  #Para codificar la variable *chd* como 0 y 1
modelo <- glm(CHD~age, family=binomial(link = "logit"), data=datos)
summary(modelo)
modelo$deviance/-2

Figure 13.5: Estimación del Log de la función de verosimilitud en el modelo logístico. Fuente: Elaboración propia.

13.0.13 Solución parte (m)

La proporción estimada de personas con presencia de enfermedades coronarias a la edad de 50 es igual a 0.559. Observe que se puede obtener de varias maneras. Un camino es reemplazando la edad en la ecuación (6.1) :

\[ \widehat{O}_{50} \;= \;\widehat{O}(\mbox{cuando age=50}) \;= \; \frac{\widehat{P}(\mbox{chd}=1/\mbox{age}=50)} {1 \;-\; \widehat{P}(\mbox{chd}=1/\mbox{age}=50)} \;= \; \frac{0.5588765} {1 \;-\; 0.5588765 } \;= \; 1.266939\] Es decir, el odds estimado para individuos con edad de 50 es $0,560/(1-0,560)=$ 1.266939. Esto significa que, cuando la persona tiene 50 años, la probabilidad de que tenga enfermedades coronarias es aproximadamente 1.27 veces la probabilidad de que no tenga.

Otra forma de hallar este valor estimado es utilizando las funciones lsm() o glm():

#1. Reemplazando:

edad <- 50
delta <- modelo$coef[1]
beta <- modelo$coef[2]
logit50 <- delta+ beta*edad
p50 <- exp(logit50)/(1+exp(logit50))
Odd50 <- p50/(1-p50)

#2. Con la función lsm:

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)
datos$logit <- modelo$Logit   #Incluye los logits en el data frame
logit50 <- subset(datos, age ==50)[1,4][1]
p50 <- exp(logit50)/(1+exp(logit50))
Odd50 <- p50/(1-p50)

#3. Con la función glm:

datos <- aplore3::chdage
attach(datos)
CHD <- as.integer(chd)-1  #Para codificar la variable *chd* como 0 y 1
modelo <- glm(CHD~age, family=binomial(link = "logit"), data=datos)

#3a. Primera forma con glm:

datos$pj <- predict(modelo, type="response")   #Incluye los pj en el data frame 
p50 <- subset(datos, age ==50)[1,5][1]
Odd50 <- p50/(1-p50)

#3b. Segunda forma con glm:

datos$pj <- predict.glm(modelo, type="response")  
p50 <- subset(datos, age ==50)[1,5][1]
Odd50 <- p50/(1-p50)

#3c. Tercera forma con glm:

p50 <- predict(modelo,newdata=data.frame(age=50), type="response") 
Odd50 <- p50/(1-p50)

13.0.14 Solución parte (n)

La gráfica del odds estimado se puede visualizar en la Figura 13.6. Como es de esperar, hay una relación exponencial y creciente entre el odds y la edad:

edad <- seq(0, 100, 0.005)
delta <- modelo$coef[1]
beta <- modelo$coef[2]
logit <- delta+ beta*edad
p <- exp(logit)/(1+exp(logit))
odds <- p/(1-p)
D <- data.frame(edad,odds)

ggplot(D, aes( x = edad)) +
geom_point(aes(y=odds, colour=edad), size=1.5,color="darkgreen")  +
labs(x="Edad", y="Odds del riesgo de tener CHD", fill= "") + 
facet_wrap(. ~ "Odds del riesgo de CHD versus Edad") +    
theme_bw(base_size = 12)

Figure 13.6: Logit para los datos chdage

13.0.15 Solución parte (o)

Por el teorema 10.1, cuando la edad se incrementa en 1 año, la razón odds estimada es 1.1173068:

\[\hat{OR} \;= \;e^{\hat{\beta}} \;=\; e^{0.11092} \;=\; 1.117307\]

Otra forma de hallar este valor estimado es utilizando las funciones lsm() o glm():

#2. Con la función lsm:

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)

# 2a. Primera forma con lsm:

OR <- exp(modelo$coef[2])

#2b. Segunda forma con lsm:
OR <- modelo$ExpB[2,1]

#3. Con la función glm:

datos <- aplore3::chdage
attach(datos)
CHD <- as.integer(chd)-1  #Para codificar la variable *chd* como 0 y 1
modelo <- glm(CHD~age, family=binomial(link = "logit"), data=datos)
OR <- exp(modelo$coefficients[2])

14 Relación (logit vs saturado)

Analizaremos algunas relaciones entre los modelos logístico y saturado. Para ello, observe que las ecuaciones del supuesto 5.2 de la sección 5 se pueden escribir así:

\[\left(\begin{array}{c} \mbox{Logit}(p_1) \\ \mbox{Logit}(p_2)\\ \vdots \\ \mbox{Logit}(p_J) \\ \end{array}\right)= \left(\begin{array}{cccc} 1 & x_{11} &\cdots &x_{1K}\\ 1 & x_{21} &\cdots &x_{2K}\\ \vdots &\vdots & &\vdots\\ 1 &x_{J1} &\cdots &x_{JK}\\ \end{array}\right)\cdot \left(\begin{array}{c} \delta \\ \beta_1 \\ \vdots \\ \beta_K \\ \end{array}\right)=C\alpha,\]

Con base en lo anterior, se pueden distinguir los dos siguientes casos:

$J=1+K$.
$J>1+K$.

14.0.1 Primer caso: $J=1+K$

En este caso, $C$ es una matriz invertible. Por lo tanto,

\[\alpha=C^{-1}\cdot\left(\begin{array}{c} \mbox{Logit}(p_1) \\ \vdots \\ \mbox{Logit}(p_J) \\ \end{array}\right)\]

Es decir, hay una relación uno a uno entre los parámetros del modelo saturado y los del logístico. O sea, los dos modelos expresan lo mismo.

Particularmente, las ML-estimaciones de las probabilidades $p_j$ son iguales en ambos modelos: $\hat{p}_j=\tilde{p}_j$ para cada $j=1,2, \ldots, K$.

Example 14.1 Considere la siguiente tabla de datos (ver Tabla 14.1). Observe que tenemos $K=2$ variables y $J=3= 1+K$ poblaciones.

CHD <- c(1, 1,  0,  1,  1,  1,  0,  1,  0,  1,  0,  1)
Edad <- c(15,   15, 15, 20, 20, 20, 20, 20, 30, 30, 30, 30)
Talla <- c(130, 130,    130,    140,    140,    140,    140,    140,    165,    165,    165,    165)
datos <- as.data.frame(cbind(CHD, Edad, Talla))
attach(datos)

modelo <- lsm(CHD~Edad+Talla, data=datos)

EdadD <- c(15, 20, 30)
TallaD <- c(130,140, 165)
TablaDinamica <- data.frame(cbind(EdadD, TallaD))

TablaDinamica$n_j <- modelo$n_j
TablaDinamica$z_j <- modelo$z_j
TablaDinamica$p_j <- round(modelo$p_j, 3)
Logit_p <- matrix(c(modelo$Logit[1],modelo$Logit[4],modelo$Logit[9]), nrow=1)

Table 14.1: Datos para analizar el primer caso.
1	2	3	4	5	6	7	8
CHD	Edad	Talla	$n_j$	$z_j$	$\hat{p}_j$	$\hat{O}_j$	Logit$(\hat{p}_j)$
Población 1
1	15	130	3	2	0.667	2	0.693
1	15	130
0	15	130
Población 2
1	20	140	5	4	0.8	4	1.386
1	20	140
1	20	140
0	20	140
1	20	140
Población 2
0	30	165	4	2	0.5	1	0
1	30	165
0	30	165
1	30	165

Hallaremos $\hat{\alpha}$ utilizando el método explicado en 14. Las correspondientes matriz de diseño y su inversa vienen dadas por:

\[C=\left(\begin{array}{cccc} 1 & 15 &130\\ 1 & 20 &140\\ 1 & 30 &165\\ \end{array}\right), \qquad C^{-1} = \left(\begin{array}{cccc} -36 & 57 &-20\\ -1 & 1.4 &-0.4\\ 0.4 &-0.6 &0.2\\ \end{array}\right)\]

Además, de acuerdo a la Tabla 14.1, el vector que contiene los logits de $\hat{p}_j$ es de tamaño $J=3$:

\[\mbox{Logit}(\hat{p})\;=\; \left(\begin{array}{c} \mbox{Logit}(\hat{p}_1) \\ \mbox{Logit}(\hat{p}_2) \\ \mbox{Logit}(\hat{p}_3) \\ \end{array}\right) \;=\; \left(\begin{array}{c} 0.693 \\ 1.336 \\ 0 \\ \end{array}\right)\]

Por consiguiente, el vector de parámetros logísticos estimados es:

\[\hat{\alpha} \;=\; C^{-1}\cdot\left(\begin{array}{c} \mbox{Logit}(p_1) \\ \mbox{Logit}(p_2) \\ \mbox{Logit}(p_3) \\ \end{array}\right)\; =\; \left(\begin{array}{cccc} -36 & 57 &-20\\ -1 & 1.4 &-0.4\\ 0,4 &-0.6 &0.2\\ \end{array}\right) \cdot \left(\begin{array}{c} 0.6931472 \\ 1.386294 \\ 0 \\ \end{array}\right) \;=\; \left(\begin{array}{c} 54.065 \\ 1.2477 \\ -0.5545 \\ \end{array}\right)\]

Es decir,

\[\mbox{$\hat{\delta}=$ 54.0654801, $\qquad$ $\hat{\beta}_{\mbox{Edad}}=$ 1.2476649, $\qquad$ $\hat{\beta}_{\mbox{Talla}}=$ -0.5545177}\]

Con R se puede verificar de dos maneras:

Haciendo el producto habitual de matrices.
Con las funciones lsm o glm.

#1. Producto de matrices:

C <- matrix(c(1, 1, 1, 15, 20, 30, 130, 140, 165), nrow = 3) 
Alfa <- solve(C) %*% t(Logit_p)

#2. Estimando con lsm:
Alfa <- modelo$coefficients

14.0.2 Segundo caso: $J>1+K$

En este caso, primero hay que calcular $\hat{\alpha}$ y a partir de éstas, se pueden calcular las $\hat{p}_j$ mediante:

\[\hat{p}_j=\mbox{Logit}^{-1}(\hat{g_j}), \quad j=1, \cdots, J,\]

donde $\hat{g_j}:=\hat{\delta} + \hat{\beta}_1x_{j1}+\cdots + \hat{\beta}_Kx_{jK}$. En general, resultan que $\hat{p}_j\not=\tilde{p}_j$.

Example 14.2 Este es el caso de la base de datos cdhage, en donde $J=43$ y $K=1$. Ambos vectores de probabilidades no son iguales.

15 Casos agrupado y no agrupado

Cuando se trabaja con el modelo saturado, se tiene el caso de utilizar datos agrupados.
Cuando se tiene el caso especial $n_j=1$, para todo $j$ (lo que implica que $J=n$) se habla de datos no agrupados.
La distinción entre datos agrupados y no agrupados es importante por dos razones:
1. Algunos métodos de análisis apropiados a datos agrupados no son aplicables a datos no agrupados.
2. Las aproximaciones asintóticas pueden estar basados en uno de estos dos casos distintos: (i) $n\to\infty$ o (ii) $J\to\infty$, caso que es únicamente es apropiado para datos no agrupados.
En la práctica:
1. Cuando se tienen datos agrupados es importante tener en cuenta que $J$ debe ser fijo. Por esta razón, debe tomarse como base el modelo saturado. Es decir, se empieza el análisis usando los vectores $Z_j$, $j=1,\cdots,J$.
2. Si $J\to\infty$ (por ejemplo, si $J=n$), entonces, en el modelo saturado no se puede considerar a $J$ como fijo. Obsérvese que esta situación se presenta cuando se tienen datos no agrupados. En este caso, no se puede tomar como base el modelo saturado. Ahora se empezaría el análisis utilizando, de una vez, las observaciones $Y_i$, $i=1,\cdots, n$.

16 Ejercicios

Para la solución de los siguientes ejercicios, téngase en cuenta los siguientes comentarios:

Todos los datos mencionados aparecen en los paquetes mencionados en este documento.
Siempre debe detallar el análisis del conjunto de datos (con las variables especificadas) basado en lo explicado en este documento.
Verifique cómo se obtienen las estimaciones correspondientes, los logaritmos de las funciones de máxima verosimilitud, riesgos, odds, razones odds, etc.

16.0.1 Ejercicios 1 a 3

Demuestre estos teoremas relacionados con el modelo saturado: (a) 4.1; (b) 4.2.
Demuestre este teorema relacionado con el modelo logístico: 6.1
Haga un listado de los paquetes de R que, en el caso binario, estimen el logaritmo de la función de máxima verosimilitud en los modelos saturado y logístico.

16.0.2 Ejercicio 4

Los datos ICU corresponden a una muestra de 200 sujetos que hicieron parte de un estudio de supervivencia de pacientes que fueron remitidos a una unidad de cuidados intensivos (intensive care unit - ICU). La meta principal de este estudio fue desarrollar un modelo de regresión logística para predecir la probabilidad de supervivencia de estos pacientes en el hospital y estudiar los factores de riesgos asociados con el índice de mortalidad ICU. En estos datos tome a la variable AGE como independiente y STA como dependiente.

Escriba la ecuación general para el modelo de regresión logística de STA contra AGE y para el riesgo estimado por este modelo. ¿Qué características de STA nos pone a pensar que debamos considerar el modelo de regresión logística en vez del usual modelo de regresión lineal para describir la relación entre STA y AGE?
Forme un diagrama de dispersión de STA contra AGE.
Usando los intervalos [15,24], [25,34], [35,44], [45,54], [55,64], [65,74], [75,84], [85,94] para AGE, calcule la media de STA de los sujetos dentro de cada intervalo. Grafique estos valores de la media de STA contra el punto medio del intervalo de AGE usando el mismo conjunto de ejes que se utilizaron en la parte (b).
Escriba una expresión para la función de verosimilitud y del logaritmo de esta función para el modelo de regresión logístico de (a) usando los 200 datos no agrupados. Obtenga una expresión para las dos ecuaciones de verosimilitud.
Obtenga las estimaciones de los parámetros del modelo de regresión logístico de (a). Usando estas estimaciones, escriba las correspondientes ecuaciones para los valores ajustados. Grafique la ecuación para los valores ajustados utilizando los mismos ejes como en (b) y (c).
Resuma (describa en palabras) los resultados presentados en la gráfica obtenida en (b), (c) y (e).
Obtenga la matriz de covarianzas estimada para el modelo en (e). Calcule el logit y la probabilidad logística estimada para una persona de 60 años. Interprete la probabilidad estimada.
Obtenga el logit estimado y su error estándar para cada persona en el estudio ICU.

16.0.3 Ejercicios 5 a 7

Considere los datos ICU. Repita el ejercicio 4 utilizando la variable TYP (como variable dependiente) en vez de STA.
Considere los datos ICU. Repita todos los análisis realizados en este documento, pero considerando ahora las variables AGE (como variable independiente) y STA (como variable dependiente).
Considere los datos ICU. Haga el análisis correspondiente tomando a STA como variable dependiente y a AGE, SYS y HRA como independientes.

16.0.4 Ejercicios 8 a 9

Los datos UIS se recogieron con el propósito de comparar dos programas de tratamiento A y B para reducir el abuso de la droga y prevenir sus riesgos. La descipción de los datos se puede ver también aquí. Detalle el análisis para estos datos, tomando a DFREE como variable dependiente y AGE, BECK y NDRUGTX como variables independientes.
Los datos PROS corresponden a un estudio realizado pacientes con cáncer de próstata para determinar si las variables medidas en un examen básico pueden ser usadas para predecir si el tumor ha penetrado la cápsula prostática. Los datos fueron recogidos teniendo en cuenta 380 individuos, 153 de los cuales tuvieron un cáncer que penetró la cápsula prostática. En estos datos, una variable que se pensó que era particularmente predictiva para la penetración de cápsula es el nivel de antígeno prostático, PSA. Repita los pasos del ejercicio 4 usando CAPSULE como variable dependiente y utilize para PSA, los intervalos: [0.0; 2.4], [2.5; 4.4], [4.5; 6.4], [6.5; 8.4], [8.5; 10.4], [10.5; 12.4], [12.5; 20.4], [20.5; 140].

16.0.5 Ejercicio 10

De todas las variables que aparecen en los datos PROS sólo considere a CAPSULE (como variable dependiente) y PSA (como variable independiente).

Responda:

¿Cuál es la ecuación para el modelo de regresión logística?
¿Cuál es la ecuación para riesgo estimado por este modelo?
¿Qué características de la variable dependiente nos conduce a considerar la regresión logística como más apropiada que el modelo de regresión lineal para describir la relación entre las dos variables mencionadas anteriormente?

Calcule:

$\mathcal{L}(\widetilde{p})$ en el modelo saturado.
$\mathcal{L}(\widehat{\alpha})$ en el modelo logístico.

Halle las estimaciones de los siguientes parámetros e interprételos (justifique en forma clara y precisa todas sus afirmaciones):

$P(CAPSULE=1 \, / \, PSA=11.2$ mg/ml$)$.
$P(CAPSULE=0 \, / \, PSA=11.2$ mg/ml$)$.
El odds cuando PSA=11.2.
La razón odds OR.

16.0.6 Ejercicios 11 a 13

Considere los datos PROS. Realize un análisis de regresión logística tomando a CAPSULE como variable dependiente y VOL como variable independiente.
Considere los datos PROS. Realize un análisis de regresión logística tomando a CAPSULE como variable dependiente y AGE como variable independiente.
Considere los datos PROS, tomando a CAPSULE como variable dependiente y AGE, PSA y VOL como variables independientes.

16.0.7 Ejercicio 14

Los datos LOWBWT corresponden a un estudio realizado para identificar factores de riesgos asociados a nacimientos de bebés con bajo peso (peso menor que 2.500 gramos). Los datos fueron recogidos teniendo en cuenta 189 mujeres, 59 de las cuales tuvieron bebés con bajo peso y 130 de las cuales tuvieron bebés con peso normal. De todas las variables que aparecen sólo considere a LOW (como variable dependiente) y LWT (como variable independiente).

Responda:

¿Cuál es la ecuación para el modelo de regresión logística?
¿Cuál es la ecuación para el riesgo estimado por este modelo?
¿Qué características de la variable dependiente nos conduce a considerar la regresión logística como más apropiada que el modelo de regresión lineal para describir la relación entre las dos variables mencionadas anteriormente?

Calcule:

$\mathcal{L}(\widetilde{p})$ en el modelo saturado.
$\mathcal{L}(\widehat{\alpha})$ en el modelo logístico.

Halle las estimaciones para los siguientes parámetros e interprételos (justifique en forma clara y precisa todas sus afirmaciones):

$P(LOW=1 \, / \, LWT=100.3$ libras$)$.
$P(LOW=0 \, / \, LWT=100.3$ libras$)$.
El odds cuando LWT=100.3.
La razón odds OR.

16.0.8 Ejercicios 15 a 18

Considere los datos LOWBWT, tomando a LOW como variable dependiente y AGE como variable independiente.
Considere los datos LOWBWT, tomando a LOW como variable dependiente y LWT como variable independiente.
Considere los datos LOWBWT, tomando a LOW como variable dependiente y BWT como variable independiente.
Considere los datos LOWBWT, tomando a LOW como variable dependiente y AGE, LWT y BWT como variables independientes.

16.0.9 Ejercicios 19 a 21

Considere los datos LOWBWTM11, tomando a LOW como variable dependiente y AGE como variable independiente.
Considere los datos LOWBWTM11, tomando a LOW como variable dependiente y LWT como variable independiente.
Considere los datos LOWBWTM11, tomando a LOW como variable dependiente y AGE y LWT como variables independientes.

16.0.10 Ejercicios 22

En los datos CLSLOWBWT, entre otras variables, una que los físicos consideraron importante para el control del peso del bebé (variable dependiente LOW) fue el peso de la madre durante el último periodo menstrual (LWT). Repita los pasos del ejercicio 4, pero para la parte (c) utilize los intervalos: [80,99], [100,109], [110,114], [115,119], [120,124], [125,129], [130,250]. La gráfica en la parte (c) no parece en forma de $S$. La razón principal es que el rango de los valores graficados está aproximadamente entre 0.2 y 0.56. Explique por qué un modelo para la probabilidad de LOW como una función de LWT pudiese ser el modelo de regresión logística.

16.0.11 Ejercicios 23 a 26

Considere los datos CLSLOWBWT, tomando a LOW como variable dependiente y AGE como variable independiente.
Considere los datos CLSLOWBWT, tomando a LOW como variable dependiente y LWT como variable independiente.
Considere los datos CLSLOWBWT, tomando a LOW como variable dependiente y BWT como variable independiente.
Considere los datos CLSLOWBWT, tomando a LOW como variable dependiente y AGE, LWT y BWT como variables independientes.

Bibliografía

Consultar el documento RPubs :: Regresión logística (bibliografía).

If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.

1	2	3	4
Factor	Expuesto (\(x=1\))	No expuesto (\(x=0\))	Total
Enfermo (\(y=1\))	\(a\)	\(c\)	\(a+c\)
Sano (\(y=0\))	\(b\)	\(d\)	\(b+d\)
Total	\(a+b\)	\(c+d\)	\(n\)

1	2	3	4
Factor	Expuesto (\(x=1\))	No expuesto (\(x=0\))	Total
Caso (\(y=1\))	\(a\)	\(c\)	\(a+c\)
Control (\(y=0\))	\(b\)	\(d\)	\(b+d\)
Total	\(a+b\)	\(c+d\)	\(n\)

1	2	3	4	5	6	7	8	9
\(Y\)	\(X_1\)	\(X_2\)	\(X_3\)	\(X_4\)	\(X_5\)	\(j\)	\(n_j\)	\(Z_j\)
Población: Bajo, 80, Si, 170, Estrato 1
1	Bajo	80	Si	170	Estrato 1	\(j=1\)	\(n_1=3\)	\(Z_1=2\)
0	Bajo	80	Si	170	Estrato 1
1	Bajo	80	Si	170	Estrato 1
Población: Mediano, 100, Si, 150, Estrato 5
0	Mediano	100	Si	150	Estrato 5	\(j=2\)	\(n_2=4\)	\(Z_2=3\)
1	Mediano	100	Si	150	Estrato 5
1	Mediano	100	Si	150	Estrato 5
1	Mediano	100	Si	150	Estrato 5
Población: Mediano, 100, No, 180, Estrato 2
1	Mediano	100	No	180	Estrato 2	\(j=3\)	\(n_3=2\)	\(Z_3=1\)
0	Mediano	100	No	180	Estrato 2
Población: Alto, 100, No, 100, Estrato 4
0	Alto	100	No	100	Estrato 4	\(j=4\)	\(n_4=3\)	\(Z_4=2\)
1	Alto	100	No	100	Estrato 4
1	Alto	100	No	100	Estrato 4
General. \(Y\) es la variable de respuesta; \(X_1, \cdots, X_5\) son las variables explicativas; \(j\) es la població; \(n_j\) es el tamaño de la población \(j\); \(Z_j\) es el número de éxitos en la población \(j\).

1	2	3
Riesgo (\(p_j\))	No Riesgo (\(1-p_j\))	Odds (\(O_j\))
0.1	0.9	0.1/0.9 = 0.11
0.2	0.8	0.2/0.8 = 0.25
0.3	0.7	0.3/0.7 = 0.43
0.4	0.6	0.4/0.6 = 0.67
0.5	0.5	0.5/0.5 = 1.00
0.6	0.4	0.6/0.4 = 1.50
0.7	0.3	0.7/0.3 = 2.33
0.8	0.2	0.8/0.2 = 4.00
0.9	0.1	0.9/0.1 = 9.00