hllinas2023

1 Paquetes

1.0.1 Paquetes utilizados

En estas notas de clase utilizaremos los siguientes paquetes:

  • aplore3: paquete de Braglia (2016) y contiene bases de datos clásicas empleadas en el análisis de regresión logística, ideales para ilustrar conceptos teóricos con ejemplos reales.

  • tidyverse: una colección de paquetes útiles para la manipulación y visualización de datos (dplyr, ggplot2, tibble, entre otros), que permite mantener una sintaxis coherente y eficiente a lo largo del análisis.

  • lsm: paquete de autoría propia (Villalba JL, Llinás HJ y Fabregas OJ (2025)) que permite calcular de forma sencilla y precisa el log-verosímil del modelo saturado cuando la variable respuesta Y es dicotómica (0 o 1). Además, incluye conjuntos de datos de ejemplo útiles para ilustrar su aplicación.

library(aplore3)     #Base de datos para los ejemplos
library(lsm)         #Base de datos para ejemplos y estimaciones del Log-verosimilitud
library(tidyverse)   #Incluye a dplyr y ggplot2

1.0.2 Sobre el paquete lsm

  • El paquete lsm, desarrollado por Villalba JL, Llinás HJ y Fabregas OJ (2025), es una contribución propia que puede descargarse desde el repositorio oficial de CRAN. Su propósito principal es facilitar la estimación del log-verosimilitud del modelo saturado, herramienta clave en la evaluación comparativa de modelos logísticos.

  • Cuando la variable de respuesta \(Y\) es dicotómica (es decir, toma valores de 0 o 1), la función lsm() calcula automáticamente el valor del log-verosímil del modelo saturado. Este valor permite comparar otros modelos y evaluar su bondad de ajuste relativa.

  • El paquete lsm no solo incluye funciones especializadas, sino también conjuntos de datos integrados que permiten realizar pruebas y ejemplos de manera práctica: chdage, icu, lowbwt, pros, survey y uis.

  • Más detalles sobre este paquete se describen en siguientes documentos:

2 Introducción

Los métodos de regresión se han convertido en una herramienta fundamental en el análisis de datos, especialmente cuando se busca describir la relación entre una variable de respuesta y una o más variables explicativas. Con frecuencia, la variable de resultado es discreta, tomando uno de dos valores posibles. En estos casos, el modelo de regresión más utilizado es el modelo de regresión logística.

En el documento RPubs :: Modelos lineales generalizados se explicó que este tipo de modelos forma parte de la familia de los modelos lineales generalizados (GLM). Allí se abordan sus fundamentos y características principales. Para comprender en profundidad el funcionamiento y la lógica de la regresión logística, es importante estudiar los siguientes cuatro modelos clave:

  • Modelo de Bernoulli.

  • Modelo completo.

  • Modelo nulo.

  • Modelo saturado.

En el documento Rpbus :: Modelos completo, nulo y saturado se describieron sus propiedades, con los ejemplos correspondientes y en Rpbus :: Modelos logísticos (estimaciones) se detalló todo lo relacionado con las estimaciones para los parámetros logísticos. En este documento, se utilizarán las notaciones utilizados allá, así como los resultados encontrados en los ejemplos aplicados en esos documentos. A pesar de ello, se hará una breve descripción del modelo saturado, el cual será base para la teoría que se explicará posteriormente.

3 Datasets

Para las aplicaciones, se utilizaron bases de datos de las librerías aplore3 (creado por Braglia, 2016) y lsm (desarrollado por Villalba JL, Llinás HJ y Fabregas OJ (2025)).

library(aplore3) 
library(lsm)

Ambos paquetes incluyen, de manera no oficial, todos los conjuntos de datos utilizados en el texto de Hosmer, Lemeshow and Sturdivant (2013). En este link o en este otro se encuentran los nombres de los datasets con los respectivos detalles:

  • Descripción (description).

  • Uso (usage).

  • Formato (format).

  • Fuente (source) o Referencias (References).

Se resalta el hecho que lsm es un paquete que contiene:

  1. Otros datasets que son de autoría propia.

  2. La función lsm(), la cual nos permite estimar, entre otros, el logaritmo de la función de verosimilitud de los modelos completos, nulo, saturado y logístico. La teoría relacionada con los tres primeros modelos se van a explicar más adelante dentro de este documento. La que se relaciona con los modelos logísticos, en otros documentos.

4 Ejemplo introductorio

4.0.1 Descripción del datasets

Para los ejemplos, se utilizará chdage, el cual contiene datos recogidos con el fin de estudiar si la edad es un factor influyente en la presencia o no de enfermedades coronarias (CHD). Es un data frame con 100 observaciones. En aplore3 hay cuatro variables y en lsm, tres. A continuación, se describen cada una (entre paréntesis, el nombre de la variable en lsm):

  1. id (ID): código de identificación (1-100).

  2. chd (CHD): Presencia of CHD. En aplore3, los niveles son No, Si. En lsm son 0 (=No) y 1 (=Si).

  3. age (AGE): edad (en años) de los participantes.

  4. agegrp: edad agrupada en 8 niveles (20-39, 30-34, 35-39, 40-44, 45-49, 50-54, 55-59, 60-69).

4.0.2 Datasets desde lsm

Cargamos el data frame chdage de la librería lsm:

datos <- lsm::chdage
attach(datos)

head(datos, 10)

Las primeras 10 observaciones son:

ID AGE CHD
1 20 0
2 23 0
3 24 0
4 25 0
5 25 1
6 26 0
7 26 0
8 28 0
9 28 0
10 29 0

4.0.3 Datasets desde aplore3

Cargamos el data frame chdage de la librería aplore3:

df <- aplore3::chdage
attach(df)

head(df, 10)

Las primeras 10 observaciones son:

ID age agegrp chd
1 20 20-39 No
2 23 20-39 No
3 24 20-39 No
4 25 20-39 No
5 25 20-39 Yes
6 26 20-39 No
7 26 20-39 No
8 28 20-39 No
9 28 20-39 No
10 29 20-39 No

Observe que, en el datasets aplore3::chdage, la variable chd es binaria, pero no numérica. Al convertirla en integer, se codifica como 1=No y 2=Si. Por esta razón, esta variable se puede codificar como 0=No y 1=Si, de la siguiente manera:

df <- aplore3::chdage
df$chd_num <- as.integer(df$chd)-1

5 Modelo saturado

5.0.1 Supuesto 1

El modelo saturado está caracterizado por dos supuestos.

Hypothesis 5.1 (Supuesto 1 en el modelo saturado) Se supone que:

  1. Se tienen \(K\) variables explicativas \(X_1, \cdots, X_K\) (algunas pueden ser numéricas y otras categóricas) con valores \(x_{i1}, \cdots, x_{iK}\) para \(i=1, \cdots, n\) (fijadas u observadas por el estadístico, según sean variables determiní}sticas o aleatorias).

  2. Entre las \(n\) kuplas \((x_{i1}, \cdots, x_{iK})\) de los valores de la variable explicativa \(X\) haya \(J\) kuplas diferentes, definiendo las \(J\) poblaciones. Por tanto, \(J \le n\).

Remark. Para cada población \(j=1, \cdots ,J\) se denota:

  • El número de observaciones \(Y_{ij}\) en cada población \(j\) por \(n_j\), siendo \(n_1+\cdots +n_J=n\);

  • La suma de las \(n_j\) observaciones \(Y_{ij}\) en \(j\) por

\[Z_j:=\sum\limits_{i=1}^{n_j}Y_{ij} \quad \mbox{con valor}\quad z_j=\sum\limits_{i=1}^{n_j}y_{ij},\quad \mbox{siendo}\quad \sum\limits^J_{j=1}z_j \;= \; \sum\limits^n_{i=1}y_i\]

En la Tabla 5.1 se ilustra hipotéticamente un conjunto de datos con \(J=4\) poblaciones.

Table 5.1: Ilustración de un cojunto de datos agrupado en \(J=4\) poblaciones
1 2 3 4 5 6 7 8 9
\(Y\) \(X_1\) \(X_2\) \(X_3\) \(X_4\) \(X_5\) \(j\) \(n_j\) \(Z_j\)
Población: Bajo, 80, Si, 170, Estrato 1
1 Bajo 80 Si 170 Estrato 1 \(j=1\) \(n_1=3\) \(Z_1=2\)
0 Bajo 80 Si 170 Estrato 1
1 Bajo 80 Si 170 Estrato 1
Población: Mediano, 100, Si, 150, Estrato 5
0 Mediano 100 Si 150 Estrato 5 \(j=2\) \(n_2=4\) \(Z_2=3\)
1 Mediano 100 Si 150 Estrato 5
1 Mediano 100 Si 150 Estrato 5
1 Mediano 100 Si 150 Estrato 5
Población: Mediano, 100, No, 180, Estrato 2
1 Mediano 100 No 180 Estrato 2 \(j=3\) \(n_3=2\) \(Z_3=1\)
0 Mediano 100 No 180 Estrato 2
Población: Alto, 100, No, 100, Estrato 4
0 Alto 100 No 100 Estrato 4 \(j=4\) \(n_4=3\) \(Z_4=2\)
1 Alto 100 No 100 Estrato 4
1 Alto 100 No 100 Estrato 4
General. \(Y\) es la variable de respuesta; \(X_1, \cdots, X_5\) son las variables explicativas; \(j\) es la població; \(n_j\) es el tamaño de la población \(j\); \(Z_j\) es el número de éxitos en la población \(j\).

5.0.2 Supuesto 2

Hypothesis 5.2 (Supuesto 2 en el modelo saturado) Para mayor simplicidad en la escritura, se abreviará la j-ésima población \((x_{j1}, \cdots ,x_{jK})\) por el símbolo \(\star\). Para cada población \(j=1, \cdots ,J\) y cada observación \(i=1,\cdots,n\) en \(j\), se supone que:

  1. \((Y_{ij}|\star)\) es de Bernoulli. Es decir,

\[(Y_{ij}|\star) \sim {\cal B}(1,p_j)\]

  1. Las variables \((Y_{ij}|\star)\) son independientes entre sí.

  2. La esperanza y la varianza son, respectivamente,

\[p_j=P(Y_{ij}=1|\star)=E(Y_{ij}|\star), \qquad V(Y_{ij}|\star)=p_j(1-p_j)\]

5.0.3 Implicaciones del supuesto 2

Remark. A continuación, se oprimirá el símbolo \(\star\). El supuesto 2 implica:

  1. Todos los \(p_{ij}\), \(i=1, \cdots ,n\) dentro de cada población \(j\) son iguales. Es decir, se tiene como parámetro el vector \(p=(p_1, \cdots ,p_J)^T.\)

  2. Para cada población \(j=1, \cdots ,J\):

    • La variable \(Z_j\) es binomial. Es decir,

    \[Z_j\sim{\cal B}(n_j,p_j)\]

    • Las variables \(Z_j\) son independientes entre las poblaciones.

5.0.4 Log L y estimaciones

Theorem 5.1 (Log L en el modelo saturado) En el modelo saturado, el logaritmo de la función de máxima verosimilitud será

\[\begin{eqnarray} {\cal L}(p) &=& \sum^J_{j=1}\left(\sum_{i=1}^{n_j}[{y_{ij}}\ln p_j + (1- y_{ij})\ln (1-p_j)]\right)\nonumber\\ &=& \sum^J_{j=1}[{z_j}\ln p_j + (n_j- z_j)\ln (1-p_j)] \tag{5.1} \end{eqnarray}\]

Theorem 5.2 (Estimaciones en el modelo saturado) En el modelo saturado, las ML-estimaciones de \(p_j\) son \(\tilde{p}_j=\frac{Z_j}{n_j}\), con valores \(\tilde{p}_j=\frac{z_j}{n_j}\),\(j=1,\cdots ,J\). Además,

\[\begin{eqnarray} {\cal L}_s\;:=\;{\cal L}(\tilde p) &=& \sum^J_{j=1}n_j[\tilde{p}_j\ln \tilde{p}_j +(1-\tilde{p}_j) \ln(1-\tilde{p}_j)] \end{eqnarray}\]

También se cumple que

\[{\cal L}_s<0\quad \mbox{para}\quad 0< \tilde{p}_j <1\]

5.0.5 Ejemplo

Example 5.1 Para los datos del archivo chdage, en el modelo saturado,hay \(J=43\) poblaciones y se cumple que \({\cal L}(\tilde{p})=-41.7991\).

En R (manual).

En R, se puede verificar así (véase la última fila de la Tabla 5.2):

datos <- lsm::chdage

datos %>%
  group_by(AGE) %>%
  summarise(nj = n(),
            zj = sum(CHD)) %>%
  mutate(pj = zj/nj,
         pj = round(pj,3),
         Lp = ifelse(zj==0 | zj== nj, 0, zj*log(pj)+(nj-zj)*log(1-pj)),
         Lp = round(Lp, 4)
         ) -> saturado

Totales <- c("Total", sum(saturado$nj), sum(saturado$zj), "", sum(saturado$Lp))
Tabla <- rbind(saturado, Totales) 
Table 5.2: Estimaciones en el modelo saturado.
AGE nj zj pj Lp
20 1 0 0 0
23 1 0 0 0
24 1 0 0 0
25 2 1 0.5 -1.3863
: : : : :
: : : : :
63 1 1 1 0
64 2 1 0.5 -1.3863
65 1 1 1 0
69 1 1 1 0
Total 100 43 -41.7991

Con el paquete lsm.

El paquete lsm permite calcular directamente los valores de:

  • \(J\): número de poblaciones únicas (combinaciones de predictores) en el modelo saturado.

  • \(\mathcal{L}(\overline{y})\): log-verosimilitud del modelo saturado, es decir, el valor máximo que puede alcanzar la log-verosimilitud al ajustar perfectamente cada observación.

Podemos obtener ambos valores de la siguiente manera:

datos <- lsm::chdage
modelo <- lsm(CHD~datos$AGE, data=datos)
modelo   # Opción 1
cbind(modelo$Populations, modelo$Log_Lik_Saturate)  # Opción 2

Con lsm: resultado con la opción 1.

Como se observa en el bloque de salida del modelo, los valores de \(J\) y \(\mathcal{L}(\overline{y})\) se muestran como Populations in Saturate Model (parte superior) y Saturate (parte inferior), respectivamente:

## 
## Call:
## lsm(formula = CHD ~ datos$AGE, data = datos)
## 
## Populations in Saturate Model: 43
## 
## Coefficients: 
##                  CoefB  Std.Error        ExpB
## (Intercept) -5.3094534 1.13365464 0.004944629
## datos$AGE    0.1109211 0.02405984 1.117306795
## 
## Log_Likelihood: 
##          Estimation
## Complete    0.00000
## Null      -68.33149
## Logit     -53.67655
## Saturate  -41.79938

Con lsm: resultado con la opción 2.

Ambos valores pueden ser extraídos directamente usando modelo$Populations y modelo$Log_Lik_Saturate:

## Número de poblaciones (J): 43
## Log-verosimilitud del modelo saturado: -41.79938

El valor \(\mathcal{L}(\overline{y})\) es útil para comparar con otros modelos como el nulo o el logístico, ya que representa el mejor ajuste posible a los datos. Todos los demás modelos tendrán log-verosimilitudes menores o iguales a esta

6 Modelo logístico

6.0.1 Recordatorio: Rango y rango completo de una matriz

Definición

El rango de una matriz es el número máximo de columnas (o filas) linealmente independientes. En otras palabras, mide cuánta información nueva aportan las columnas de la matriz entre sí.

Una matriz tiene rango completo cuando su rango es igual al número de columnas (o al número de filas, si la matriz tiene más columnas que filas). Esto significa que no hay colinealidad exacta entre las columnas.

Ejemplo 1: Matriz con rango completo

\[ A = \begin{pmatrix} 1 & 2 \\ 3 & 4 \\ \end{pmatrix} \]

Las columnas de \(A\) no son múltiplos una de la otra. Por tanto, \(Rg(A) = 2\) y la matriz tiene rango completo. En este caso, como es una matriz cuadrada, también será invertible.

Ejemplo 2: Matriz con columnas linealmente dependientes

\[ B = \begin{pmatrix} 1 & 2 \\ 2 & 4 \\ \end{pmatrix} \]

Aquí, la segunda columna es el doble de la primera, es decir, hay colinealidad. Entonces \(Rg(B) = 1\), y no tiene rango completo.

6.0.2 Supuestos

Hypothesis 6.1 (Supuesto 3: matriz de diseño) Se hacen los supuestos 1 y 2 del modelo saturado (véase las hipótesis 5.1 y 5.2), donde adicionalmente se supone que la matriz de diseño

\[C=\left(\begin{array}{cccc} 1 & x_{11} &\cdots &x_{1K}\\ 1 & x_{21} &\cdots &x_{2K}\\ \vdots &\vdots & &\vdots\\ 1 &x_{J1} &\cdots &x_{JK}\\ \end{array}\right)\]

tiene rango completo \(Rg(C)=1+K\leq J\). Esto significa que todas las columnas de la matriz \(C\) son linealmente independientes, es decir:

  • No hay redundancia entre las variables (por ejemplo, una covariable no puede ser combinación exacta de otras).

  • El modelo puede estimar todos los parámetros asociados a las covariables sin problemas de colinealidad.

  • El número de combinaciones observadas \(J\) debe ser mayor o igual al número de parámetros a estimar \((1 + K)\), para que haya información suficiente.

En la práctica:

Para poder ajustar el modelo logístico sin problemas, debe cumplirse que el número total de combinaciones observadas sea al menos igual al número de parámetros a estimar. Si no se cumple, el sistema de ecuaciones para los parámetros no tiene solución única y el modelo fallará.

6.0.3 El modelo

Hypothesis 6.2 (Supuesto 4: modelo logístico) Para llegar a un modelo logístico se hace el supuesto adicional:

\[\begin{equation} \mbox{Logit}(p_j):= \ln\left(\frac{p_j}{1-p_j}\right) = \delta \;+\; \beta_1 \,x_{j1} \;+\;\cdots \;+\; \beta_K \,x_{jK} \tag{6.1} \end{equation}\]

Remark. Tenemos que:

  1. \(\alpha =(\delta,\beta_1,\ldots,\beta_K)^T\) es el vector de parámetros en el modelo.

  2. Nótese que el supuesto sobre \(Rg( C)=1+K\), hace identificable al parámetro \(\alpha\). Esto quiere decir que el parámetro \(\alpha\) se puede estimar de manera única a partir de los datos.

7 Riesgo

7.0.1 Definición

Definition 7.1 (Riesgo) En la práctica, la probabilidad \(p_j\) es conocida como riesgo.

Theorem 7.1 (Fórmula para el riesgo) Sea \(g_j:=\delta \;+\; \beta_1\,x_{1j} \;+\;\cdots \;+\; \beta_K \,x_{Kj}\). Entonces, la probabilidad

\[\begin{equation} p_j\; =\; P(Y_j=1|x_{j1}, \cdots, x_{jK}) \tag{7.1} \end{equation}\]

de obtener un éxito en la población \(j=1, \ldots, J\), dado los valores \(x_{j1}, \cdots, x_{jK}\), viene dada por:

\[\begin{equation} p_j \; =\; \mbox{Logit}^{-1}(g_j) \;= \; \frac{e^{g_j}} {1 + e^{g_j}} \tag{7.2} \end{equation}\]

7.0.2 Ejemplo

Example 7.1 En la figura 7.1 aparece la gráfica de las dos funciones siguientes:

\[\begin{eqnarray*} p &=& \frac{e^{x}} {1 + e^{x}} \qquad \mbox{(Figura a, roja, con $\beta=1$)},\\ p &=&\frac{e^{-x}} {1 + e^{-x}} \qquad \mbox{(Figura b, verde, con $\beta=-1$)} \end{eqnarray*}\]

Observe que el signo de la pendiente (o sea, el valor numérico que multiplica a \(x\)) influye en el hecho si la gráfica es creciente o decreciente. La No.1 es creciente (por tener pendiente postiva) y la No.2, es decreciente (por tener pendiente negativa).

VI <- seq(-10, 10, 0.05)
Crec <- exp(VI)/(1+exp(VI))
Decr <- exp(-VI)/(1+exp(-VI))

ggplot() +
geom_point(mapping=aes(y=Crec, x = VI, color="Crec"), size=1.5) +
geom_point(mapping=aes(y=Decr, x = VI, color="Decr"),size=1.5) +  
labs(x="Variable explicativa X", y="Probabilidad de éxito p", fill= "") + 
#ylim(0, 100)+
facet_wrap(. ~ "Gráfica de dos logits con una sola variabla explicativa") +    
theme_bw(base_size = 12) +
#theme(legend.position = "none")+
  scale_color_manual(values = c("Crec" = "darkblue","Decr" = "red")) +
  labs(color = "Logits")+
scale_color_discrete(name = expression(paste("Pendiente", " ", beta, ":")), labels = c(expression(paste("(a)", " ", beta>0)), expression(paste("(b)", " ", beta<0)))) # Edit legend title and labels
Comparación de dos Logits

Figure 7.1: Comparación de dos Logits

8 La función Log L en el modelo logístico

Theorem 8.1 (Log de la función de verosimilitud en el modelo logístico) Sea \(g_j:=\delta \;+\; \beta_1\,x_{1j} \;+\;\cdots \;+\; \beta_K \,x_{Kj}\). Reescribiendo \({\cal L}(p)\), dada en la ecuación (5.1), el logaritmo de la función de verosimilitud se puede escribir, en función de \(\alpha\), como:

\[\begin{eqnarray} {\cal L}({\alpha}) &=& \sum^{J}_{j=1}\left[z_j\ln\left(\frac{p_j}{1-p_j}\right)+ n_j\ln(1-p_j)\right]\\ &=& \sum^{J}_{j=1}z_j\,g_j \;-\; \sum^{J}_{j=1} n_j\ln \left[1+ e^{g_j}\right] \tag{8.1} \end{eqnarray}\]

En la primera expresión se observa que el paso de \(p_j\) hacia \(\ln\left(\frac{p_j} {1-p_j}\right)\) aparece de una manera natural.

9 Odds

Definition 9.1 (Odds) Un odds se define como la proporción entre las probabilidades de ocurrencia y no ocurrencia del evento que se relaciona con \(Y\) en la población \(j\). Es decir, es el cociente

\[\begin{equation} O_j\;=\;\frac{p_j}{1-p_j} \tag{9.1} \end{equation}\]

Remark (relación entre Riesgo y Odds). Se resalta el hecho de que los riesgos toman valores entre 0 y 1. En cambio, los odds toman valores entre 0 e infinito. Además, observe que:

\[\begin{equation} p_j\;=\;\frac{O_j}{1+O_j} \tag{9.2} \end{equation}\]

Example 9.1 En la Tabla 9.1 se presenta la relación entre riesgos y Odds. Se observa que cuando el riesgo aumenta, aumenta el odds. Esta propiedad se puede visualizar de manera más clara en la Figura 9.1.

Table 9.1: Equivalencia entre Riesgo y Odds.
1 2 3
Riesgo (\(p_j\)) No Riesgo (\(1-p_j\)) Odds (\(O_j\))
0.1 0.9 0.1/0.9 = 0.11
0.2 0.8 0.2/0.8 = 0.25
0.3 0.7 0.3/0.7 = 0.43
0.4 0.6 0.4/0.6 = 0.67
0.5 0.5 0.5/0.5 = 1.00
0.6 0.4 0.6/0.4 = 1.50
0.7 0.3 0.7/0.3 = 2.33
0.8 0.2 0.8/0.2 = 4.00
0.9 0.1 0.9/0.1 = 9.00
p <- seq(0.0001, 1, 0.00005)
Odds <- p/(1-p)
D <- data.frame(p,Odds)

ggplot(D, aes(y = Odds, x = p)) +
geom_point(aes(color=Odds), alpha = 1.9) +
labs(x="Riesgo p", y="Odds", fill= "") + 
ylim(0, 100)+
facet_wrap(. ~ "Riesgo versus Odds") +    
theme_bw(base_size = 12) +
theme(legend.position = "none")
Relación entre Riesgo y Odds

Figure 9.1: Relación entre Riesgo y Odds

10 Riesgo relativo RR

Definition 10.1 (Riesgo relativo) El riesgo relativo se define como el cociente entre el riesgo en un grupo con un factor de exposición o de riesgo (población \(i\)) y el riesgo en un grupo de referencia, que no tiene el factor de exposición (población \(j\)). Es decir, es el siguiente cociente:

\[RR(i\; \mbox{vs} \; j) = \frac{\mbox{Incidencia acumulada en la población $i$}}{\mbox{Incidencia acumulada en la población $j$}}\]

O sea, el cociente entre las siguientes probabilidades de éxitos:

\[RR(i\; \mbox{vs} \; j) \;=\; \frac{p_i}{p_j}=\frac{P(\mbox{$Y=1$ | población $i$})}{P(\mbox{$Y=1$ | población $j$})}\]

Example 10.1 Una de las aplicaciones del cálculo del riesgo relativo es en el área de las ciencias de la salud, especificamente, en los estudios prospectivos (como, por ejemplo, el estudio de cohortes y el ensayo clínico). Para ello, de la población en estudio, se seleccionan dos muestras sin enfermedad, en donde una está expuesta al factor de riesgo (grupo \(i\)) y la otra, no (grupo \(j\)) y se hace un seguimiento del estudio en el tiempo. En la Figura 10.1 se muestra una estructura básica de un estudio de cohortes.

Estudio de cohorte. Fuente: Elaboración propia.

Figure 10.1: Estudio de cohorte. Fuente: Elaboración propia.

Supongamos que los datos encontrados en un estudio de cohorte son los que se muestran en la Tabla 10.1.

Table 10.1: Expuestos y no expuestos.
1 2 3 4
Factor Expuesto (\(x=1\)) No expuesto (\(x=0\)) Total
Enfermo (\(y=1\)) \(a\) \(c\) \(a+c\)
Sano (\(y=0\)) \(b\) \(d\) \(b+d\)
Total \(a+b\) \(c+d\) \(n\)

De cada muestra se calcula incidencia acumulada de expuestos y se halla su cociente (es decir, el riesgo relativo):

\[RR(i\; \mbox{vs} \; j) = \frac{\mbox{Incidencia acumulada en expuestos (población $i$)}}{\mbox{Incidencia acumulada en no expuestos (población $j$) }} = \frac{P_i(\mbox{Enfermo| Expuesto})}{P_j(\mbox{Enfermo | No expuesto })}=\frac{a/(a+b)}{c/(c+d)}\] ::: {.example #unnamed-chunk-38} Si RR=30, entonces, podemos interpretar de la siguiente manera: la probabilidad de que los expuestos adquieran la enfermedad es 30 veces la probabilidad de que los no expuestos la desarrollen. :::

11 Características del RR

  1. Es adimensional y su valor se encuentra entre 0 e infinito.

  2. Permite comparar la frecuencia de ocurrencia del evento entre los que tienen el factor de riesgo y los que no lo tienen. En este sentido, se puede considerar como medida de la magnitud o fuerza de la asociación. Algunas interpretaciones son las siguiente:

    • RR=1: No hay asociación entre la presencia del factor de riesgo y el evento.

    • RR>1: Existe asociación positiva. Es decir, la presencia del factor de riesgo se asocia a una mayor frecuencia de suceder el evento.

    • RR<1: Existe una asociación negativa. Es decir, no existe factor de riesgo, sino uno protector.

  3. El riesgo relativo no puede utilizarse en los estudios de casos y controles o retrospectivos. Esto es así porque no es posible calcular las tasas de incidencia. En estos casos, se utilizará la razón de momios o razón odds (en inglés: odds ratio), concepto que se explicará a continuación.

12 Razón odds

En estudios de cohortes el RR se estima de forma directa ya que se conoce la incidencia de la enfermedad en expuestos y en no expuestos. Por el contrario, en los estudios de casos y controles no se puede calcular la incidencia, porque la población de estudio se selecciona a partir de individuos que ya han desarrollado la enfermedad. Por esta razón, en los estudio de casos y controles se calcula la razón de odds u odds ratio (OR). En la Figura 12.1 se muestra una estructura básica de un estudio de casos y controles.

Estudio de cohorte. Fuente: [Notas metodológicas](https://www.medwave.cl/link.cgi/Medwave/Revisiones/MetodInvestReport/7716.act)

Figure 12.1: Estudio de cohorte. Fuente: Notas metodológicas

Definition 12.1 (Razón odds) Una razón ODDS se define como el cociente entre dos odds:

\[OR(i\; \mbox{vs} \;j) \;=\; \frac{O_i}{O_j} \;=\; \frac{\frac{p_i}{1-p_i}}{\frac{p_j}{1-p_j}}\]

Theorem 12.1 (OR es exponencial de la pendiente) Siempre se cumple que \(OR(i\; \mbox{vs} \;j)\) es un número entre 0 e infinito. Además, en un modelo de regresión logística, se cumple que:

\[\begin{eqnarray} OR(i\; \mbox{vs} \;j) \;= \; e^{\beta_1(x_{i1}-x_{j1}) \; + \; \beta_2(x_{i2}-x_{j2}) \; + \; \cdots \; + \; \beta_K(x_{iK}-x_{jK})} \end{eqnarray}\]

Cuando \(x_{ik}-x_{jk}=1\) para todo \(k=1, \ldots, K\), entonces

\[OR:=OR(i\; \mbox{vs} \;j) \;= \;e^{\beta_1\;+\;\cdots \;+\;\beta_K}\]

Es decir, no depende de \(X_1, \ldots, X_K\) y muestra el cambio proporcional en la variable de respuesta cuando las variables independientes se incrementen en \(1\) unidad.

Example 12.1 Supongamos que los datos encontrados en un estudio de casos y controles son los que se muestran en la Tabla 12.1:

  • Casos: se refiere aquellos individuos con la enfermedad al final del estudio.

  • Controles: son los que no la padecen.

  • Expuesto: los sujetos de estudio que tienen el factor de riesgo.

  • No expuesto: los que no lo tienen.

Table 12.1: Expuestos y no expuestos.
1 2 3 4
Factor Expuesto (\(x=1\)) No expuesto (\(x=0\)) Total
Caso (\(y=1\)) \(a\) \(c\) \(a+c\)
Control (\(y=0\)) \(b\) \(d\) \(b+d\)
Total \(a+b\) \(c+d\) \(n\)

En este caso, en un estudio de casos y controles, la razón de momios es el cociente entre el odds de enfermedad en el grupo expuesto (o en el grupo tratado, población \(i\)) \(a/b\) y el odds de enfermedad en el grupo no expuesto (o no tratado, población \(j\)) \(c/d\):

\[OR(i\; \mbox{vs} \;j) \;=\; \frac{O_i}{O_j} \;=\; \frac{\frac{p_i}{1-p_i}}{\frac{p_j}{1-p_j}} = \frac{a/b}{c/d} = \frac{ad}{bc}\]

Example 12.2 Supongamos que en un caso particular, OR=3. Entonces, se puede interpretar así: la razón entre la presencia (casos) versus la no presencia de la enfermedad (controles) es 3 veces mayor en las personas expuestas al factor (población \(i\)) en comparación a las personas no expuestas (población \(j\)).

13 Método de estimación

El método que se propone para calcular las ML-estimaciones en un modelo logístico es el método iterativo de Newton-Raphson. Generalmente, el método requiere:

  1. Una estimación inicial para el valor que maximiza la función.

  2. La función es aproximada en una vecindad de aquella estimación por un polinomio de segundo grado.

  3. Entonces,la siguiente estimación se calcula como el máximo de dicho polinomio.

  4. Luego, se repite el proceso, usando esta estimación como la estimación inicial.

  5. De esta manera, el método genera una sucesión de estimaciones. Estas estimaciones convergen a la localización del máximo cuando la función es adecuada y/o la estimación inicial es buena.

Para más detalles, ver el teorema 8 en LLinás (2006). En R, las funciones glm() y lsm() calculan estas estimaciones.

14 Casos agrupado y no agrupado

  1. Cuando se trabaja con el modelo saturado, se tiene el caso de utilizar datos agrupados.

  2. Cuando se tiene el caso especial \(n_j=1\), para todo \(j\) (lo que implica que \(J=n\)) se habla de datos no agrupados.

  3. La distinción entre datos agrupados y no agrupados es importante por dos razones:

  1. Algunos métodos de análisis apropiados a datos agrupados no son aplicables a datos no agrupados.

  2. Las aproximaciones asintóticas pueden estar basados en uno de estos dos casos distintos:

  1. \(n\to\infty\) o

  2. \(J\to\infty\), caso que es únicamente es apropiado para datos no agrupados.

  1. En la práctica:
  1. Cuando se tienen datos agrupados es importante tener en cuenta que \(J\) debe ser fijo. Por esta razón, debe tomarse como base el modelo saturado. Es decir, se empieza el análisis usando los vectores \(Z_j\), \(j=1,\cdots,J\).

  2. Si \(J\to\infty\) (por ejemplo, si \(J=n\)), entonces, en el modelo saturado no se puede considerar a \(J\) como fijo. Obsérvese que esta situación se presenta cuando se tienen datos no agrupados. En este caso, no se puede tomar como base el modelo saturado. Ahora se empezaría el análisis utilizando, de una vez, las observaciones \(Y_i\), \(i=1,\cdots, n\).

15 Ejemplo 3

15.0.1 Enunciado

Considere los datos del archivo chdage. Suponga que se quiere analizar un modelo de regresión logística, considerando a chd como variable dependiente y age como independiente.

  1. Escriba, matemáticamente, el vector de parámetros logísticos y el de sus estimadores.

  2. Escriba, matemáticamente, La probabilidad estimada de que un individuo tenga enfermedades coronarias (CHD=1), cuando tiene una edad determinada (digamos, age\(=x_j\)).

  3. Escriba, matemáticamente, el modelo logístico estimado.

  4. Obtenga las estimaciones \(\hat{\delta}\) y \(\hat{\beta}\) de los parámetros logísticos \(\delta\) y \(\beta\), sin utilizar la función summary().

  5. Obtenga las estimaciones \(\hat{\delta}\) y \(\hat{\beta}\) de los parámetros logísticos \(\delta\) y \(\beta\), utilizando la función summary().

  6. Utilizando las estimaciones halladas en el inciso anterior, escriba en el modelo correspondiente .

  7. Haga la gráfica del riesgo de tener enfermedades coronarias versus la edad. ¿Es directa o indirecta esta relación?

  8. Haga la gráfica del logit estimado versus la edad. ¿Qué tipo de relación hay entres estas dos variables?

  9. Estime el logit estimado, para un sujeto con 50 años.

  10. Estime la proporción estimada de personas con presencia de enfermedades coronarias a la edad de 50.

  11. Halle los errores estándares estimados \(\widehat{S}_{\widehat{\beta}}\) y \(\widehat{S}_{\widehat{\delta}}\) de \(\widehat{\beta}\) y \(\widehat{\delta}\), respectivamente.

  12. Calcule \({\cal L}(\hat{\alpha})\), la estimación del logaritmo de la función de máxima verosimilitud en el modelo logístico.

  13. Encuentre el odds estimado para individuos con edad de 50 e interprételo.

  14. Haga la gráfica del odds estimado versus la edad.

  15. Halle la razón odds estimada cuando el incremento la edad se incrementa en 1 año. Inteprétela.

15.0.2 Solución

Consultar la solución del ejeplo 3 del documento: Rpubs::Regresión logística (estimaciones).

16 Usando matrices Esm y Elm

En el objeto generado por lsm(), las matrices Esm y Elm contienen resúmenes por población (\(j\)) en dos modelos distintos:

  • Esm (Estimaciones en el modelo saturado) incluye, para cada población \(j\), las variables explicativas, el tamaño de la población (\(n_j\)), el número de éxitos (\(z_j\)), la probabilidad estimada \(\hat{p}_j\) sin restricciones logísticas, y la log-verosimilitud \(L_j\) correspondiente al modelo saturado.

  • Elm (Estimaciones en el modelo logístico) presenta, para cada población \(j\), las mismas variables explicativas, \(n_j\) y \(z_j\), pero con las probabilidades estimadas \(\hat{p}_j\) del modelo logístico, el logit correspondiente (\(\text{Logit}(\hat{p}_j)\)), la log-verosimilitud \(L_j\) y la varianza del logit (Var.logit).

Estas matrices pueden unirse (por ejemplo, con cbind) para comparar directamente las estimaciones de ambos modelos en una misma tabla, lo que facilita el análisis y la extracción de métricas específicas para valores concretos de la variable explicativa.

library(knitr)
library(kableExtra)

datos <- lsm::chdage
modelo <- lsm(CHD~AGE, data=datos)

# Matrices que el modelo entrega por población j
sm <- modelo$Esm
lm <- modelo$Elm

# Unimos 'Esm' con columnas relevantes de 'Elm' (Lp, gj, pj, Lj, Var.logit)
slm <- cbind(sm, lm[, 3:6])

# Cambiamos los nombres de columna
colnames(slm) <- c("Age", "nj", "zj", "pj_tilde", "L_saturado", 
                       "gj", "pj", "L_logistico", "Var_logit")

# Formatear una parte de la tabla
kable(slm[25:30, ]) %>%
kable_styling() %>%
kable_classic_2(full_width = TRUE) #%>%
Age nj zj pj_tilde L_saturado gj pj L_logistico Var_logit
60 48 3 2 0.6666667 -1.909542 0.0147615 0.5036903 -2.0721425 0.0579086
63 49 3 1 0.3333333 -1.909542 0.1256826 0.5313794 -2.1482025 0.0607055
66 50 2 1 0.5000000 -1.386294 0.2366037 0.5588765 -1.4002572 0.0646601
68 51 1 0 0.0000000 0.000000 0.3475249 0.5860172 -0.8819309 0.0697725
69 52 2 1 0.5000000 -1.386294 0.4584460 0.6126455 -1.4383838 0.0760427
71 53 2 2 1.0000000 0.000000 0.5693672 0.6386171 -0.8969003 0.0834706

17 Intervalos de confianza

En esta sección se presentan las fórmulas correspondientes para los intervalos de confianzas de diversos parámetros.

17.0.1 Intercepto

Theorem 17.1 (Intervalo de confianza para el intercepto) Un intervalo de confianza del \((1-\alpha)100\%\) para \(\delta\) es

:

\[\hat{\delta} \; - \; Z_{\alpha/2} \,\hat{S}_{\hat{\delta}}\quad < \quad \delta \quad < \quad \hat{\delta} \; + \; Z_{\alpha/2}\, \hat{S}_{\hat{\delta}}\]

Aquí, \(\hat{S}_{\hat{\delta}}\) es el error estándar del estimador \(\hat{\delta}\).

17.0.2 Pendiente

Theorem 17.2 (Intervalo de confianza para la pendiente) Un intervalo de confianza del \((1-\alpha)100\%\) para \(\beta_k\) es

:

\[\hat{\beta}_k \; - \; Z_{\alpha/2} \,\hat{S}_{\hat{\beta}_k}\quad < \quad \beta_k \quad < \quad \hat{\beta}_k \; + \; Z_{\alpha/2}\, \hat{S}_{\hat{\beta}_k}\]

Aquí, \(\hat{S}_{\hat{\beta}_k}\) es el error estándar del estimador \(\hat{\beta}_k\).

17.0.3 Logit

Para calcular el intervalo de confianza correspondiente se necesita la varianza del estimador del logit de \(p_j\):

Theorem 17.3 (Estimador de la varianza del logit) Para una población \(x_{j1}, \ldots, x_{jK}\) dada, el estimador de la varianza de \(Logit(\hat{p_j})\) es

\[\hat{Var}\big(Logit(\hat{p_j})\big) \;=\; \hat{Var}\big(\hat{\delta}\big) \; + \;\sum\limits_{i=1}^K x_{ji}^2\,\hat{Var}\big(\hat{\beta_i}\big) \;+\; 2\sum\limits_{i=o}^K \sum\limits_{k=i+1}^K \, x_{ji}\,x_{jk} \,\hat{Cov} \big(\hat{\beta_i}, \hat{\beta_k}\big)\]

Aquí \(\beta_0:=\delta\) y \(x_{j0}:=1\).

Theorem 17.4 (Intervalo de confianza para el logit) Para una población \(x_{j1}, \ldots, x_{jK}\) dada, un intervalo de confianza del \((1-\alpha)100\%\) para \(Logit(p_j)\) es:

\[Logit(\hat{p_j}) \; - \; Z_{\alpha/2} \,\hat{S}_{Logit(\hat{p_j})}\quad < \quad Logit(p_j) \quad < \quad Logit(\hat{p_j}) \; + \; Z_{\alpha/2} \,\hat{S}_{Logit(\hat{p_j})}\]

Aquí, \(\hat{S}_{Logit(\hat{p_j}) }\) es el error estándar del estimador \(Logit(\hat{p_j})\).

17.0.4 Riesgo

Theorem 17.5 (Intervalo de confianza para el riesgo) Para una población \(x_{j1}, \ldots, x_{jK}\) dada, un intervalo de confianza del \((1-\alpha)100\%\) para \(p_j\) es:

\[\frac{e^{Logit(\hat{p_j}) \; - \; Z_{\alpha/2} \,\hat{S}_{Logit(\hat{p_j})}}}{1\; + \; e^{Logit(\hat{p_j}) \; - \; Z_{\alpha/2} \,\hat{S}_{Logit(\hat{p_j})}}}\quad < \quad p_j \quad < \frac{e^{Logit(\hat{p_j}) \; + \; Z_{\alpha/2} \,\hat{S}_{Logit(\hat{p_j})}}}{1\; + \; e^{Logit(\hat{p_j}) \; + \; Z_{\alpha/2} \,\hat{S}_{Logit(\hat{p_j})}}}\]

Aquí, \(\hat{S}_{Logit(\hat{p_j}) }\) es el error estándar del estimador \(Logit(\hat{p_j})\).

17.0.5 Odds

Theorem 17.6 (Intervalo de confianza para el odds) Para una población \(x_{j1}, \ldots, x_{jK}\) dada, un intervalo de confianza del \((1-\alpha)100\%\) para \(O_j\) es:

\[e^{Logit(\hat{p_j}) \; - \; Z_{\alpha/2} \,\hat{S}_{Logit(\hat{p_j})}}\quad < \quad O_j \quad < e^{Logit(\hat{p_j}) \; + \; Z_{\alpha/2} \,\hat{S}_{Logit(\hat{p_j})}}\]

Aquí, \(\hat{S}_{Logit(\hat{p_j}) }\) es el error estándar del estimador \(Logit(\hat{p_j})\).

17.0.6 Razón odds

Theorem 17.7 (Intervalo de confianza para la razón odds) Un intervalo de confianza del \((1-\alpha)100\%\) para \(OR\) es:

\[e^{\hat{\beta} \; - \; Z_{\alpha/2} \,\hat{S}_{\hat{\beta}}}\quad < \quad OR \quad < e^{\hat{\beta} \; + \; Z_{\alpha/2} \,\hat{S}_{\hat{\beta}}}\]

Aquí, \(\hat{S}_{\hat{\beta}}\) es el error estándar del estimador \(\hat{\beta}\).

18 Ejemplo 4: Enunciado

Considere los datos del archivo chdage. Suponga que se quiere analizar un modelo de regresión logística, considerando a chd como variable dependiente y age como independiente.

  1. Construya un intervalo de confianza del \(95\%\) para \(\delta\).

  2. Construya un intervalo de confianza del \(95\%\) para \(\beta\).

  3. Calcule la varianza estimada del estimador de la pendiente.

  4. Encuentre la varianza estimada del estimador del intercepto.

  5. Halle la covarianza estimada entre los estimadores del intercepto y de la pendiente.

  6. Calcule la varianza estimada del estimador del logit a la edad de 50.

  7. Encuentre el error estándar estimado del logit a la edad de 50.

  8. Construya un intervalo de confianza del \(95\%\) para el logit a la edad de 50 años.

  9. Construya un intervalo de confianza del \(95\%\) para la proporción de individuos con presencia de CHD a la edad de 50 años.

  10. Construya un intervalo de confianza del \(95\%\) para el odds a la edad de 50 años.

  11. Construya un intervalo de confianza del \(95\%\) para la razón odds poblacional (para un incremento de 1 año).

19 Ejemplo 4: Solución

19.0.1 Solución parte (a)

Aplicando el Teorema 17.1, un intervalo de confianza del \(95\%\) para \(\delta\) es

\[\mbox{-7.53138} \;<\;\delta \;<\; \mbox{-3.08753}\]

Con la función lsm: manual

#1a. Con la función lsm:

datos <- lsm::chdage
modelo <- lsm(CHD~AGE, data=datos)

delta <- modelo$coefficients[1]
ES_delta <- modelo$Std.Error[1]
alfa <- 0.05
Z <- qnorm(1-alfa/2)
  
CI_lower <- delta - Z*ES_delta
CI_upper <- delta + Z*ES_delta
CI_delta <- cbind(CI_lower, CI_upper)
CI_delta
##              CI_lower  CI_upper
## (Intercept) -7.531376 -3.087531

Con la función lsm::confint

#1b. Con la función lsm:

CI_delta <- confint(modelo, parm = "(Intercept)")
CI_delta
## 95.0% confidence intervals for coefficients 
##             lower 2.5% upper 97.5%
## (Intercept)  -7.531376   -3.087531
## 
## 95.0% confidence intervals for odds ratios
## [1] "-"

Con la función glm

#2. Con la función glm::summary:

df <- aplore3::chdage

modelo <- glm(chd~age, family=binomial(link = "logit"), data=df)

delta <- coefficients(modelo)[1]
ES_delta <- summary(modelo)$coefficients[1,2]
alfa <- 0.05
Z <- qnorm(1-alfa/2)
  
CI_lower <- delta - Z*ES_delta
CI_upper <- delta + Z*ES_delta
CI_delta <- cbind(CI_lower, CI_upper)
CI_delta
##              CI_lower  CI_upper
## (Intercept) -7.531374 -3.087533

19.0.2 Solución parte (b)

Aplicando el Teorema 17.2, un intervalo de confianza del \(95\%\) para \(\beta\) es

\[\mbox{0.06376} \;<\; \beta\;<\; \mbox{0.15808}\]

Con la función lsm: manual

#1a. Con la función lsm:

datos <- lsm::chdage
attach(datos)
modelo <- lsm(CHD~AGE, data=datos)
beta <- modelo$coefficients[2]
ES_beta <- modelo$Std.Error[2]
alfa <- 0.05
Z <- qnorm(1-alfa/2)
  
CI_lower <- beta - Z*ES_beta
CI_upper <- beta + Z*ES_beta
CI_beta <- cbind(CI_lower, CI_upper)
CI_beta
##       CI_lower  CI_upper
## AGE 0.06376473 0.1580776

Con la función lsm::confint

Como confint.lsm() devuelve una lista con dos elementos (confint para los coeficientes y OR para las razones de momios), se puede acceder directamente al primer elemento para mostrar solo el IC de la pendiente.

#1b. Con la función lsm:

CI_beta <- confint(modelo, parm = "AGE")$confint
CI_beta
##     lower 2.5% upper 97.5%
## AGE 0.06376473   0.1580776

Con la función glm

#2. Con la función glm::summary:

df <- aplore3::chdage
modelo <- glm(chd~age, family=binomial(link = "logit"), data=df)

beta <- coefficients(modelo)[2]
ES_beta <- summary(modelo)$coefficients[2,2]
alfa <- 0.05
Z <- qnorm(1-alfa/2)
  
CI_lower <- beta - Z*ES_beta
CI_upper <- beta + Z*ES_beta
CI_beta <- cbind(CI_lower, CI_upper)
CI_beta
##       CI_lower  CI_upper
## age 0.06376477 0.1580775

19.0.3 Solución parte (c)

La varianza estimada del estimador de la pendiente es

\[\mbox{$\hat{V}(\hat{\beta}_k)= \left(\hat{S}_{\hat{\beta}_k}\right)^2= (\mbox{0.02406})^2 =$ 0.00058}\]

En la Figura 19.1 se muestra el resultado obtenido con la matriz de varianzas-covarianzas (ver recuadro rojo):

Varianza estimada de la pendiente. Fuente: Elaboración propia

Figure 19.1: Varianza estimada de la pendiente. Fuente: Elaboración propia

Con la función lsm: usando modelo$Std.Error

#1. Con la función lsm:

datos <- lsm::chdage
modelo <- lsm(CHD~AGE, data=datos)

#1a. Con el modelo:

ES <- modelo$Std.Error
ES
ES_beta <- ES[2]
ES_beta
V_beta <- (ES_beta)^2
V_beta
## (Intercept)         AGE 
##  1.13365464  0.02405984
##        AGE 
## 0.02405984
##          AGE 
## 0.0005788757

Con la función lsm: usando modelo$mcov

#1b. Con la matriz de varianzas-covarianzas:

datos <- lsm::chdage
modelo <- lsm(CHD~AGE, data=datos)

VarCov <- modelo$mcov #Matriz de varianzas-covarianzas
VarCov
V_beta <- VarCov[2,2]
V_beta
##             (Intercept)           AGE
## (Intercept)  1.28517284 -0.0266770195
## AGE         -0.02667702  0.0005788757
## [1] 0.0005788757

Con la función glm

Con la función glm se obtiene de dos maneras:

#2. Con la función glm:

df <- aplore3::chdage
modelo <- glm(chd~age, family=binomial(link = "logit"), data=df)

#2a. Con glm::summary

ES_beta <- summary(modelo)$coefficients[2,2]
V_beta <- (ES_beta)^2

#2b. Con glm::vcov

VarCov <- vcov(modelo) #Matriz de varianzas-covarianzas
V_beta <- VarCov[2,2]
V_beta

19.0.4 Solución parte (d)

La varianza estimada del estimador del intercepto es

\[\mbox{$\hat{V}(\hat{\delta}_k)= \left(\hat{S}_{\hat{\delta}_k}\right)^2= (\mbox{1.1337})^2 =$ 1.2852}\]

En la Figura 19.2 se muestra el resultado obtenido con la matriz de varianzas-covarianzas (ver recuadro rojo):

Varianza estimada del intercepto. Fuente: Elaboración propia

Figure 19.2: Varianza estimada del intercepto. Fuente: Elaboración propia

Con la función lsm: usando modelo$Std.Error

#1. Con la función lsm:

datos <- lsm::chdage
modelo <- lsm(CHD~AGE, data=datos)

#1a. Con el modelo:

ES <- modelo$Std.Error
ES
ES_delta <- ES[1]
ES_delta
V_delta <- (ES_delta)^2
V_delta
## (Intercept)         AGE 
##  1.13365464  0.02405984
## (Intercept) 
##    1.133655
## (Intercept) 
##    1.285173

Con la función lsm: usando modelo$mcov

#1b. Con la matriz de varianzas-covarianzas:

datos <- lsm::chdage
modelo <- lsm(CHD~AGE, data=datos)

VarCov <- modelo$mcov #Matriz de varianzas-covarianzas
VarCov
V_delta <- VarCov[1,1]
V_delta
##             (Intercept)           AGE
## (Intercept)  1.28517284 -0.0266770195
## AGE         -0.02667702  0.0005788757
## [1] 1.285173

Con la función glm

#2. Con la función glm::

df <- aplore3::chdage
modelo <- glm(chd~age, family=binomial(link = "logit"), data=df)

#2a. Con glm::summary

ES_delta <- summary(modelo)$coefficients[1,2]
V_delta <- (ES_delta)^2

#2b. Con glm::vcov

VarCov <- vcov(modelo) #Matriz de varianzas-covarianzas
V_delta <- VarCov[1,1]
V_delta

19.0.5 Solución parte (e)

La covarianza estimada entre los estimadores del intercepto y de la pendiente es \[\mbox{$Cov(\hat{\delta}_k, \hat{\beta}_k) =$ -0.0267 }\]

En la Figura 19.3 se muestra el resultado obtenido con la matriz de varianzas-covarianzas (ver recuadro rojo):

Varianza estimada de la pendiente. Fuente: Elaboración propia

Figure 19.3: Varianza estimada de la pendiente. Fuente: Elaboración propia

Con la función lsm

#1. Con la función lsm:

datos <- lsm::chdage
modelo <- lsm(CHD~AGE, data=datos)

#1b. Con la matriz de varianzas-covarianzas:

VarCov <- modelo$mcov #Matriz de varianzas-covarianzas
Cov_delta_beta <- VarCov[1,2]
Cov_delta_beta
## [1] -0.02667702

Con la función glm

#2. Con la función glm::vcov:

df <- aplore3::chdage
modelo <- glm(chd~age, family=binomial(link = "logit"), data=df)

VarCov <- vcov(modelo)  #Matriz de varianzas-covarianzas
Cov_delta_beta <- VarCov[1,2]
Cov_delta_beta

19.0.6 Solución parte (f)

Sea

\[\hat{P}_{50}:= \hat{P}\mbox{(chd=1/age=50)}\]

Aplicando el Teorema 17.3, la varianza estimada del estimador del logit a la edad de 50 años es:

\[\begin{eqnarray*} \hat{Var}\big(Logit(\hat{P}_{50})\big) &=& \hat{Var}\big(\hat{\delta}\big) \; + \;(age^2)\cdot\hat{Var}\big(\hat{\beta}\big) \;+\; 2\cdot (age)\cdot\hat{Cov} \big(\hat{\delta}, \hat{\beta}\big)\\ &=& \mbox{$1.2852 + (50^2)(0.00058) + 2(50)(-0.0267) \;=\;$ 0.06466 } \end{eqnarray*}\]

Con el paquete lsm: usando coeficientes y covarianzas

datos <- lsm::chdage
modelo <- lsm(CHD~AGE, data=datos)

age <- 50
V_logit50 <- V_delta + (age^2)*V_beta + 2*age*Cov_delta_beta
V_logit50
## [1] 0.06466014

Con el paquete lsm: usando matrices Esm y Elm

En este procedimiento, primero combinamos dos resúmenes del modelo (Esm y Elm) para formar la matriz slm. Luego, extraemos la varianza del logit (Var.logit) para la fila cuya edad es 50. Usamos indexado de base R porque slm puede contener nombres de columnas con caracteres especiales (por ejemplo, datos$AGE), lo que suele generar conflictos con dplyr. Con base R, podemos referirnos a esa columna mediante slm[["datos$AGE"]] sin ambigüedad.

library(knitr)
library(kableExtra)

datos <- lsm::chdage
modelo <- lsm(CHD~AGE, data=datos)

# Matrices que el modelo entrega por población j
sm <- modelo$Esm
lm <- modelo$Elm

# Unimos 'Esm' con columnas relevantes de 'Elm' (Lp, gj, pj, Lj, Var.logit)
slm <- cbind(sm, lm[, 3:6])

# Cambiamos los nombres de columna
colnames(slm) <- c("Age", "nj", "zj", "pj_tilde", "L_saturado", 
                       "gj", "pj", "L_logistico", "Var_logit")

# Formatear una parte de la tabla
kable(slm[25:30, ]) %>%
kable_styling() %>%
kable_classic_2(full_width = TRUE) #%>%
Age nj zj pj_tilde L_saturado gj pj L_logistico Var_logit
60 48 3 2 0.6666667 -1.909542 0.0147615 0.5036903 -2.0721425 0.0579086
63 49 3 1 0.3333333 -1.909542 0.1256826 0.5313794 -2.1482025 0.0607055
66 50 2 1 0.5000000 -1.386294 0.2366037 0.5588765 -1.4002572 0.0646601
68 51 1 0 0.0000000 0.000000 0.3475249 0.5860172 -0.8819309 0.0697725
69 52 2 1 0.5000000 -1.386294 0.4584460 0.6126455 -1.4383838 0.0760427
71 53 2 2 1.0000000 0.000000 0.5693672 0.6386171 -0.8969003 0.0834706

Para obtener la varianza del logit cuando AGE = 50:

# 1) Base R: extraer Var.logit para AGE = 50
V_logit50 <- slm[ slm[["Age"]] == 50, "Var_logit" ]
V_logit50
## [1] 0.06466014

19.0.7 Solución parte (g)

Sea

\[\hat{P}_{50}:= \hat{P}\mbox{(chd=1/age=50)}\]

El error estándar estimado del logit a la edad de 50 es la raiz cuadrada de la varianza estimada:

\[\hat{S}_{Logit(\hat{P}_{50})} \;=\; \sqrt{\hat{Var}\big(Logit(\hat{P}_{50})\big)} \;=\; \sqrt{ 0.06466 } \;=\; 0.25428\]

SE_logit50 <- sqrt(V_logit50)
SE_logit50
## [1] 0.2542836

19.0.8 Solución parte (h)

Sea

\[P_{50}:= P\mbox{(chd=1/age=50)}\]

Aplicando el Teorema 17.4, un intervalo de confianza del 95% para el logit a la edad de 50 viene dado por

\[\mbox{-0.26178} \;<\; Logit(P_{50}) \;<\; \mbox{0.73499}\]

Con la función lsm: manual

datos <- lsm::chdage
modelo <- lsm(CHD~AGE, data=datos)

# Valores de delta y beta en incisos (a) y (b):
edad <- 50
logit50 <- delta+ beta*edad  

# IC para logit50: 
alfa <- 0.05
Z <- qnorm(1-alfa/2)

CI_lower <- logit50 - Z*SE_logit50
CI_upper <- logit50 + Z*SE_logit50
CI_logit50 <- cbind(CI_lower, CI_upper)
CI_logit50
##               CI_lower  CI_upper
## (Intercept) -0.2617829 0.7349904

Con la función lsm::confint

#1b. Con la función lsm:  

CI_logit50 <- confint(modelo, target = "link",     newdata = data.frame(AGE = 50))
CI_logit50

Con la función lsm::predict

CI_logit50 <- predict(modelo, newdata = data.frame(AGE = 50), type = "link")
CI_logit50
##      Logit_hat        AGE       AGE
## [1,] 0.2366037 -0.2617829 0.7349904

19.0.9 Solución parte (i)

Sea

\[P_{50}:= P\mbox{(chd=1/age=50)}\]

Aplicando el Teorema 17.5, un intervalo de confianza del \(95\%\) para la proporción de individuos con presencia de CHD a la edad de 50 es

\[\mbox{0.43493} \;<\; P_{50} \;<\; \mbox{0.6759}\]

Con la función lsm: manual

datos <- lsm::chdage
modelo <- lsm(CHD~AGE, data=datos)

alfa <- 0.05
Z <- qnorm(1-alfa/2)

# IC para logit50, ver inciso (h):
CI_low_logit <- logit50 - Z*SE_logit50
CI_up_logit <- logit50 + Z*SE_logit50
CI_logit50 <- cbind(CI_low_logit, CI_up_logit)

# IC para p50:
CI_lower <- exp(CI_logit50[1])/(1+ exp(CI_logit50[1])) 
CI_upper <- exp(CI_logit50[2])/(1+ exp(CI_logit50[2]))
CI_p50 <- cbind(CI_lower, CI_upper)
CI_p50
##       CI_lower  CI_upper
## [1,] 0.4349255 0.6758994

Con la función lsm::confint

#1b. Con la función lsm: 

CI_p50 <-confint(modelo, target = "response", newdata = data.frame(AGE = 50))
CI_p50 

Con la función lsm::predict

CI_p50 <- predict(modelo, newdata = data.frame(AGE = 50), type = "response")
CI_p50 
##            p_j lower 2.5% upper 97.5%
## [1,] 0.5588765  0.4349255   0.6758994

19.0.10 Solución parte (j)

Sea

\[O_{50}:= \mbox{ odds de P(chd=1/age=50)}\]

Aplicando el Teorema 17.6, un intervalo de confianza del \(95\%\) para el odds a la edad de 50 es

\[\mbox{0.76968} \;<\; O_{50} \;<\; \mbox{2.08546}\]

Con la función lsm: manual

alfa <- 0.05
Z <- qnorm(1-alfa/2)

CI_lower <- exp(CI_logit50[1])
CI_upper <- exp(CI_logit50[2])
CI_Odds50 <- cbind(CI_lower, CI_upper)
CI_Odds50
##       CI_lower CI_upper
## [1,] 0.7696781 2.085462

Con la función lsm::confint

#1b. Con la función lsm: 

CI_Odds50 <- confint(modelo, target = "odd", newdata = data.frame(AGE = 50))
CI_Odds50

Con la función lsm::predict

CI_Odds50 <- predict(modelo, newdata = data.frame(AGE = 50), type = "odd")
CI_Odds50 
##       odd_hat lower 2.5% upper 97.5%
## [1,] 1.266939  0.7696781    2.085462

19.0.11 Solución parte (k)

Aplicando el Teorema 17.7, un intervalo de confianza del \(95\%\) para la razón odds poblacional es: \[\mbox{1.06584} \;<\; \mbox{OR} \;<\; \mbox{1.17126}\]

Con la función lsm: manual

Recordemos el intervalo de confianza para la pendiente. Ver inciso (b).

#1a. Con la función lsm:

alfa <- 0.05
Z <- qnorm(1-alfa/2)
CI_beta # CI para beta. 
##       CI_lower  CI_upper
## age 0.06376477 0.1580775

Entonces, el intervalo de confianza del OR asociado a AGE (constante para cualquier edad) es:

CI_lower <- exp(CI_beta[1])
CI_upper <- exp(CI_beta[2])
CI_OR <- cbind(CI_lower, CI_upper)
CI_OR
##      CI_lower CI_upper
## [1,] 1.065842 1.171257

Con la función lsm::confint

como confint.lsm() devuelve una lista con dos elementos (confint para los coeficientes y OR para las razones odds), se debe acceder directamente al segundo elemento para mostrar solo el IC del OR.

#1b. Con la función lsm:

CI_OR <- confint(modelo, parm = "AGE")$OR
# Mostrar solo el IC para el OR
CI_OR
##     lower 2.5% upper 97.5%
## AGE   1.065842    1.171257

Con la función lsm::predict

CI_OR <- predict(modelo, type = "OR")
CI_OR 
##           OR lower 2.5% upper 97.5%
## AGE 1.117307   1.065842    1.171257

20 Ejercicios

Para la solución de los siguientes ejercicios, téngase en cuenta los siguientes comentarios:

  • Todos los datos mencionados aparecen en los paquetes mencionados en este documento.

  • Siempre debe detallar el análisis del conjunto de datos (con las variables especificadas) basado en lo explicado en este documento.

  • Verifique cómo se obtienen las estimaciones correspondientes, los logaritmos de las funciones de máxima verosimilitud, estimaciones e intervalos de confianza para \(p_j\), ODDS, razones ODDS, intercepto, pendiente, etc.

20.0.1 Ejercicios 1 a 3

  1. Demuestre estos teoremas relacionados con el modelo saturado: (a) 5.1; (b) 5.2.

  2. Demuestre este teorema relacionado con el modelo logístico: 7.1

  3. Haga un listado de los paquetes de R que, en el caso binario, estimen el logaritmo de la función de máxima verosimilitud en los modelos saturado y logístico.

20.0.2 Ejercicio 4

  1. Los datos ICU corresponden a una muestra de 200 sujetos que hicieron parte de un estudio de supervivencia de pacientes que fueron remitidos a una unidad de cuidados intensivos (intensive care unit - ICU). La meta principal de este estudio fue desarrollar un modelo de regresión logística para predecir la probabilidad de supervivencia de estos pacientes en el hospital y estudiar los factores de riesgos asociados con el índice de mortalidad ICU. En estos datos tome a la variable AGE como independiente y STA como dependiente.
  1. Use los intervalos [15,24], [25,34], [35,44], [45,54], [55,64], [65,74], [75,84], [85,94] para AGE:
  • Calcule la media de STA de los sujetos dentro de cada intervalo.

  • Grafique estos valores de la media de STA contra el punto medio del intervalo de AGE usando el mismo conjunto de ejes que se utilizaron en la parte (b).

  1. En estos datos tome a la variable AGE como independiente y STA como dependiente.
  • Escriba la ecuación general para el modelo de regresión logística de STA contra AGE y para el riesgo estimado por este modelo.

  • ¿Qué características de STA nos pone a pensar que debamos considerar el modelo de regresión logística en vez del usual modelo de regresión lineal para describir la relación entre STA y AGE?

  • Forme un diagrama de dispersión de STA contra AGE.

  1. Partiendo del modelo original:
  • Escriba una expresión para la función de verosimilitud y del logaritmo de esta función para el modelo de regresión logístico de (a) usando los 200 datos no agrupados.

  • Obtenga una expresión para las dos ecuaciones de verosimilitud.

  1. Partiendo del modelo original:
  • Obtenga las estimaciones de los parámetros del modelo de regresión logístico de (a).

  • Usando estas estimaciones, escriba las correspondientes ecuaciones para los valores ajustados.

  • Grafique la ecuación para los valores ajustados utilizando los mismos ejes como en (b) y (c).

  1. Resuma (describa en palabras) los resultados presentados en la gráfica obtenida en (a), (b) y (d).

  2. Usando los resultados de la parte (d), verifique la significancia del coeficiente de AGE. ¿Qué supuestos se necesitan para realizar dicha prueba?

  3. Usando los resultados de (d), halle un intervalo del 95% de confianza para la pendiente y la constante. Escriba una interpretación con respecto al intervalo encontrado para la pendiente.

  4. Considere el modelo en (e).

  • Obtenga la matriz de covarianzas estimada para el modelo en (e).

  • Calcule el logit y la probabilidad logística estimada para una persona de 60 años.

  • Calcule un intervalo del 95% de confianza para el logit.

  • Calcule un intervalo del 95% de confianza para la probabilidad logística estimada. Interprete la probabilidad estimada y su intervalo de confianza.

  1. Considere el modelo en (e).
  • Obtenga el logit estimado y su error estándar para cada persona en el estudio ICU.

  • Grafique el logit estimado y los límites del intervalo del 95 % de confianza versus AGE para cada persona.

  • Explique (en palabras) similaridades y diferencias entre las apariencias de esta gráfica y una gráfica de una gráfica de un modelo de regresión ajustado y sus límites del intervalo del 95 % de confianza.

20.0.3 Ejercicios 5 a 7

  1. Considere los datos ICU. Repita el ejercicio 4 utilizando la variable TYP (como variable dependiente) en vez de STA.

  2. Considere los datos ICU. Repita todos los análisis realizados en este documento, pero considerando ahora las variables AGE (como variable independiente) y STA (como variable dependiente).

  3. Considere los datos ICU. Haga el análisis correspondiente tomando a STA como variable dependiente y a AGE, SYS y HRA como independientes.

20.0.4 Ejercicios 8 a 9

  1. Los datos UIS se recogieron con el propósito de comparar dos programas de tratamiento A y B para reducir el abuso de la droga y prevenir sus riesgos. La descipción de los datos se puede ver también aquí. Detalle el análisis para estos datos, tomando a DFREE como variable dependiente y AGE, BECK y NDRUGTX como variables independientes.

  2. Los datos PROS corresponden a un estudio realizado pacientes con cáncer de próstata para determinar si las variables medidas en un examen básico pueden ser usadas para predecir si el tumor ha penetrado la cápsula prostática. Los datos fueron recogidos teniendo en cuenta 380 individuos, 153 de los cuales tuvieron un cáncer que penetró la cápsula prostática. En estos datos, una variable que se pensó que era particularmente predictiva para la penetración de cápsula es el nivel de antígeno prostático, PSA.

  • Repita los pasos del ejercicio 4 usando CAPSULE como variable dependiente y utilize para PSA, los intervalos: [0.0; 2.4], [2.5; 4.4], [4.5; 6.4], [6.5; 8.4], [8.5; 10.4], [10.5; 12.4], [12.5; 20.4], [20.5; 140].

20.0.5 Ejercicio 10

  1. De todas las variables que aparecen en los datos PROS sólo considere a CAPSULE (como variable dependiente) y PSA (como variable independiente).
  1. Responda:
  • ¿Cuál es la ecuación para el modelo de regresión logística?

  • ¿Cuál es la ecuación para riesgo estimado por este modelo?

  • ¿Qué características de la variable dependiente nos conduce a considerar la regresión logística como más apropiada que el modelo de regresión lineal para describir la relación entre las dos variables mencionadas anteriormente?

  1. Calcule:
  • \(\mathcal{L}(\widetilde{p})\) en el modelo saturado.

  • \(\mathcal{L}(\widehat{\alpha})\) en el modelo logístico.

  1. Construya intervalos de confianza del 95 % de confianza para los siguientes parámetros e interprételos (justifique en forma clara y precisa todas sus afirmaciones):
  • La pendiente \(\beta\). ¿Es apropiado el modelo?

  • El intercepto \(\delta\). ¿Pasa la curva de regresión logística por el origen?

  • \(P(CAPSULE=1 \, / \, PSA=11.2\) mg/ml\()\).

  • \(P(CAPSULE=0 \, / \, PSA=11.2\) mg/ml\()\).

  • El odds cuando PSA=11.2.

  • La razón odds OR. ¿Es PSA estadísticamente significativa en el modelo?

20.0.6 Ejercicios 11 a 13

  1. Considere los datos PROS. Realize un análisis de regresión logística tomando a CAPSULE como variable dependiente y VOL como variable independiente.

  2. Considere los datos PROS. Realize un análisis de regresión logística tomando a CAPSULE como variable dependiente y AGE como variable independiente.

  3. Considere los datos PROS, tomando a CAPSULE como variable dependiente y AGE, PSA y VOL como variables independientes.

20.0.7 Ejercicio 14

  1. Los datos LOWBWT corresponden a un estudio realizado para identificar factores de riesgos asociados a nacimientos de bebés con bajo peso (peso menor que 2.500 gramos). Los datos fueron recogidos teniendo en cuenta 189 mujeres, 59 de las cuales tuvieron bebés con bajo peso y 130 de las cuales tuvieron bebés con peso normal. De todas las variables que aparecen sólo considere a LOW (como variable dependiente) y LWT (como variable independiente).
  1. Responda:
  • ¿Cuál es la ecuación para el modelo de regresión logística?

  • ¿Cuál es la ecuación para riesgo estimado por este modelo?

  • ¿Qué características de la variable dependiente nos conduce a considerar la regresión logística como más apropiada que el modelo de regresión lineal para describir la relación entre las dos variables mencionadas anteriormente?

  1. Calcule:
  • \(\mathcal{L}(\widetilde{p})\) en el modelo saturado.

  • \(\mathcal{L}(\widehat{\alpha})\) en el modelo logístico.

  1. Construya intervalos de confianza del 95 % de confianza para los siguientes parámetros e interprételos (justifique en forma clara y precisa todas sus afirmaciones):
  • La pendiente \(\beta\). ¿Es apropiado el modelo?

  • El intercepto \(\delta\). ¿Pasa la curva de regresión logística por el origen?

  • \(P(LOW=1 \, / \, LWT=100.3\) libras\()\).

  • \(P(LOW=0 \, / \, LWT=100.3\) libras\()\).

  • El odds cuando LWT=100.3.

  • La razón odds OR. ¿Es LWT estadísticamente significativa en el modelo?

20.0.8 Ejercicios 15 a 18

  1. Considere los datos LOWBWT, tomando a LOW como variable dependiente y AGE como variable independiente.

  2. Considere los datos LOWBWT, tomando a LOW como variable dependiente y LWT como variable independiente.

  3. Considere los datos LOWBWT, tomando a LOW como variable dependiente y BWT como variable independiente.

  4. Considere los datos LOWBWT, tomando a LOW como variable dependiente y AGE, LWT y BWT como variables independientes.

20.0.9 Ejercicios 19 a 21

  1. Considere los datos LOWBWTM11, tomando a LOW como variable dependiente y AGE como variable independiente.

  2. Considere los datos LOWBWTM11, tomando a LOW como variable dependiente y LWT como variable independiente.

  3. Considere los datos LOWBWTM11, tomando a LOW como variable dependiente y AGE y LWT como variables independientes.

20.0.10 Ejercicios 22

  1. En los datos CLSLOWBWT, entre otras variables, una que los físicos consideraron importante para el control del peso del bebé (variable dependiente LOW) fue el peso de la madre durante el último periodo menstrual (LWT).
  • Repita los pasos del ejercicio 4, pero para la parte (c) utilize los intervalos: [80,99], [100,109], [110,114], [115,119], [120,124], [125,129], [130,250].

  • La gráfica en la parte (c) no parece en forma de \(S\). La razón principal es que el rango de los valores graficados está aproximadamente entre 0.2 y 0.56.

  • Explique por qué un modelo para la probabilidad de LOW como una función de LWT pudiese ser el modelo de regresión logística.

20.0.11 Ejercicios 23 a 26

  1. Considere los datos CLSLOWBWT, tomando a LOW como variable dependiente y AGE como variable independiente.

  2. Considere los datos CLSLOWBWT, tomando a LOW como variable dependiente y LWT como variable independiente.

  3. Considere los datos CLSLOWBWT, tomando a LOW como variable dependiente y BWT como variable independiente.

  4. Considere los datos CLSLOWBWT, tomando a LOW como variable dependiente y AGE, LWT y BWT como variables independientes.

Bibliografía

Consultar el documento RPubs :: Regresión logística (bibliografía).

 

 
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.