EL CASO MULTINOMIAL CON 3 NIVELES

Modelos de Bernoulli, completo, nulo y saturado

Dr. rer. nat. Humberto LLinás Solano

Departamento de Matemáticas y Estadística, Universidad del Norte (Barranquilla, Colombia)

hllinas@uninorte.edu.co

14/07/22

Abstract

La teoría mencionada puede revisarse en el volumen 8 de mis notas de clase que aparecen en el siguiente documento: 2.2. Regresión logística o en las referencias: LLinás (2012), LLinás (2016) u Orozco (2020). En Rpubs:: toc se pueden ver otros documentos de posible interés.

hllinas

1 Librerías

library(repmis)     #Base de datos para los ejemplos
library(tidyverse)  #Incluye a dplyr y ggplot2

2 Introducción

Los métodos de regresión se han convertido en un componente integral de cualquier análisis de datos preocupado por describir la relación entre una variable de respuesta y una o variables más explicativas. Muy a menudo, la variable de resultado es discreta, tomando un valor de dos o más valores posibles. El modelo de regresión logística es el más modelo de regresión de mayor uso frecuente para el análisis de estos datos.

En el documento Rpbus :: Modelos lineales generalizados se explicó que estos modelos hacen parte de los modelos lineales generalizados y en Rpbus :: Regresión Logística binaria se explicó el caso binario. En este documento se explicará el caso multinomial, en donde la variable de respuesta toma uno de tres valores posibles. Para conocer con profundidad estos modelos, también es importante estudiar los siguientes cuatro tipos de modelos:

Modelo de Bernoulli.
Modelo completo.
Modelo nulo.
Modelo saturado.

Se describirán sus propiedades, con los ejemplos correspondientes.

3 Datasets

Para las aplicaciones, se utilizará la base datos hbsdemo (UCLA: Stat Consulting Group (2021)):

library(repmis)
source_data("https://github.com/hllinas/DatosPublicos/blob/main/hsbdemo.Rdata?raw=false")
Datos <- hsbdemo
attach(Datos)
names(Datos)

## [1] "hsbdemo"

El conjunto de datos contiene variables sobre 200 estudiantes. Los estudiantes que ingresan a la escuela secundaria hacen la elección de un programa de tres posibles: general, vocacional y académico. Su elección puede ser modelada usando algunas variables predictoras. A continuación, se describen las variables:

Student y ID, el estudiante y su código de identificación.
gender, el género del estudiante: female, male.
ses, el estrato socioeconómico: low, middle, high.
schtype, el tipo de escuela: private, public.
prog, el tipo de programa elegido por el estudiante: general, vocacional y académico, la cual será nuestra variable de respuesta.
read, write, math, science y socst son variables continuas que representan los puntajes en lectura, escritura, matemática, ciencia y sociales, respectivamente.
Honors, estado de honores: enrolled, not enrolled.
awards, número de premios recibidos: de 0 a 9.
cid, puntaje no especificado: de 0 a 20.
prog0, variable binaria: 1=si prog=general, 0= de otro modo.
prog1, variable binaria: 1=si prog=vocation, 0= de otro modo.
prog2, variable binaria: 1=si prog=academic, 0= de otro modo.

Las primeras 10 observaciones son:

Student	id	gender	ses	schtyp	prog	read	write	math	science	socst	honors	cid	prog0	prog1
1	45	female	low	public	vocation	34	35	41	29	26	not enrolled	1	0	1
2	108	male	middle	public	general	34	33	41	36	36	not enrolled	1	1	0
3	15	male	high	public	vocation	39	39	44	26	42	not enrolled	1	0	1
4	67	male	low	public	vocation	37	37	42	33	32	not enrolled	1	0	1
5	153	male	middle	public	vocation	39	31	40	39	51	not enrolled	1	0	1
6	51	female	high	public	general	42	36	42	31	39	not enrolled	1	1	0
7	164	male	middle	public	vocation	31	36	46	39	46	not enrolled	1	0	1
8	133	male	middle	public	vocation	50	31	40	34	31	not enrolled	1	0	1
9	2	female	middle	public	vocation	39	41	33	42	41	not enrolled	1	0	1
10	53	male	middle	public	vocation	34	37	46	39	31	not enrolled	1	0	1

4 Ejemplo exploratorio

Example 4.1 Considerelos datos hsbdemo. Explore la relación entre prog y otras variables, siguiendo las instrucciones que se proponen abajo.

Escriba un resumen de los datos.
Construya un tabla de frecuencia y un diagrama de barras para prog.
Construya una tabla de frecuencia cruzada (tablas de contingencia) entre ses y prog.
Cargue el paquete jmv y utilice la función descriptives para conseguir datos descriptivos con algunas variables, digamos, prog, ses, math, science.
Construya un diagrama de dispersión bivariado entre prog y awards, dentro de cada categoría de ses.
Construya una tabla de frecuencias cruzadas de progr, honors y gender.
Construya un diagrama de barras que muestre la distribución de honors dentro progr, para cada nivel de gender.
Construya un diagrama circular que muestre el porcentaje de premios recibidos (awards) para cada tipo de programa (prog).
Construya un diagrama dispersión bivariado entre los puntajes de lectura (read) y escritura (write) para cada tipo de programa (prog).

Solution. Tenemos:

El resumen de los datos se puede encontrar así:

summary(Datos)

Student	id	read	write	math	science	socst	awards	cid
Min. : 1.00	Min. : 1.00	Min. :28.00	Min. :31.00	Min. :33.00	Min. :26.00	Min. :26.00	Min. :0.00	Min. : 1.00
1st Qu.: 50.75	1st Qu.: 50.75	1st Qu.:44.00	1st Qu.:45.75	1st Qu.:45.00	1st Qu.:44.00	1st Qu.:46.00	1st Qu.:0.00	1st Qu.: 5.00
Median :100.50	Median :100.50	Median :50.00	Median :54.00	Median :52.00	Median :53.00	Median :52.00	Median :1.00	Median :10.50
Mean :100.50	Mean :100.50	Mean :52.23	Mean :52.77	Mean :52.65	Mean :51.85	Mean :52.41	Mean :1.67	Mean :10.43
3rd Qu.:150.25	3rd Qu.:150.25	3rd Qu.:60.00	3rd Qu.:60.00	3rd Qu.:59.00	3rd Qu.:58.00	3rd Qu.:61.00	3rd Qu.:2.00	3rd Qu.:15.00
Max. :200.00	Max. :200.00	Max. :76.00	Max. :67.00	Max. :75.00	Max. :74.00	Max. :71.00	Max. :7.00	Max. :20.00

La tabla de frecuencia es:

Tabla <- Datos %>%
  dplyr::group_by(prog) %>%
  dplyr::summarise(Total = n()) %>%
  dplyr::mutate(Porcentaje = round(Total/sum(Total)*100, 2))
Tabla

prog	Total	Porcentaje
academic	105	52.5
general	45	22.5
vocation	50	25.0

Y el diagrama de barras correspondiente es:

ggplot(Tabla, aes(x = factor(prog), y=Total,fill=factor(prog)) ) + 
  
  geom_bar(width = 0.7,stat="identity", position = position_dodge())+
  
  geom_text(aes(label=paste0(Total," ", "", "\n(", Porcentaje, "%)")), vjust=-0.2, color="black",                     hjust=0.5, position = position_dodge(0.9),  angle=0, size=4.0) +
  
  ylim(c(0,150))+
  
  labs(x="Tipo de programa elegido", y= "Frecuencias \n (Porcentajes)")+ 
  labs(fill = "")+
   
  facet_wrap(~"Distribución del tipo de programa (n=159)") +
  
  theme_bw(base_size = 13)

Una tabla de frecuencias cruzada entre ses y prog es:

with(Datos, addmargins(table(ses, prog)))

	academic	general	vocation	Sum
high	42	9	7	58
low	19	16	12	47
middle	44	20	31	95
Sum	105	45	50	200

Con jmv::descritptives podemos construir las tablas de frecuencias solicitadas:

jmv::descriptives(Datos, vars = vars(prog, ses, math, science), freq = TRUE)

## 
##  DESCRIPTIVES
## 
##  Descriptives                                                  
##  ───────────────────────────────────────────────────────────── 
##                          prog    ses    math        science    
##  ───────────────────────────────────────────────────────────── 
##    N                      200    200         200         200   
##    Missing                  0      0           0           0   
##    Mean                                 52.64500    51.85000   
##    Median                               52.00000    53.00000   
##    Standard deviation                   9.368448    9.900891   
##    Minimum                              33.00000    26.00000   
##    Maximum                              75.00000    74.00000   
##  ───────────────────────────────────────────────────────────── 
## 
## 
##  FREQUENCIES
## 
##  Frequencies of prog                                  
##  ──────────────────────────────────────────────────── 
##    Levels      Counts    % of Total    Cumulative %   
##  ──────────────────────────────────────────────────── 
##    academic       105      52.50000        52.50000   
##    general         45      22.50000        75.00000   
##    vocation        50      25.00000       100.00000   
##  ──────────────────────────────────────────────────── 
## 
## 
##  Frequencies of ses                                 
##  ────────────────────────────────────────────────── 
##    Levels    Counts    % of Total    Cumulative %   
##  ────────────────────────────────────────────────── 
##    high          58      29.00000        29.00000   
##    low           47      23.50000        52.50000   
##    middle        95      47.50000       100.00000   
##  ──────────────────────────────────────────────────

El diagrama solicitado es:

library(plyr)

resp <- Datos
resp$prog <- revalue(resp$prog,c("general"="1","vocation"="2", "academic"="3"))

ggplot(resp, aes(y = prog, x=awards) ) +
  geom_point(aes(color = ses), size=2,  alpha=5) +
  
  labs(y="Tipo de programa elegido", x= "Número de premios recibido por cada estudiante")+ 
  labs(fill = "Estado socioeconómico") +
  
  facet_wrap(vars(ses)) +
  theme_bw(base_size = 13) +
  theme(strip.background = element_rect(fill="skyblue"))

La tabla de frecuencias solicitada es:

Tabla <- Datos %>%
  dplyr::group_by(prog, honors, gender) %>%
  dplyr::summarise(Total = n()) %>%
  dplyr::mutate(Porcentaje = round(Total/sum(Total)*100, 2)) %>%
  dplyr::arrange(prog)
Tabla

Table 4.1: Tabla cruzada para prog, gender y honors.
prog	honors	gender	Total	Porcentaje
academic	enrolled	female	25	62.50
academic	enrolled	male	15	37.50
academic	not enrolled	female	33	50.77
academic	not enrolled	male	32	49.23
general	enrolled	female	5	71.43
general	enrolled	male	2	28.57
general	not enrolled	female	19	50.00
general	not enrolled	male	19	50.00
vocation	enrolled	female	5	83.33
vocation	enrolled	male	1	16.67
vocation	not enrolled	female	22	50.00
vocation	not enrolled	male	22	50.00

Un diagrama de barras que muestra la distribución de honors dentro progr, para cada nivel de genderes:

ggplot(Tabla, aes(x = factor(prog), y=Total,fill=factor(gender)) ) + 
  
  geom_bar(width = 0.9,stat="identity", position = position_dodge())+
  geom_text(aes(label=paste0(Total," ", "", "(", Porcentaje, "%)")), 
            color="black", 
            hjust=-0.15,
            position = position_dodge(0.9),  
            angle=90, 
            size=3.5)+
  
  ylim(c(0,50))+
  
  labs(x="Tipo de programa elegido", y= "Frecuencias \n (Porcentajes)")+ 
  labs(fill = "Genero") +
  
  facet_wrap(vars(honors)) +
  
  theme(strip.background = element_rect(fill="blanchedalmond"))

Un diagrama circular que muestra el porcentaje de premios recibidos (awards) para cada tipo de programa (prog) es:

library(plotly)
G <- plot_ly(Datos, labels = ~as_label(prog), values = ~awards, type = 'pie') %>% 
     layout(title = 'Porcentaje de awards para cada tipo de programa')
G

Un diagrama dispersión bivariado entre los puntajes de lectura (read) y escritura (write) para cada tipo de programa (prog)es:

library(plotly)
G <- plot_ly(data = Datos, x = ~read, y = ~write, color = ~prog)  %>% 
     layout(title = 'Puntajes en lectura vs escritura, sectorizada por tipo de programa')
G

5 Paquetes R para modelado multinomial

Existe una amplia gama de paquetes R disponibles para el modelado multinomial, algunos de los cuales incluso permiten la incorporación de efectos aleatorios (este tema de los efectos aleatorios no se explicar[a en este documento). En este documento, utilizaremos algunos de ellos para algunos cálculos.

5.0.1 Efectos fijos

Los siguientes paquetes se utilizan con frecuencia y se citan para situaciones en las que solo se utilizan efectos fijos:

La función multinom en la librería nnet (Venables & Ripley 2002). Es el paquete de mayor uso y se basa en redes neuronales.
La función vglm en la librería VGAM (Yee 2021). Se basa en modelos con vectores generalizados aditivos, con una amplia gama de distribuciones para la variable de respuesta.
La función polr en la librería MASS (Venables & Ripley 2002). También es útil para Variables de respuesta categórica ordenadas.
LA función glmnet en la librería glmnet (Friedman et al. 2010). Utiliza métodos de contracción donde las estimaciones de coeficientes se pueden reducir a cero durante el procesoel modelo adecuado.

5.0.2 Efectos fijos y aleatorios

Curiosamente, un número creciente de paquetes también se ajusta a modelos multinomiales tanto con efectos como efectos aleatorios (modelos multinomiales de efectos mixtos), por ejemplo:

La función bayesx en la librería R2BayesX (Belitz et al. 2017, Umlauf et al. 2015), utiliza un enfoque bayesiano para la estimación de parámetros.
La función npmlt en la librería mixcat (Papageorgiou y Hinde 2012).
La función clmm en la librería ordinal (Christensen 2018), para categorías ordenadas de la variable de respuesta.

6 Modelo básico

La variable de interés ${Y}$ puede asumir tres niveles: $0$, $1$ o $2$. Para cada $r = 0, 1, 2$, sea

\[p_r: = P (Y = r)\]

la probabilidad de que $Y$ tome el valor $r$.

Haciendo $n$ observaciones independientes de ${ Y}$, se obtiene la muestra $Y=(Y_1, \ldots, Y_n)$ con los datos $y_i\in\{0,1,2\}$, $i=1, \cdots ,n$, donde $y_i$ es un posible valor de $Y_i$, las cuales son independientes entre sí.

Para construir la función de verosimilitud, debemos crear tres variables binarias con valores $0$ y $1$ e independientes, de la siguiente manera: \[U_{ri}=\left\{ \begin{array}{ll} 1, & \hbox{if $Y_i=r$;} \\ 0, & \hbox{de otra forma.} \end{array} \right. \]

donde $r=0,1,2$ y $i=1, \ldots, n$. Observe que $U_{ri} \sim \mathcal{B}(1,p_{ri})$, siendo $p_{ri}=P(Y_i=r)$.

En términos de las variables $U_{ri}$, las variables muestrales serán $Y_i = (U_{0i}, U_{1i}, U_{2i})$, con valores

\[y_i = (u_{0i}, u_{1i}, u_{2i}),\] siendo $\sum\limits_{r=0}^2 u_{ri} =1$, para $i$ fijo.

Example 6.1 En la Tabla 6.1 se ilustra hipotéticamente un conjunto de datos que contiene las las variables $U_r$.

Table 6.1: Ilustración de un conjunto de datos agrupado en el modelo básico
1	2	3	4	5
$Y$	$X_1$	$U_0$	$U_1$	$U_2$
1	Bajo	0	1	0
0	Bajo	1	0	0
2	Bajo	0	0	1
0	Bajo	1	0	0
2	Bajo	0	0	1
1	Bajo	0	1	0
2	Bajo	0	0	1
1	Alto	0	1	0
2	Alto	0	0	1
0	Alto	1	0	0
1	Alto	0	1	0
1	Alto	0	1	0
General. $Y$ es la variable de respuesta; $X_1,$ una variable explicativa; $U_r$ son las variables de respuestas dicotomizadas en el nivel $r$.

Theorem 6.1 (Log-verosimilitud) Fijando $y=(y_1, \cdots ,y_n)^T$, se llega a un modelo estadístico donde:

\[P(Y_i=y_i) = \prod^2_{r=0} p_{ri}^{u_{ri}}, \quad i=1, \ldots, n\]

Además, el logaritmo de la función de verosimilitud será:

\[\begin{equation} {\cal L}(p) = \sum^n_{i=1}[u_{0i} \ln p_{0i} + u_{1i} \ln p_{1i} + (1-u_{0i}-u_{1i}) \ln(1-p_{0i}-p_{1i})], \tag{6.1} \end{equation}\]

evaluada en el parámetro $2n$-dimensional

\[p=(p_{01}, p_{11}, \ldots, p_{0n}, p_{1n})^T\]

Remark. Hay varias situaciones que se pueden presentar en un modelo básico, como el que fue descrito anteriormente. Se dice que éste se puede identificar como alguno de los siguientes modelos: completo, nulo o saturado.

7 Modelo completo

Definition 7.1 El modelo completo es caracterizado por el supuesto de que todos $p_{ri}$ (con $r = 0, 1, 2$ y $i = 1, \ldots, n$) son considerados como parámetros.

Remark. El siguiente teorema describe las estimaciones en este modelo:

Theorem 7.1 (Estimaciones en el modelo completo) En el modelo completo, las ML-estimaciones de $p_{ri}$ son $\widehat{p}_{ri} = U_{ri}$ con valores $\widehat{p}_{ri}=u_{ri}$ para $r = 0, 1, 2$ y $i = 1,\ldots, n$. Además, la estimación de la función de verosimilitud, de su logaritmo y de la llamada desviación tienen los siguientes valores:

\[{\cal L}(\widehat{p}) = 0, \quad L(\widehat{p})= 1 \quad \mbox{y}\quad -2\,{\cal L}(\widehat{p})=0\]

Example 7.1 Para los datos del archivo hsbdemo, en el modelo completo, se tiene que ${\cal L}(\widehat{p}) = -2\; {\cal L}(\widehat{p})= 0$ y $L(\widehat{p})=1$. En R, se pueden verificar así:

Lp_i <-  ifelse(prog0 == 0 | prog1 == 0 | prog0+prog1 == 1, 0, 
                prog0*log(prog0)+prog1*log(prog1)+(1-prog0-prog1)*log(1-prog0-prog1)) 

LogCompleto <- sum(Lp_i)
L_Completo <- exp(LogCompleto)
DevLogCompleto <- -2*LogCompleto

8 Modelo nulo

Definition 8.1 El modelo nulo es caracterizado por el supuesto de que todos los $p_{ri}$ ($i=1, \cdots ,n$) son considerados iguales; es decir, se tienen dos parámetros $p_0$ y $p_1$.

Theorem 8.1 (Log-verosimilitud en el modelo nulo) En este caso, (6.1) será:

\[\begin{eqnarray} {\cal L}(p)&=& n[\overline{u}_0\ln p_0 + \overline{u}_1\ln p_1+ (1- \overline{u}_0-\overline{u}_1)\ln (1-p_0-p_1)] \tag{8.1} \end{eqnarray}\]

El siguiente teorema describe las estimaciones en este modelo:

Theorem 8.2 (Estimaciones en el modelo nulo) En el modelo nulo, la ML-estimación de $p_r$ es $\hat{p}_r=\overline{U}_r$ con valor $\hat{p}_r=\overline{u}_r$. Además,

\[{\cal L}(\overline{p})<0 \qquad \mbox{si y sólo si}\qquad 0 <\overline{u}_0 + \overline{u}_1 <1\]

9 Ejemplo (modelo nulo)

9.0.1 Enunciado

Para los datos del archivo hsbdemo, en el modelo nulo, encuentre:

Las estimaciones de los parámetros del modelo nulo, utilizando las fórmulas planteadas en el documento.
Esas estimaciones con la función multinom :: nnet.
Esas estimaciones con la función vglm :: VGAM.
El logaritmo de la función de versosimilitud ${\cal L}(\widehat{p})$ y el valor de la desviación residual $-2{\cal L}(\widehat{p})$, utilizando las fórmulas planteadas en el documento.
Las estimaciones pedidas en (d), con la función multinom :: nnet.
Las estimaciones pedidas en (d), con la función vglm :: VGAM.

9.0.2 Solución parte (a)

Sea $u_0:=$ prog0 y $u_1:=$ prog1. Debido a que

\[\widehat{p}_0 \;=\; \overline{u_0}\;=\; 45/200 \;=\; 0.225, \qquad \widehat{p}_1 \;=\; \overline{u_1}\;=\; 50/200 \;=\; 0.25,\]

entonces, las estimaciones de los parámetros se pueden reunir en el siguiente vector:

\[\widehat{p} \;=\; (\widehat{p}_0, \widehat{p}_1)^T \;=\; (0.225, 0.25)^T\]

9.0.3 Solución parte (b)

La función summary::multinom() del paquete nnet entrega unas estimaciones que nos pueden ayudar a calcular lo solicitado, en especial, los valores de $c$ y $d$ que se muestran en el recuadro rojo de la figura 9.1). Es importante resaltar que se ha tomado como referencia a prog=academic:

## # weights:  6 (2 variable)
## initial  value 219.722458 
## final  value 204.096674 
## converged

library(nnet)
prog <- relevel(as.factor(prog), ref = "academic")

modelo <- multinom(prog ~ 1, data=Datos)
summary(modelo)

Figure 9.1: Modelo nulo. Fuente: Elaboración propia.

Con ayuda de los valores de $c$ y $d$, obtenemos los mismos resultados obtenidos en (a). En el documento Rpbus :: Regresión logística (estimaciones) se explican las fórmulas de abajo:

\[\begin{eqnarray*} \widehat{p}_0 &=& \frac{\exp\{c\}}{1 + \exp\{c\}+ \exp\{d\}} \;=\; \frac{\exp\{-0.847298\}}{1 + \exp\{-0.847298\}+ \exp\{-0.7419374\}} \;=\; 0.225\\ &&\\ \widehat{p}_1 &=& \frac{\exp\{d\}}{1 + \exp\{c\}+ \exp\{d\}\}} \;=\; \frac{\exp\{-0.7419374\}}{1 + \exp\{-0.847298\}+ \exp\{-0.7419374\}} \;=\; 0.25 \\ \end{eqnarray*}\]

En R:

c <- summary(modelo)$coefficients[1]
d <- summary(modelo)$coefficients[2]
p0 <- exp(c)/(1+ exp(c)+ exp(d))
p0
p1 <- exp(d)/(1+ exp(c)+ exp(d))
p1

9.0.4 Solución parte (c)

La función summary::vglm() del paquete VGAM entrega unas estimaciones que nos pueden ayudar a calcular lo solicitado, en especial, los valores de $c$ y $d$ que se muestran en el recuadro rojo de la figura 9.2). Es importante recalcar que se ha tomado como referencia a prog=academic (que es el nivel 1 en el datasets, por eso, refLevel=1 dentro de la familia multinomial()). Observe que son los mismos valores de $c$ y $d$ aplicados en la parte (b):

library(VGAM)

modelo <- vglm(prog ~ 1, multinomial(refLevel = 1), data=Datos)
summary(modelo)

Figure 9.2: Modelo nulo. Fuente: Elaboración propia.

9.0.5 Solución parte (d)

En el modelo nulo, la estimación del logaritmo de la función de verosimilitud es

\[{\cal L}(\widehat{p})\;=\; {\cal L}(0.225, 0.25) \;= \; -204.0967\]

y el valor de la desviación residual es:

\[-2{\cal L}(\widehat{p}) \;=\; 408.1933\]

En R, se puede verificar así:

n <- nrow(Datos)
n
u0_bar <- mean(prog0)
u0_bar
p0 <- u0_bar
u1_bar <- mean(prog1)
u1_bar
p1 <- u1_bar
u2_bar <- mean(prog2)
u2_bar
p2 <- u2_bar
LogNulo <- n*(u0_bar*log(p0)+u1_bar*log(p1)+(1-u0_bar-u1_bar)*log(1-p0-p1))
LogNulo
DevNulo <- -2*LogNulo

9.0.6 Solución parte (e)

La función multinom() del paquete nnet calcula directamente el valor de la desviación residual $-2{\cal L}(\widehat{p})$ y, con ello, el valor de ${\cal L}(\widehat{p})$. En la salida de summary(), que se muestra en la figura 9.3, solo debe tenerse en cuenta los resultados que se indican en el recuadro rojo. Es importante recalcar que se ha tomado como referencia a prog=academic:

library(nnet)
prog <- relevel(as.factor(prog), ref = "academic")

modelo <- multinom(prog ~ 1, data=Datos)
summary(modelo)

Figure 9.3: Modelo nulo. Fuente: Elaboración propia.

9.0.7 Solución parte (f)

La función vglm() del paquete VGAM calcula directamente los valores de la desviación residual $-2{\cal L}(\widehat{p})$ y de ${\cal L}(\widehat{p})$. En la salida de summary(), que se muestra en la figura 9.4, solo debe tenerse en cuenta los resultados que se indican en el recuadro rojo. Es importante recalcar que se ha tomado como referencia a prog=academic (que es el nivel 1 en el datasets, por eso, refLevel=1 dentro de la familia multinomial()):

library(VGAM)

modelo <- vglm(prog ~ 1, multinomial(refLevel = 1), data=Datos)
summary(modelo)

Figure 9.4: Modelo nulo. Fuente: Elaboración propia.

10 Modelo saturado

El modelo saturado está caracterizado por dos supuestos.

Hypothesis 10.1 (Supuesto 1 en el modelo saturado) Se supone que:

Se tienen $K$ variables explicativas $X_1, \cdots, X_K$ (algunas pueden ser numéricas y otras categóricas) con valores $x_{i1}, \cdots, x_{iK}$ para $i=1, \cdots, n$ (fijadas u observadas por el estadístico, según sean variables determiní}sticas o aleatorias).
Entre las $n$ kuplas $(x_{i1}, \cdots, x_{iK})$ de los valores de la variable explicativa $X$ haya $J$ kuplas diferentes, definiendo las $J$ poblaciones. Por tanto, $J \le n$.

Remark. Para cada población $j=1, \cdots ,J$ se denota:

El número de observaciones $Y_{ij}$ (o de observaciones $U_{rij}$ en la categoría $r$) en cada población $j$ por $n_j$, siendo $n_1+\cdots +n_J=n$;
Para cada $r=0,1,2$ fijo, la suma de las $n_j$ observaciones $U_{rij}$ en $j$ por

\[Z_{rj}:=\sum\limits_{i=1}^{n_j}U_{rij} \quad \mbox{con valor}\quad z_{rj}=\sum\limits_{i=1}^{n_j} u_{rij},\quad \mbox{siendo}\quad \sum\limits^J_{j=1}z_{rj}= \sum\limits^n_{i=1} u_{ri}\]

En la Tabla 10.1 se ilustra hipotéticamente un conjunto de datos con $J=2$ poblaciones.

Table 10.1: Ilustración de un conjunto de datos agrupado en $J=2$ poblaciones
1	2	3	4	5	6	7	8	9	10	11	12	13	14
$Y$	$X_1$	$X_2$	$X_3$	$X_4$	$X_5$	$U_0$	$U_1$	$U_2$	$j$	$n_j$	$Z_1j$	$Z_2j$	$Z_3j$
Población: Bajo, 80, Si, 170, Estrato 1
1	Bajo	80	Si	170	Estrato 1	0	1	0	$j=1$	$n_1=7$	$Z_1=2$	$Z_2=2$	$Z_1=3$
0	Bajo	80	Si	170	Estrato 1	1	0	0
2	Bajo	80	Si	170	Estrato 1	0	0	1
0	Bajo	80	Si	170	Estrato 1	1	0	0
2	Bajo	80	Si	170	Estrato 1	0	0	1
1	Bajo	80	Si	170	Estrato 1	0	1	0
2	Bajo	80	Si	170	Estrato 1	0	0	1
Población: Alto, 100, No, 180, Estrato 2
1	Alto	100	No	180	Estrato 2	0	1	0	$j=2$	$n_2=5$	$Z_2=1$	$Z_2=3$	$Z_2=1$
2	Alto	100	No	180	Estrato 2	0	0	1
0	Alto	100	No	180	Estrato 2	1	0	0
1	Alto	100	No	180	Estrato 2	0	1	0
1	Alto	100	No	180	Estrato 2	0	1	0
General. $Y$ es la variable de respuesta; $X_1, \cdots, X_5$ son las variables explicativas; $U_r$ son las variables de respuestas dicotomizadas; $j$ es la población; $n_j$ es el tamaño de la población $j$; $Z_{rj}$ es el número de éxitos en la población $j$, ubicado en el nivel $r$.

Hypothesis 10.2 (Supuesto 2 en el modelo saturado) Para mayor simplicidad en la escritura, se abreviará la j-ésima población $(x_{j1}, \cdots ,x_{jK})$ por el símbolo $\star$. Para cada $r=0,1,2$ fijo, cada población $j=1, \cdots ,J$ y cada observación $i=1,\cdots,n$ en $j$, se supone que:

$(U_{rij}|\star)$ es de Bernoulli. Es decir,

\[(U_{rij}|\star) \sim {\cal B}(1,p_{rj})\]

Las variables $(U_{rij}|\star)$ son independientes entre sí.
La esperanza y la varianza son, respectivamente,

\[p_{rj}=P(U_{rij}=1|\star)=E(U_{rij}|\star), \qquad V(U_{rij}|\star)=p_{rj}(1-p_{rj})\]

A continuación, se oprimirá el símbolo $\star$.

Remark. El supuesto 2 implica:

Para cada $r=0,1,2$ y cada poblaci'on $j=1, \cdots ,J$, todos los $p_{rij}$, $i=1, \cdots ,n$ dentro de cada población $j$ son iguales. Es decir, se tiene como parámetro el vector $2J$-dimensional:

\[p=(p_{01}, p_{11}, \ldots ,p_{0J},p_{1J})^T\]

Para cada $r=0,1,2$ y cada población $j=1, \cdots ,J$:
- La variable $Z_{rj}$ es binomial. Es decir,
\[Z_{rj}\sim{\cal B}(n_j,p_{rj})\]
- Las variables $Z_{rj}$ son independientes entre las poblaciones.

Theorem 10.1 (Log-verosimilitud en el modelo saturado) En el modelo saturado, el logaritmo de la función de máxima verosimilitud será

\[\begin{eqnarray} {\cal L}(p) &= & \sum^J_{j=1}\left[z_{0j}\ln p_{0j} \;+\; z_{1j}\ln p_{1j} \;+\; (n_j- z_{0j}-z_{1j})\ln (1-p_{0j}-p_{1j})\right] \tag{10.1} \end{eqnarray}\]

Theorem 10.2 (Estimaciones en el modelo saturado) En el modelo saturado, las ML-estimaciones de $p_{rj}$ son $\tilde{p}_{rj}=\frac{Z_{rj}}{n_j}$, con valores $\tilde{p}_{rj}=\frac{z_{rj}}{n_j}$,$j=1,\cdots ,J$. Además,

\[\begin{eqnarray} {\cal L}(\widetilde{p}) &=& \sum^J_{j=1} n_j[\tilde{p}_{0j}\ln \tilde{p}_{0j} \;+\; \tilde{p}_{1j}\ln \tilde{p}_{1j} \; + \;(1-\tilde{p}_{0j}-\tilde{p}_{1j})\ln(1-\tilde{p}_{0j}-\tilde{p}_{1j})] \end{eqnarray}\]

También se cumple que

\[{\cal L}(\widetilde{p})<0\quad \mbox{para}\quad 0< \tilde{p}_j <1\]

Example 10.1 Para los datos del archivo chdage, en el modelo saturado,hay $J=43$ poblaciones y se cumple que ${\cal L}(\tilde{p})=-41.7991$, como se indica en la última fila de la Tabla 10.2:

Datos %>%
  group_by(gender,ses) %>%
  summarise(nj = n(),
            z0j = sum(prog0),
            z1j = sum(prog1),
            z2j = sum(prog2)) %>%
  mutate(p0j = round(z0j/nj,4),
         p1j = round(z1j/nj,4),
         p2j = round(z2j/nj,4),
         Lp_ref2 = ifelse(z0j==0 | z0j== nj| z1j==0 | z1j==nj |z0j+z1j==0 | z0j+z1j==nj, 0,
                     z0j*log(p0j)+z1j*log(p1j)+(nj-z0j-z1j)*log(1-p0j-p1j)),
        Lp_ref2 = round(Lp_ref2, 4)) -> saturado
        
L_saturado <- sum(saturado$Lp_ref2)

Table 10.2: Estimación en el modelo saturado: ${\cal L}(\tilde{p})= \sum\limits_{j=1}^J {\cal L}_j(\tilde{p}) =-41.7991$
gender	ses	$n_j$	$z_{0j}$	$z_{1j}$	$z_{2j}$	$p_{0j}$	$p_{1j}$	$p_{2j}$	${\cal L}_j(\tilde{p})$
female	high	29	5	3	21	0.1724	0.1034	0.7241	-22.3736
female	low	32	9	8	15	0.2812	0.2500	0.4688	-33.8722
female	middle	48	10	16	22	0.2083	0.3333	0.4583	-50.4274
male	high	29	4	4	21	0.1379	0.1379	0.7241	-22.6263
: : :
female	middle	48	10	16	22	0.2083	0.3333	0.4583	-50.4274
male	high	29	4	4	21	0.1379	0.1379	0.7241	-22.6263
male	low	15	7	4	4	0.4667	0.2667	0.2667	-15.9090
male	middle	47	10	15	22	0.2128	0.3191	0.4681	-49.3074

11 Ejercicios

Para la solución de los siguientes ejercicios, téngase en cuenta los siguientes comentarios:

Todos los datos mencionados aparecen en los links mencionados en este documento.
Siempre debe detallar el análisis del conjunto de datos (con las variables especificadas) basado en lo explicado en este documento.
Haga un análisis exploratorio diferente de con los datos mencionados.

11.0.1 Ejercicios 1 a 3

Demuestre los teoremas: (a) 7.1; (b) 8.2; (c) 10.2.
Haga un listado de los paquetes de R que estimen el logaritmo de la función de máxima verosimilitud en los modelos completo y nulo.
Haga un listado de los paquetes de R que estimen el logaritmo de la función de máxima verosimilitud en el modelo saturado.

11.0.2 Ejercicio 4 a 7

Considere los datos hbsdemo, tomando a prog como variable dependiente y gender como variable independiente. Repita todos los análisis realizados en este documento.
Considere los datos hbsdemo, tomando a prog como variable dependiente y schtyp como variable independiente. Repita todos los análisis realizados en este documento.
Considere los datos hbsdemo, tomando a prog como variable dependiente y honors como variable independiente. Repita todos los análisis realizados en este documento.
Considere los datos hbsdemo, tomando a prog como variable dependiente y awards como variable independiente. Repita todos los análisis realizados en este documento.

11.0.3 Ejercicios 8 a 10

Considere los datos hbsdemo, tomando a prog como variable dependiente y ses y schtyp como variables independientes. Repita todos los análisis realizados en este documento.
Considere los datos hbsdemo, tomando a prog como variable dependiente y ses y honors como variables independientes. Repita todos los análisis realizados en este documento.
Considere los datos hbsdemo, tomando a prog como variable dependiente y ses y awards como variables independientes. Repita todos los análisis realizados en este documento.

11.0.4 Ejercicio 11 a 13

Considere los datos hbsdemo, tomando a prog como variable dependiente y gender y schtyp como variables independientes. Repita todos los análisis realizados en este documento.
Considere los datos hbsdemo, tomando a prog como variable dependiente y gender y honors como variables independientes. Repita todos los análisis realizados en este documento.
Considere los datos hbsdemo, tomando a prog como variable dependiente y gender y awards como variables independientes. Repita todos los análisis realizados en este documento.

11.0.5 Ejercicio 14 a 16

Considere los datos hbsdemo, tomando a prog como variable dependiente y schtyp y honors como variables independientes. Repita todos los análisis realizados en este documento.
Considere los datos hbsdemo, tomando a prog como variable dependiente y schtyp y awards como variables independientes. Repita todos los análisis realizados en este documento.
Considere los datos hbsdemo, tomando a prog como variable dependiente y honors y awards como variables independientes. Repita todos los análisis realizados en este documento.

11.0.6 Ejercicios 17 a 19

Considere los datos hbsdemo, tomando a prog como variable dependiente y gender, ses y schtyp como variables independientes. Repita todos los análisis realizados en este documento.
Considere los datos hbsdemo, tomando a prog como variable dependiente y gender, ses y honors como variables independientes. Repita todos los análisis realizados en este documento.
Considere los datos hbsdemo, tomando a prog como variable dependiente y gender, ses y awards como variables independientes. Repita todos los análisis realizados en este documento.

11.0.7 Ejercicios 20 a 21

Considere los datos hbsdemo, tomando a prog como variable dependiente y gender, schtyp y honors como variables independientes. Repita todos los análisis realizados en este documento.
Considere los datos hbsdemo, tomando a prog como variable dependiente y gender, schtyp y awards como variables independientes. Repita todos los análisis realizados en este documento.

11.0.8 Ejercicios 22 a 24

Considere los datos hbsdemo, tomando a prog como variable dependiente y ses, schtyp y honors como variables independientes. Repita todos los análisis realizados en este documento.
Considere los datos hbsdemo, tomando a prog como variable dependiente y ses, schtyp y awards como variables independientes. Repita todos los análisis realizados en este documento.
Considere los datos hbsdemo, tomando a prog como variable dependiente y schtyp, honors y awards como variables independientes. Repita todos los análisis realizados en este documento.

11.0.9 Ejercicios 25 a 27

Considere los datos hbsdemo, tomando a prog como variable dependiente y gender, ses, schtyp y honors como variables independientes. Repita todos los análisis realizados en este documento.
Considere los datos hbsdemo, tomando a prog como variable dependiente y gender, ses, schtyp y awards como variables independientes. Repita todos los análisis realizados en este documento.
Considere los datos hbsdemo, tomando a prog como variable dependiente y gender, ses, schtyp, honors y awards como variables independientes. Repita todos los análisis realizados en este documento.

Bibliografía

Consultar el documento RPubs :: Regresión logística (bibliografía).

If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.

1	2	3	4	5
\(Y\)	\(X_1\)	\(U_0\)	\(U_1\)	\(U_2\)
1	Bajo	0	1	0
0	Bajo	1	0	0
2	Bajo	0	0	1
0	Bajo	1	0	0
2	Bajo	0	0	1
1	Bajo	0	1	0
2	Bajo	0	0	1
1	Alto	0	1	0
2	Alto	0	0	1
0	Alto	1	0	0
1	Alto	0	1	0
1	Alto	0	1	0
General. \(Y\) es la variable de respuesta; \(X_1,\) una variable explicativa; \(U_r\) son las variables de respuestas dicotomizadas en el nivel \(r\).

1	2	3	4	5	6	7	8	9	10	11	12	13	14
\(Y\)	\(X_1\)	\(X_2\)	\(X_3\)	\(X_4\)	\(X_5\)	\(U_0\)	\(U_1\)	\(U_2\)	\(j\)	\(n_j\)	\(Z_1j\)	\(Z_2j\)	\(Z_3j\)
Población: Bajo, 80, Si, 170, Estrato 1
1	Bajo	80	Si	170	Estrato 1	0	1	0	\(j=1\)	\(n_1=7\)	\(Z_1=2\)	\(Z_2=2\)	\(Z_1=3\)
0	Bajo	80	Si	170	Estrato 1	1	0	0
2	Bajo	80	Si	170	Estrato 1	0	0	1
0	Bajo	80	Si	170	Estrato 1	1	0	0
2	Bajo	80	Si	170	Estrato 1	0	0	1
1	Bajo	80	Si	170	Estrato 1	0	1	0
2	Bajo	80	Si	170	Estrato 1	0	0	1
Población: Alto, 100, No, 180, Estrato 2
1	Alto	100	No	180	Estrato 2	0	1	0	\(j=2\)	\(n_2=5\)	\(Z_2=1\)	\(Z_2=3\)	\(Z_2=1\)
2	Alto	100	No	180	Estrato 2	0	0	1
0	Alto	100	No	180	Estrato 2	1	0	0
1	Alto	100	No	180	Estrato 2	0	1	0
1	Alto	100	No	180	Estrato 2	0	1	0
General. \(Y\) es la variable de respuesta; \(X_1, \cdots, X_5\) son las variables explicativas; \(U_r\) son las variables de respuestas dicotomizadas; \(j\) es la población; \(n_j\) es el tamaño de la población \(j\); \(Z_{rj}\) es el número de éxitos en la población \(j\), ubicado en el nivel \(r\).