Sección 7.1 Distribuciones de probabilidad
En un principio habíamos considerado modelos lineales en los que la
salida o variable respuesta podía tomar una infinidad de valores
dependiendo de los valores asignados a los predictores. Sin embargo
ahora sera de interés considerar modelos en donde nos restringimos a que
la variable de respuesta toma valores en una escala binaria. A manera de
ejemplo, la respuesta puede ser estar “vivo” o “muerto”, “presento” o
“no presente”, claramente estas respuesta no son cuantitativas, sin
embargo podemos asignarles “éxito” o “fracaso” como términos genéricos
de modo que así podamos codificar estas respuestas.
Para realizar esto, empezamos definiendo la variable
aleatoria binaria \[
Z=\left\{\begin{array}{cc}
1& \text{si la respuesta es un exito}\\
0 & \text{si la respuesta es un fracaso}
\end{array}\right.
\] con probabilidades \(\mathbb{P}(Z=1)=\pi\) y \(\mathbb{P}(Z=0)=1-\pi\). A manera de
generalización, si hay contamos con \(n\) variables aleatoria binarias \(Z_1,\ldots,Z_n\) independientes con
probabilidades \(\mathbb{P}(Z_i=1)=\pi_i\) y \(\mathbb{P}(Z_i=0)=1-\pi_i\), entonces su
función conjunta de probabilidad es \[\prod_{j=1}^n \pi_j^{z_j}(1-\pi_j)^{1-z_j}=
\exp\left[\sum_{j=1}^n z_j
\log\left(\dfrac{\pi_j}{1-\pi_j}\right)+\sum_{j=1}^n
\log(1-\pi_j)\right],\] donde el producto es consecuencia de la
independencia de las \(Z_i\) y que
\(\mathbb{P}(Z_i=z_i)=\pi_j^{z_j}(1-\pi_j)^{1-z_j}\),
puesto que \(z_j\in\{0,1\}\). Adicional
podemos notar que la función conjunta de probabilidad es un miembro de
la familia exponencial. Notemos que si consideramos el caso en que todas
las las \(\pi_j's\) con iguales,
podemos definir la variable \[Y=\sum_{j=1}^n
Z_j,\] que simplemente cuenta el numero de éxitos en \(n\) realizaciones, la cual como ya sabemos
tiene distribución de probabilidad binomial de parámetros \(n\) y \(\pi\).
Por ultimo consideremos el caso de \(N\) variables aleatorias independientes
\(Y_1,\ldots,Y_n\) correspondientes al
numero de éxitos en \(N\) subgrupos
diferentes, tal que \(Y_i\sim
Bin(n_i,\pi_i)\), y por lo tanto la función de verosimilitud
viene dada por: \[\begin{split}
l(\pi_1,\ldots,\pi_n;y_1,\ldots,y_n)=\left[\sum_{j=1}^{N}y_j\log\left(\dfrac{\pi_j}{1-\pi_j}\right)+ n_j\log(1-\pi_j)+\log\binom{n_j}{y_j}\right].
\end{split}\]
Sección 7.2 Modelos Lineales Generalizados
Nuestro interés ahora será determinar la proporción de sucesos \(P_i=Y_i/n_i\) en cada subgrupo en términos
de los factores de nivel (todos los posibles valores que toma la
variable categórica) y otra variable explicativa que caracteriza al
subgrupo en cuestión. Como \(\mathbb{E}(Y_i)=n_i\pi_i\), entonces \(\mathbb{E}(P_i)=\pi_i\), y modelamos las
probabilidades \(\pi_i\) como \[g(\pi_i)=\textbf{x}_i^T\beta,\] donde
\(\textbf{x}_i\) es un vector de
variables explicativas (variables dummy para los factores de nivel),
\(\beta\) es un vector de parámetros y
\(g\) es una función de enlace (Link
function).
Una función de enlace es aquella que transforma
las probabilidades de los factores de nivel de de una variable de
respuesta categórica en una escala continua. Una vez que se realiza
la transformación. la relación entre los predictores y la respuesta
puede ser modelada con una regresión lineal.
Un caso sencillo es el modelo lineal \[
\pi=\textbf{x}^T\beta.
\] Aunque este modelo suele ser usado en algunas aplicaciones
practicas, tiene la desventaja que aunque \(\pi\) es una probabilidad, los valores
ajustados \(\textbf{x}^T\beta\), pueden
llegar a ser mayores a 1 o menores a 0.
Así para garantizar que \(\pi\) este
restringido al intervalo \([0,1]\), lo
modelamos usando una función de distribución, de modo que \[\pi=\int_{-\infty}^t f(s)ds,\] donde \(f(s\geq 0)\) y \(\int_{-\infty}^{\infty}f(s)ds=1\). A la
función de densidad \(f(s)\) se le
llama distribución de tolerancia.
Sección 7.3 Modelos dosis respuesta
Históricamente uno de los primeros usos de modelos similares a la
regresión para datos binomiales fue en resultados de bio ensayo. En
estos modelos la respuesta era la proporción o porcentaje de éxitos;
como por ejemplo, la proporción de animales experimentales asesinados
por distintos niveles de dosis de una cierta sustancia toxica. Estos
datos a veces se les denominan respuestas cuánticas. El
objetivo aquí es describir la probabilidad de “éxito” \(\pi\), como una función de la dosis
suministrada, \(x\); por ejemplo \(g(\pi)=\beta_0+\beta_1 x\).
Si la distribución de tolerancia \(f(s)\) es la distribución uniforme sobre el
intervalo \([a,b]\), es decir \[
f(s)=\left\{
\begin{array}{cc}
\dfrac{1}{b-a} & \text{ si } a\leq x\leq b\\
0 & \text{ en otro caso}
\end{array}
\right.,
\] entonces \[
\pi=\int_{a}^x f(s)ds=\dfrac{x-a}{b-a}\text{ si } a\leq x\leq b.\\
\] Notemos que \[\pi=\dfrac{x-a}{b-a}=-\dfrac{a}{b-a}+x\dfrac{1}{b-a},\]
definiendo \(\beta_0=-\dfrac{a}{b-a}\)
y \(\beta_1=\dfrac{1}{b-a}\), se tiene
que \(\pi=\beta_0+\beta_1 x\).
Así este modelo lineal es equivalente a usar como
función enlace \(g(x)=x\) imponiendo
restricciones sobre \(x\), \(\beta_0\) y \(\beta_1\) correspondientes a que \(a\leq x\leq b\). Este tipo de restricciones
son las que no permiten que podamos aplicar de manera directa los
métodos estándares para estimar \(\beta_0\) y \(\beta_1\).
Veremos ahora uno de los modelos mas útiles y mayor mente usados en
en datos de bioensayo llamado modelo probit. En este
modelo se usa la distribución normal como distribución de tolerancia,
con lo cual \(\pi\) viene dado por:
\[
\pi=\dfrac{1}{\sigma\sqrt{2\pi}}\int_{-\infty}^x
e^{-\frac{1}{2}\left(\frac{s-\mu}{\sigma}\right)^2}
ds=\Phi\left(\dfrac{x-\mu}{\sigma}\right),
\] donde \(\Phi\) denota la
función de distribución para la distribución normal estándar. Así se
sigue que: \[
\Phi^{-1}(\pi)=\beta_0+\beta_1 x,
\] donde \(\beta_0=-\mu/\sigma\), \(\beta_1=1/\sigma\) y la función de enlace
es la inversa de la función de distribución de la normal.
Nota: Estos modelos probit son usados en muchas
áreas de biología y ciencias sociales en las cuales se les da una
interpretación natural al modelo; por ejemplo si se está en un contexto
biológico, \(x=\mu\) es llamada
dosis letal media LD(50), por que esta corresponde da
la dosis que puede esperar que acabe con la mita de los animales.
Otro modelo que nos da resultados muy similares al modelo probit,
pero que computacionalmente es mas sencillo, es el modelo
logístico o modelo logit. En este modelo la
distribución de tolerancia es
\[
f(s)=\dfrac{\beta_1{\exp{(\beta_0+\beta_1
s)}}}{(1+\beta_1{\exp{(\beta_0+\beta_1 s)})^2}},
\] así que \[
\pi=\int_{-\infty}^x f(s)ds=\dfrac{\exp{(\beta_0+\beta1
x)}}{1+\exp{(\beta_0+\beta_1 x)}},
\] con lo cual nos la función de enlace \[
\log\left(\dfrac{\pi}{1-\pi}\right)=\beta_0+\beta_1 x.
\] El término \(\log(\pi/(1-\pi))\) es llamado función
logit. Este modelo logístico es ampliamente usado para datos
binomiales
Otras modelos usados para datos respuesta-dosis, son por ejemplo si
consideramos como distribución de tolerancia la distribución de
valor extremo \[
f(s)=\beta_1\exp{[\beta_0+\beta_1 s-\exp{(\beta_0+\beta_1 s)}]}
\] entonces \[
\pi=1-\exp{[-\exp{(\beta_0+\beta_1 x)}]},
\] de donde se sigue \[
\log{[-\log{(1-\pi)}]}=\beta_0+\beta_1 x.
\] Aquí la función de enlace es \(g(x)=\log{[-\log{(1-x)}]}\) la cual se le
llama función log log complementaria
Ejemplo 1: Mortalidad de escarabajos El siguiente
conjunto de datos muestra el numero de escarabajos muertos después de
cinco horas de exposición a gas de disulfuro de carbono en varias
concentraciones.
Dosis<-c(1.6907,1.7242,1.7552,1.7842,1.8113,1.8369,1.8610,1.8839)
Poblacion<-c(59,60,62,56,63,59,62,60)
Muertes<-c(6,13,18,28,52,53,61,60)
Tabla1<-cbind(Dosis,Poblacion,Muertes)
Tabla1<-data.frame(Tabla1)
names(Tabla1)<-c("Dosis, x_i","Número de escarabajos, n_i", "Número de muertes, y_i")
Tabla1
plot(Dosis,Muertes/Poblacion,pch=20,cex=1.7,ylab="Proporción de muertes",sub=TeX(r'(Proporción de muertes $p_i=y_i/n_i$ vs dosis $x_i$)'))
Comentario: En este ejemplo estamos consideramos \(x_i\) como el logaritmo de la cantidad de
disulfuro de carbono.
El propósito en este ejemplo será ajustar un modelo logístico. Como
usaremos el modelo logístico, se tiene que las proporciones se expresan
como \[
\pi_i=\log\left(\dfrac{\pi_i}{1-\pi_i}\right),
\] con lo cual \[
\log\left(\dfrac{\pi_i}{1-\pi_i}\right)=\beta_0+\beta_1 x_i
\] y \[
\log{(1-\pi_i)}=\log{[1+\exp{(\beta_0+\beta_1 x_i)}]}.
\] Por otro lado, en un inicio habíamos encontrado que la función
de log verosimilitud viene dada por \[
l(\pi_1,\ldots,\pi_n;y_1,\ldots,y_n)=\left[\sum_{j=1}^{N}y_j\log\left(\dfrac{\pi_j}{1-\pi_j}\right)+ n_j\log(1-\pi_j)+\log\binom{n_j}{y_j}\right]
\] sustituyendo las expresiones ya encontradas, la log
verosimilitud se reduce a \[
l(\pi_1,\ldots,\pi_n;y_1,\ldots,y_n)=\left[\sum_{j=1}^{N}y_j(\beta_0+\beta_1
x_j)+ n_j\log{[1+\exp{(\beta_0+\beta_1
x_i)}]}\log\binom{n_j}{y_j}\right].
\]. Derivando la log verosimilitud con respecto a \(\beta_0\) y \(\beta_1\), tenemos que los scores vienen
dados por:
\[
\begin{split}
U_1=&\dfrac{\partial l}{\partial \beta_0}=\sum_{i=1}^N
\left(y_i-n_i\left[\dfrac{\exp{(\beta_0+\beta_1
x_i)}}{1+\exp{(\beta_0+\beta_1
x_i)}}\right]\right)=\sum_{i=1}^N(y_i-n_i\pi_i)\\
U_2=& \dfrac{\partial l}{\partial \beta_1}=\sum_{i=1}^N \left(y_i
x_i-n_i x_i\left[\dfrac{\exp{(\beta_0+\beta_1
x_i)}}{1+\exp{(\beta_0+\beta_1 x_i)}}\right]\right)=\sum_{i=1}^N
x_i(y_i-n_i\pi_i).
\end{split}
\] Similarmente realizando las respectivas cuentas, encontramos
que la matriz de información es \[
J=\left[
\begin{array}{cc}
\sum_{i=1}^N n_i\pi_i (1-\pi_i)&\sum_{i=1}^N n_i x_i\pi_i
(1-\pi_i)\\
\sum_{i=1}^N n_i x_i\pi_i (1-\pi_i) & \sum_{i=1}^N n_i x_i^2\pi_i
(1-\pi_i)
\end{array}
\right].
\] Por lo visto en el capitulo de estimación, sabemos que para
encontrar los estimadores de máxima verosimilitud los podemos obtener
iterativamente solucionando la ecuación \[
J^{(m-1)} \textbf{b}^m =J^{(m-1)}\textbf{b}^{(m-1)}+U^{(m-1)}
\] donde el superindice \((m)\)
indica la \(m\)-ésima aproximación y
\(\textbf{b}\) es el vector de
estimaciones.
Con las expresiones ya encontradas, procederemos a encontrar las
estimaciones de los parámetros \(\beta_0\) y \(\beta_1\), siguiendo las ideas del capitulo
de estimaciones.
Para ello con la siguiente función podremos realizar el numero de
simulaciones que deseemos hasta encontrar las estimaciones entre dos
iteraciones seguidas no varié mucho.
## Función para realizar estimación de máxima verosimilitud basada en los resultados del capitulo 4, la cual principalmente sigue la idea del algoritmo Newton Raphson.
# Parámetros que requiere esta función
# num_itera = # de iteraciones que deseamos realizar para estimar los parámetros de Máxima verosimilitud.
# Poblaciones = Vector que contiene el tamaño de cada sub población para cada predictor.
# predictores = Vector de variables predictoras consideradas para cada sub población.
#respuestas = Vector de respuestas asociadas a cada sub población.
estimacion<-function(num_itera,b_inicial,Poblaciones,predictores,respuestas){
for (i in 1:num_itera) {
proporcion<-exp(b_inicial[1]+b_inicial[2]*predictores)/(1+exp(b_inicial[1]+b_inicial[2]*predictores))
# Vector de la proporciones para cada sub población
U0 <- sum(respuestas-Poblaciones*proporcion)
U1 <- sum(predictores*(respuestas-Poblaciones*proporcion))
U<-matrix(c(U0,U1),ncol=1,byrow = T)
J_11 <- sum(Poblaciones*proporcion*(1-proporcion))
J_12 <- sum(Poblaciones*predictores*proporcion*(1-proporcion))
J_21 <- sum(Poblaciones*predictores*proporcion*(1-proporcion))
J_22 <- sum(Poblaciones*predictores^2*proporcion*(1-proporcion))
J<-matrix(c(J_11,J_12,J_21,J_22),ncol = 2,byrow = T)
J_inv<-solve(J)
b_inicial <- b_inicial + J_inv%*%U
log_vero<-sum(respuestas*(b_inicial[1]+b_inicial[2]*predictores)-Poblaciones*log(1+exp(b_inicial[1]+b_inicial[2]*predictores)))
y_estim<-Poblaciones*proporcion
}
ResumIte<-list(b_inicial,log_vero,J_inv,y_estim)
return(ResumIte)
}
# los parámetros iniciales
b0<-matrix(c(0,0),ncol=1,byrow=T)
| | Estimacion inicial| 1ra aprox | 2da aprox | 3ra aprox|
|-------------------|-------------|---------------|--------------|--------|
| ß_0 | 0 |-37.856 |-53.853 |-60.717 |
| ß_1 | 0 |21.337 |30.384 |34.270 |
| log-verosimilitud | -333.404 |-200.010 |-187.274 |-186.235|
Sección 7.4 Modelo de Regresión Logística
General
El modelo de regresión logística lineal simple presentado antes,
\[
\log\left(\frac{\pi_i}{1-\pi_i}\right)=\beta_1+\beta_2 x_i
\]
utilizado en el ejemplo de la mortalidad de los escarabajos es
simplemente un caso especial del modelo de de regresión logística
general: \[
logit(\pi_i)=\log\left(\frac{\pi_i}{1-\pi_i}\right)= x_{i}^{T}\beta,
\] donde \(x_i\) es un vector de
mediciones continuas correspondiente a variables regresoras y variables
“dummy” correspondientes a niveles de factor, y \(\beta\) es el vector de parámetros. Este
modelo es muy utilizado para utilizar datos que involucran variables de
respuesta binarias o binomiales, así como varios regresores.
Estimadores de máxima verosimilitud de los parámetros \(\beta\), y en consecuencia, de las
probabilidades \[
\pi_i=g(x_{i}^{T}\beta),
\] se obtienen maximizando la función de log-verosimilitud dada
por: \[
l(\pi;y)=\sum_{i=1}^{N}\left[y_i\log(\pi_i)+(n_i-y_i)\log(1-\pi_i)+\log{\binom{n_i}{y_i}}\right].
\] Dicha maximización se hace utilizando los métodos
correspondientes.
El proceso de estimación es esencialmente el mismo siempre que los
datos estén agrupados como frecuencias para cada patrón de covarianza
(es decir, los datos están agrupados de acuerdo a si son observaciones
con los mismos valores de todas las variables regresoras), o bien, si
cada observación está codificada como un 0 o un 1, y su patrón de
covarianza se enlistó de manera separada.
Si los datos pueden ser agrupados, entonces la respuesta \(Y_i\) representará el número de éxitos para
el patrón de covarianza \(i\), y tal
respuesta puede ser modelada por la distribución binomial. En cambio, si
cada observación tiene un distinto patrón de covarianza, entonces \(n_i=1\) y la respuesta \(Y_i\) es binaria.
La devianza en este caso está dada por: \[
D=2\sum_{i=1}^{N}\left[y_i\log\frac{y_i}{\hat{y_i}}+(n_i-y_i)\log\frac
{n-y_i}{n-\hat{y_i}}\right]
\] Tal expresión puede ser reescrita como:
\[
D=2\sum o\log\frac{o}{e},
\] donde \(o\) denota las
frecuencias observadas \(y_i\) y \((n_i-y_i)\), y \(e\) denota las correspondientes frecuencias
estimadas esperadas, o mejor dicho, los valores ajustados del modelo,
$=n_i y (n_i-)=(n_i-n_i). La suma es sobre todos los posibles valores de
\(i\).
Notamos que la deviance \(D\) no
involucra ningún “nuisance parameter”, como el \(\sigma^2\) en los modelos con respuestas
normales. Por lo tanto, los test de bondad de ajuste pueden ser
evaluados y las hipótesis pueden ser testeadas directamente utilizando
la aproximación de la devianza: \[
D\sim\chi^2(N-p),
\] donde \(p\) es el número de
parámetros estimado y \(N\) el número
de patrones de covarianza.
Cabe destacar que los métodos de estimación y las distribuciones
muestrales utilizadas para inferencia dependen de resultados
asintóticos. Para pequeños estudios donde hay pocas observaciones para
cada patrón de covarianza, los resultados asintóticos podrían ser
malos.
Ejemplo 2: Embriogénsis de Anteras
Los siguientes datos muestran respuestas \(y_{jk}\) que representan el número de
anteras embriogénicas de la especie de planta \(Datura innoxia\) que fueron obtenidas
cuando una cantidad \(n_{jk}\) de
anteras fueron preparadas bajo varias condiciones diferentes. Hay un
factor cualitativo con dos niveles que da origen a 2 grupos \(j\in{1,2}\) de anteras, el primero
representa a las anteras del grupo control mientras que el segundo
representa a las anteras del grupo tratado. Las primeras fueron tratadas
coon un almacenamiento de 3 grados Celsius por 48 horas, mientras que
las anteras del grupo control estuvieorn almacenadas con condiciones
normales.
Así mismo, los dos grupos de anteras almacenadas en condiciones de
control y de tratamiento fueron expuestas a los efectos de una fuerza
centrífuga, la cual es una variable aleatoria continua. En este caso,
hubieron tres valores de fuerza centrífuga a la que los grupos fueron
expuestos. La idea es comparar los efectos del control y del tratamiento
en las proporciones después de haber sido ajustadas a una furza
centrífuga:
| Condicion de Almacenamiento |
|
40 |
150 |
350 |
| Grupo Control |
\(y_{1k}\) |
55 |
52 |
57 |
|
\(n_{1k}\) |
102 |
99 |
108 |
| Grupo en tratamiento |
\(y_{2k}\) |
55 |
50 |
50 |
|
\(n_{2k}\) |
76 |
81 |
90 |
Las proporciones \(p_{jk}=\frac{y_{jk}}{n_{jk}}\) en los
grupos de control y de tratamiento son graficados contra la variable
\(x_k\) que representa el logaritmo de
la fuerza centrífuga. Las proporciones de respuesta parecen ser más
altas en el grupo tratado que en el grupo control, y al menos para el
grupo tratado, la respuesta decrece con la fuerza centrífuga.
Compararemos ahora tres modelos logísticos para \(\pi_{ij}\), la probabilidad de las anteras
de ser embriogénicas, donde \(j=1\)
para el grupo control y \(j=2\) para el
grupo tratado, donde \(j=1\) para el
grupo control y \(j=2\) para el grupo
tratado, y \(x_1=\log40=3.689\), \(x_2=log 150=5.011\), y \(x_3=log 350=5.868\).
LogFC<-log(c(40,150,350))
LogFC
controly<-c(55,52,57)
controln<-c(102,99,108)
p1<-controly/controln
p1
tratamientoy<-c(55,50,50)
tratamienton<-c(76,81,90)
p2<-tratamientoy/tratamienton
p2
plot(LogFC,p2,ylim=c(0.5,0.8),pch=18,cex=1.5, xlab="",ylab="")
par(new=T)
plot(LogFC,p1,ylim=c(0.5,0.8),pch=19,cex=1.3,xlab="Log-Fuerza Centrífuga", ylab="Proporción que germinó")
\[
\begin{split}
Modelo1: logit \pi_{jk}=\alpha_j+\beta_j x_k \text{ es decir, diferentes
interceptos y pendientes};\\
&Modelo2: logit \pi_{jk}=\alpha_j+\beta x_k \text{ es decir,
diferentes interceptos pero misma pendiente};\\
&Modelo3: logit \pi_{jk}=\alpha+\beta x_k \text{ es decir, mismo
intercepto y pendiente.}\\
\end{split}
\] Estos modelos fueron ajustados utilizando máxima
verosimilitud. Los resultados resumidos se pueden ver en la siguiente
tabla:
| \(a_1\)=0.234 (0.628) |
\(a_1\)=0.877 (0.487) |
\(a\)=1.021 (0.481) |
| \(a_2-a_1\)=1.977 (0.998) |
\(a_2-a_1\)=0.407 (0.175) |
\(b\)=-0.148 (0.096) |
| \(b_1\)=-0.023 (0.127) |
\(b\)= -0.155 |
|
| \(b2-b1\)=-0.319 (0.199) |
|
|
| \(D_1\)=0.028 |
\(D_2\)=2.619 |
\(D_3\)=3.110 |
Para probar la hipótesis nula de que la pendiente es la misma para
los grupos de tratamiento y control, utilizamos la resta de devianzas
\(D_2-D_1=2.591\). Extrayendo los
cuantiles necesarios para una distribución \(\chi^2(1)\), el nivel de significancia está
entre 0.1 y 0.2, y por lo tanto podríamos concluir que los datos nos dan
poca evidencia en contra de que las pendientes sean iguales. Sin
embargo, el poder de este test y las estimaciones para el Modelo 1
suguieren que aunque la pendiente para el grupo control puede ser cero,
la pendiente para el grupo con el tratamiento es negativa.
Comparación de devianzas de los modelos 2 y 3 nos dan una prueba para
la igualdad de los efectos de la fuerza centrífuca del grupo control y
del grupo tratado: D_3-D_2=0.491, lo cual es consistente con la
hipótesis de que los efectos de almacenamiento no son diferentes. Las
proporciones observadas y los correspondientes valores ajustdos para los
modelos 1 y 2 se muestran en la tabla siguiente:
|
|
|
Modelo 1 |
Modelo 2 |
Modelo 3 |
| Control |
\(x_1\) |
55 |
54.82 |
58.75 |
62.91 |
|
\(x_2\) |
52 |
52.47 |
52.03 |
56.40 |
|
\(x_3\) |
57 |
56.72 |
53.22 |
58.18 |
| Tratamiento |
\(x_1\) |
55 |
54.83 |
51.01 |
46.88 |
|
\(x_2\) |
50 |
50.43 |
50.59 |
46.14 |
|
\(x_3\) |
50 |
49.74 |
53.40 |
48.49 |
Es claro que el modelo 1 ajusta muy bien los datos, sin embargo, no
es de sorprender pues en dicho modelo se utilizaron 4 parámetros para
describir seis datos, por lo que se está presentando un sobreajuste
considerable.
Sección 7.5 Estadísticos de bondad de ajuste
En lugar de utilizar estimación por máxima verosimilitud, podríamos
utilizar los parámetros utilizando mínimos cuadrados ponderados. Es
decir, minimizando a siguiente suma de cuadrados ponderada: \[
S_{w}=\sum_{i=1}^N\frac{(y_i-n_i\pi_i)^2}{n_i\pi_i(1-\pi_i)},
\] puesto que \(E(Y_i)=n_i\pi_i\) y \(Var(Y_i)=n_i\pi_i(1-\pi_i)\). Lo anterior
es equivalente a minimizar el estadístico Chi-cuadrado de Pearson, dado
por: \[
X^{2}=\sum\frac{(o-e)^2}{e},
\] donde \(o\) representa las
frecuencias observadas, \(e\)
representa las frecuencias esperadas y la suma es sobre todos los
posibles valores de \(i\).
Cuando \(X^2\) es evaluado en las
frecuencias estimadas esperadas, el estadístico es: \[
X^2=\sum_{i=1}^N
\frac{(y_i-n_i\hat{\pi_i})^2}{n_i\hat{\pi_i}(1-\hat{\pi_i})},
\] el cual es asintóticamente equivalente a la devianza descrita
en la sección anterior, ajustada a este contexto:
\[
D=2\sum_{i=1}^{N}\left[y_i\log\frac{y_i}{n_i\hat{\pi_i}}+(n_i-y_i)\log\frac
{n-y_i}{n-n_i\hat{\pi_i}}\right]
\]
La prueba de la relación entre el estadístico \(X^2\) y la devianza \(D\) anterior, usa series de Taylor.
La distribución asintótica de \(D\),
bajo la hipótesis de que el modelo es correcto, es \(D\sim \chi^2(N-p)\), y por lo tanto según
lo anterior, \(X^2\sim\chi^2(N-p)\). La
elección entre \(D\) y \(X^2\) dependerá de la adecuación de la
aproximación a la distribución anterior.
Se ha encontrado evidencia de que \(X^2\) es a menudo mejor que \(D\), puesto que \(D\) es indebidamente influído por
frecuencias muy pequeñas. Además, es sabido que ambas aproximaciones
serán malas si las frecuencias esperadas son demasiado pequeñas.
En particular, si cada observación tiene un patrón de covarianzas de
tal forma que \(y_i\) es cero o 1
(binario), entonces ninguno de los estadísticos anteriores nos da una
medida útil de ajuste. Esto puede suceder si las variables regresoras
son todas continuas, por ejemplo.
En este caso, de acuerdo a Hosmer y Lemeshow, la mejor manera de
abordar esta situación es agrupar las observaciones en categorías con
base en sus probabilidades predichas. Típicamente 10 grupos son usados
con aproximadamente una cantidad igual de observaciones en cada grupo.
Los números de éxitos y fracazos observados en cada uno de los, digamos,
\(g\) distintos grupos, son resumidos
como en la tabla 7.1. Luego, el estadístico chi-cuadrada de Pearson para
una tabla como la anterior se puede calcular y usar como una medida de
ajuste.
A tal estadístico se le denomina estadístico Hosmer-Lemeshow, y se
denota por \(X^2_{HL}\). Se ha
encontrado que la distribución muestral de este estadístico es
aproximadamente \(\chi^2(g-2)\).
A menudo la función de log-verosimilitud para el modelo ajustado es
comparada con la función de log-verosimilitud para un modelo minimal, en
el cual los valores \(\pi_i\) son todos
iguales (en contraste con el modelo saturado que es usado para definir
la devianza). Bajo el modelo minimal, \[
\pi=\frac{\sum y_i}{\sum n_i}
\]
Así, si denotamos por \(\hat{\pi_i}\) al valor estimado de la
probabilidad para \(Y_i\) bajo el
modelo de interés (de tal forma que \(\hat{y_i}=n_i\hat{\pi_{i}}\)), el
estadístico definido por \[
C=2[l(\hat{\pi};y)-l(\pi;y)]
\] donde \(l\) es la función de
log-verosimilitud, se conoce como el estadístico de cociente de
verosimilitudes chi-cuadrado.
Se puede ver que la distribución muestral aproximada para \(C\) es \(\chi^2(p-1)\) si todos los \(p\) parámetros, excepto el intercepto, son
cero. De otra forma, \(C\) tendrá una
distribución no central. Así, \(C\) es
un estadístico de prueba para la hipótesis de que ninguna de las
variables explicativas es necesaria para un modelo sencillo.
Por último, de manera análoga al coeficiente de determinación \(R^2\) de los modelos de regresión múltiple,
otro estadístico a veces utilizado es el “pseudo R^2”: \[
pseudo R^2=\frac{l(\pi;y)-l(\hat{\pi};y)}{l(\pi;y)},
\] el cual representa la mejora proporcional en la función de
log-verosimilitud debida a los términos en el modelo de interés,
comparado con el modelo minimal. Este es producido por algunos programas
estadísticos como un estadístico de bondad de ajuste.
Sección 7.6 Residuales
Existen dos tipos de residuales principales para \(D\) y \(X^2\) en el modelo de regresión logística.
Si hay \(m\) patrones de los
regresores, entonces se peuden calcular \(m\) residuales. Sea \(Y_k\) la cantidad de éxitos, \(n_k\) la cantidad de realizaciones y \(\hat \pi_k\) la probabilidad estimada de
éxito para el \(k\)-ésimo patrón de
regresores. Definimos el residual de Pearson o
residual ji cuadrada como,
\[ X_k = \frac{(y_k -
n_k\hat\pi_k)}{\sqrt{n_k \hat\pi_k(1-\hat\pi_k)}}, \qquad k = 1, \dots,
m. \]
Con esto, tenemos, por la definición antoriormente dada del
estadístico \(X^2\) de bondad de ajuste
de Pearson que
\[ \sum_{k=1}^m X_k^2 = X^2. \]
Los residuales estandarizados de Pearson son,
\[ r_{Pk} = \frac{X_k}{\sqrt{1 - h_k}},
\]
donde \(h_k\) es el apalancamoento
que se obtiene de la matriz hat del modelo.
Los residuales de devianza pueden ser definidos de
manera similar,
\[ d_k = \text{sign}(y_k - n_k \hat \pi_k)
\left\{ 2 \left[ y_k \log \left( \frac{y_k}{n_K\hat\pi_k}\right) + (n_k
- y_k)\log \left( \frac{n_k - y_k}{ n_k - n_k \hat \pi_k }
\right) \right] \right\}^{1/2}, \] donde los términos $(y_k -
n_k _k) $ garantizan que \(d_k\) tenga
el mismo que \(X_k\). De la definición
de la devianza podemos ver que
\[ D = \sum_{k=1}^m d_k^2. \]
Los residuales de devianza estandarizados son
\[r_{Dk} = \frac{d_k}{\sqrt{1 -
h_k}}.\]
Al igual que en el caso de la regresión lineal, los residules de
Pearson y de devianza pueden ser usados para verificar el ajuste del
modelo y el cumplimiento de los supuestos. Ejemplos de usos son
graficarlos contra los regresores, o gráficos de normalidad, ya que
cuando la caantidad de datos es lo suficientemente grande, los
residuales se comportan aproximadamente normales.
Si los datos son binarios o si hay una cantidad relativamente pequeña
de observaciones por cada patrón de los regresores, entonces las
gráficas de residuales serán no informativas, y por lo tanto habrá que
recurrir a otros diagnósticos.
Sección 7.7 Otros diagnósticos
Existen estadísticos para detectar observaciones influyentes en la
regresión logística (los análogos para la regresión lineal múltiple se
exponen en la sección 6 del libro). En el caso de regresión lineal
múltiple, estso estadísticos llamados delta-beta, delta-devianza y
delta-ji cuadrada, es simplemente la diferencia entre el estimador
calculador usando todos los puntos observados y el estimador calculado
quitando uno de los puntos, similar a los residuales PRESS. Por ejemplo,
el estadístico delta-beta es,
\[ \Delta_i \hat \beta_j = b_j - b_{j(i)},
\]
donde \(b_j\) es el estimador de
\(\beta_j\) usando todos los datos y
\(\beta_{j(i)}\) es el estimador
obtenido al quitar la \(i\)-ésima
observación. En el caso de la regresión logística es posible encontrar
estadísticos similares para medir el nivel de ajuste del modelo.
Cuando tenemos respuestas binarias, hay más cosas que considerar, lo
primero es la elección de nuestra función liga. Un enfoque es considerar
la familia general de funciones
\[ g(\pi,\alpha) = \log\left[
\frac{(1-\pi)^{-\alpha} -1}{\alpha} \right]. \]
Cuando \(\alpha = 1\), entonces
\(g(\pi)= \log[\pi/(1-\pi)]\), la
función logit. Cuando \(\alpha\to 0\),
\(g(\pi) \to \log[-\log(1-\pi)]\), la
función log-log complementaria. En principio, un valor óptimo de \(\alpha\) puede ser estimado de los dartos,
pero el proceso requiere varios pasos. Como no existe un software
adecuado para encontrar a \(\alpha\),
se recomienda experimentar con diversas funciones liga.
El segundo problema al evaluar la adecuación de los modelos para
datos binarios es la sobredispersión. Los valores
observados \(Y_i\) podrían tener una
varianza más grande que la varianza teórica de la distribución binomial
propuesta (debido a que en esta distribución, un único parámetro
determina la media y la varianza). Esto puede ser un indicaador de que
la devianza es más grande que el valor esperado de \(N-p\), y podría ser causado por que el
modelo está subespecificado, o porque tiene una estructura más compleja
que el modelo propuesto.
Una alternativa para solucionar este problema es incorporar un
parámetro extra \(\phi\) en el modelo,
de forma que \(Var(Y_i) =
n_i\pi_i(1-\pi_i)\theta\), en R, esto se logra al
especificar un modelo cuasibinomial en lugar de binomial en la función
`glm. Una posible explicación de la sobredispersión de los
datos, es que las observaciones en realidad no sean independientes, lo
que causa que en ciertos patrones del regresor se tenga una menor
cantidad de observaciones efectivas al existir correlación.
Sección 7.8 Ejemplo: Senilidad y WAIS
Se realizó un examen psiquiátrico a una muestra de personas mayores
para determinar qué síntomas de senilidad presentaban. Otras medidas
tomadas al mismo tiempo incluyeron el puntaje de un subconjunto en la
Escala de Inteeligencia Adulta de Wechsler (WAIS). Los valores
registrados se encuentran en la siguiente tabla (\(s\) es la presencia de síntomas de
senilidad y \(x\) el WAIS). Nos
interesa modelar \(s\) como una función
de \(x\).
| 9 |
1 |
7 |
1 |
7 |
0 |
17 |
0 |
13 |
0 |
| 13 |
1 |
5 |
1 |
16 |
0 |
14 |
0 |
13 |
0 |
| 6 |
1 |
14 |
1 |
9 |
0 |
19 |
0 |
9 |
0 |
| 8 |
1 |
13 |
0 |
9 |
0 |
9 |
0 |
15 |
0 |
| 10 |
1 |
16 |
0 |
11 |
0 |
11 |
0 |
10 |
0 |
| 4 |
1 |
10 |
0 |
13 |
0 |
14 |
0 |
11 |
0 |
| 14 |
1 |
12 |
0 |
15 |
0 |
10 |
0 |
12 |
0 |
| 8 |
1 |
11 |
0 |
13 |
0 |
16 |
0 |
4 |
0 |
| 11 |
1 |
14 |
0 |
10 |
0 |
10 |
0 |
14 |
0 |
| 7 |
1 |
15 |
0 |
11 |
0 |
16 |
0 |
20 |
0 |
| 9 |
1 |
18 |
0 |
6 |
0 |
14 |
0 |
|
|
En este caso, como hay un solo regresor, los patrones de regresores
son simplemente los niveles de \(x\).
Estos se resumen en la tabla a continuación.
| 4 |
1 |
2 |
0.751 |
-0.826 |
-0.766 |
| 5 |
0 |
1 |
0.687 |
0.675 |
0.866 |
| 6 |
1 |
2 |
0.614 |
-0.33 |
-0.326 |
| 7 |
1 |
3 |
0.535 |
0.458 |
0.464 |
| 8 |
0 |
2 |
0.454 |
1.551 |
1.777 |
| 9 |
4 |
6 |
0.376 |
-0.214 |
-0.216 |
| 10 |
5 |
6 |
0.303 |
-0.728 |
-0.771 |
| 11 |
5 |
6 |
0.24 |
-0.419 |
-0.436 |
| 12 |
2 |
2 |
0.186 |
-0.675 |
-0.906 |
| 13 |
5 |
6 |
0.142 |
0.176 |
0.172 |
| 14 |
5 |
7 |
0.107 |
1.535 |
1.306 |
| 15 |
3 |
3 |
0.08 |
-0.509 |
-0.705 |
| 16 |
4 |
4 |
0.059 |
-0.5 |
-0.696 |
| 17 |
1 |
1 |
0.043 |
-0.213 |
-0.297 |
| 18 |
1 |
1 |
0.032 |
-0.181 |
-0.254 |
| 19 |
1 |
1 |
0.023 |
-0.154 |
-0.216 |
| 20 |
1 |
1 |
0.017 |
-0.131 |
-0.184 |
| Suma |
40 |
54 |
|
|
|
|
|
|
Suma de cuadrados |
8.084* |
9.418* |
El modelo de regesión ajustado
\[ \log\left( \frac{\pi_i}{1 - \pi_i}
\right) = \beta_1 + \beta_2 x_i; \qquad Y_i \sim \text{Bin}(n_i,\pi_i)
\quad i = 1, \dots, m, \]
fue ajustado con los siguientes resultados:
\(b_1 = 2.404\), con error estándar
se\((b_1) = 1.192\); \(b_2 = -0.3235\), con error estándar se\((b_2) = 0.1140\); \(X^2 = \sum X_i^2 = 8.083\), y \(D = \sum d_i^2 = 9.419\).
Como hay \(m=17\) patrones de
covariantes y \(p=2\) parámetros, \(X^2\) y \(D\) pueden ser comparados con \(\chi^2_{15}\).
La siguiente es la gráfica de niveles del regresor vs. frecuencia
observada.
library(dplyr)
x <- c(9, 13, 6, 8, 10, 4, 14, 8, 11, 7, 9, 7, 5, 14, 13, 16, 10, 12, 11, 14, 15, 18, 7, 16, 9, 9, 11, 13, 15, 13, 10, 11, 6, 17, 14, 19, 9, 11, 14, 10, 16, 10, 16, 14, 13, 13, 9, 15, 10, 11, 12, 4, 14, 20)
s <- c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0)
data <- data.frame( cbind(x,s))
colnames(data) <- c("x", "s")
gdata <- group_by(data,x)
resumen <- summarize(gdata, sum=sum(s), n=n(), pi=sum(s)/n)
plot(resumen$x,resumen$pi, xlab="Puntaje WAIS", ylab="Proporción con síntomas")
exito <- as.character(s)
Ajustamos el modelo con la función glm.
res.glm <- glm(data$s ~ data$x, family=binomial(link="logit"))
summary(res.glm)
Gráfica de la curva logística contra los datos observados. Podemos
notar que el ajuste es mejor para valores más grandes del regresor.
fit <- (exp( res.glm$coefficients[1] + res.glm$coefficients[2]*resumen$x ) ) / (( 1 + exp( res.glm$coefficients[1] + res.glm$coefficients[2]*resumen$x ) ))
plot(resumen$x,resumen$pi, xlab="Puntaje WAIS", ylab="Proporción con síntomas")
lines(resumen$x, fit )
resumen
Como en cada nivel del regresor hay pocas obervaciones, podríamos
usar el enfoque de Hosmer-Lemeshow para evaluar el ajuste. En la
siguiente tabla se muestra el resumen del método para \(g=3\) categorías.
| Corresponding values of x |
|
14 - 20 |
10 - 13 |
4 - 9 |
| Number of people |
o |
2 |
3 |
9 |
| with symptoms |
e |
1.335 |
4.479 |
8.186 |
| Number of people |
o |
16 |
17 |
7 |
| without symptoms |
e |
16.665 |
15.521 |
7.814 |
| Total number of people |
|
18 |
20 |
16 |
El estadístico de Hosmer-lemeshow es obtenido al calcular \(X^2 = \sum \frac{(o-e)^2}{e}\), con esto
obtenemos \(X_{HL}^2 = 1.15\), que no
es tan siginificativo comparado con una distribución \(\chi^2_1\).
