Resumen

This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.

When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:

Palabras claves: xxxxx, xxxxx, xxxx

INTRODUCCIÓN

El presente trabajo de profundización tiene por objetivo el desarrollo de un Modelo Lineal Generalizado, en específico un modelo de regresion Poisson para estimar el riesgo de exposisicón mediante Biomarcadores relacionadas a ciertas enfermedades. Lo anterior mediante el estudio en dos grupos, uno que se encontraba expuesto y otro que no se encontraba expuesto. como objetivos específicos tenemos: (1) describir las relaciones entre las variables explicativas y predictoras mediante visualizaciones en R. (2) analizar la interacción entre cada variable del modelo y (3) formular un modelo de regresión Poison para estimar el riesgo en la población

Metodología

Para el presente estudio se analizaron 18 variables obtenidas de 142 indiviuos que participaron en el estudio.El estudio se desarrolló en el departamente de la Guajira - Colombia. En las localidades de Mayapo (No expuestos), las Casitas, Chancleta, Cerro de hatonuevo, Proviencial, San Francisco y Media luna (Expuestos)

Modelos Lineales Generalizados

Para este estudio partiremos de los Modelos Lineales Generalizados (MLGs) los cuales proporcionan una aproximación unificada a la mayoría de procedimientos usados en estadística aplicada. Nelder & Wedderburn (1972) fueron quienes origininalmente presentaron este término estableciendo un marco unificado para diversos métodos que hasta su época paraecia estar desligados como la regresión linela múltiple, los modelos logit para proporciones y los modelos log-lineales para conteos entre otros. En los modelos lineales clásicos, se parte del supuesto que la variable de respuesta presenta distribución normal, sin emabrgo, un fenómeno donde se mide un conteo por ejemplo no presenta distribución normal. Otro de los supuestos es el de homocedasticidad el cual para una variable aleatoria de Poisson no se cumple dado que la media y la varianza son iguales. En este orden de ideas los MLGs resultan de gran utilidad para modelar situaciones donde los datos no son normales y tampoco se cumple el supuesto de homocedasticidad (Téllez & Morales, 2016).

Definición de un Modelo Lineal Generalizado

Los MLGs son una extensión de los modelos lineales clásicos, en este sentido, las definiciones propuestas por LLinás (2022) y Clemente (2022) caracterizan la cosntitución de este tipo de modelos en tres componentes a saber:

  1. Componente Aleatoria Esta hace referencia a la distribución de la variable de respuesta. Si consideramos el vector de observaciones independientes \(Y=(Y_{1}, Y_{2},..., Y_{n})^{T}\) cada una de ellas perteneciente a la en la familia exponencial de distribuciones, se tiene que cada variable muestral \(Y_{i}\) tiene por función de probabilidad la forma general:

\(f(y, \theta, \phi)=e^{\frac{y_{i} \theta_{i}-b(\theta_{i})}{\phi}+c(y_{i},\phi)}\) (1)

Donde \(\theta_{i}\) representa los parámetros naturales o canónicos de la distribución, \(b(\theta_{i})\) es una función conocida y es llamada función acomulada y \(\phi\) es el parámetro de dispersión el cual puede existir o no. Además la esperanza y varianza de Y se pueden calcular como: \(E(Y)=b^{'}(\theta)\) y \(Var(Y)=b^{''}(\theta)\phi\) respectivamente

  1. Componente Sistemática Llamamos predictor lineal de un modelo linela generalizado a \(\eta=(\eta_{1}, \eta_{2},...,\eta_{n})^{T}\) el cual especifica una función lineal de las covariables cuya i-ésima compoenete está dada por \(\eta_{i}= \alpha + \beta_{1} x_{i1}+\beta_{2} x_{i2}+...+\beta_{k} x_{ik}\) donde los \(\beta_{k}\) son los llamados parámetros del modelo e incluyen el intercepto como \(\beta_{0}= \alpha\) y \(x_{i0}=1\).

  2. Componente de enlace La relación entre la componente sistemática y la media de la respuesta se asume como: \(g(\mu)=\eta_{i}\) donde \(g(.)\) es una función monótona y diferenciable conocida como función de enlace.

Regresión de Poisson

En la literatura podemos encontrar diversos trabajos como los de Londoño et al., (2009); Carbonero (2020) y Orlandoni (2022) quienes mediante un modelo de regressión de Poisson buscan identificar factores que inciden en el cometieinto de delitos aduaneros para el primero, análisis de la propagacion de enfermedades como el Covid-19 a traves del trafico áreo para el segundo y el impacto de la calidad del aire en la incidencia de de enfermedades respiratorias para este último. lo anterior muestra lo diversificado que puede ser su campo de aplicación y su vigencia hoy en día.

En Blanco (2004) una variable \(Y_{i}\) con \(i=1, ..., n\) tiene distribución de Poisson si su funcion de densidad está dada por:

\(f(y_{i}, \lambda_{i})=\frac{\lambda_{i}^{y_i} e^{-\lambda_{i}}}{y_{i}!}\) (3) y además se cumple que \(E(y)=Var(y)=\lambda\)

Como señala Londoño et al., (2009I) uno de los requisitos de los MLGs es que la distribución de la variable de respuesta \(Y\) pertenezca a la familia exponencial de distribuciones. En este orden de ideas intentaremos expresar la ecuación (3) como la ecuación (1):

Note que \(\lambda_{i}^{y_{i}} e^{-\lambda_{i}}=\frac{\lambda_{i}^{y_{i}}}{e^{\lambda_{i}}}\), tomando logaritmo en ambos lados se tiene que \(ln[\lambda_{i}^{y_{i}}e^{-\lambda_{i}}]=ln[\frac{\lambda_{i}^{y_{i}}}{e^{\lambda_{i}}}]=y_{i} ln(\lambda_{i})-\lambda_{i}\), donde finalmente si aplicamos base \(e\) en ambos lados se tiene que \(\lambda_{i}^{y_{i}} e^{-\lambda_{i}}=e^{y_{i} ln(\lambda_{i})-\lambda_{i}}\)

procediendo de forma análoga con la expresión \(\frac{1}{y_{i}!}\) se puede demostrar que \(\frac{1}{y_{i}!}=e^{-ln(y_{i}!)}\)

En este orden de ideas la ecuación (3) quedaría expresada como:

\(f(y, \theta, \phi)=e^{\frac{y_{i} ln(\lambda_{i})-\lambda_{i}}{\phi}-ln(y_{i}!)}\)

donde \(\theta_{i}=ln(\lambda_{i})\) y si aplicamos base \(e\) se ve claramente que \(\lambda_{i}=e^{\theta_{i}}\), \(b(\theta_{i})=\lambda_{i}= e^{\theta_{i}}\) y \(\phi=1\). El enlace caónico será \(g(\lambda_{i})=ln(\lambda_{i})= \alpha + \beta_{1} x_{i1}+\beta_{2} x_{i2}+...+\beta_{k} x_{ik}\)

Por otra parte, calcualndo la primera y segunda derivada de la función \(b(\theta)\) es facil demostrar que \(E(Y)=Var(Y)= \lambda\)

Al igual que en la regresión logistica, \(e^{\beta_{j}}\) sirve para clacular:

  1. el riesgo relativo asociado a una exposición si \(x_{j}\) es dicotómica o,
  2. el riesgo relativo por el incremento en una unidad si \(x_{j}\) es continua.

Un intervalo de confianza del 95% para el riesgo relativo anterior viene dado por \(e^{\hat\beta_{j}\pm1.66ee(\hat\beta_{j})}\), donde \(ee(\beta_{j})\) es el error estándar asociado a la estimación de \(\hat\beta_{j}\) desde \(j=1,...,p\)

La estimación de los \(\beta\) se hace vía máxima verosimilitud. Así, bajo el supuesto de que los \(Y_{i}\) son valores de una variable con distribución de Poisson, la función de verosimilitud está dada por:

\(L(p)=\prod_{i=1}^{n}\frac{\lambda_{i}^{y_i} e^{-\lambda_{i}}}{y_{i}!}\) (4)

Aplicando logarítmo en la eecuación (4) se tiene:

\(\mathcal{L}(p)=ln(L(p))=ln[\prod_{i=1}^{n}\frac{\lambda_{i}^{y_i} e^{-\lambda_{i}}}{y_{i}!}]\) (5)

Resolviendo la ecuación (5) finalmente se llega a que la función de Logverosimilitud es:

\(\mathcal{L}(p)=\sum_{i=1}^{n}[y_{i} ln(\lambda_{i})-\lambda_{i}-ln(y_{i}!)]\) (6)