Actividad

El Rpbs presenta la solución a dos actividades propuestos en clase en relaciòn al tema de análisis de regresión.

Análisis de regresión:

Técnica estadistica para investigar y modelar la relación entre variables

#1. Métodos básicos de recolectar datos
#1.1. Estudio retrospectivo 
#1.2. Estudio observacional
#1.3. Experimento diseñado

#2. Ejercicio

1. Métodos básicos de recolectar datos

Existen tres métodos básicos de recolectar datos:

*1.1 Un estudio retrospectivo.

*1.2 Un estudio observacional.

*1.3 Un experimental diseñado.

1.1 Estudio retrospectivo

El inicio del estudio es posterior a los hechos estudiados

• Los datos se recogen de archivos o entrevistas sobre hechos sucedidos

Son aquellos que usan datos de registros previos. Al usar los datos de un registro construido previamente, puede dar a entender como algo del pasado, pero la razón por la cual se denomina a estos estudios como retrospectivos, se debe a la falta de certeza que se tiene si hubo control al momento de la medición, no se puede estar seguro de la exactitud de las mediciones. Los datos que provienen de mediciones donde el investigador no tuvo participación, no son los mejores, por el error sistemático. Se le denomina datos secundarios, y su presencia en un estudio amenaza la exactitud de las mediciones.

1.2 Estudio observacional

El factor de estudio no es controlado por el investigador

Los estudios observacionales son estudios de carácter estadístico y demográficos, ya sean de tipo sociológico o biológico -estudios epidemiológicos- en los que no hay intervención por parte del investigador, y este se limita a medir las variables que define en el estudio.

• El investigador se limita a observar y medir • Puede ser descriptivo o analítico

Tipos de estudios observacionales:

Los estudios epidemiológicos u observacionales pueden ser de dos tipos, dependiendo del momento en que se llevan a cabo y de la información disponible en cada caso:

Estudios longitudinales: Se desarrollan durante un “período” definido de tiempo y suponen trabajar con dos bloques de información relativos a la misma población, la existente al comienzo del período en estudio y la existente al final de ese período (p.e. estudios de historia demográfica y biométrica, fecundidad, mortalidad…). Estos pueden ser a su vez.

Estudio caso control: Son “retrospectivos”.

Estudio de cohorte: Son de carácter “prospectivo”.

Estudios transversales: Se desarrollan en un “momento” concreto del tiempo.

1.3 Experimento diseñado

El investigador asigna un factor de estudio y lo controla a lo largo de la investigación

• Buscan una relación causa-efecto (analíticos) • Evalúan efecto de intervenciones terapéuticas o preventivas

Un experimento diseñado es una serie de corridas, o pruebas, en las que usted hace cambios intencionales en las variables de entrada al mismo tiempo y observa las respuestas. En la industria, los experimentos diseñados se pueden utilizar para investigar sistemáticamente las variables de proceso o producto que afectan la calidad del producto. Después de identificar las condiciones del proceso y los componentes del producto que afectan la calidad del mismo, usted puede dirigir los esfuerzos de mejora a optimizar la manufacturabilidad, fiabilidad, calidad y rendimiento del producto.

Diferencia entre observación y experimentación

En la observación el investigador considera los fenómenos tal como se presentan, sin modificarlos ni actuar sobre ellos, mientras que la experimentación implica una variación provocada intencionalmente por el investigador sobre las condiciones en las que se desarrolla el fenómeno.

2. Actividad 2

Demuestre que para un modelo de regresión lineal simple, se tiene que:

\[\hat{\beta_{0}} =\overline{y}- \hat{\beta_1}\overline{x}\]

y,

\[\hat{\beta_1}=\frac{\sum_{i=1}^nx_{i}y{i}-\frac{\left(\sum_{i=1}^nx_{i}\right)\left(\sum_{i=1}^ny_{i}\right)}{n}}{\sum x_i^2 - \frac{\left(\sum_{i=1}^{n} x_{i}\right)^2}{n}}\]

\[\hat{\beta_1}=\frac{\sum_{i=1}^nx_{i}y{i}-\overline{x}\frac{\left(\sum_{i=1}^ny_{i}\right)}{n}n}{\sum x_i^2 - \frac{\left(\sum_{i=1}^{n} x_{i}\right)^2}{n}}\]

\[=\frac{\sum x_{i}y_{i}-n\overline{x}.\overline{y}}{\sum x_{i}^2-n\overline{x}^2}\]

En notación matricial: \(Y=X\beta+\epsilon\) se desea terminar el vector de estimadores que minimice:

\[S(\beta)=\sum_{i=1}^{n} \mathsf{\varepsilon}_{i}^2= {\mathsf{\varepsilon}'}\mathsf{\varepsilon}=(Y-X\beta)'(Y-X\beta)\]

Se puede expresar como:

\[S(\beta)=Y'Y-\beta'X'Y - Y'X\beta+\beta'X'X\beta\] \[=Y'Y-2\beta'X'Y+\beta'X'X\beta\] ya que ’X’Y es una matriz de 1X1, es decir, un escalar y que su transpuesta:

\[(\beta'X'Y')'=Y'X\beta\]

es el mismo escalar.

\[2X'X\hat{\beta}=2X'Y\]

\[X'X\hat{\beta}=X'Y\]

\[(X'X)^{-1}X'XB=(X'X)^{-1}X'Y\] \[I\beta=(X'X)^{-1}X'Y\]

Entonces los estimadores de los mínimos cuadrados deben satisfacer:

\[\frac{\partial S}{\partial \beta}\bigg|_{\beta}=-2X'Y+2X'X\hat{\beta}=0\]

Que se simplifica a: \(X'X\hat{\beta}=X'Y\) (*)

Son las ecuaciones de minimos cuadrados.


VEAMOS:

\[ \mathcal{Q} = S(\beta)=\sum_{i=1}^{n} \mathsf{\varepsilon}_{i}^2= {\mathsf{\varepsilon}'}\mathsf{\varepsilon}=(Y-X\beta)'(Y-X\beta)\]

Los valores de \(\beta_{0}\) y \(\beta_1\) que minimizan se encuentran diferenciando con respecto a \(\beta_{0}\) y \(\beta_1\) y estableciendo las derivadas parciales iguales a cero. Las ecuaciones resultantes son conocidas como las ecuaciones normales:

\[\frac{\partial \mathcal{Q}}{\partial \beta_0}= 2\sum_{i=1}^n (Y_i-\beta_0-\beta_1x_i)(-1)\] \[=-2\sum_{i=1}^n(Y_i - \beta_0 - \beta_1x_i) \quad Ecuación+*\] \[\frac{\partial \mathcal{Q}}{\partial \beta_1}= 2\sum_{i=1}^n (Y_i-\beta_0-\beta_1x_i)(-x_i) \] \[= -2\sum_{i=1}^n (Y_i-\beta_0-\beta_1x_i)(x_i) \quad Ecuación++* \]

Después de establecer cada una de estas derivadas parciales iguales a cero, las ecuaciones normales para el modelo de regresión lineal simple simplificar a:

\[{\sum_{i=1}^n Y_i = n\hat{\beta_0} + \hat{\beta_1} \sum_{i=1}^n x_i} \qquad Ecuación*\] Multiplicamos por x_i

\[{\sum_{i=1}^n Y_i x_i = \hat{\beta_0}\sum_{i=1}^n x_i + \hat{\beta_1} \sum_{i=1}^n x_i^2 \qquad Ecuación** }\] Tenga en cuenta que los \(\beta_js\) se reemplazan con \(\hat{\beta_js}\) ya que sus valores son estimaciones una vez que el las derivadas se igualan a cero. Estas ecuaciones ahora se resuelven para \(\hat{\beta_0}\) y \(\hat{\beta_1}\)

Resolver para $ es “relativamente simple” usando Ecuación *:

\[{\sum_{i=1}^n Y_i = n\hat{\beta_0} + \hat{\beta_1} \sum_{i=1}^n x_i} \] \[{\sum_{i=1}^n Y_i - \hat{\beta_1} \sum_{i=1}^n x_i = n\hat{\beta_0}} \]

\[\frac{\sum_{i=1}^n Y_i}{n} - \frac{\hat{\beta_1} \sum_{i=1}^n x_i}{n} =\hat{\beta_0}\]

Por lo tanto, se tiene:

\[\hat{\beta_0}= \overline{Y}-\hat{\beta_1}\overline{x}\]

Al resolver para $, aparecen dos cantidades que requieren simplificación. La primera cantidad es:

\[\sum_{i=1}^n Y_ix_i - \frac{\sum_{i=1}^n Y_i \sum_{i=1}^n xi}{n}\]

Ahora,

\[\sum_{i=1}^n Y_ix_i - \frac{\sum_{i=1}^n Y_i \sum_{i=1}^n xi}{n} = \sum_{i=1}^n Y_ix_i - \overline{Y}\sum_{i=1}^n x_i\]

\[= \sum_{i=1}^n Y_ix_i - \overline{Y}\sum_{i=1}^n x_i - \overline{Y}\sum_{i=1}^n x_i + \frac{n}{n} \overline{Y}\sum_{i=1}^n x_i\] \[= \sum_{i=1}^n Y_ix_i - \overline{Y}\sum_{i=1}^n x_i - \frac{\sum_{i=1}^n Y_i}{n}\sum_{i=1}^n x_i + n\overline{Y} \overline{x}\] \[= \sum_{i=1}^n Y_ix_i - \overline{Y}\sum_{i=1}^n x_i -\overline{x}\sum_{i=1}^n Y_i + n\overline{Y} \overline{x}\]

\[=\sum_{i=1}^n (x_i - \overline{x})(Y_i-\overline{Y})\] La segunda cantidad que deberá simplificarse es

\[\sum_{i=1}^n x_i^2-\frac{(\sum_{i=1}^n x_i)^2}{n}\] Entonces \[\sum_{i=1}^n x_i^2-\frac{(\sum_{i=1}^n x_i)^2}{n}= \sum_{i=1}^n x_i^2 - n\left(\frac{\sum_{i=1}^n x_i}{n}\right)^2 \]

\[= \sum_{i=1}^n x_i^2-n \overline{x} ^ 2\]

\[= \sum_{i=1}^n x_i^2- n \overline{x} ^ 2 +n\overline{x} ^ 2\] Lo que significa:

\[= \sum_{i=1}^n (x_i- \overline{x}) ^ 2 \]

Ahora, Conociendo estas dos simplificaciones, \(\hat{\beta_1}\) se puede resolver usando (Ecuación **):

\[{\sum_{i=1}^n Y_i x_i = \hat{\beta_0}\sum_{i=1}^n x_i + \hat{\beta_1} \sum_{i=1}^n x_i^2} \]

entonces,

\[{\sum_{i=1}^n Y_i x_i = (\overline{Y} - \hat{\beta_1 \overline {x}})\sum_{i=1}^n x_i + \hat{\beta_1} \sum_{i=1}^n x_i^2 }\]

Ahora \[{\sum_{i=1}^n Y_i x_i = \left(\frac{\sum_{i=1} Y_i}{n} - \hat{\beta_1 \sum_{i=1}^n x_i}\right) \sum_{i=1}^n x_i + \hat{\beta_1} \sum_{i=1}^n x_i^2 }\]

\[{\sum_{i=1}^n Y_i x_i = \frac{\sum_{i=1} Y_i \sum_{i=1}^n x_i}{n} - \hat{\beta_1} \frac{\left(\sum_{i=1}^n x_i\right) ^2}{n} + \hat{\beta_1} \sum_{i=1}^n x_i^2 }\]

\[{\sum_{i=1}^n Y_i x_i = \frac{\sum_{i=1} Y_i \sum_{i=1}^n x_i}{n} = \hat{\beta_1} \sum_{i=1}^n x_i^2 - \hat{\beta_1} \frac{\left(\sum_{i=1}^n x_i\right) ^2}{n}}\] Entonces

\[{\sum_{i=1}^n Y_i x_i = \frac{\sum_{i=1} Y_i \sum_{i=1}^n x_i}{n} = \hat{\beta_1} \left( \sum_{i=1}^n x_i^2 - \frac{(\sum_{i=1}^n x_i)^2}{n}\right)} \]

Por lo tanto

\[ \hat{\beta_1}= \frac{\sum_{i=1}(x_i-\overline{x})(Y_i -\overline{Y})}{\sum_{i=1}^n(x_i-\overline{x})^2}\]

\[\hat{\beta_1}=\frac{\sum_{i=1}^nx_{i}y{i}-\left(\sum_{i=1}^nx_{i}\right)\left(\sum_{i=1}^ny_{i}\right)}{\sum x_i^2 - \frac{\left(\sum_{i}^{n} x_{i}\right)^2}{n}}\] Después de encontrar \(\hat{\beta_0}\) y \(\hat{\beta_1}\), se demuestra que estos valores darán un mínimo valor de la suma de los errores al cuadrado.

\[ Demostración \quad (\sum_{i=1}^n \varepsilon^2 \quad es\quad un\quad minimo):\] Si la matriz de derivadas parciales de como se encuentra en

\[ \mathcal{Q} = S(\beta)=\sum_{i=1}^{n} \mathsf{\varepsilon}_{i}^2= {\mathsf{\varepsilon}'}\mathsf{\varepsilon}=(Y-X\beta)'(Y-X\beta)\] la anterior es equivalente a:

\[ \mathcal{Q} = \sum_{i=1}^{n} \mathsf{\varepsilon}_{i}^2= \sum_{i=1}^n(Y_i-(\beta_0+\beta_1x_i))^2\]

es positivo definido, entonces nuestros valores de \(\beta\) dan el valor mínimo para . Recordando ecuación+* se tiene que:

\[\frac{\partial \mathcal{Q}}{\partial \beta_0}= -2\sum_{i=1}^n (Y_i-\beta_0-\beta_1x_i)\]

y de la ecuación ++*

\[\frac{\partial \mathcal{Q}}{\partial\beta_1}= -2\sum_{i=1}^n (Y_i-\beta_0-\beta_1x_i)(x_i)\]

Esto implica que los parciales de segundo orden son

\[\frac{\partial^2 \mathcal{Q}}{\partial\beta_0^2}= -2\sum_{i=1}^n(-x_i)(x_i)(-1)=2n\]

\[\frac{\partial^2 \mathcal{Q}}{\partial\beta_1^2}= -2\sum_{i=1}^n (-x_i)(x_i)=2\sum_{i=1}^n x_i^2\]

\[\frac{\partial^2 \mathcal{Q}}{\partial\beta_0\partial\beta_1}= -2\sum_{i=1}^n (-x_i)=2\sum_{i=1}^n x_i\]

Entonces se tiene la matriz de las derivadas parciales:

\[\frac{\partial^2 \mathcal{Q}}{\partial\beta^2} \mathbb{} =\; \begin{pmatrix} 2n & 2\sum_{i=1}^n x_i \\ 2\sum_{i=1}^n x_i & 2\sum_{i=1}^n x_i^2 \\ \end{pmatrix}\]

El determinante de esta matriz es

\[= 4n \sum_{i=1}^n x_i^2 - 4(\sum_{i=1}^n x_i)^2\]

Debe demostrarse que este La cantidad es siempre positiva para demostrar que \(\hat{\beta_0}\) y \(\hat{\beta_1}\) como se dan proporcionan un valor mínimo para . Tenga en cuenta que se supone que n es mayor que cero:

\[4n \sum_{i=1}^n x_i^2 - 4\left(\sum_{i=1}^n x_i^2\right)>0\]

\[\sum_{i=1}^n x_i^2- \frac{\left( \sum_{i=1}^n x_i \right)^2}{n}>0\]

de lo anterior

\[\sum_{i=1}^n(x_i-\overline{x})^2>0\]

de la ecuación \(\sum_{i=1}^n (x_i-\overline{x})^2\)

Por lo tanto, \(\hat{\beta_0}\) y \(\hat{\beta_0}\) calculados dan el valor mínimo para \(\mathcal{Q}\).

Ahora que se calculan los valores \(\beta\) que minimizarán \(\mathcal{Q}\), la línea de regresión ajustada es

\[\hat{Y_i}= \hat{\beta_0}+\hat{\beta_1}x_i\]

donde los errores estimados (predichos), también llamados residuales, se definen como:

\[\hat{\mathsf{\varepsilon}}_i = Y_i - \hat{Y_i}\]