Las presentes notas las he realizado con la finalidad de ayudar al conocimiento y comprensión de la Estadística y, en especial, el uso de la Econometría. En este tema (de los varios que se presentan), se estudia el modelo de regresión y su estimación por el método de mínimos cuadrados ordinarios (MCO). Estas notas son de mi propiedad intelectual pero son de acceso gratuito para todas las lectoras y lectores de habla hispana que busquen una introduccióna este tema.
A cambio de estas notas gratuitas, solo le pido algo a cambio que creo no cuesta: Por fortuna recibo un apoyo financiero por parte del Consejo Nacional de Ciencia y Tecnolgía (CONACYyT) en méxico. Esto es así al yo formar parte del Sistema Nacional de Investigadores. Dada esta oportunidad, el Gobierno de México me pide, a cambio, que mi trabajo genere conocimiento nuevo, presente desarrollos científicos y tecnológicos y, en su defecto, ayude a formar capital humano tanto académico como profesional. Ese último es el fin de estas notas y, por ello, las pongo a disposición de la comunidad académica y profesional de habla hispana.
Lo único en que me puede ayudar y en que puede ayudar al Gobierno de México es en citar las presentes notas cuando realice un trabajo académico, técnico o reporte. Esto, claro está, si es de imperiosa necesidad y las mismas forman parte de su revisión de literatura o de su marco teórico conceptual. Si desea, puede descargar el archivo los campos de entrada de la cita, puedes presionar esta liga para descargar el archivo *.bib. El mismo le servirá para importarlo en los manejadores de contenido más utilizados como son Mendeley, Endnote, Zotero o Bibtex.. Estas son herramientas poderosas para manejar referencias y llevar anotaciones en la nube. También puede insertar citas en sus documentos realizados en word, LibreOffice, \(\LaTeX\), Jupyter notebook o Rmarkdown
.
Es de esperar que, dada mi carga de trabajo de investigación y docente, tenga algunas omisiones ortográficas o erratas en la redación de estas notas. Las mismas se estarán actualizando conforme encuentre algunos métodos o resultados que ayuden a clarificar más las explicaciones o a estudiar el tema con mejor puntualidad. Cualquier sugerencia o recomendación, así como observación de omisiones de programación o erratas, le pediré sea amable en hacérmelas saber presionando esta liga.
Espero disfrute estas notas le sean de utilidad para sus estudios o para impartir cátedra de Estadística y/o Econometría.
En temas previos relacionados a la Estadística inferencial se ha estudiado el comportamiento aleatorio de una sola variable \(x_i\text{ o }y_i\). También se ha estimado el mismo por medio de intervalos o se ha contrastato la igualdad de dos o más muestras (el de sus medias muestrales \(\bar{x}_i,\bar{y}_i\) o sus varianzas\(\sigma_{x_i}^2,\sigma_{y_i}^2\)). Todo ha girado en torno al comportamiento aleatorio de la citada variable en lo individual, sin recibir el efecto o relación estadística que otras variables guardan con la que interesa.
La bibliografía base que se utilizará en el curso será la de (Carter-Hill, Griffiths, y Guay C. 2011) y, de manera complementaria, nos apoyaremos en (Gujarati y Porter 2010) y en (Baltagi 2011) para cuestiones más técnicas. También se utilizarán ejemplos de estas referencias y se tendrá un fuerte apoyo en el desarrollo del libro de (Carter-Hill, Griffiths, y Guay C. 2011) en R
. Esto gracias a las aportaciones en línea de (Colonescu 2016).
En estas notas se revisará la lógica intuitiva, gráfica y matemática del método de mínimos cuadrados ordinarios, el cual será el punto de partida para el modelado de las medias condicionales (\(\hat{y}_i\)). Esto a fin de determinar la relación matemática que existe entre el valor ahora condicionado de la media de una variable aleatoria, conocida desde ahora como variable dependiente o regresada, dada la influencia que tiene del comportamiento o valor de otras variables que denominadas variables independientes o regresoras. Es decir, revisaremos las concepciones intuitivas, matemáticas y gráficas que llevan a determinar el valor de los coeficientes \(\beta_k\) que establecen la relación estadística entre las regresadas y la regresora, así como el potencial término constante \(\alpha\) que corresponde al valor que tendría la media condicionada \(\hat{y}_i\) si las regresoras tuvieran un valor de cero.
Para ilustrar mejor la idea, veamos la forma funcional que generalmente puede adoptar un modelo clásico de regresión lineal. Este será la base fundamental de nuestro estudio, dadas sus múltiples aplicaciones:
\[\begin{equation} \label{eq1} y_i=\alpha+\sum_{k=1}^K\beta_k\cdot x_{k,i}+\varepsilon_i \end{equation}\]
El modelo anterior, como se verá n breve, tiene una forma funcional lineal y se conoce como un modelo de regresión lineal. La parte interesante en (\ref{eq1}) es que se establece una relación entre \(\bar{y}_i\) y \(\hat{y}_i\). En específico, si los valores de todas las regresoras fuera cero, se llegaría a lo siguiente:
\[\begin{equation} \label{eq2} y_i=\alpha+\sum_{k=1}^K\beta_k\cdot 0+\varepsilon_i=\alpha+\varepsilon_i=\bar{y}_i+\varepsilon_i \end{equation}\]
En otros términos, en las descripciones e inferencias de una variable aleatoria, en el contexto de la Estadístia inferencial, se ha estado hablando de resultados aplicables a una sola variable. Es decir, nuestro análisis se ha enfocado al comportamiento de la variable aleatoria per se como si esta no estuviera relacionada o influenciada por otra u otras variables. Cuando hacíamos estimaciones y prónósticos de una variable aleatoria con la Estadística onferencial univariada, lo que hacíamos era simplemente calcular la media muestral \(\bar{y}_i\), su desviación estándar muestral, \(s_{y_i}\) y correr la estimación de intervalos, dado un valor o quantil estandarizado (\(z_i\) o \(t_i\)) de una distribución de probabilidad como la gaussiana o la t-Student:
\[\begin{equation} \label{eq3}y_i=\bar{y}_i\pm [(z_i/t_i)\cdot \sigma_{y_i}] \end{equation}\]
Cuando se trabaja así, se supone que \(\bar{y}_i\approx\mu_{y_i}\) si la muestra es grande y se dice que \(\bar{x}_i\) es una media incondicional o media no condicionada. Esto es, se presupone que su valor no está determinado por otros factores o variables \(x_{k,i}\).
En este sentido, ahora la perspectiva cambia ya que, para una estimación puntual (media) de la estimación o pronóstico de \(y_i\) no se utiliza su media incondicional, sino una media cuyo valor es condicionado por valores de otras variables. Es decir, por medio de una ecuación como la dada en (\ref{eq2}):
\[\begin{equation} \label{eq4}y_i=\hat{y}_i\pm [(z_i/t_i)\cdot \sigma_{y_i}] \end{equation}\]
Dicho esto, nuestra atención se enfocará en lograr (\ref{eq2})1. Esto partiendo de la estimación de \(\alpha\) y de la o las \(\beta_k\). La interpretación de estos coeficientes se da gracias a que se trabajará con un modelo o forma funcional lineal, en donde existe una pendiente \(\beta_k\) y una intersección al eje \(\alpha\). La estimación de estos parámetros depende, en amplia medida, de algunas medidad de concordancia como son el coeficiente de correlación de Pearson y la covarianza, así como de la varianza de cada regresora. Esto es así por que, el principal método de inferencia del conjunto de parámetros (\(\mathbf{\theta}\)) será el que se conoce como mínimos cuadrados ordinarios o MCO2.
Dicho esto, las presentes notas se estructuran como sigue:
En el segundo tema, se revisará lo que se entiende como mínimos cuadrados ordinarios. Por qué este método será el más empleado para la estimación de un modelo de regresión lineal como el dado en (\ref{eq1}) y se describirán brevemente sus nociones intuitivas por medio de métodos gráficos.
Acto seguido, en el tercer tema se hablará del concepto de distribución normal multivariada, el cual es base para la existencia del concepto de covarianza, así como para tener un supuesto o punto de partido teórico para establecer un modelo de regresión lineal como el dado en (\ref{eq1}). Aquí se describirá la relación existente entre la correlación, la covarianza, la o las \(\beta_{k,i}\)s y la \(\alpha\).
En el cuarto tema se estudiará cómo seestima el modelo de regresion en R
y se hará el análisis de los principales insumos.Esto de manera introductoria, ya que se detalla su estudio en los siguientes apartados.
En el quinto tema se revisará el concepto de significancia de los parámetros estimados, partiendo del concepto de error estándar, valores t y la probabilidad o nivel de significancia que le acompaña. Esto para determinar la validez en la relación estadística entre la o las variables regresoras y la variable regresada, así como la validez de la presencia de un término de intersección en el eje o constante \(\alpha\). En este tema se explicará con detalle el cálculo de los errores estándar (\(\sigma_{\bar{\alpha}}\) o \(\sigma_{\bar{\beta}_{k}}\)) para un modelo de regresión de dos, tres o más regresoras y se observará cómo es que el error estándar del modelo de regresión (\(\sigma_{\varepsilon_i}\)) cambia conforme se incluyen o excluyen términos en (\ref{eq1}), generando cambios en los errores estándar (\(\sigma_{\bar{\alpha}}\) o \(\sigma_{\bar{\beta}_{k}}\)) y en el nivel de signifancia de cada término en (\ref{eq1}).
En el sexto tema se explicará el concepto del nivel de explicación. Esto por medio del coeficiente de determinación o el coeficiente \(R^2\) o el \(R^2_{\text{ajustado}}\). Gracias a conceptos como la suma de residuales al cuadrado \(SRC\) (revisado en el primer tema de esta notas), la suma total al cuadrado (\(STC\)) o la suma explicada al cuadrado (\(SEC\)) se podrá comprender el término grado de explicación del modelo de regresión. De manera complementaria, se identificará el concepto del coeficiente \(F\) del modelo de regresión y sedará una explicación de la relación que tiene con el nivel de significancia conjunta, partiendo de lo revisado en en tercer tema.
En el séptimo tema se revisará la representación matricial de la estimación del modelo de mínimos cuadrados ordinarios, así como la estimación matricial de los errores estándar de los coeficientes (\(\sigma_{\bar{\alpha}}\) o \(\sigma_{\bar{\beta}_{k}}\)) y el coeficiente \(R^2\)
En los apéndices A y B se exponen los principales códigos de R
de interes para la lectura y futuras aplicaciones (Apéndice A) y las demostraciones matemáticas del método de estimación por MCO (Apéndice B).
Dicho esto, pasemos ahora al primer tema con las motivaciones teóricas del modelo MCO.
Como punto de partida para explicar las motivaciones teóricas, tomaremos el ejemplo de la ecuación del consumo (o propensión a consumir) de Keynes (1936) que establece una relación matemática entre el nivel de consumo de una nación (\(C_{i}\))3, dado el nivel de ingreso (PIB o \(Y_{i}\)) de la misma. Esto lleva a la siguiente ecuación, en donde utilizaremos no los niveles medidos de estas dos variables, sino sus variaciones porcentuales (\(\Delta \%\)):
\[\begin{equation} \label{eq5} \Delta\%C_{i}=\alpha +\beta\cdot \Delta\%Y_{i}+\varepsilon_i \end{equation}\]
En específico, se tomará el histórico de la variación porcentual anual tanto del consumo como del PIB de México y se extraerán los datos de las bases del Banco Mundial por medio del respositorio de datos Quandl. Para poder hacer esto en R
, se le sugiere consultar la liga de mis notas de uso de R
y Rstudio
a las que puede acceder por medio de esta liga. En específico, interesa el tema 6.1 Relativo a la configuración y acceso a la librería Quandl
. Se le sugiere enfáticamente consultar la liga y seguir los pasos. Esto si desea replicar los ejercicios aquí realizados.
Los datos que se extrajeron fueron, como se dijo, anuales de 1991 al año 2017. Posterior a esto, se procedió a calcular la variación porcentual por medio de la diferencia del logaritmo del valor más reciente, menos el logaritmo natural del valor anterior. Vemos para el caso del consumo:
\[\begin{equation} \label{eq6} \Delta\%C_{i}=\text{ln}(C_{\text{año actual}})-\text{ln}(C_{\text{año anterior}}) \end{equation}\]
Esto llevó a la siguiente tabla de datos, cuyo código de presenta en el Apéndice A1:
fechas | Consumo | PIB | |
---|---|---|---|
2 | 1991-12-31 | 4.643008 | 4.1283534 |
3 | 1992-12-31 | 3.617779 | 3.4798473 |
4 | 1993-12-31 | 0.448075 | 1.9225557 |
5 | 1994-12-31 | 4.766776 | 4.8228870 |
6 | 1995-12-31 | -5.147983 | -6.4978413 |
7 | 1996-12-31 | 3.616161 | 6.5537322 |
8 | 1997-12-31 | 6.771293 | 6.6226336 |
9 | 1998-12-31 | 5.381776 | 5.0350139 |
10 | 1999-12-31 | 4.784395 | 2.7163258 |
11 | 2000-12-31 | 6.246537 | 4.8241954 |
12 | 2001-12-31 | 1.630239 | -0.4052100 |
13 | 2002-12-31 | 1.470076 | -0.0398524 |
14 | 2003-12-31 | 1.840717 | 1.4360223 |
15 | 2004-12-31 | 6.469944 | 3.8456872 |
16 | 2005-12-31 | 3.790265 | 2.2815799 |
17 | 2006-12-31 | 0.000000 | 4.3969783 |
18 | 2007-12-31 | 2.382304 | 2.2655864 |
19 | 2008-12-31 | 1.019396 | 1.1370951 |
20 | 2009-12-31 | -5.040271 | -5.4305660 |
21 | 2010-12-31 | 3.329656 | 4.9914467 |
22 | 2011-12-31 | 3.256158 | 3.5975144 |
23 | 2012-12-31 | 2.467544 | 3.5775580 |
24 | 2013-12-31 | 1.554197 | 1.3450061 |
25 | 2014-12-31 | 2.156129 | 2.7657385 |
26 | 2015-12-31 | 2.555833 | 3.2350936 |
27 | 2016-12-31 | 3.495796 | 2.8566656 |
28 | 2017-12-31 | 2.554873 | 2.0209110 |
Con estos datos de las variaciones porcentuales tanto del Consumo como del ingreso o PIB mexicanos se realizará ahora una gráfica de dispersión de cada dupla \([\text{Consumo},\text{PIB}]\) para cada año. Posterior a ello se estimaron la \(\alpha\)= 0.5468 y la \(\beta\)= 0.8194 de (\ref{eq5})4 y se sustituyeron en la siguiente expresión para obtener la media condicionada (media del consumo, condicionada al valor del PIB) como sigue:
\[\begin{equation} \label{eq7} \begin{array}{c l} \widehat{y}_i & =\alpha+\beta\cdot x_i \\ \widehat{\text{Consumo}}_i & =\alpha+\beta\cdot \text{PIB}_i \end{array} \end{equation}\]
Esto llevó a la en donde se presenta un diagrama de dispersión de las duplas de cada año del PIB y el consumo en México y en donde se expone una línea gris que corresponde al valor de la media condicionada del \(\widehat{\text{Consumo}}_i\), dado el valor del PIB en (\ref{eq7}). En específico, sobre la línea gris se exponen unos puntos huecos o círculos negros que, dado el valor realmente observado del PIB en la muestra, lleva al valor estimado o medio condicionado del consumo (siéntase en la libertad de pasar el cursor sobre la gráfica para conocer los valores).
Figure 2.1: Regresión lineal del PIB y el consumo
Posterior al cálculo del valor medio condicionado o esperado del \(\widehat{\text{Consumo}}_i\), también se calcularon los residuales (\(\varepsilon_i\)) que no son más que la diferencia observada entre el verdadero nivel del consumo (\(\text{Consumo}_i\)) en cada año, menos su valor estimacdo (\(\widehat{\text{Consumo}}_i\)), dado en (\ref{eq7}). La validez de este cálculo (\(\varepsilon_i=y_i-\hat{y}_y\)) se puede apreciar al simplemente despejar \(\varepsilon_i\) de (\ref{eq5}). Estos residuales varían magnitud, la cual se codifica en la Figura con el tamaño cada punto de dispersión y su color. Si es muy azul, quiere decir que el residual para esa observación del \(\text{Consumo}_i\) es muy pequeña. Esto se verá en el tamaño, también epqueño, del punto graficado. Si es muy grande el residual, el color será más naranja y el tamaño más grande. Los valores numéricos de esta gráfica se presentan en la Tabla
Ahora, se extiende la Tabla 2.2 para incluir la columna de los valores estimados \(\widehat{\text{Consumo}}_i\) y los residuales \(\varepsilon_i\).
fechas | Consumo | PIB | estimado | residuales | |
---|---|---|---|---|---|
2 | 1991-12-31 | 4.643008 | 4.1283534 | 3.9295870 | 0.7134215 |
3 | 1992-12-31 | 3.617779 | 3.4798473 | 3.3981939 | 0.2195848 |
4 | 1993-12-31 | 0.448075 | 1.9225557 | 2.1221322 | -1.6740572 |
5 | 1994-12-31 | 4.766776 | 4.8228870 | 4.4986954 | 0.2680807 |
6 | 1995-12-31 | -5.147983 | -6.4978413 | -4.7776334 | -0.3703496 |
7 | 1996-12-31 | 3.616161 | 6.5537322 | 5.9169689 | -2.3008076 |
8 | 1997-12-31 | 6.771293 | 6.6226336 | 5.9734275 | 0.7978656 |
9 | 1998-12-31 | 5.381776 | 5.0350139 | 4.6725145 | 0.7092620 |
10 | 1999-12-31 | 4.784395 | 2.7163258 | 2.7725560 | 2.0118390 |
11 | 2000-12-31 | 6.246537 | 4.8241954 | 4.4997675 | 1.7467693 |
12 | 2001-12-31 | 1.630239 | -0.4052100 | 0.2147354 | 1.4155036 |
13 | 2002-12-31 | 1.470076 | -0.0398524 | 0.5141134 | 0.9559621 |
14 | 2003-12-31 | 1.840717 | 1.4360223 | 1.7234614 | 0.1172560 |
15 | 2004-12-31 | 6.469944 | 3.8456872 | 3.6979671 | 2.7719773 |
16 | 2005-12-31 | 3.790265 | 2.2815799 | 2.4163205 | 1.3739442 |
17 | 2006-12-31 | 0.000000 | 4.3969783 | 4.1497011 | -4.1497011 |
18 | 2007-12-31 | 2.382304 | 2.2655864 | 2.4032152 | -0.0209108 |
19 | 2008-12-31 | 1.019396 | 1.1370951 | 1.4785171 | -0.4591207 |
20 | 2009-12-31 | -5.040271 | -5.4305660 | -3.9030963 | -1.1371744 |
21 | 2010-12-31 | 3.329656 | 4.9914467 | 4.6368150 | -1.3071591 |
22 | 2011-12-31 | 3.256158 | 3.5975144 | 3.4946116 | -0.2384534 |
23 | 2012-12-31 | 2.467544 | 3.5775580 | 3.4782592 | -1.0107154 |
24 | 2013-12-31 | 1.554197 | 1.3450061 | 1.6488816 | -0.0946845 |
25 | 2014-12-31 | 2.156129 | 2.7657385 | 2.8130454 | -0.6569167 |
26 | 2015-12-31 | 2.555833 | 3.2350936 | 3.1976400 | -0.6418074 |
27 | 2016-12-31 | 3.495796 | 2.8566656 | 2.8875520 | 0.6082438 |
28 | 2017-12-31 | 2.554873 | 2.0209110 | 2.2027255 | 0.3521479 |
El concepto de Mínimos Cuadrados Ordinarios o (MCO) toma su nombre por que lo que se busca es lograr valores de \(\alpha\) y de las \(\beta_{k,i}\) tales que en una ecuación de regresión lineal del tipo \(\hat{y}_i=\alpha+\sum_{k=1}^K\beta_{k,i}\cdot x_{k,i}\), los valores de estos coeficientes lleven a residuales \(\varepsilon_i\) lo más pequeños posibles. Esto lleva a un concepto de central importancia y atención que es la Suma de Residuales al Cuadrado o (\(SRC\)) que se define como sigue:
\[\begin{equation} \label{eq8} \begin{array}{c l} SRC & =\sum_{i=1}^n(y_i-\hat{y}_i)^2 \\ SRC & =\sum_{i=1}^n(y_i-[\alpha+\sum_{k=1}^K\beta_{k,i}\cdot x_{k,i}])^2 \\ SRC & =\sum_{i=1}^n\varepsilon_i^2 \end{array} \end{equation}\]
Esto llevaría, para fines del ejemplo expuesto a la siguiente expresión:
\[\begin{equation} \label{eq9} \begin{array}{c l} SRC & =\sum_{i=1}^n(y_i-\hat{y}_i)^2 \\ SRC &=\sum_{i=1}^n(\text{Consumo}_i-[\alpha+\beta_{k,i}\cdot \text{PIB}_i])^2 \end{array} \end{equation}\]
Si los valores de \(\varepsilon_i\) logrados con la regresión como la dada (\ref{eq7}) son lo más pequeño posible, entonces los valores de los coeficientes son los más adecuados ya que lleva a una recta de regresión (o media condicionada \(\hat{y}_i\)) que pasa lo más cercano posible a cada valor de \(y_i\) (en el caso del ejemplo, de \(\text{Consumo}_i\)).
Para el caso específico del ejemplo que interesa, la \(SRC\) es de 52.4614558. De manera complementaria, la \(SRC\) lleva a un concepto que es el error estándar (\(\sigma(\varepsilon_i)\)) del modelo de regresión que se logra con la desviación estándar de estos residuales como se muestra a continuación, siendo \(k\) el número de coeficientes o parámetros en la ecuación de regresión (en nuestro ejemplo \(k=2\) por la \(\alpha\) y la \(\beta\)):
\[\begin{equation} \label{eq10} \sigma(\varepsilon_i)=\sqrt{\frac{SRC}{n-k}} \end{equation}\]
Ahora veamos lo que sucedería si cambiaramos el valor de \(\alpha\)= 0.5468 a \(\dot{\alpha}\)= 1.5468 o el valor de \(\beta\)=0.8194 a \(\beta\)=0.8194 a \(\dot{\beta}\)=1.8194
Esto llevaría a un valor esperado en tres posibles ecuaciones de regresión:
Veamos gráficamente lo que sucedería en la siguiente Figura 2.2. En la misma se exponen (en orden de arriba a abajo y de izquierda a derecha) las regresiones logradas tanto en la ecuación original estimada para la Figura 2.1 (panel superior izquierdo) como los diferentes cambios en \(\alpha\) y \(\beta\) previamente enumerados. Como se puede apreciar, en los páneles superior derecho y los inferiores, el número de puntos con color naranja y gris se incrementa. Esto último se aprecia si se compara con los colores del panel superior izquierdo (que es la regresión original y más ajustada a los datos).
Figure 2.2: Regresión lineal del PIB y el consumo
Con esto, se tiene un comparativo visual del cambio en la magnitud de los residuales ante diferentes valores de \(\alpha\) y \(\beta\) en () y (). En la Tabla 2.3 se actualizan los datos de las dos previas y se presentan tanto los valores estimados de \(\dot{y}_i,\tilde{y}_i,\ddot{y}_i\) (encabezados estimado punto, tilde, y doble punto respectivamente) como sus correspondientes residuales (\(\dot{\varepsilon}_i,\tilde{\varepsilon}_i,\ddot{\varepsilon}_i\)). En la Tabla 2.4 se hace el cálculo de la SRC como en (\ref{eq9}) y de el error estándar de los residuales (\(\sigma(\varepsilon_i)\)) como en (\ref{eq10}).
fechas | Consumo | PIB | estimado | residuales | estimado punto | estimado tilde | estimado doble punto | residuales punto | residuales tilde | residuales doble punto | |
---|---|---|---|---|---|---|---|---|---|---|---|
2 | 1991-12-31 | 4.643008 | 4.1283534 | 3.9295870 | 0.7134215 | 4.929618 | 6.1865126 | 7.1865436 | -0.2866095 | -1.5435041 | -2.5435352 |
3 | 1992-12-31 | 3.617779 | 3.4798473 | 3.3981939 | 0.2195848 | 4.398225 | 5.3005883 | 6.3006194 | -0.7804462 | -1.6828095 | -2.6828406 |
4 | 1993-12-31 | 0.448075 | 1.9225557 | 2.1221322 | -1.6740572 | 3.122163 | 3.1731723 | 4.1732034 | -2.6740882 | -2.7250973 | -3.7251284 |
5 | 1994-12-31 | 4.766776 | 4.8228870 | 4.4986954 | 0.2680807 | 5.498727 | 7.1353149 | 8.1353460 | -0.7319503 | -2.3685388 | -3.3685698 |
6 | 1995-12-31 | -5.147983 | -6.4978413 | -4.7776334 | -0.3703496 | -3.777602 | -8.3299321 | -7.3299010 | -1.3703807 | 3.1819490 | 2.1819180 |
7 | 1996-12-31 | 3.616161 | 6.5537322 | 5.9169689 | -2.3008076 | 6.917000 | 9.4998226 | 10.4998536 | -3.3008386 | -5.8836612 | -6.8836923 |
8 | 1997-12-31 | 6.771293 | 6.6226336 | 5.9734275 | 0.7978656 | 6.973458 | 9.5939487 | 10.5939798 | -0.2021655 | -2.8226557 | -3.8226867 |
9 | 1998-12-31 | 5.381776 | 5.0350139 | 4.6725145 | 0.7092620 | 5.672546 | 7.4251014 | 8.4251325 | -0.2907690 | -2.0433249 | -3.0433560 |
10 | 1999-12-31 | 4.784395 | 2.7163258 | 2.7725560 | 2.0118390 | 3.772587 | 4.2575416 | 5.2575727 | 1.0118080 | 0.5268535 | -0.4731776 |
11 | 2000-12-31 | 6.246537 | 4.8241954 | 4.4997675 | 1.7467693 | 5.499799 | 7.1371023 | 8.1371333 | 0.7467382 | -0.8905655 | -1.8905966 |
12 | 2001-12-31 | 1.630239 | -0.4052100 | 0.2147354 | 1.4155036 | 1.214767 | -0.0067884 | 0.9932426 | 0.4154725 | 1.6370274 | 0.6369964 |
13 | 2002-12-31 | 1.470076 | -0.0398524 | 0.5141134 | 0.9559621 | 1.514145 | 0.4923265 | 1.4923576 | -0.0440690 | 0.9777489 | -0.0222821 |
14 | 2003-12-31 | 1.840717 | 1.4360223 | 1.7234614 | 0.1172560 | 2.723492 | 2.5085191 | 3.5085501 | -0.8827751 | -0.6678017 | -1.6678328 |
15 | 2004-12-31 | 6.469944 | 3.8456872 | 3.6979671 | 2.7719773 | 4.697998 | 5.8003622 | 6.8003932 | 1.7719462 | 0.6695822 | -0.3304488 |
16 | 2005-12-31 | 3.790265 | 2.2815799 | 2.4163205 | 1.3739442 | 3.416352 | 3.6636353 | 4.6636664 | 0.3739131 | 0.1266294 | -0.8734017 |
17 | 2006-12-31 | 0.000000 | 4.3969783 | 4.1497011 | -4.1497011 | 5.149732 | 6.5534810 | 7.5535120 | -5.1497322 | -6.5534810 | -7.5535120 |
18 | 2007-12-31 | 2.382304 | 2.2655864 | 2.4032152 | -0.0209108 | 3.403246 | 3.6417865 | 4.6418176 | -1.0209419 | -1.2594821 | -2.2595131 |
19 | 2008-12-31 | 1.019396 | 1.1370951 | 1.4785171 | -0.4591207 | 2.478548 | 2.1001545 | 3.1001856 | -1.4591517 | -1.0807581 | -2.0807892 |
20 | 2009-12-31 | -5.040271 | -5.4305660 | -3.9030963 | -1.1371744 | -2.903065 | -6.8719273 | -5.8718962 | -2.1372054 | 1.8316566 | 0.8316255 |
21 | 2010-12-31 | 3.329656 | 4.9914467 | 4.6368150 | -1.3071591 | 5.636846 | 7.3655842 | 8.3656153 | -2.3071902 | -4.0359283 | -5.0359594 |
22 | 2011-12-31 | 3.256158 | 3.5975144 | 3.4946116 | -0.2384534 | 4.494643 | 5.4613333 | 6.4613644 | -1.2384844 | -2.2051751 | -3.2052061 |
23 | 2012-12-31 | 2.467544 | 3.5775580 | 3.4782592 | -1.0107154 | 4.478290 | 5.4340710 | 6.4341021 | -2.0107465 | -2.9665272 | -3.9665583 |
24 | 2013-12-31 | 1.554197 | 1.3450061 | 1.6488816 | -0.0946845 | 2.648913 | 2.3841817 | 3.3842128 | -1.0947156 | -0.8299846 | -1.8300156 |
25 | 2014-12-31 | 2.156129 | 2.7657385 | 2.8130454 | -0.6569167 | 3.813076 | 4.3250443 | 5.3250754 | -1.6569477 | -2.1689156 | -3.1689467 |
26 | 2015-12-31 | 2.555833 | 3.2350936 | 3.1976400 | -0.6418074 | 4.197671 | 4.9662302 | 5.9662613 | -1.6418385 | -2.4103976 | -3.4104287 |
27 | 2016-12-31 | 3.495796 | 2.8566656 | 2.8875520 | 0.6082438 | 3.887583 | 4.4492598 | 5.4492908 | -0.3917873 | -0.9534640 | -1.9534950 |
28 | 2017-12-31 | 2.554873 | 2.0209110 | 2.2027255 | 0.3521479 | 3.202757 | 3.3075354 | 4.3075665 | -0.6478831 | -0.7526620 | -1.7526930 |
Con estos simples cambios en \(\alpha\) y \(\beta\), así como las 3 posibles combinaciones de modelos de regresión estimados, se puede apreciar la lógica subyacente de por qué el primer método de estimación de estos coeficientes se le conoce como Mínimos Cuadrados Ordinarios o MCO, ya que la estimación correcta de \(\alpha\) y \(\beta_k\) para un modelo de regresión como (\ref{eq5}) lleva a la menor suma de residuales al cuadrado o \(SRC\). Tal como se presenta y resume en la Tabla 2.4.
Estimación correcta | Estimación punto | Estimación tilde | Estimación doble punto | |
---|---|---|---|---|
SRC | 52.461456 | 79.463133 | 172.439972 | 273.230516 |
error est. regresión | 1.448606 | 1.782842 | 2.626328 | 3.305937 |
Para poder fundamentar con un ejercicio aún mayor en alcance, se estimará una secuencia de valores de \(\alpha=[\)-0.4532,1.5468 \(]\) y \(\beta=[\)-0.1806,1.8194\(]\), incluyendo los valores correstos de $=$0.5468 y $=$0.8194. Para cadacombinación de los valores estimados de \(\alpha\) y \(\beta\) se le calculó la SRC como en (\ref{eq9}) y se presentó la matriz de combinaciones de todos los valores de SRC obtenidos. Como se puede apreciar en la Figura 2.3, que es un mapa de calor (el rojo representa los valores más altos de la SRC y el azul los más bajos), se presenta la línea vertical de la \(\alpha\) correcta para el modelo de regresión, así como su correspondiente línea horizontal del valos de \(\beta\).
En dicha figura se aprecia cómo estos valores de \(\alpha\) y \(\beta\) llevan efectivamente a la SRC más baja (por favor ponga su cursor en la intersección de las líneas negras para verificar) y a un modelo de regresión que se ajusta de la mejor manera a los datos (como se ve en las Figuras 2.2 y 2.3). Si Usted hace el ejercicio de
Figure 2.3: SRC para todas las combinaciones de alpha y beta
Ahora que ya se revisó y se fundamentó que los valores de los coeficientes \(\alpha\) y \(\beta_k\) en una ecuación de regresión lineal como (\ref{eq1}) corresponden a una línea recta que lleva a los residuales más pequeños posibles o la suma de residuales elevados al cuadrado mínima posible, se revisará como se calculan estos coeficientes conun método que cumpla este criterio.
Para poder iniciar con la revisión del método de cálculo de \(\beta_k\) y \(\alpha\), es de necesidad revisar y ordenar algunos conceptos que están íntimamente relacionados a su cálculo como son la covarianza \(\sigma_{x_i,y_i}\) de dos variables aleatorias (\(x_i,y_i\)) y el coeficiente de correlación Pearson \(\rho_{x_i,y_i}\). APrtiendo de estos, se revisará el método de cálculo de los coeficientes de regresión.
Para poder comprender lo que se entiende como covarianza \(\sigma_{x_i,y_i}\) de dos variables aleatorias (\(x_i,y_i\)), primero definamos la misma en su método de cálculo:
\[\begin{equation} \label{eq11} \sigma_{x_i,y_i}=\frac{\sum_{i=1}^N(x_i-\bar{x}_i)\cdot (y_i-\bar{y}_i)}{N} \end{equation}\]
Ahora recordemos el método del cálculo de la varianza:
\[\begin{equation} \label{eq12} \sigma_{x_i}^2=\frac{\sum_{i=1}^N(x_i-\bar{x}_i)^2}{N}=\frac{\sum_{i=1}^N(x_i-\bar{x}_i)\cdot (x_i-\bar{x}_i)}{N} \end{equation}\]
Ahora, para comprender el origen de la necesidad de una médida estadística de concordancia5 como es la covarianza, primero necesitamos introducir el concepto de distribución de probabilidad multivariada. Esto es, la probabilidad de que dos o más variables aleatorias tengan un valor menor, mayor,igual o dentro de o fuera de un determinada magnitud. Por ejemplo que, dos variables tengan, de manera conjunta un determinado valor de manera simultánea: \(P(x_i=X,yi=Y)\).
Para ilustrar la idea, veamos el caso de dos variables aleatorias \(x_i\) e \(y_i\) distribuidas de manera gaussiana en lo individual. Es decir, su distribución de probabilidad marginal (o univariada) es gaussiana. Estas tendrían, respectivamente, una función de probabilidad ya conocida como sigue:
\[\begin{equation} \label{eq13} P(x_i=X)=\frac{1}{\sqrt{2\pi}\sigma_{x_i}}e^{\left( \frac{x_i-\bar{x_i}}{\sigma_{x_i}} \right)^2} \end{equation}\]
\[\begin{equation} \label{eq14} P(y_i=Y)=\frac{1}{\sqrt{2\pi}\sigma_{y_i}}e^{\left( \frac{y_i-\bar{y_i}}{\sigma_{xy_i}} \right)^2} \end{equation}\]
Para fines de exposición, supóngase que se tiene una variable aleatoria \(x_i\) con media \(\bar{x}_i=2\) y \(\sigma_{x_i}=10\) y otra \(y_i\) con media \(\bar{y}_i=3\) y \(\sigma_{y_i}=5\). Sus respectivas gráficas de distribución de probabilidad univariada (o marginales) se verían como se muestra en la Figura 2.4. En la parte superior, con azul, se presenta la función de probabilidad gaussiana muestral para la variable \(x_i\) y, con naranja a la derecha, la correspondiente función para la variable \(y_i\). Al centro se presenta el diagrama de dispersión de los 5000 pares de puntos simulados para fines de exposición del presente.
Figure 2.4: Distribuciones marginales
Como puede apreciarse, las funciones de probabilidad solo hablan de manera univariada de \(P(x_i=X)\) o \(P(y_i=Y)\) pero nada dicen respecto a la probabilidad conjunta \(P(x_i=X,y_i=Y)\). Dicho esto, gracias a (\ref{eq3}) y (\ref{eq4}) se sabe que se requiere de una media para cada variable. Es decir, una medida de tendencia central para cada una, que llevará, junta con una medida de dispersión individual, a un valor de probabilidad. Dicho esto, se requiere una medida de tendencia central conjunta que no es más que la representación de las medias de \(\bar{x}_i\) y \(\bar{y}_i\). Esta se puede visualizar como el punto rojo en la Figura 2.4 y se da por el vector siguiente:
\[\begin{equation} \label{eq15} \mathbf{m}= \begin{bmatrix} \bar{x}_i \\ \bar{y}_i \end{bmatrix}=\begin{bmatrix} 2 \\ 3 \end{bmatrix} \end{equation}\]
Ahora, veamos con más detalle la gráfica de dispersión de la Figura 2.4. Esto en la Figura 2.5. En la misma, se presente a mano derecha en naranja, la proyección sobre el eje y de todos los valores de \(y_i\) simulados y, abajo, se proyecta en azul los correspondientes valores simulados en \(x_i\).
Figure 2.5: Distribuciones marginales
Si se calculara la separación, distancia o residual media de cada valor de \(x_i\) (\(\varepsilon_{x_i}=x_i-\bar{x}_i\)) y de \(y_i\) (\(\varepsilon_{y_i}=y_i-\bar{y}_i\)) se llegaría a lo que conocemos como la desviación estándar (\(\sigma_{x_i}=\sqrt{\sigma_{x_i}^2}\) o \(\sigma_{y_i}=\sqrt{\sigma_{y_i}^2}\)) de cada variable aleatoria simulada. Esto gracias a la definición de varianza dada en (\ref{eq12}).
Dado esto, lo que ahora queremos calcular es la variación total de los ejes \(x\) e \(y\) lo que nos invita a unir las variabilidades de ambas:
\[\begin{equation} \label{eq16bb} \sigma_{\text{Total}}=\sigma_{x_i}+\sigma_{x_i} \end{equation}\]
Sin embargo, una cuestión a tener presente es que, cuando se habla de relación entre variables, se asume o supone que estas no se generan de manera aleatoria en lo individual, sino en consecuencia de la influencia que una variable tiene sobre la otra. Esto lleva a la necesidad de definir la covarianza como se hizo en (\ref{eq11}).
Si queremos verificar que su cálculo es el correcto para el fin que buscamos, veamos esta demostración matemática sencilla:
Proposition 2.1 La covarianza \(\sigma_{x_i,y_i}\) es una medida de concordancia que se utiliza, de manera central, para determinar la variabilidad total que produce la interacción bidireccional de dos variables aleatorias \(x_i\), \(y_i\).
\[\begin{equation} \label{eq17} \sigma_{\text{Total}}=\sigma_{x_i}^2+\sigma_{x_i,yi}+\sigma_{y_i,xi}+\sigma_{y_i}^2 \end{equation}\]
Proof. Comenzamos definiendo la distancia o residual de cada observación de \(x_i\) e \(y_i\) como sigue:
\[\begin{equation} \label{eq18} X=x_i-\hat{x}_i \end{equation}\]
\[\begin{equation} \label{eq19} Y=y_i-\hat{y}_i \end{equation}\]
Posteriormente definimos la variabilidad total como la suma de las distancias de \(X\) e \(Y\):
\[\begin{equation} \label{eq20} \sigma_{\text{Total}}=X+Y \end{equation}\]
Sin embargo, la definición dada en (\ref{eq20}). Requiere que los residuales de \(X\) e \(Y\) se sumen, lo que implica, siguiendo el caso del cálculo de la desviación estándar por medio de la varianza elevar al cuadrado esta suma:
\[\begin{equation} \label{eq21} \sigma_{\text{Total}}=(X+Y)^2 \end{equation}\]
Al desarrollar este binomio cuadrado perfecto tenemos:
\[\begin{equation} \label{eq22} \sigma_{\text{Total}}=(X+Y)^2=X^2+XY+YX+Y^2 \end{equation}\]
Si se sustituyen los valores de \(X\) e \(Y\) con (\ref{eq18}) y (\ref{eq19}) se llega al siguiente resultado:
\[\begin{equation} \label{eq23} \sigma_{\text{Total}}=(x_i-\hat{x}_i)^2+(x_i-\hat{x}_i)(y_i-\hat{y}_i)+(y_i-\hat{y}_i)(x_i-\hat{x}_i)+y_i-\hat{y}_i^2 \end{equation}\]
Si se aplica el operador sumatoria \(\sum\) a lo anterior se tiene el siguiente resultado:
\[\begin{equation} \label{eq24} \begin{array}{c l} \sum_{i=1}^N(\sigma_{\text{Total}}) & =\sum_{i=1}^N(x_i-\hat{x}_i)^2+\sum_{i=1}^N(x_i-\hat{x}_i)(y_i-\hat{y}_i)+\sum_{i=1}^N(y_i-\hat{y}_i)(x_i-\hat{x}_i)+\sum_{i=1}^N(y_i-\hat{y}_i)^2 \\ N(\sigma_{\text{Total}}) & =\sum_{i=1}^N(x_i-\hat{x}_i)^2+\sum_{i=1}^N(x_i-\hat{x}_i)(y_i-\hat{y}_i)+\sum_{i=1}^N(y_i-\hat{y}_i)(x_i-\hat{x}_i)+\sum_{i=1}^N(y_i-\hat{y}_i)^2 \end{array} \end{equation}\]
Al dividir (\ref{eq24}) entre \(N\) se tiene:
\[\begin{equation} \label{eq25} \begin{array}{c l} \frac{N(\sigma_{\text{Total}})}{N} & = \frac{\sum_{i=1}^N(x_i-\hat{x}_i)^2}{N}+ \frac{\sum_{i=1}^N(x_i-\hat{x}_i)(y_i-\hat{y}_i)}{N}+ \frac{\sum_{i=1}^N(y_i-\hat{y}_i)(x_i-\hat{x}_i)}{N}+ \frac{\sum_{i=1}^N(y_i-\hat{y}_i)^2}{N} \\ \sigma_{\text{Total}} & = \frac{\sum_{i=1}^N(x_i-\hat{x}_i)^2}{N}+ \frac{\sum_{i=1}^N(x_i-\hat{x}_i)(y_i-\hat{y}_i)}{N}+ \frac{\sum_{i=1}^N(y_i-\hat{y}_i)(x_i-\hat{x}_i)}{N}+ \frac{\sum_{i=1}^N(y_i-\hat{y}_i)^2}{N} \\ \sigma_{\text{Total}} & =\sigma_{x_i}^2+ \sigma_{x_i,y_i}+ \sigma_{y_i,x_i}+\sigma_{y_i}^2 \\ \sigma_{\text{Total}} & =\sigma_{x_i}^2+ 2\cdot \sigma_{x_i,y_i}+\sigma_{y_i}^2 \end{array} \end{equation}\] \(\Box\)Como se puede apreciar de la proposición 2.1 y su correspondiente prueba, la covarianza es una medida de concordancia que resulta de necesidad no solo por su naturaleza para medir el sentido y magnitud de dicha concordancia entre dos variables aleatorias \(x_i\) e \(y_i\). También lo es por su necesidad para medir la variabilidad total dada por el espacio de esas dos variables. Esto tal y como se ve en el resultado previamente presentado en (\ref{eq25}).
Dicho esto, esa medida de varianza total del sistema de variables, tiene tres partes fundamentales, según se fundamenta en (\ref{eq25}):
Esto lleva a la definición de la variabilidad total \(\sigma_{\text{Total}} =\sigma_{x_i}^2+2\cdot \sigma_{x_i,y_i}+\sigma_{y_i}^2\) definida en (\ref{eq25}).
Con esta definición de covarianza, se puede observar que, si se hiciera un conjunto \(\mathbf{\theta}\) con los parámetros de dos variables aleatorias gaussianamente distribuidas, se llegaría agrupar las medidas en el vector de medias \(\mathbf{m}\) dado en (\ref{eq15}) y a la definición de una matriz de covarianzas como esta:
\[\begin{equation} \label{eq26} \mathbf{C}=\begin{bmatrix} \sigma_{x_i}^2 & \sigma_{y_i,x_i}\\ \sigma_{x_i,y_i} & \sigma_{y_i}^2 \end{bmatrix} \end{equation}\]
Dicho esto, el vector de parámetros para una función de probabilidad gaussiana multivariada6 se define como sigue:
\[\begin{equation} \label{eq27} \mathbf{\theta}=[\mathbf{e},\mathbf{C}] \end{equation}\]
Esto lleva a la función de probabilidad gaussiana multivariada7, definida como sigue:
\[\begin{equation} \label{eq28} P(x_i,y_i,\dots,k_i)=P(\mathbf{\theta})=\frac{e^{-\frac{1}{2}(\mathbf{x}-\mathbf{m})'\mathbf{C}(\mathbf{x}-\mathbf{m})}}{\sqrt{(2\pi)^k|\mathbf{C}|}} \end{equation}\]
Figure 2.6: Distribuciones de probabilidad gaussiana bivariada
Como puede apreciarse en la Figura 2.6 ahora la campana gaussiana es tridimensional y está sujeta a los valores que tengan \(x_i\) e \(y_i\), según (). Si Usted posiciona su cursor en o toca alguno de los puntos de la campana, podrá apreciar cómo es que las campanas individuales (es decir las probabilidades marginales o univariadas de \(x_i\) o de \(y_i\)) se proyectan sobre la propia campana. El punto que señale presenta la intersección de esas dos campana y es la probabilidad de que \(x_i=X\) y \(y_i=Y\) de manera conjunta.
Si usted gira la campana, verá que, en la parte superior o “techo” de la gráfica, podrá ver una elipses proyectadas. Lo propio verá si vuelve a girar la gráfica, de tal manera que Usted vea la campana desde arriba. Esto le llevaría a una visualización como la de la Figura 2.7. En la misma se puede ver en color amarillo el valor más alto de probabilidad que se logra justo en el punto que conforma el vector de medias \(\mathbf{e}\) y de ahí los colores se van cambiando a azul conforme el valor de la probabilidad baja. A simple vista se puede apreciar que los contornos tiene una forma de elipse. Incluso, se aprecian los contornos amarillos, verdes, y azules de las elipses proyectadas.
Figure 2.7: Elipses de la probabilidad gaussiana bivariada
¿Qué representan estas elipses? Muy simple,si usted hiciera el cálculo de todos aquellos puntos que están dentro de intervalo de fluctuación, al rededor del punto de la media (\(\mathbf{e}\) ), con \(P\%\) de probabilidad de suceso o confianza, Usted tendría los puntos sobre la elipse. En otros términos más concretos. Si usted hiciera el cálculo de todas las combinaciones de valores \([x_a=\bar{x}_i+(z_a\cdot\sigma_{x_i}),x_b=\bar{x}_i+(z_b\cdot\sigma_{x_i})]\) y valores \([y_a=\bar{y}_i+(z_a\cdot\sigma_{y_i}),y_b=\bar{y}_i+(z_b\cdot\sigma_{y_i})]\) la gráfica de esos valores sería una de las elipses proyectadas en la Figura 2.7. Recuerde que \(z_a\) y \(z_b\) son el valor estándar correspondiente a la probabilidad acumulada de izquierda a derecha para \(a\) o \(b\) (\(P(x_i\leq a)\) o \(P(x_i\leq a)\) respetivamente). Al recordar esto, verá con mayor claridad que, conforme la probabilidad de suceso se incrementa, los valores de \(z_a\) y \(z_b\) se abren o se hacen más extremos. Dicho esto, las elipses que se aprecian en la Figura 2.7 corresponden a tosos esos puntos \(x_a\) y \(x_b\) que se encuentran alrededor del punto de las medias (\(\mathbf{e}\) ) y que cumplen con la característica de suceder con un 68.26% (elipse amarilla), un 95.44% (elipse verde) o un 99.73% (elipse azul) de probabilidad de suceso. Es decir, son los puntos que corresponden a una estimación de intervalo bidimensional a \(z=1\), \(z=2\) o \(z=3\) desviaciones estándar.
Esta revisión gráfica de las elipses proyectadas en el plano \(x,y\) en una distribución gaussian multivariada esmuy importante de tener presente. Esto por dos razones:
La última afirmación se puede apreciar claramente en las Figuras ?? y ??, en donde se cambió arbitrariamente el nivel de correlación pearson a \(\rho_{x_i,y_i}=0\) y \(\rho_{x_i,y_i}=1\) respectivamente. Se le invita a minular la campana de cada figura haqste que logre una orientación o visualización del eje \(x_i\) e \(y_i\) como la lograda en la Figura ??. Para el caso en donde \(\rho_{x_i,y_i}=0\) (Figura ??) se aprecia claramente la formación de círculos y no de elipses, evidencia de la nula correlación (y covarianza) entre las variables. Para el caso en donde \(\rho_{x_i,y_i}=1\) (Figura ??, se apreciará la línea recta si visualiza la gráfica también desde arriba (evidencia de una correlación perfecta positiva)9.
Figure 2.8: Distribuciones de probabilidad gaussiana bivariada con correlación de cero
Figure 2.9: Distribuciones de probabilidad gaussiana bivariada con correlación de 1
¿A qué se debe este resultado y qué implicaciones tiene para el cálculo de la \(\alpha\) y las \(\beta_k\)s?. Como se verá en breve, la covarianza (y la correlaciónPearson que esimplícita a la misma) es una medida de concordancia de suma importancia. En especial para calcular el valor de \(\beta_k\) en un modelo de regresión como (\ref{eq1}). Antes de ver por qué y dicho lo anterior respecto a la elipsidad de la probabilidad gaussiana multivariada de un sistema de \(k\geq2\) variables (gaussianamente distribuidas como supuesto claro está), es de necesidad hacer un parántesis para contextualizar el coeficiente de correlación Pearson \(\rho_{x_i,y_i}\), su definición y su relación con la covarianza.
El coeficiente de correlación de Pearson (\(\rho_{x_i,yi_i}\)) tiene una estrecha relación teórica con la covarianza. En términos muy simples y planos, se entiende que el coeficiente de correlación de Pearson es la covarianza de dos variables estandarizadas (Ruppert 2011, 609). Para comprender mejor la relación entre covarianza y correlación, veamos la función del coeficiente de correlación de Pearson:
\[\begin{equation} \label{eq29} \rho_{x_i,y_i}=\frac{\sigma_{x_i,y_i}}{\sigma_{x_i}\cdot \sigma_{y_i}} \end{equation}\]
Al igual que la covarianza (\(\sigma_{x_i,y_i}\)), cuando la concordancia o relación de las dos variables aleatorias es directa o en el mismo sentido, el valor de la covarianza es positivo. En caso contrario, es negativo. Ahora, la covarianza no tiene valores límite. Esto es: \(\sigma_{x_i,y_i}\in(-\infty,+\infty)\) y el coeficiente de correlación de Pearson tiene valores de \(\rho_{x_i,y_i}\in[-1,1]\).
Dado que se emencionó previamente que el coeficiente de correlación de Person no es más que la covarianza de dos variables estandarizadas. Ahora, Si despejamos la covarianza en (\ref{eq29}) tenemos el siguiente resultado:
\[\begin{equation} \label{eq30} \sigma_{x_i,y_i}=\sigma_{x_i}\cdot \rho_{x_i,y_i}\cdot \sigma_{y_i} \end{equation}\]
Como se puede apreciar, la covarianza es resultado del método expuesto en (\ref{eq11}) o el resultado de multiplicar la desviación estándar de las dos variabels aleatorias involucradas por su coeficiente de correlación Pearson (o covarianza de estas variables en escala estandarizada). Esto lleva a comprender a la correlación como la covarianza de estas dos variables libre o ajena de las unidades en que son medidas las mismas y como una especie de “correlación real” o “centro de gravedad” (si se desea hacer una analogía simple y burda para fines de comprensión) entre las variables.
Por tanto, si la correlación (covarianza estandarizada) entre dos variables es cero, la covarianza entre las mismas es cero y,como consecuencia, no se está identificando algún tipo de concordancia (o influencia para fines semánticos en Econoemetría) entre ambas. Dicho esto, se puede aceptar que el coeficiente de correlación Pearson es un parámetro implícito para calcular la covarianza. Es decir, el cálculo de la covarianza, según se aprecia en (\ref{eq30}), contiene el valor del coeficiente de correlación.
Ahora que se vio la diferencia entre covarianza y correlación Pearson, se describirá el método de cálculo de la \(\alpha\) y las \(\beta_k\)s en la función de regresión lineal dada en (\ref{eq1}).
Ahora que ya se revisó la lógica del método de Mínimos cudrados Ordinarios (MCO) y se hizo el paréntesis para comprender el concepto de covarianza (o de correlación que va implícito en la covarianza) se puede exponer el método de cálculo de los coeficientes del modelo de regresión.
Se comienza con el más importante de estos que es la \(\beta_k\). Su importancia radica en que su magnitud mide la dirección y grado de influencia que el valor de una variable independiente o regresora (\(x_{k,i}\)) tiene sobre la dependiente o regresada. Su método de cálculo es (la prueba de s validez se presenta en (Gujarati y Porter 2010, 92):
\[\begin{equation} \label{eq31} \beta_{k}=\frac{\sigma_{x_i,y_i}}{\sigma_{x_{k,i}^2}} \end{equation}\]
Por otro lado, el método de cálculo de la \(\alpha\) en (\ref{eq1}) es:
\[\begin{equation} \label{eq32} \alpha=\bar{y}_i-\sum_{k=1}^K\beta_k\cdot \bar{x}_{k,i} \end{equation}\]
Una vez revisados los coeficientes de correlación (Pearson en específico) y la covarianza (que lleva implícitamente al anterior en su cálculo) se puede explicar el cálculo del coeficiente \(\beta_k\) en términos de la correlación al sustituir la forma de calcular la covarianza (\ref{eq30}) por medio de la correlación en el numerador de (\ref{eq31}):
\[\begin{equation} \label{eq33} \beta_{k}=\frac{\sigma_{x_i,y_i}}{\sigma_{x_{k,i}^2}}=\frac{\sigma_{x_i}\cdot \rho_{x_i,yi} \cdot\sigma_{y_i}}{\sigma_{x_{k,i}^2}} \end{equation}\]
Esto significa que, si una variable regresora \(x_{k,i}\) no tiene correlación Pearson (\(\rho_{x_i,yi}=0\)) con la regresada (\(y_i\)), la covarianza y la correspondiente \(\beta_k\) serán nulas.
En la Aplicación interactiva que s epresenta a continuación, se puede apreciar esto con claridad. La misma se presenta de manera compacta, dado el espacio del navegador pero Usted puede acceder a la misma (si desea visualizarla a pantalla completa) en esta liga. En la parte superior de esta, se pueden apreciar los controles del nivel de correlación (que se inicia en cero), así como el tamaño de muestra, desviación es´tandar y media muestral de dos variables (\(x_i,y_i\)) generadas de manera aleatoria. Debajo de estos controles, Usted podrá apreciar la gráfica de los puntos de dispersión de esos \(n\) datos generados, así como el histograma y distribuciones de probabilidad marginales (para cada variable en lo individual), el nivel de correlación seleccionado y la correspondiente recta de regresión lineal, dado los valores de \(\alpha\) y \(\beta\) calculados para los datos generados.
Es importante señalar que estos datos generados (\(x_i,y_i\)) o simulados se estimaron computacionalmente al emplear la función de probabilidad multivariada dada en (\ref{eq28}). En esta, se utilizó el nivel de correlación seleccionado en la aplicación y se obtuvieron los valores de \(x_i\) e \(y_i\), dada esta correlación.
Aplicación interactiva 1: Estimación de un modelo de regresión, dada su correlación Pearson
Por defecto, el nivel de correlación es \(\rho_{x_i,y_i}=0\). En la gráfica Usted podrá apreciar que la recta de regresión es horizontal en el nivel de \(\alpha\).Sin embargo, si cambia el valor de \(\rho_{x_i,y_i}\) a otro número, verá cómo se vuelven a simular los datos y ahora existe una relación estadística (positiva o negativa según el valor de \(\rho_{x_i,y_i}\) elegido) entre las variables. Esto lleva a la correspondiente recta de regresión presentada en color negro.
Como presentación adicional al ejercicio de regresión, dado el nivel de correlación \(\rho_{x_i,y_i}\) seleccionado, se presenta la tabla de valores \(x_i\) e \(y_i\) simulados, así como el valor de la media condicional y el residual de cada observación. También se presenta en la gráfica el valor de la \(\alpha\), la \(\beta\), la \(SRC\) y un concepto que se verá en la sección correspondiente conocido como el coeficiente \(R^2\).
Antes de seguir con la exposición, ahora se atenderá una pregunta fundamental para el análisis econométrico en R
: Una vez que ya se conoce la forma de calcular \(\alpha\) y las \(\beta_k\)s delmodelo de regresión como el dado en (\ref{eq1}), ¿Cómo se estiman estas y los principales parámetros o estadísticos del análisis de regresión en R
? A continuación se revisa esta situación.
R
Para ilustrar el método de calcular un modelo de regresión en R
, se utilizará el comando lm()
de R
el cual tiene, dentre los posibles insumos o inputs, los siguientes:
formula
: Es un objeto tipo char
o texto que se refiere a la expresión de la fórmula de la ecuación de regresión a evaluar. Para el ejemplo de ingreso-consumo estudiado en estas notas, el objeto fórmula sería: "Consumo~PIB"
. Esto significa que se evaluará la ecuación de regresión \(\hat{\text{Consumo}}=\alpha+\beta\cdot \text{PIB}_{i}\). Si, por alguna circunstancia, no se desea incluir la \(\alpha\) en la ecuación, el objeto sería "Consumo~PIB-1"
o "Consumo~0+PIB"
.Un aspecto importante a considerar es que los nombres de las variables deben ser columnas en un objeto tipo data-frame. De hecho lm()
solo trabaja con objetos de este tipo para realizar el análisis. Por fortuna, los datos que se extraen de Quandl
se obtienen con este formato de objeto.data
: En este objeto se especifica el nombre del objeto tipo data.frame. Como se apreciar en el código de la Tabla @(tab:tabla1), cuyo código detallado se presente en el Apéndice A1, el objeto de datos de entrada se llama Qdataor
.Prácticamente, para los fines del tipo de análisis a realizar aquí, se tiene la sigiente sintaxis con los dos insumos previamente especificados10 y el siguiente análisis de regresión, cuya tabal de resumen se puede lograr (como muchos otros objetos creados con comandos similares) con la función summary([objeto de salida de lm])
. Para fines prácticos, se nombrará fit
el objeto tipo lm
que resulte del análisis de rgresión con la función correspondiente. Veamos:
# Se crea objeto tipo lm llamado fit.
fit=lm(formula="Consumo~PIB",data=Qdataor)
# Se realiza la tabla de resumen:
summary(fit)
##
## Call:
## lm(formula = "Consumo~PIB", data = Qdataor)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.1497 -0.6494 0.1173 0.7556 2.7720
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.54677 0.36612 1.493 0.148
## PIB 0.81941 0.09495 8.630 5.74e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.449 on 25 degrees of freedom
## Multiple R-squared: 0.7487, Adjusted R-squared: 0.7386
## F-statistic: 74.48 on 1 and 25 DF, p-value: 5.74e-09
Como se puede apreciar en la tabla de resumen, se muestra elcomando de R
realizado (call), seguido de una descripción estadística de los residuales (\(\varepsilon_i=y_i-\hat{y}_i\)) del modelo de regresión. Posteriormente se muestra una tabla de coeficientes en donde se presenta el nombre (Intercept)
que corresponde a los valores del coeficiente \(\alpha\). De manera inmediata se expone el coeficiente \(\beta\) que corresponde al PIB. En esa misma tabla se presentan los valores de los coeficientes en la columna Estimate
, sus errores estándar (Std. Error
), el valor t para la prueba de significancia (t value
) y la probabilidad (t-Student, Pr(>|t|)
) de que este coeficiente valga cero con una muestra diferente. Las últimas tres columnas las revisaremos con mayor cuidado a continuación.
Por último se nos presentan otros estadísticos de interés como es el coeficiente \(R^2\) que puede ser para una regresión multiple (Multiple R-Squared
) con dos o más regresoras o el ajustado (Adjusted R-squared
) que es el que interesa para el presente caso. También se nos expone el estadístico F (F-statistic
) que prueba la significancia conjunta de las regresoras (como también se verá en breve) y su valor de probabilidad F (p-value
). Antes de revisar qué significa el error estándar y la probabilidad, p-value o probabilidad t-Student que mide el nivel de significancia de cada coeficiente, veamos cómo luciría (cómo se realiza) la ecuación de regresión sin coeficiente \(\alpha\).
# Se crea objeto tipo lm llamado fit.
fit2=lm(formula="Consumo~0+PIB",data=Qdataor)
# Se realiza la tabla de resumen:
summary(fit2)
##
## Call:
## lm(formula = "Consumo~0+PIB", data = Qdataor)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.0071 -0.2278 0.4465 0.8866 2.9653
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## PIB 0.91133 0.07399 12.32 2.35e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.482 on 26 degrees of freedom
## Multiple R-squared: 0.8537, Adjusted R-squared: 0.8481
## F-statistic: 151.7 on 1 and 26 DF, p-value: 2.348e-12
Ahora que se ilustró el caso, prosigamos con el cálculo del nivel de significancoa (probabilidad t-Student de ser igual a cero), así como el cálculo del error estándar de los coeficientes.
Para poder determinar la probabildiad de que el coeficiente estudiado tenga un valor de cero con otra muestra de datos, es de necesidad primero calcular el error estándar del coeficiente (\(\alpha\) o \(\beta_k\)), posteriormente el valor t estandarizado y, por último la probabilidad buscada. APra fundamentar todo esto, veamos el caso específico de cada uno de los pasos. Esto iniciando con el error esta´ndar de los coeficientes.
Una vez determinado el método de cálculo de los coeficientes, es de prima necesidad incorporar el efecto del error muestral en nuestras estimaciones. Esto es, sabemos de los textos de estadística inferencial que nuestras estimaciones de medidas de tendencia central, a nivel muestral, están sujetas a cambio. dicho esto, debemos determinar, con cierto grado de confianza o probabilidad de suceso, la posibilidad de ue adopte un determinado valor (como es el cero que significa nula relación estadística entre variables para el caso de \(\beta_k\)).
Para esto, apelábamos al término de error estándar (\(\sigma_\bar{x_i}\)) que, en términos generales e intuitivos, es la desviación estándar que se mediría en el valor de la media, de la \(\alpha\) o las \(\beta_k\)s, si se pudieran generar muchas muestras, registrar los valores de estos parámetros y calcular su media y desviación estándar. Para el caso específico del eror estándar de la media aritmética, no existe mayor situacion ya que su cálculo es único cuando se conoce el tamaño de la población \(N\) (\ref{eq4}) o cuando no se conoce (\ref{eq35}), siendo \(s=\sqrt{\sum(x_i-\bar{x}_i)^2/(n-1)}\) la desviación estándar muestral.
\[\begin{equation} \label{eq34} \sigma_{\bar{x}_i}=\frac{s}{\sqrt{n}}\cdot\sqrt{\frac{N-n}{n-1}} \end{equation}\]
\[\begin{equation} \label{eq34b} \sigma_{\bar{x}_i}=\frac{s}{\sqrt{n}} \end{equation}\]
Para el caso específico de los errores estándar de los coeficientes de \(\alpha\) o de las \(\beta_k\)s, se tiene que su cálculo depende de las variables regresoras presentes en el modelo de regresión. Si se incluye una nueva o se elimina alguna o algunas de las existentes, su cálculo cambia y, por consecuencia, los valores t y los niveles de significancia (probabilidad t-Student de ser igual a cero) hacen lo propio.
Para fines de exposición de lo que acontece en cada situación, primero se expondran los cálculos de los errores estándar \(\sigma_{\hat{\beta}_k}\) del coeficiente estimado en la regresión \(\hat{\beta}_k\) para un modelo de una sola regresora, luego para el caso en donde se tienen dos regresoras y luego el caso en donde se cuenta con más de 2 de estas. En un siguiente sub apartado, se revisará el caso del error estándar \(\sigma_{\bar{\alpha}}\) del coeficiente \(\hat{\alpha}\).
Para fines de notación y dado que ya se dejó de lado la exposición teórica y ahora se acepta que las estimaciones de los coeficientes del modelo de regresión son muestrales, se utilizará la notación \(\sigma_{\bar{\alpha}}\) y \(\sigma_{\bar{\beta}_k}\) para referirse a los correspondientes coeficientes.
Comenzamos revisando el caso del cálculo del error estándar en donde la forma funcional del modelo de regresión es de una sola regresora (\(\hat{y}_i=\hat{\alpha}+\hat{\beta}\cdot x_{i}\)). Para fines de exposición, recordemos que, para acceder a los errores estándar se aplica el cálculo de la raíz cuadrada de la varianza del coeficiente:
\[\begin{equation} \label{eq35} \sqrt{\sigma_{\hat{\beta}_k}^2} \end{equation}\]
Dicho esto, el cálculo de la varianza que lleva al error estándar para el caso de una sola variable se da por:
\[\begin{equation} \label{eq36} \sigma_{\hat{\beta}_k}^2=\frac{1}{\sum_{i=1}^nx_{i}^2}\cdot \sigma_{\varepsilon_i} \end{equation}\]
En la expresión anterior se observa que el cálculo de la varianza previa depende de dos fuentes de variabilidad:
De momento, en (\ref{eq36}) no se aprecia el cambio que se daría en el error estándar de los coeficientes \(\hat{\beta}_k\) ante la inclusión de nuevas regresoras o la exclución de las existentes en el modelo. Sin embargo, ahora extendamos (\ref{eq36}) al caso en donde hay dos regresoras en el modelo de regresión (\(\hat{y}_i=\hat{\alpha}+\hat{\beta}_1\cdot x_{1,i}+\hat{\beta}_2\cdot x_{2,i}\)):
\[\begin{equation} \label{eq37} \sigma_{\hat{\beta}_1}^2=\frac{\sum_{i=1}^nx_{2,i}^2}{(\sum_{i=1}^nx_{1,i}^2)\cdot (\sum_{i=1}^nx_{2,i}^2)-(\sum_{i=1}^nx_{1,i}\cdot x_{2,i})^2}\cdot \sigma_{\varepsilon_i} \end{equation}\]
\[\begin{equation} \label{eq38} \sigma_{\hat{\beta}_1}^2=\frac{\sum_{i=1}^nx_{1,i}^2}{(\sum_{i=1}^nx_{1,i}^2)\cdot (\sum_{i=1}^nx_{2,i}^2)-(\sum_{i=1}^nx_{1,i}\cdot x_{2,i})^2}\cdot \sigma_{\varepsilon_i}$ \end{equation}\]
Lo anterior se pede reexpresar en términos del coeficiente de correlación Pearson entre la regresora \(x_{1,i}\) y \(x_{2,i}\)
\[\begin{equation} \label{eq39} \sigma_{\hat{\beta}_1}^2=\frac{\sigma_{\varepsilon_i}^2}{\sum_{i=1}^nx_{1,i}^2\cdot(1-\rho_{x_{1,i},x_{2,i}}^2)} \end{equation}\]
Con esta simplificación dada en (\ref{eq39}), se puede ahora calcular el error estándar para \(\beta_{2}\) como sigue:
\[\begin{equation} \label{eq40} \sigma_{\hat{\beta}_2}^2=\frac{\sigma_{\varepsilon_i}^2}{\sum_{i=1}^nx_{2,i}^2\cdot(1-\rho_{x_{1,i},x_{2,i}}^2)} \end{equation}\]
Como se peude apreciar,ahora la fuente de variabilidad para calcular la varianza que lleva al error estándar (\(\sigma_{\bar{\beta}_k}\)) viene de tres fuentes:
Ahora, para el caso con 3 o más regresoras se puede tener esta forma para el cálculo de la varianza de los coeficientes \(\beta_k\) correspondientemente:
\[\begin{equation} \label{eq41} \sigma_{\hat{\beta}_1}^2=\frac{\sigma_{\varepsilon_i}^2}{\sum_{i=1}^nx_{1,i}^2\cdot(1-\rho_{x_{1,i},x_{2,i}}^2)\cdot (1-\rho_{x_{1,i},x_{3,i}}^2)\cdot (1-\rho_{x_{2,i},x_{3,i}}^2)} \end{equation}\]
\[\begin{equation} \label{eq42} \sigma_{\hat{\beta}_2}^2=\frac{\sigma_{\varepsilon_i}^2}{\sum_{i=1}^nx_{2,i}^2\cdot(1-\rho_{x_{1,i},x_{2,i}}^2)\cdot (1-\rho_{x_{1,i},x_{3,i}}^2)\cdot (1-\rho_{x_{2,i},x_{3,i}}^2)} \end{equation}\]
\[\begin{equation} \label{eq43} \sigma_{\hat{\beta}_3}^2=\frac{\sigma_{\varepsilon_i}^2}{\sum_{i=1}^nx_{3,i}^2\cdot(1-\rho_{x_{1,i},x_{2,i}}^2)\cdot (1-\rho_{x_{1,i},x_{3,i}}^2)\cdot (1-\rho_{x_{2,i},x_{3,i}}^2)} \end{equation}\]
Si se tuvieran 4, en lugar de 3, regresoras, los denominadores se incrementarían de la forma en que se incrementaron de (\ref{eq39}) y (\ref{eq40}) a (\ref{eq41}), (\ref{eq42}) y (\ref{eq43}).
Dicho esto y a manera de resumen, se puede apreciar que el incluir o excluir una regresora del modelo y el hacer lo propio con el coeficiente \(\hat{\alpha}\) tiene implicaciones tanto para el cálculo de los residuales (\(\varepsilon_i\)) como al consecuente cálculo de los errores estándar del o los coeficientes \(\hat{\beta_k}\) involucrados en el modelo.
Este último razonamiento (el cambio en los \(\sigma_{\hat{\beta}_k}\)) será de mucha importancia a tener presente por que, la cuantificación de estos errores (\(\sigma_{\hat{\beta}_k}\)) y el de \(\sigma_{\hat{\alpha}}\) está sujeta no solo a las regresoras y coeficientes involucrados en el modelo de regresión, sino al cumplimiento de los supuestos del Teorema Gauss-Markov que se revisará en el apartado correspondiente de estas notas. Antes de discutir el mismo, veamos ahora qué es lo que sucede y cómo se da el cálculo del error estándar del coeficiente \(\alpha\).
No olvide que, como se dijo previamente, el error estándar de \(\hat{\beta}_k\) se obtiene al aplicar la razí cuadrada a la estimación de las varianzas previamente revisadas dde (\ref{eq35}) a (\ref{eq43}). Esto es \(\sigma_{\hat{\beta}_k}=\sqrt{\sigma_{\hat{\beta}_k}^2}\).
Para fines de exposición, revisemos también el caso de la varianza (que llerva al error estándar de interés, \(\sigma_{\hat{\alpha}}\)). Comenzamos con el caso en donde solo hay una regresora en el modelo de interés:
\[\begin{equation} \label{eq44} \sigma_{\hat{\alpha}}^2=\frac{1}{n}+\frac{\sum_{i=1}^nx_{1,i}^2}{\sum_{i=1}^n(x_{1,i}-\bar{x_1})^2}\cdot\sigma_{\varepsilon_i}^2 \end{equation}\]
De nueva cuenta, al igual que (\ref{eq35}) se tienen dos fuentes de variabilidad en los coeficientes:
Si se eliminara la regresora del modelo que interesa se tendría:
\[\begin{equation} \label{eq45} \hat{y}_i=\alpha=\bar{y}_i \end{equation}\]
Y el error estándar sería el mismo error estándar de una media incondicional o aritmética (en términos de lo revisado en Estadística inferencial):
\[\begin{equation} \label{eq46} \sigma_{\hat{\alpha}}=\sqrt{\sigma_{\hat{\alpha}}^2}=\sqrt{\frac{1}{n}\cdot\sigma_{\varepsilon_i}^2}=\sqrt{\frac{\sigma_{\varepsilon_i}^2}{n}} \end{equation}\]
Ahora veamos cómo se extendería (\ref{eq44}) si se tuvieran dos regresoras en el modelo de regresión:
\[\begin{equation} \label{eq47} \sigma_{\hat{\alpha}}^2=\frac{1}{n}+ \frac{\bar{x}_1^2\cdot \sum_{i=1}^nx_{1,i}^2+\bar{x}_2^2\cdot \sum_{i=1}^nx_{2,i}^2-(2\cdot \bar{x}_1\cdot \bar{x}_2\sum_{i=1}^nx_{1,i}\cdot x_{2,i})}{(\sum_{i=1}^nx_{1,i}^2)(\sum_{i=1}^nx_{2,i}^2)-(\sum_{i=1}^nx_{1,i}\cdot x_{2,i})^2}\cdot\sigma_{\varepsilon_i}^2 \end{equation}\]
Ahora, para el caso de 3 o más variables, la expresión del error estándar del coeficiente \(\alpha\) sería la siguiente:
\[\begin{equation} \label{eq47b} \begin{array} \sigma_{\hat{\alpha}}^2=\frac{1}{n}+F\cdot\sigma_{\varepsilon_i}^2\\ \text{siendo }F=\frac{\bar{x}_1^2\cdot \sum_{i=1}^nx_{1,i}^2+\bar{x}_2^2\cdot \sum_{i=1}^nx_{2,i}^2+\bar{x}_3^2\cdot \sum_{i=1}^nx_{3,i}^2 -(2\cdot \bar{x}_1\cdot \bar{x}_2\sum_{i=1}^nx_{1,i}\cdot x_{2,i}) -(2\cdot \bar{x}_1\cdot \bar{x}_3\sum_{i=1}^nx_{1,i}\cdot x_{3,i}) -(2\cdot \bar{x}_2\cdot \bar{x}_3\sum_{i=1}^nx_{2,i}\cdot x_{3,i}) } {(\sum_{i=1}^nx_{1,i}^2)(\sum_{i=1}^nx_{2,i}^2)(\sum_{i=1}^nx_{3,i}^2) -(\sum_{i=1}^nx_{1,i}\cdot x_{2,i})^2-(\sum_{i=1}^nx_{1,i}\cdot x_{3,i})^2-(\sum_{i=1}^nx_{2,i}\cdot x_{3,i})^2} \end{array} \end{equation}\]
Como se puede apreciar tanto en los métodos de calcular tanto \(\sigma_{\hat{\alpha}}\) como \(\sigma_{\hat{\beta}_k}\) dados de (\ref{eq36}) a (\ref{eq47}), el cálculo del error estandar de determinado coeficiente se da por medio de dos fuentes de variabilidad: el error estándar de los residuales resultantes del modelo de regresión (\(\sigma_{\varepsilon_i}\)) y La variabilidad y covarianza de las variables regresoras involucradas en el modelo (\(VCV_{\hat{\alpha},\hat{\beta}_k}\)).
\[\begin{equation} \label{eq48} \sigma_{\hat{\alpha},\hat{\beta}_k}=VCV_{\hat{\alpha},\hat{\beta}_k}\cdot \sigma_{\varepsilon_i}^2 \end{equation}\] Dicho esto, cuando se agrega una nueva regresora al modelo o se elimina alguna de las existentes, estas dos fuentes de variabilidad cambian y la estimación del error estándar cambia. Este concepto general ayudará a comprender más por qué es de importancia conocer los supuestos del modelo de regresión lineal, así como los potenciales errores (violaciones a los mismos) que pueden presentarse en el mismo. Por ejemplo la multicolinealidad, la heteroscedasticidad o la correlación serial.
Ahora que se conoce, de manera general e intriductoria, el método de estimación de los errores estándar, se seguirá revisando la forma de determinar el nivel de significancia de los coeficientes involucrados en el modelo de regresión.
Ya que se conoce el método general de cálculo del error estándar de los coeficientes del modelo de regresión, ahora se continúa con el método de los valores t-Student estandarizados de los coeficientes. Esto se hace así por que lo que se busca demostrar en cada coeficiente del modelo de regresión es la siguiente hipótesis nula:
\[\begin{equation} \label{eq49} H_0:\alpha,\beta_k=0 \end{equation}\]
Como se puede apreciar, la hipótesis es una hipótesis con técnica clásica (Neymman-Pearson) de dos colas. Una prueba como la revisada en la mayoría de la literatura relativa a cursos introductorios de Estadística inferencial. Para ilustrarla la ideadetrás del método, se tiene la Figura 5.1. En la misma se presenta una función de densidad de probabilidad t-Student11 (línea roja) con \(n-2\) grados de libertad (2 por que se tienn 2 coeficientes en la regresión), y los valores críticos al 95% de probabilidad (líneas azules) para una prueba de hipótesis de dos colas. Al graficar con una línea verde el valor t-Student estandarizado de \(\alpha\) y \(\beta\) en el ejemplo de la regresión PIB-Consumo, se puede apreciar que el valor t de \(\alpha\) (1.4934) se encuentra por debajo del valor crítico superior de 2.0595 (linea azul a su derecha). Dado esto, en términos estadísticos, el valor de \(\alpha\) es numéricamente diferente de cero pero estadísticamente igual a cero. Esto es, que, si tuvieramos otra muestra de datos, es muy posible que su valor en el nuevo modelo de regresión sea de cero. En caso contrario, el valor t de la \(\beta\) (8.63) se encuentra afuera del intervalo de confianza de estos dos valores críticos (\(t_a=-2.0595\),\(t_b=2.0595\)). Dicho esto, es muy posible que, con datos diferentes, el valor de este coeficiente sea diference a cero.
Figure 5.1: Distribuciones de probabilidad gaussiana bivariada con correlación de 1
Dado que no siempre es posible hacer esta prueba visual de la prueba de hipótesis de los coeficientes (por un lado) y debido a que se busca presentar el análisis de la forma más resumida posible (por otro) se puede hacer la prueba de hipótesis dada en (\ref{eq48}) de una manera alternativa: Se puede calcular la probabilidad acumulada de izquierda a derecha (derecha a izquierda) si el valor t del coeficiente es negativo (positivo) y multiplicarla por 2. Con esto se tiene la probabilidad acumulada en las dos colas. Esta interpretación tiene una interpretación muy intuitiva: si la probabilidad acumulada es menor a un nivel de significancia de 1%, 5%o 10% (según se prefiera por al o el analista), se rechaza la hipótesis nula dada en (\ref{eq48}). Dado este rechazo, se puede aceptar que dicho coeficiente (\(\alpha\) o \(\beta_k\)) debe permanecer en la ecuación.
De manera análoga en su interpretación y para fines prácticos, se puede interpretar esta probabilidad como la probabilidad de que, con una muestra diferente de datos, el valor de ese coeficiente estudiado sea cero. De nuevo, si esta probabilidad es mayor a 10%, 5% o 1% (según se prefiera), se tienen elementos para eliminar ya sea la \(\alpha\) del modelo o la variable regresora que se relaciona con la \(\beta_k\) estudiada. Veamos de nuevo el resultado de la regresión PIB-Consumo (solo la tabla de coeficientes):
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.5467689 0.36611609 1.493430 1.478392e-01
## PIB 0.8194110 0.09494877 8.630033 5.740062e-09
En la primer columna (recordando), se presenta el valor del coeficiente \(\alpha\) y \(\beta\) del modelo de regresión (Estimate). Luego se presenta el cálculo del error estándar, segudo de su valor t estandrizado. El mismo selogra con esta expresión:
\[\begin{equation} \label{eq50} t_{\alpha\text{ o }\beta_k}=\frac{(\alpha\text{ o }\beta_k-0)}{\sigma_{\hat{\alpha}}\text{ o }\sigma_{\hat{\beta}_k}} \end{equation}\]
Con dicho valor estandarizado se calcula la probabilidad acumulada de dos colas (probabilidad afuera de este valor t-Student en los dos lados de la campana), la cual se presenta en la columna Pr(>|t|). Esta, como se dijo, tiene la interpretación intuitiva de ser la probabilidad de que, con datos diferentes dad auna muestra diferente, el valor del coeficiente estudiado sea de cero.
Ya revisado el método de cálculo de los coeficientes del modelo de regresión, así como la estimación de su nivel de significancia (probabilidad de que sean cero con una muestra diferente), se aprecia de necesidad estudiar el nivel de explicación que tiene el modelo de regresión estimado, así como determinar, si de manera conjunta, los coeficientes son significativos.
Ahora que se ha revisado el concepto de significancia y su necesidad para establecer la relación entre una variable regresora (\(x_{k,i}\)) y la regresada (\(y_i\)) por medio de la significancia de la correspondiente \(\hat{\beta}_k\), así como para determinar si realmente el valor de \(\hat{\alpha}\) es diferente de cero y debe permanecer en la ecuación del modelo de regresión, se revisará el concepto del nivel de explicación del modelo estimado, medido por el coeficiente \(R^2\) para el caso de un modelo de regresión dos variables o el coeficiente \(R^2_{\text{ajustado}}\). Para exponer su motivación lógica se preenta la Figura 6.1. En la misma se expne de nuevo la regresión lineal del ejemplo que se tiene entre la vriación porcentual del PIB mexicano y el nivel de consumo en dicho país. Para complementar la exposición hecha en la Figura 2.1, se agregó el elipse de todos los valores de los puntos o duplas \([x_i,y_i]=[\bar{x}_i\pm (|Z_{95\%}|\cdot \sigma_{x_i}),\bar{y}_i\pm (|Z_{95\%}|\cdot \sigma_{y_i})]\), así como una proyección (en el margen derecho del eje \(y_i\)) de los valores estimados con el modelo de regresión (\(\hat{\text{consumo}}_i\)) puntos de color naranja). De manera análoga, se presenta la misma proyección de los valores observados del consumo en los datos (\(\text{consumo}_{i}\) en puntos de color negro.
Figure 6.1: Regresión lineal del PIB y el consumo
Para tener también una mayor referencia visual se presentan dos líneas rectas (vertical y horizontal) color azul que corresponden a la media de \(x_i\) e \(y_i\) respectivamente. Dada est presentación visual, se tienen dos conceptos de utilidad:
\[\begin{equation} \label{eq51} STC=\sum_{i=1}^N(y_i-\bar{y}_i)^2 \end{equation}\]
\[\begin{equation} \label{eq52} SEC=\sum_{i=1}^N(\hat{y}_i-\bar{y}_i)^2 \end{equation}\]
Siguiendo la exposición de la Figura 6.1, la \(STC\) se logra al restar los valores de \(\text{consumo}_i\) (de color negro) con la media del mismo (\(\bar{\text{consumo}}_i\)). De manera análoga, la \(SEC\) se logra al restar a los valores estimados (de color naranja) la misma media del consumo.
Estas dos definiciones, nos permiten llegar a la siguiente relación, una vez que ya conocemos el concepto de Suma de Residuales al Cuadrado (\(SRC\)) calculada con (\ref{eq8}):
\[\begin{equation} \label{eq53} STC=SEC+SRC \end{equation}\]
Esta relación en (\{eq53}) nos servirá para llegar al valor del estadístico F a revisar en breve. Sirva esto para observar que el nivel de explicación de un modelo de regresión se da por la siguiente razón que surge de (\{eq53}):
\[\begin{equation} \label{eq54} R^2=\frac{SEC}{STC} \end{equation}\]
La proporción o razón anterior dice, partiendo de la relación dada en (\{eq53}), cuánto de la variabilidad total de la regresora \(y_i\) (STC) se da por la variabilidad explicada por el modelo de regresión (SEC). De ahí que se exprese dicha proporción o nivel de explicación como un cociente en (\{eq54}). Lo anterior permite que, para el caso de un modelo de una regresora (dos variables en el sistema) el valor de esta razón sea de \(R^2\in[0,1]\). Unvalor de \(R^2=0\) implica un nulo nivel deexplicación del modelo, mientras que uno de \(R^2=1\) implica un nivel de total explicación. Si imaginamod un poco el modelo graficado en la Figura 6.1, el nivel de \(R^2=1\) implicaría que las líneas naranjas se superpondrían sobre las negras, lo que llevaría a:
\[\begin{equation} \label{eq55} R^2=\frac{SEC}{STC}=1|SEC=STC \end{equation}\]
ULa forma de calcular el coeficiente \(R^2\) en (\ref{eq54}) es la más común aunque existe una versión alternativa, dada la \(SRC\) delmodelo de regresión y su proporción con la STC:
\[\begin{equation} \label{eq56} R^2=1-\frac{SRC}{STC} \end{equation}\]
Cualquiera de los dos métodos nos lleva a la misma magnitud.
El método de cálculo del coeficiente \(R^2\) aplica solo para modelos de regresión con una sola regresora. Esto por que se corre el riesgo de tener valores negativos en su valor con más variables en el lado derecho de la regresión (más regresoras). Para solucionar esto Theil (1971) sugiere emplear una variante del coeficiente \(R^2\) estimado en (\ref{eq56}):
\[\begin{equation} \label{eq57} R^2_{Ajustado}=1-\frac{\frac{SRC}{(n-K)}}{\frac{STC}{n-1}}=1-\frac{\sigma_{\varepsilon_i}}{\sigma_{y_i}} \end{equation}\]
El mismo tiene la ventaja de reducir este potencial efecto de tener un coeficiente \(R^2\) negativo, aunque (en algunas ocasiones) no está exento de tal situación.
Dicho lo anterior, lo sugerente para el caso en el que se tenga un modelo de regresión de una regresora (dos variables en el sistema) es que se utilice el \(R^2_{\text{ajustado}}\) ya que, si se tiene un modelo con más regresoras, se tendrán mejores estimaciones de este coeficiente. En caso de tener una regresora, simplemente se tendrá un valor ligeramente diferente al \(R^2\) original, mismo que no debería afectar nuestras conclusiones en relación al nivel de explicación del modelo.
Algo muy importante a tener presente, es el hecho de que el coeficiente \(R^2\) solo mide el grado de explicación y no es muy adecuado para utilizarse como criterio de bondad de ajuste. Para ello, se sugiere el empleo de otros estadísticos como son el Criterio de información de Akaike (\(AIC\)), el Criterio de información de Schwarz (\(BIC\)) o el Criterio de información de Hannan-Quinn (\(HQ\)). Estos se verán en unas notas diferentes, que corresponden al tema de error de especificación. Esto se revisará en el contexto del estudio de los potenciales errores que puede tener el modelo de regresión.
Si se acomodara la \(SEC\), la \(SRC\) y la \(STC\), dada la relación expresada en (\ref{eq53}) en una tabla de análisis de la varianza (ANOVA) se tendría la siguiente tabla ANOVA teórica:
Figure 6.2: Tabla ANOVA del estadístico F de la regresión
Dicho esto, el estadístico F del modelo de regresión se da por la siguiente división o proporción:
\[\begin{equation} \label{eq58} F=\frac{\frac{SEC}{K-1}}{\frac{SRC}{N-K}}=\frac{\sigma_{\varepsilon_i}^2}{\sigma_{SEC}^2} \end{equation}\]
Como se puede apreciar, el Estadístico F no es más que la proporcion que guarda el error o variación de \(y_i\) explicado por el modelo de regresión (\(SEC\)) con el error estándar de la regresión (error no explicado por el modelo o \(SRC\)). Si el modelo de regresión estimado es muy malo, el valor de la \(SEC\) serámuy similar al de la \(SRC\),lo que llevará a la proporción o estadístico F (\ref{eq58}) a un valor cercano a 1. Por el contrario, si el modelo es muy bueno se tiene que \(SEC>SRC,(SEC/SRC>1\) o \(\sigma_{\varepsilon_i}^2/\sigma_{SEC}^2>1\).
Retomando el ejemplo del modelo de regresión PIB-Consumo, se tiene de nuevo la tabla de resultados completa del análisis de regresión:
##
## Call:
## lm(formula = "Consumo~PIB", data = Qdataor)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.1497 -0.6494 0.1173 0.7556 2.7720
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.54677 0.36612 1.493 0.148
## PIB 0.81941 0.09495 8.630 5.74e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.449 on 25 degrees of freedom
## Multiple R-squared: 0.7487, Adjusted R-squared: 0.7386
## F-statistic: 74.48 on 1 and 25 DF, p-value: 5.74e-09
Como se puede apreciar, el estadístico F tiene un valor de 74.48, lo que implica que, al hacer la división dada en (\ref{eq58}), la variabilidad de \(y_i\) explicada por el modelo de regresión es 74.48 veces más grande que la no explicada o \(\sigma_{\varepsilon_i}\), dada la \(SRC\).
Una pregunta importante es determinar ¿Qué tan grande debe ser el valor del estadístico F (\ref{eq58}) para aceptarlo como diferente de 1? Esta respuesta depende de los grados de libertad en el numerador (dado por el número de parámetros en el modelo de regresión) y de los grados de libertad en el denominador (el número de datos y el número de parámetros). Para tener una respuesta más exacta, se utiliza el valor de la probabilidad p-value
. El que se presenta a lado del estadístico F. Esta probabildiad, tiene la misma forma de cálculo que el p-value
de los valores t de los coeficientes: es la probabilidad F de \(+\infty\) al estadístico F con \(K-1\) grados de libertad en el numerador y \(N-K\) grados de libertad en el denominador. Al igual que en el caso de las probabilidades t-Student de los coeficientes, si este valor es menor a 0.01 (1.00%), 0.05 (5.00%) o 0.1 (10.00%), se acepta que el modelo tiene un grado de explicación alto y que, de manera conjunta, los coeficientes presentes, son diferentes a cero en otra muestra.
En pocas palabras, se prueba la hipótesis nula siguiente: \(H_0:\) Los coeficientes del modelo de regresión son, de manera conjunta, diferentes a cero. Dicho esto, el p-value
del estadístico F, tiene dos interpretaciones:
p-value
, más diferente será el estad´sitico F de 1 y, como consecuencia, mayor será la proporción de la variabilidad explicada por la por el modelo (\(SEC\)), respecto a la variabilidad no explicada (\(SRC\)).Hasta este punto se ha platicado respecto lal modelo de regresión,su método de estimación y la interpretación de los principales parámetros de salida de una tabla de regresión en R
, junto con las principales aplicaciones teóricas.
Eso implicó que se acepta el supuesto de que el modelo está exento de errores en su planteamiento, insumos y resultados y, como consecuencia, los errores estándar de los coeficientes están bien calculados y se puede hacer, sin desconfiar, la revisión de qué coeficientes deben estar o no (qué regresoras tienen relación o no con la regresada) en el modelo.
Desafortunadamente, esta situación es una mera presunción y debe de diagnosticarse primero que el modelo no tenga errores. Si los tiene, se debe revisar que se corrijan los mismos y, posteriormente, hacer conclusiones respecto a la significancia de la \(\alpha\) o las \(\beta_k\)s de las regresoras.
Para poder determinar los potenciales errores del modelo de regresión (tema que se abordará en otras notas como las presentes) es necesario conocer el Teorema Gauss-Markov y los supuestos del modelo de regresión que surgen del mismo.
En numerosos casos de artículos especializados en la materia , así como en libros de texto o invastigación de Econometría, análisis multivariante o materias afines, se utiliza la notación propia de álgebra matricial para estimar los coeficientes del modelo de regresión. En este punto, es importante hacer una breve revisión a los mismos ya que podrá ser de utilidad para comprender la misma e incluso apreciar los modelos econométricos con mayor simplicidad visual.
Aunque este apartado puede ser opcional en su revisión, se le sugiere estudiarlo para poder conocer esta forma de notación que lleva a los mismos resultados previamente revisados. Para poder hacer esta revisión, se le sugiere acudir a referencias de álgebra matricial como pueden ser libros de matemáticas aplicadas a las ciencias sociales, las ciencias económicas o la administración. Usted debe dominar conceptos como son escalares, vectores, matrices, suma o resta matricial, producto escalar,producto punto e inversión de matrices. Partiendo del supuesto de que se tienen estos fundamentos, se procede a la revisión de los cálculos de lso principales parámetros del modelo y el análisis de regresión previamente estudiados.
Como punto de partida, es necesario definir algunas matrices y vectores que se manipularán para el análisis. El primero de ellos es la denominada variable vectorial o matriz de datos de las regresoras y la constante \(\alpha\).Veamos un ejemplo simple de un modelo de regresión que incluye la \(\alpha\) y cuenta con dos variables regresoras con 4 observaciones:
\[\begin{equation} \label{eq58b} \mathbf{X}= \begin{bmatrix} 1 & x_{1,1} & x_{2,1}\\ 1 & x_{1,2} &x_{2,2}\\ 1 & x_{1,3} &x_{2,3}\\ 1 & x_{1,4} &x_{2,4}\\ \end{bmatrix} \end{equation}\]
La expresión dada en (\ref{eq58b}) puede generalizarse al caso con más observaciones o más regresoras. Cuando hay más regresoras en el modelo, el número de filas se incremento a un número igual al \(n\) número de observaciones y el número de columnas se incrementa a \(k\) columnas más \(1\) del vector de unos o constantes.
Ahora veamos cómo cambia la variable vectorial si se desea excluir la constante \(\alpha\) en el modelo de regresión reusltante.Para esto, sigamos con el ejemplo de 2 regresoras y 4 observaciones dado en (\ref{eq58b}):
\[\begin{equation} \label{eq59} \mathbf{X}= \begin{bmatrix} x_{1,1} & x_{2,1}\\ x_{1,2} &x_{2,2}\\ x_{1,3} &x_{2,3}\\ x_{1,4} &x_{2,4}\\ \end{bmatrix} \end{equation}\]
Ya que se definió la variable vectorial que es la matriz en donde se acomodan los datos de las regresoras, introduzcamos ahora el vector de la regresada (\(\mathbf{y}\)). Este no es más que un vector columna en donde se presentan las observaciones de la variable regresada \(y_i\):
\[\begin{equation} \label{eq60} \mathbf{y}= \begin{bmatrix} y_{1}\\ y_{2}\\ y_{3}\\ y_{4}\\ \end{bmatrix} \end{equation}\]
Conforme más observaciones se tengan en la variable regresada, mayor número de filas tendrá esta.
Ahora introduzcamos la definición del vector de coeficientes (\(\mathbf{b}\)) del modelo de regresión. El mismo es un vector columna de \((k+1)\times1\) dimensiones si se incluye el coeficiente \(\alpha\) (como el caso expuesto en (\ref{eq58b})) o de \(k\times1\) si no se incluye dicho coeficiente. Veamos el caso de este vector en donde se incluyen la \(\alpha\):
\[\begin{equation} \label{eq61} \mathbf{b}= \begin{bmatrix} \alpha\\ \beta_1\\ \beta_2 \end{bmatrix} \end{equation}\]
En este caso particular, se tiene ina dimensión de \((2+1)\times1\) por que se tienen dos regresoras (\(k=2\)) más el coeficiente \(\alpha\). Si no se va a incluir dicho coeficiente, se elimina la primera fila del vector dado en (\ref{eq61}).
Por último, al igual que existe un vetor de la variable regresada, existe su correspondiente vector de residuales (\(\mathbf{e}\)):
\[\begin{equation} \label{eq62} \mathbf{e}= \begin{bmatrix} \varepsilon_{1}\\ \varepsilon_{2}\\ \varepsilon_{3}\\ \varepsilon_{4}\\ \end{bmatrix} \end{equation}\]
Con las definiciones previas, se puede plantear el modelo en forma matricial. Veamos el caso en donde se incluye la \(\alpha\), tiene dos regresoras y cuatro observaciones:
\[\begin{equation} \label{eq63} \begin{array}{r l} y_{i} & =\alpha+\beta_1\cdot x_{1,i}+\beta_2\cdot x_{2,i}+\varepsilon_i \\ y_i & =\mathbf{y}\\ y_i & =\mathbf{X}\mathbf{b}+\mathbf{e}\\ y_i & =\begin{bmatrix} 1 & x_{1,1} & x_{2,1}\\ 1 & x_{1,2} &x_{2,2}\\ 1 & x_{1,3} &x_{2,3}\\ 1 & x_{1,4} &x_{2,4}\\ \end{bmatrix}\begin{bmatrix} \alpha\\ \beta_1\\ \beta_2 \end{bmatrix}+\begin{bmatrix} \varepsilon_{1}\\ \varepsilon_{2}\\ \varepsilon_{3}\\ \varepsilon_{4}\\ \end{bmatrix} \end{array} \end{equation}\]
Como se puede apreciar de (\ref{eq63}), el primer término de la cuarta línea (la expresión matricial) nos dice que es posible realizar esto gracias a lo que se conoce como producto interior o producto punto en la terminología de álgebra matricial. Si queremos quedarnos con la expresión matricial de valor estimado o pronosticado de la regresora (\(\hat{y}_i\)):
\[\begin{equation} \label{eq64} $$ \begin{array}{r l} \hat{y}_{i} & =\alpha+\beta_1\cdot x_{1,i}+\beta_2\cdot x_{2,i} \\ \hat{y}_i & =\mathbf{\hat{y}}\\ \hat{y}_i & =\mathbf{X}\mathbf{b}\\ \hat{y}_i & =\begin{bmatrix} 1 & x_{1,1} & x_{2,1}\\ 1 & x_{1,2} &x_{2,2}\\ 1 & x_{1,3} &x_{2,3}\\ 1 & x_{1,4} &x_{2,4}\\ \end{bmatrix}\begin{bmatrix} \alpha\\ \beta_1\\ \beta_2 \end{bmatrix} \end{array} $$ \end{equation}\]
Con estas definiciones se puede ahora establecer el cálculo matricial de los coeficientes del modelo de regresión, la suma de residuales al cuadrado (\(SRC\)) y el error estándar de la regresión (\(\sigma_{\varepsilon_i}\)), el cálculo de los errores estándar de los coeficientes (\(\sigma_{\hat{\alpha}},\sigma_{\hat{\beta_k}}\)) por medio de la matriz de covarianzas de dichos coeficientes, el coeficiente \(R^2\), el \(R^2_{\text{ajustado}}\) y el estadístico F prebiamente revisados. Veamos cada caso.
Para calcular el vector \(\mathbf{b}\) de los coeficientes del modelo de regresión (lo que permite estimarlos todos en un solo cálculo y no en \(k+1\) o \(k\) estimaciones) se tiene la siguiente expresión.:
\[\begin{equation} \label{eq65} \mathbf{b}=\left(\mathbf{X'}\mathbf{X}\right)^{-1}\left(\mathbf{X'}\mathbf{y} \right) \end{equation}\]
La demostración de la misma se da en el Apéndice B2.
Para el cálculo de la suma de residuales al cuadrado de los residuales tenemos la siguiente expresión para el ejemplo de 2 regresoras y 4 observaciones:
\[\begin{equation} \label{eq66} SRC=\mathbf{e'}\mathbf{e} \end{equation}\]
Si queremos tener la estimación de los residuales, recordemos que \(\varepsilon_i=y_i-\hat{y}_i\):
\[\begin{equation} \label{eq67} SRC=\mathbf{e'}\mathbf{e}=(\mathbf{y}-\mathbf{\hat{y}})'(\mathbf{y}-\mathbf{\hat{y}}) \end{equation}\]
Con esto podemos estimar el error estándar de los residuales:
\[\begin{equation} \label{eq68} \sigma_{\varepsilon_i}=\sqrt{\frac{SRC}{(n-k)}}=\sqrt{\frac{\mathbf{e'}\mathbf{e}}{(n-k)}} \end{equation}\]
Para poder estimar los errores estándar de los coeficientes, se ocupa la matriz de covarianzas de los coeficientes (\(\mathbf{C_b}\)). Esta es muy similar a la matriz de covarianzas explicada en (\ref{eq26}). Al igual que en la matriz de covarianzas de dos variables, se expone en la diagonal de la matriz \(\mathbf{C_b}\) las varianzas de los coeficientes. Esta diagonal es la que nos interesa en este momento ya que, al calcular la raiz cuadrade de las varianzas de la misma, se llega a los errores estándar buscados.
Dicho esto, el cálculo de la matriz de covarianzas de los coeficientes se da por:
\[\begin{equation} \label{eq69} \mathbf{C_b}=(\mathbf{X'}\mathbf{X})^{-1}\cdot \sigma_{\varepsilon_i}^2,\text{ }\sigma_{\varepsilon_i}^2=(\sigma_{\varepsilon_i})^2 \end{equation}\]
Una vex que de tiene \(\mathbf{C_b}\), se extraen los elementos de la diagonal para obtener los errores estándar de los coeficientes en la regresión. Como se puede apreciar de (\ref{eq69}), se sigue teniendo presente las dos fuentes de variabilidad que originan los errores estándar. Esto es, la variabilidad generada por la interacción de las regresoras (dada por el primer término \((\mathbf{X'}\mathbf{X})^{-1})\) en la ecuación) y la variabilidad generada porlos residuales. Esto último se estima con el error estándar de la regresión (_{_i}).
Ya que se tienen elcálculo de la suma de residuales al cuadrado (\(SRC\)), se puede utilizar la \(STC\) explicada en (\ref{eq51}), se puede expresarla misma con la siguiente expresión matricial:
\[\begin{equation} \label{eq70} STC=\sum_{i=1}^n(y_i-\bar{y}_i)^2=\mathbf{y'}\mathbf{y}-n\bar{y}_i^2 \end{equation}\]
Con esto, se puede utilizar la expresión del cálculo del coeficiente \(R^2\) dada en (\ref{eq56}):
\[\begin{equation} \label{eq71} R^2=1-\frac{SRC}{STC}=1-\frac{\sum_{i=1}^n(y_i-\hat{y}_i)^2}{\sum_{i=1}^n(y_i-\bar{y}_i)^2}=1-\frac{\mathbf{e'}\mathbf{e}}{\mathbf{y'}\mathbf{y}-n\bar{y}^2} \end{equation}\]
De esta expresión se puede lograr el coeficiente \(R_{\text{ajustado}}^2\):
\[\begin{equation} \label{eq72} R_{\text{ajustado}}^2=1-\frac{\frac{SRC}{n-k}}{\frac{STC}{n-k}}=1-\frac{\frac{\mathbf{e'}\mathbf{e}}{n-k}}{\frac{\mathbf{y'}\mathbf{y}-n\bar{y}^2}{n-k}} \end{equation}\]
Ahora definamos cómo calcular matricialmente la Suma Explicada al Cuadrado (\(SEC\)). Esta seráde utilidad para estimar el coeficiente F de la regresión:
\[\begin{equation} \label{eq73} SEC=\sum_{i=1}^n(\hat{y}_i-\bar{y}_i)^2=[(\mathbf{Xb})'\mathbf{y}]-n\bar{y}_i^2 \end{equation}\]
Recordando el método de cálculo del coeficiente F de la regresión dado en (\ref{eq58}) y se expresa ahora en su forma matricial:
\[\begin{equation} \label{eq74} $$ F=\frac{\frac{SEC}{k-1}}{\frac{STC}{n-k}}=\frac{\left[ [(\mathbf{Xb})'\mathbf{y}]-n\bar{y}_i^2 \right] \cdot(k-1)^{-1}} {[\mathbf{y'}\mathbf{y}-n\bar{y}^2]\cdot (n-k)^{-1}} $$ \end{equation}\]
Aquí se presentan algunos códigos de R
con los que se desarrollaron algunas salidas de interés en estas notas. Ejemplo de esto son la tabla de datos que se extrae de Quandl, el código de algunas de las figuras como la Figura 2.1 y análisis específicos. Se ponen los mismos para fines de que la lectora o lector le sirvan como referencia de programación para futuros trabajos.
Se presenta el código con el que se generó la Tabla 2.1:
# Se invoca la librería Quandl al ambiente de trabajo. Esto una vez instalada:
library(Quandl)
# Se invoca la librería plotly para graficar con ggplot o plotly (interactivos):
library(plotly)
# Se invoca la librería kableExtra para la presentación de tablas en línea:
library(kableExtra)
# Se inicia la sesión con la API key lograda en Quandl
Quandl.api_key("[Su API key va aquí, acuda a www.quandl.com para solicitarla]")
# Se extraen los datos del consumo ("WWDI/MEX_NE_CON_TOTL_KN") y del PIB ("WWDI/MEX_NY_GDP_MKTP_KN") de la base de datos de Quandl:
Qdataor = Quandl(c("WWDI/MEX_NE_CON_TOTL_KN",
"WWDI/MEX_NY_GDP_MKTP_KN"), # Quandl code de la Var. % del PIB de EEUU
start_date="1990-12-31", # Fecha de inicio de la extracción de los datos
end_date="2018-12-31")
colnames(Qdataor)=c("Fecha","Consumo","PIB")
# Se genera un objeto (vector) de fechas para su futura manipulación
fechas=as.Date(Qdataor[2:nrow(Qdataor),1])
# Se dgenera el objeto Qdata en donde se calcularán las variaciones porcentuales. Este objeto será el que se utilizará para los cálculos del ejemplo:
Qdataor=(log(Qdataor[2:(nrow(Qdataor)),2:3])-log(Qdataor[1:(nrow(Qdataor)-1),2:3]))*100
Qdataor=cbind(fechas,Qdataor)
# Se genera la tabla de salida con la librería KableExtra:
kable(Qdataor,caption="Tabla de datos de consumo y PIB en México. Fuente: Banco Mundial") %>%
kable_styling() %>%
scroll_box(width = "700px", height = "200px")
En este apéndice se hace la demostración de las fórmulas (\ref{eq31}) para el coeficiente \(\beta_k\) y (\ref{eq32}) para la \(\alpha\). Recordemos que el método de Mínimos Cuadrados Ordinarios (MCO) se caracteriza por buscar valores de los coeficientes \(\beta_k\) y \(\alpha\), tales que los residuales estimados(\(\varepsilon_i=y_i-\hat{y}_i\)) sean lo más pequeño posible para todos los valores de \(y_i\). Esto implica minimizar la suma de residuales al cuadrado (\(SRC=\sum_{i=1}^n(\varepsilon_i)^2=\sum_{i=1}^n(y_i-\hat{y}_i)^2\)). Esto lleva a plantear el siguiente problema de optimización (minimización):
\[\begin{equation} \label{eqb1} \text{minimizar }\sum_{i=1}^n(y_i-\hat{y}_i)^2 \end{equation}\]
Lo anterior puede expresarse como sigue:
\[\begin{equation} \label{eqb2} \text{minimizar }\sum_{i=1}^n(y_i-\alpha+\beta\cdot x_i)^2 \end{equation}\]
Dado el problema de minimización dado en (\ref{eqb2}), se procede con el procedimiento analítico habitual por medio de cálculo infinitesimal:
Dado esto, primero calcula la derivada parcial de (\ref{eqb2}) respecto a \(\alpha\) por el método de la cadena:
\[\begin{equation} \label{eqb3} \frac{\partial(\sum_{i=1}^n(y_i-\alpha+\beta\cdot x_i)^2)}{\partial\alpha}=-2\sum_{i=1}^n(y_i-\alpha-\beta\cdot x_i) \end{equation}\]
Ahora se deriva respecto a \(\beta\):
\[\begin{equation} \label{eqb4} \frac{\partial(\sum_{i=1}^n(y_i-\alpha+\beta\cdot x_i)^2)}{\partial\beta}=-2\sum_{i=1}^n(y_i-\alpha-\beta\cdot x_i)\cdot x_i \end{equation}\]
Se plantea el sistema homogéneo de ecuaciones:
\[\begin{equation} \label{eqb4b} \begin{array}{c r l} \frac{\partial(\sum_{i=1}^n(y_i-\alpha+\beta\cdot x_i)^2)}{\partial\beta}= & -2\sum_{i=1}^n(y_i-\alpha-\beta\cdot x_i) & =0\\ \frac{\partial(\sum_{i=1}^n(y_i-\alpha+\beta\cdot x_i)^2)}{\partial\alpha}= & -2\sum_{i=1}^n(y_i-\alpha-\beta\cdot x_i)\cdot x_i & =0 \end{array} \end{equation}\]
Resolvemos (\ref{eqb4}) ahora para \(\alpha\):
\[\begin{equation} \label{eqb5} \begin{array}{r l} -2\sum_{i=1}^n(y_i-\alpha-\beta\cdot x_i) & =0 \\ \frac{-2\sum_{i=1}^n(y_i-\alpha-\beta\cdot x_i)}{2} & =\frac{0}{2} \\ \sum_{i=1}^n(y_i-\alpha-\beta\cdot x_i) & =0 \\ \sum_{i=1}^n(y_i)-\sum_{i=1}^n\alpha-\sum_{i=1}^n(\beta\cdot x_i) & =0 \\ \frac{\sum_{i=1}^n(y_i)-\sum_{i=1}^n\alpha-\sum_{i=1}^n(\beta\cdot x_i)}{n} & =\frac{0}{n} \\ \frac{\sum_{i=1}^n(y_i)}{n}-\frac{n\cdot \alpha}{n}-\frac{(n\cdot\beta)\cdot\sum_{i=1}^n( x_i)}{n} & =0 \\ \frac{\sum_{i=1}^n(y_i)}{n}-\frac{n\cdot \alpha}{n}-(\frac{n\cdot \beta}{n})\cdot\frac{\sum_{i=1}^n( x_i)}{n} & =0 \\ \bar{y}_i-\alpha-\beta\cdot\bar{x}_i & =0 \\ \alpha & =\bar{y}_i-\beta\cdot\bar{x}_i \end{array} \end{equation}\]
Ahora resolvemos (\ref{eqb4}) para \(\beta\), dado el resultado anterior:
\[\begin{equation} \label{eqb6} \begin{array}{r l} -2\sum_{i=1}^n(y_i-\alpha-\beta\cdot x_i)\cdot x_i & =0 \\ \frac{-2\sum_{i=1}^n(y_i-\alpha-\beta\cdot x_i)\cdot x_i}{-2} & =\frac{0}{-12} \\ \sum_{i=1}^n(y_i-\alpha-\beta\cdot x_i)\cdot x_i & =0 \\ \sum_{i=1}^n(y_i\cdot x_i)-\sum_{i=1}^n(\alpha\cdot x_i)-\sum_{i=1}^n(\beta\cdot x_i^2) & =0 \\ \frac{\sum_{i=1}^n(y_i\cdot x_i)-\sum_{i=1}^n(\alpha\cdot x_i)-\sum_{i=1}^n(\beta\cdot x_i^2)}{n} & =0 \\ \frac{\sum_{i=1}^n(y_i\cdot x_i)}{n}-\frac{\sum_{i=1}^n(\alpha\cdot x_i)}{n}-\frac{-\sum_{i=1}^n(\beta\cdot x_i^2)}{n} & =0\\ \frac{\sum_{i=1}^n(y_i\cdot x_i)}{n}-\alpha\cdot\frac{\sum_{i=1}^n( x_i)}{n}-\beta\cdot\frac{\sum_{i=1}^n( x_i^2)}{n} & =0\\ \frac{\sum_{i=1}^n(y_i\cdot x_i)}{n}-\alpha\cdot\frac{\sum_{i=1}^n( x_i)}{n}-\beta\cdot\frac{\sum_{i=1}^n( x_i^2)}{n} & =0\\ \frac{\sum_{i=1}^n(y_i\cdot x_i)}{n}-\alpha\cdot\bar{x}_i-\beta\cdot\frac{\sum_{i=1}^n( x_i^2)}{n} & =0 \end{array} \end{equation}\]
Si sustituimos (\ref{eqb5}) en el valor de \(\alpha\) del resultado anterior:
\[\begin{equation} \label{eqb7} \begin{array}{r l} \frac{\sum_{i=1}^n(y_i\cdot x_i)}{n}-\alpha\cdot\bar{x}_i-\beta\cdot\frac{\sum_{i=1}^n( x_i^2)}{n} & =0\\ \frac{\sum_{i=1}^n(y_i\cdot x_i)}{n}-[\bar{y}_i-\beta\cdot\bar{x}_i]\cdot\bar{x}_i-\beta\cdot\frac{\sum_{i=1}^n( x_i^2)}{n} & =0\\ \frac{\sum_{i=1}^n(y_i\cdot x_i)}{n}-\bar{y}_i\cdot\bar{x}_i-\beta\cdot\bar{x}_i^2-\beta\cdot\frac{\sum_{i=1}^n( x_i^2)}{n} & =0\\ \frac{\sum_{i=1}^n(y_i\cdot x_i)}{n}-\bar{y}_i\cdot\bar{x}_i-\beta\cdot \left[\frac{\sum_{i=1}^n( x_i^2)}{n}+\bar{x}_i^2\right] & =0\\ \frac{\sum_{i=1}^n(y_i\cdot x_i)-\bar{y}_i\cdot\bar{x}_i}{n}-\beta\cdot \left[\frac{\sum_{i=1}^n( x_i^2)}{n}+\bar{x}_i^2\right] & =0\\ \frac{\sum_{i=1}^n(y_i-\bar{y}_i)\cdot(y_i-\bar{y}_i)}{n}-\beta\cdot \left[\frac{\sum_{i=1}^n( x_i^2)}{n}+\bar{x}_i^2\right] & =0\\ \frac{-\left[\frac{\sum_{i=1}^n(y_i-\bar{y}_i)\cdot(y_i-\bar{y}_i)}{n}\right] }{\left[\frac{\sum_{i=1}^n( x_i^2)}{n}+\bar{x}_i^2\right]} & =-\beta\\ \frac{\left[\frac{\sum_{i=1}^n(y_i-\bar{y}_i)\cdot(y_i-\bar{y}_i)}{n}\right] }{\left[\frac{\sum_{i=1}^n( x_i^2)}{n}+\bar{x}_i^2\right]} & =\beta \end{array} \end{equation}\]
Recordando que el numerador de (\ref{eqb7}) es lo que se define como la covarianza de \(x_i\) con \(y_i\) (\ref{eq11}) y que el denominador es la varianza de \(x_i\), se llega a:
\[\begin{equation} \label{eqb8} \beta=\frac{\sigma_{x_i,y_i}}{\sigma_{x_i}^2} \end{equation}\]
Con esto, se demuestra la validez matemática del método de cálculo de la \(\alpha\) y la \(\beta_k\) dados en (\ref{eq31}) y (\ref{eq32}).
Para llegar al método de cálculo matricial e los coeficientes del modelo de regresión dado en (\ref{eq65}), se retoma el problema de optimización (minimización) planteado en (\ref{eqb2}). El mismo se expresa de manera matricial:
\[\begin{equation} \label{eqb9} \text{minimizar }[\mathbf{y}-\mathbf{Xb}]^2 \end{equation}\]
Si se desarrolla el binomio cuadrado eprfecto dado en la expresión anerior se tiene el planteamiento como sigue:
\[\begin{equation} \label{eqb10} \text{minimizar }\mathbf{y}^2-2\mathbf{X'yb}+(\mathbf{Xb})^2 \end{equation}\]
Se sigue el procedimeinto convencional de derivar respecto a la variable de interés (\(\mathbf{b}\)) e igualar a cero para resolver la ecuación de solución:
\[\begin{equation} \label{eqb11} \frac{\partial\mathbf{y}^2-2\mathbf{X'yb}+(\mathbf{Xb})^2}{\partial\mathbf{b}}=-2\mathbf{yX}+2\mathbf{Xb}\cdot \mathbf{X}=-2\mathbf{yX}+2\mathbf{X}^2\mathbf{b} \end{equation}\] Resolviendo para \(\mathbf{b}\) se llega a:
\[\begin{equation} \label{eqb12} \begin{array}{r l} -2\mathbf{X'y}+2\mathbf{X}^2\mathbf{b}=& 0\\ \frac{-2\mathbf{X'y}+2\mathbf{X}^2\mathbf{b}}{-2}=& \frac{0}{-2}\\ \mathbf{-X'y}+\mathbf{X}^2\mathbf{b}=& 0\\ \mathbf{b}=&\frac{\mathbf{X'y}}{\mathbf{X}^2}\\ \mathbf{b}=(\mathbf{X}^{-2})\cdot (\mathbf{X'y})\\ \mathbf{b}=(\mathbf{X'X})^{-1}\cdot (\mathbf{X'y}) \end{array} \end{equation}\]
El resultado anterior es el mismo que el rpesentado en (\ref{eq65})
Baltagi, Badi. 2011. Econometrics. 5th ed. New York: Springer-Verlag Berlin Heidelberg.
Carter-Hill, R, William E Griffiths, y Lim Guay C. 2011. Principles of Econometrics. 4th ed. Hooboken: John Wiley & Sons Inc.
Colonescu, Constantin. 2016. «Principles of Econometrics with R». https://bookdown.org/ccolonescu/RPoE4/RPoE.pdf.
Gujarati, Damodar N., y Dawn C. Porter. 2010. Econometria. 5.ª ed. Mexico: Mc Graw Hill.
Keynes, John Maynard. 1936. The General Theory of Employment, Interest, and Money. Cambridge: Palgrave McMillan. https://doi.org/10.1007/978-3-319-70344-2.
Ruppert, David. 2011. Statistics and data analysys for financial engineering. Springer Berlin Heidelberg.
Theil, Henri. 1971. Principles of Econometrics. New york: John Wiley & Sons Inc.
Junto con la revisión de supuestos y errores potenciales.↩
Existen otros métodos como el método generalizado por momentos (MGM) o el de máxima verosimilitud MV. De estos, enfocaremos nuestra atención en MV en las notas que corresponden al análisis de series de tiempo. En específico cuando se ocupa la estimación de parámetros de modelos no lineales.↩
A pesar de que tratamos con datos a lo largo del tiempo, se utilizará el subíndice \(i\) para denotar cada observación en la variable. Una revisión más correcta y avanzada del modelo a correr será propia del tema de análisis de series de tiempo↩
En breve, en los siguientes sub apartados, veremos el método de cálculo tanto lineal como matricial.↩
Recuerde, de los libros y cursos de introducción a al Estadística Descriptiva que existen 4 tipos de medidas de descripción: 1.- de tendencia central (como la media aritmética o incondicional), 2.- de dispersión (como la desviación estándar), 3.- de forma (como los grados de libertad o los valorez estandarizados y 4.- de concordancia. Estas últimas determinan el nivel de concordancia (relación) que los movimientos de una variable aleatoria \(x_i\) tienen con otra \(y_i\).)↩
en donde \(x_i\) e \(y_i\) se distribuyen gaussianamente de manera conjunta.↩
Aunque se está haciendo la exposición para un sistema bivariado, la dimensión del vector de medias \(\mathbf{m}\) y la matriz de covarianzas \(\mathbf{C}\) puede incrementarse conforme la dimensión (número de variables aletorias) del sistema de variables lo hace.↩
Este supuesto de distribución elíptica se lee, comunmente, en literatura de Econometría, Bioestadística y Actuaría.↩
Si se hubiese presentado un valor de \(\rho_{x_i,y_i}=-1\), la línea bajaría de izquierda a derecha, en lugar de subir (como sucede en este caso).↩
Que son los únicos de interés para emplear aquí.↩
Dato que estamos trabajando con datos muestrales, es conveniente y apropiado utilizar la distribución t-Student aunque se tenga una muestra grande. Esto es así por que, recordando lo revisado en la literatura relativa a estadística inferencial, conforme la muestra se haga grande, los valores de la distribución t-Student se asemejan a los de una distribución de probabilidad guaussiana↩
Si observamos detenidamente y recordamos un poco, esta suma es el numerador del cálculo de la varianza: \(\sigma^2_{y_i}=[\sum_{i=1}^N(y_i-\bar{y}_i)^2]/n=STC/n\)↩