Introducción

Resultado de aprendizaje esperado

Utilizar la técnica de análisis de regresión simple con el fin de proponer un modelo que permita predecir los valores de una variable numérica con base en los valores de otra variable numérica.

Ejemplos:

  1. Predecir las ventas anuales de una tienda propuesta con base en el tamaño de la misma.

  2. Predecir la puntuación que tendrá en la prueba Saber-PRO con base en su promedio acumulado de carrera.

  3. Predecir el valor de la franquicia con base en los ingresos anuales generados.

Modelo de Regresión lineal simple

\[Y_i=\beta_0+\beta_1X_i+\epsilon_i\] donde,

\(β_0\) := intersección en Y para la población

\(β_1\) := pendiente para la población

\(ε_i\) := error aleatorio en Y para la observación i

\(Y_i\) = variable dependiente (a veces llamada variable de respuesta)

\(X_i\) = variable independiente (a veces llamada variable explicatoria)

Ejemplo

A un agente de una empresa de bienes raíces residenciales en una gran ciudad, le gustaría predecir el costo de renta mensual de los departamentos con base en el tamaño del inmueble definido por su extensión. Se seleccionó una muestra de 25 departamentos RENT en un vecindario residencial específico, y la información recabada reveló lo siguiente:

En el modelo

\[Y_i=\beta_0+\beta_1X_i+\epsilon_i\]

\(Y_i\) representa a cada observación de la variable valor de renta

\(X_i\) representa a cada observación de la variable área en pies^2

\(\beta_0\) representa el valor esperado de el valor de renta, sí el valor del área en pies^2 fuera de \(0\)

\(\beta_1\) representa el cambio en el valor de renta por cada pie^2 que aumente el área del apartamento.

\(\epsilon_i\) representa el error aleatorio del valor de renta del apartamento i

Momento de practicar

Ejercicio

Para cada uno de los enunciados, identifique las variables independiente y dependiente, y específique qué representarían \(\beta_0\), \(\beta_1\) y \(\epsilon_i\)

Enunciado 1: El valor de una franquicia deportiva se relaciona directamente con la cantidad de ingresos que la franquicia genera.Suponga que desea desarrollar un modelo de regresión lineal simple para predecir el valor de la franquicia con base en los ingresos anuales generados.

Enunciado 2: Al propietario de una casa para una sola familia en los suburbios de un condado al noreste de los Estados Unidos le gustaría desarrollar un modelo para predecir el consumo de electricidad en su casa donde todo es eléctrico (luces, ventiladores, calefacción, electrodomésticos, etcétera) con base en el promedio de la temperatura atmosférica (en grados Fahrenheit).

Ejercicio

Para cada uno de los enunciados, identifique las variables independiente y dependiente, y específique qué representarían \(\beta_0\), \(\beta_1\) y \(\epsilon_i\)

Enunciado 3: Se quiere establecer un modelo para estudiar el efecto que tiene el tamaño de la población de varias ciudades de Estados Unidos sobre las concentraciones de ozono.

Enunciado 4: Los investigadores creen que el peso magro corporal tiene una importante influencia en el nivel metabólico.

Ejercicio

Para cada uno de los enunciados, identifique las variables independiente y dependiente, y específique qué representarían \(\beta_0\), \(\beta_1\) y \(\epsilon_i\)

Enunciado 5: Se tomaron datos sobre el consumo de vino (en litros de alcohol, procedente del vino, por cada 100.000 personas) y sobre las muertes anuales por ataques al corazón (muertos por cada 100.000 personas) en 19 países desarrollados. Con el fin de establecer un modelo que permita ver si hay alguna evidencia de que tomar vino con moderación ayuda a prevenir los ataques al corazón.

Enunciado 6: La gente que tiene un cerebro mayor, ¿tiene también un coeficiente de inteligencia mayor?

Representación gráfica

Diagramas de dispersión

Cada pareja de observaciones \((x_i,y_i)\) se representa en un plano cartesiano, donde el eje horizontal representa los valores de la variable independiente y el eje vertical representa los valores de la variable dependiente.

Diagramas de dispersión

Estos son los diagramas que nos indican que podemos utilizar un modelo de regresión lineal simple para expresar la relación entre dos variables cuantitativas. En el caso del diagrama (a) la relación es directa, a medida que incrementan los valores de la variable \(X\) también aumentan los valores de la variable \(Y\). Mientras que en diagrama (b) la relación es indirecta, a medida que aumenta el valor de la variable \(X\) disminuye el valor de la variable \(Y\)

Gráfico ejemplo 1

Con los datos del ejemplo contruimos el diagrama de dispersión (desliza el cursor sobre la gráfica y podrás observar la pareja de datos a la cual corresponde cada punto).

Gráfico del ejemplo 1

Del gráfico anterior podemos decir que el valor de renta se encuentra relacionado de manera directa con el área del apartamento. A mayor área mayor el valor de renta.

Momento de practicar

Ejercicios

Construye el diagrama de dispersión para cada situación, e indica que tipo de relación parece existir entre las variables.

Enunciado 1: La preocupación por el calentamiento global ha conducido a la realización de estudios de la relación entre la temperatura global y la concentración de dióxido de carbono (CO2). A continuación se presentan las concentraciones (en partes por millón) de CO2 y las temperaturas (en °C) para diferentes años (según datos del Earth Policy Institute).

CO2 314 317 320 326 331 339 346 354 361 369
Temperatura 13.9 14.0 13.9 14.1 14.0 14.3 14.1 14.5 14.5 14.4

Ejercicios

Construye el diagrama de dispersión para cada situación, e indica que tipo de relación parece existir entre las variables.

Enunciado 2: A continuación se presentan las mediciones del tamaño del cerebro (en cm3) y las puntuaciones de CI de Wechsler de un grupo de sujetos (según datos de StatLib y “Brain Size, Head Size, and Intelligence Quotient in Monozygotic Twins”, de Tramo, et al., Neurology, vol. 50, núm. 5). ¿Parece que las personas con cerebros más grandes son más inteligentes?

Tamaño 965 1029 1030 1285 1049 1077 1037 1068 1176 1105
CI 90 85 86 102 103 97 124 125 102 114

Coeficiente de correlación

Definición

El coeficiente de correlación lineal \(r\) mide la fuerza de la relación lineal entre los valores cuantitativos pareados \(x\) y \(y\) en una muestra. El coeficiente de correlación lineal también se conoce como coeficiente de correlación producto momento de Pearson, en honor de Karl Pearson (1857-1936), quien lo desarrolló originalmente].

\[r=\frac{n\sum{xy} - \sum{x}\sum{y}}{\sqrt{n\sum{x^2}-(\sum{x})^2}\sqrt{n\sum{y^2}-(\sum{y})^2}}\]

Coeficiente de correlación ejemplo 1

Con los datos del ejemplo calculamos el coeficiente de correlación lineal de Pearson.

  1. Elevamos al cuadrado cada valor de \(X\)

  2. Elevamos al cuadrado cada valor de \(Y\)

  3. Multiplicamos cada valor de \(X\) por su correspondiente valor de \(Y\)

Como se ve en la tabla siguiente

Tabla inicial para el calculo de r

A continuación, se presentan las seis primeras filas de la tabla

Renta Renta2 Area Area2 Renta_Area
950 902500 850 722500 807500
1600 2560000 1450 2102500 2320000
1200 1440000 1085 1177225 1302000
1500 2250000 1232 1517824 1848000
950 902500 718 515524 682100
1700 2890000 1485 2205225 2524500

Continuando con el procedimiento manual

Ahora vamos a totalizar:

Cantidad Valor Cantidad Valor
\(\sum{xy}=\) 4.158371^{7} \((\sum{x})=\) 2.8473^{4}
\((\sum{y})=\) 3.466^{4} \((\sum{x})(\sum{y})=\) 9.8687418^{8}
\(\sum{x^2}=\) 3.4392915^{7} \(\sum{y^2}=\) 5.119235^{7}
\((\sum{x})^2=\) 8.1071173^{8} \((\sum{y})^2=\) 1.2013156^{9}

Continuando con el procedimiento manual

\[r=\frac{n\sum{xy} - \sum{x}\sum{y}}{\sqrt{n\sum{x^2}-(\sum{x})^2}\sqrt{n\sum{y^2}-(\sum{y})^2}}\]

Reemplazando los valores en fórmula

\[r=\frac{25(41583710) - (986874180)}{\sqrt{25(34392915)-810711729}\sqrt{25(51192350)-1201315600}}\]

Así,

\[r=0.8490978\]

Con el cual podemos decir, que la relación entre las variables Renta y Area están relacionadas positiva y moderadamente.

Momento de practicar

Ejercicios

Cálcule e interprete el valor del coeficiente de correlación para cada situación.

Enunciado 1: La preocupación por el calentamiento global ha conducido a la realización de estudios de la relación entre la temperatura global y la concentración de dióxido de carbono (CO2). A continuación se presentan las concentraciones (en partes por millón) de CO2 y las temperaturas (en °C) para diferentes años (según datos del Earth Policy Institute).

CO2 314 317 320 326 331 339 346 354 361 369
Temperatura 13.9 14.0 13.9 14.1 14.0 14.3 14.1 14.5 14.5 14.4

Ejercicios

Cálcule e interprete el valor del coeficiente de correlación para cada situación.

Enunciado 2: A continuación se presentan las mediciones del tamaño del cerebro (en cm3) y las puntuaciones de CI de Wechsler de un grupo de sujetos (según datos de StatLib y “Brain Size, Head Size, and Intelligence Quotient in Monozygotic Twins”, de Tramo, et al., Neurology, vol. 50, núm. 5). ¿Parece que las personas con cerebros más grandes son más inteligentes?

Tamaño 965 1029 1030 1285 1049 1077 1037 1068 1176 1105
CI 90 85 86 102 103 97 124 125 102 114

Recta de regresión

Definición

A partir un conjunto de datos muestrales pareados, la ecuación de regresión describe algebraicamente la relación entre las dos variables \(x\) y \(y\). La gráfica de la ecuación de regresión se denomina recta de regresión (o recta del mejor ajuste o recta de mínimos cuadrados).

\[\hat{y}=b_0+b_1x\]

Obtención de los coeficientes de la recta de regresión

Los valores de \(b_0\) y \(b_1\) se obtienien a partir de las siguientes fórmulas:

\[b_0=\frac{\sum{y}\sum{x^2}-\sum{x}\sum{xy}}{n\sum{x^2}-(\sum{x})^2}\]

\[b_1=\frac{n\sum{xy}-\sum{x}\sum{y}}{n\sum{x^2}-(\sum{x})^2}\]

En el ejemplo

Cantidad Valor Cantidad Valor
\(\sum{xy}=\) 4.158371^{7} \((\sum{x})=\) 2.8473^{4}
\((\sum{y})=\) 3.466^{4} \((\sum{x})(\sum{y})=\) 9.8687418^{8}
\(\sum{x^2}=\) 3.4392915^{7} \(\sum{y^2}=\) 5.119235^{7}
\((\sum{x})^2=\) 8.1071173^{8} \((\sum{y})^2=\) 1.2013156^{9}

\(b_0=\frac{\sum{y}\sum{x^2}-\sum{x}\sum{xy}}{n\sum{x^2}-(\sum{x})^2}=\) 163.8214484

\(b_1=\frac{n\sum{xy}-\sum{x}\sum{y}}{n\sum{x^2}-(\sum{x})^2}=\) 1.0734543

En el ejemplo

De la anterior diapositiva tenemos:

\(b_0=\frac{\sum{y}\sum{x^2}-\sum{x}\sum{xy}}{n\sum{x^2}-(\sum{x})^2}=\) 163.8214484

\(b_1=\frac{n\sum{xy}-\sum{x}\sum{y}}{n\sum{x^2}-(\sum{x})^2}=\) 1.0734543

Entonces, la ecuación de regresión sería:

\(\hat{y}=\) 163.8214484 \(+\) 1.0734543 \(x\)

A partir de estos datos, podemos suponer que el valor 163.8214484, es el valor inicial de renta y que por cada \(pie^2\) que aumente el área, la renta incrementará su valor en 1.0734543 dólares.

Momento de practicar

Ejercicios

Cálcule e interprete los valores de los coeficientes de la recta de regresión para cada enunciado.

Enunciado 1: La preocupación por el calentamiento global ha conducido a la realización de estudios de la relación entre la temperatura global y la concentración de dióxido de carbono (CO2). A continuación se presentan las concentraciones (en partes por millón) de CO2 y las temperaturas (en °C) para diferentes años (según datos del Earth Policy Institute).

CO2 314 317 320 326 331 339 346 354 361 369
Temperatura 13.9 14.0 13.9 14.1 14.0 14.3 14.1 14.5 14.5 14.4

Ejercicios

Cálcule e interprete los valores de los coeficientes de la recta de regresión para cada enunciado.

Enunciado 2: A continuación se presentan las mediciones del tamaño del cerebro (en cm3) y las puntuaciones de CI de Wechsler de un grupo de sujetos (según datos de StatLib y “Brain Size, Head Size, and Intelligence Quotient in Monozygotic Twins”, de Tramo, et al., Neurology, vol. 50, núm. 5). ¿Parece que las personas con cerebros más grandes son más inteligentes?

Tamaño 965 1029 1030 1285 1049 1077 1037 1068 1176 1105
CI 90 85 86 102 103 97 124 125 102 114

Gráfico de dispersión y recta de regresión

Presentación de la recta de regresión

(Puedes desplazar el cursor sobre los puntos y la recta)