Utilizar la técnica de análisis de regresión simple con el fin de proponer un modelo que permita predecir los valores de una variable numérica con base en los valores de otra variable numérica.
Ejemplos:
Predecir las ventas anuales de una tienda propuesta con base en el tamaño de la misma.
Predecir la puntuación que tendrá en la prueba Saber-PRO con base en su promedio acumulado de carrera.
Predecir el valor de la franquicia con base en los ingresos anuales generados.
\[Y_i=\beta_0+\beta_1X_i+\epsilon_i\] donde,
\(β_0\) := intersección en Y para la población
\(β_1\) := pendiente para la población
\(ε_i\) := error aleatorio en Y para la observación i
\(Y_i\) = variable dependiente (a veces llamada variable de respuesta)
\(X_i\) = variable independiente (a veces llamada variable explicatoria)
A un agente de una empresa de bienes raíces residenciales en una gran ciudad, le gustaría predecir el costo de renta mensual de los departamentos con base en el tamaño del inmueble definido por su extensión. Se seleccionó una muestra de 25 departamentos RENT en un vecindario residencial específico, y la información recabada reveló lo siguiente:
\[Y_i=\beta_0+\beta_1X_i+\epsilon_i\]
\(Y_i\) representa a cada observación de la variable valor de renta
\(X_i\) representa a cada observación de la variable área en pies^2
\(\beta_0\) representa el valor esperado de el valor de renta, sí el valor del área en pies^2 fuera de \(0\)
\(\beta_1\) representa el cambio en el valor de renta por cada pie^2 que aumente el área del apartamento.
\(\epsilon_i\) representa el error aleatorio del valor de renta del apartamento i
Para cada uno de los enunciados, identifique las variables independiente y dependiente, y específique qué representarían \(\beta_0\), \(\beta_1\) y \(\epsilon_i\)
Enunciado 1: El valor de una franquicia deportiva se relaciona directamente con la cantidad de ingresos que la franquicia genera.Suponga que desea desarrollar un modelo de regresión lineal simple para predecir el valor de la franquicia con base en los ingresos anuales generados.
Enunciado 2: Al propietario de una casa para una sola familia en los suburbios de un condado al noreste de los Estados Unidos le gustaría desarrollar un modelo para predecir el consumo de electricidad en su casa donde todo es eléctrico (luces, ventiladores, calefacción, electrodomésticos, etcétera) con base en el promedio de la temperatura atmosférica (en grados Fahrenheit).
Para cada uno de los enunciados, identifique las variables independiente y dependiente, y específique qué representarían \(\beta_0\), \(\beta_1\) y \(\epsilon_i\)
Enunciado 3: Se quiere establecer un modelo para estudiar el efecto que tiene el tamaño de la población de varias ciudades de Estados Unidos sobre las concentraciones de ozono.
Enunciado 4: Los investigadores creen que el peso magro corporal tiene una importante influencia en el nivel metabólico.
Para cada uno de los enunciados, identifique las variables independiente y dependiente, y específique qué representarían \(\beta_0\), \(\beta_1\) y \(\epsilon_i\)
Enunciado 5: Se tomaron datos sobre el consumo de vino (en litros de alcohol, procedente del vino, por cada 100.000 personas) y sobre las muertes anuales por ataques al corazón (muertos por cada 100.000 personas) en 19 países desarrollados. Con el fin de establecer un modelo que permita ver si hay alguna evidencia de que tomar vino con moderación ayuda a prevenir los ataques al corazón.
Enunciado 6: La gente que tiene un cerebro mayor, ¿tiene también un coeficiente de inteligencia mayor?
Cada pareja de observaciones \((x_i,y_i)\) se representa en un plano cartesiano, donde el eje horizontal representa los valores de la variable independiente y el eje vertical representa los valores de la variable dependiente.
Estos son los diagramas que nos indican que podemos utilizar un modelo de regresión lineal simple para expresar la relación entre dos variables cuantitativas. En el caso del diagrama (a) la relación es directa, a medida que incrementan los valores de la variable \(X\) también aumentan los valores de la variable \(Y\). Mientras que en diagrama (b) la relación es indirecta, a medida que aumenta el valor de la variable \(X\) disminuye el valor de la variable \(Y\)
Con los datos del ejemplo contruimos el diagrama de dispersión (desliza el cursor sobre la gráfica y podrás observar la pareja de datos a la cual corresponde cada punto).
Del gráfico anterior podemos decir que el valor de renta se encuentra relacionado de manera directa con el área del apartamento. A mayor área mayor el valor de renta.
Construye el diagrama de dispersión para cada situación, e indica que tipo de relación parece existir entre las variables.
Enunciado 1: La preocupación por el calentamiento global ha conducido a la realización de estudios de la relación entre la temperatura global y la concentración de dióxido de carbono (CO2). A continuación se presentan las concentraciones (en partes por millón) de CO2 y las temperaturas (en °C) para diferentes años (según datos del Earth Policy Institute).
| CO2 | 314 | 317 | 320 | 326 | 331 | 339 | 346 | 354 | 361 | 369 |
| Temperatura | 13.9 | 14.0 | 13.9 | 14.1 | 14.0 | 14.3 | 14.1 | 14.5 | 14.5 | 14.4 |
Construye el diagrama de dispersión para cada situación, e indica que tipo de relación parece existir entre las variables.
Enunciado 2: A continuación se presentan las mediciones del tamaño del cerebro (en cm3) y las puntuaciones de CI de Wechsler de un grupo de sujetos (según datos de StatLib y “Brain Size, Head Size, and Intelligence Quotient in Monozygotic Twins”, de Tramo, et al., Neurology, vol. 50, núm. 5). ¿Parece que las personas con cerebros más grandes son más inteligentes?
| Tamaño | 965 | 1029 | 1030 | 1285 | 1049 | 1077 | 1037 | 1068 | 1176 | 1105 |
|---|---|---|---|---|---|---|---|---|---|---|
| CI | 90 | 85 | 86 | 102 | 103 | 97 | 124 | 125 | 102 | 114 |
El coeficiente de correlación lineal \(r\) mide la fuerza de la relación lineal entre los valores cuantitativos pareados \(x\) y \(y\) en una muestra. El coeficiente de correlación lineal también se conoce como coeficiente de correlación producto momento de Pearson, en honor de Karl Pearson (1857-1936), quien lo desarrolló originalmente].
\[r=\frac{n\sum{xy} - \sum{x}\sum{y}}{\sqrt{n\sum{x^2}-(\sum{x})^2}\sqrt{n\sum{y^2}-(\sum{y})^2}}\]
Con los datos del ejemplo calculamos el coeficiente de correlación lineal de Pearson.
Elevamos al cuadrado cada valor de \(X\)
Elevamos al cuadrado cada valor de \(Y\)
Multiplicamos cada valor de \(X\) por su correspondiente valor de \(Y\)
Como se ve en la tabla siguiente
A continuación, se presentan las seis primeras filas de la tabla
| Renta | Renta2 | Area | Area2 | Renta_Area |
|---|---|---|---|---|
| 950 | 902500 | 850 | 722500 | 807500 |
| 1600 | 2560000 | 1450 | 2102500 | 2320000 |
| 1200 | 1440000 | 1085 | 1177225 | 1302000 |
| 1500 | 2250000 | 1232 | 1517824 | 1848000 |
| 950 | 902500 | 718 | 515524 | 682100 |
| 1700 | 2890000 | 1485 | 2205225 | 2524500 |
Ahora vamos a totalizar:
| Cantidad | Valor | Cantidad | Valor |
|---|---|---|---|
| \(\sum{xy}=\) | 4.158371^{7} | \((\sum{x})=\) | 2.8473^{4} |
| \((\sum{y})=\) | 3.466^{4} | \((\sum{x})(\sum{y})=\) | 9.8687418^{8} |
| \(\sum{x^2}=\) | 3.4392915^{7} | \(\sum{y^2}=\) | 5.119235^{7} |
| \((\sum{x})^2=\) | 8.1071173^{8} | \((\sum{y})^2=\) | 1.2013156^{9} |
\[r=\frac{n\sum{xy} - \sum{x}\sum{y}}{\sqrt{n\sum{x^2}-(\sum{x})^2}\sqrt{n\sum{y^2}-(\sum{y})^2}}\]
Reemplazando los valores en fórmula
\[r=\frac{25(41583710) - (986874180)}{\sqrt{25(34392915)-810711729}\sqrt{25(51192350)-1201315600}}\]
Así,
\[r=0.8490978\]
Con el cual podemos decir, que la relación entre las variables Renta y Area están relacionadas positiva y moderadamente.
Cálcule e interprete el valor del coeficiente de correlación para cada situación.
Enunciado 1: La preocupación por el calentamiento global ha conducido a la realización de estudios de la relación entre la temperatura global y la concentración de dióxido de carbono (CO2). A continuación se presentan las concentraciones (en partes por millón) de CO2 y las temperaturas (en °C) para diferentes años (según datos del Earth Policy Institute).
| CO2 | 314 | 317 | 320 | 326 | 331 | 339 | 346 | 354 | 361 | 369 |
| Temperatura | 13.9 | 14.0 | 13.9 | 14.1 | 14.0 | 14.3 | 14.1 | 14.5 | 14.5 | 14.4 |
Cálcule e interprete el valor del coeficiente de correlación para cada situación.
Enunciado 2: A continuación se presentan las mediciones del tamaño del cerebro (en cm3) y las puntuaciones de CI de Wechsler de un grupo de sujetos (según datos de StatLib y “Brain Size, Head Size, and Intelligence Quotient in Monozygotic Twins”, de Tramo, et al., Neurology, vol. 50, núm. 5). ¿Parece que las personas con cerebros más grandes son más inteligentes?
| Tamaño | 965 | 1029 | 1030 | 1285 | 1049 | 1077 | 1037 | 1068 | 1176 | 1105 |
|---|---|---|---|---|---|---|---|---|---|---|
| CI | 90 | 85 | 86 | 102 | 103 | 97 | 124 | 125 | 102 | 114 |
A partir un conjunto de datos muestrales pareados, la ecuación de regresión describe algebraicamente la relación entre las dos variables \(x\) y \(y\). La gráfica de la ecuación de regresión se denomina recta de regresión (o recta del mejor ajuste o recta de mínimos cuadrados).
\[\hat{y}=b_0+b_1x\]
Los valores de \(b_0\) y \(b_1\) se obtienien a partir de las siguientes fórmulas:
\[b_0=\frac{\sum{y}\sum{x^2}-\sum{x}\sum{xy}}{n\sum{x^2}-(\sum{x})^2}\]
\[b_1=\frac{n\sum{xy}-\sum{x}\sum{y}}{n\sum{x^2}-(\sum{x})^2}\]
| Cantidad | Valor | Cantidad | Valor |
|---|---|---|---|
| \(\sum{xy}=\) | 4.158371^{7} | \((\sum{x})=\) | 2.8473^{4} |
| \((\sum{y})=\) | 3.466^{4} | \((\sum{x})(\sum{y})=\) | 9.8687418^{8} |
| \(\sum{x^2}=\) | 3.4392915^{7} | \(\sum{y^2}=\) | 5.119235^{7} |
| \((\sum{x})^2=\) | 8.1071173^{8} | \((\sum{y})^2=\) | 1.2013156^{9} |
\(b_0=\frac{\sum{y}\sum{x^2}-\sum{x}\sum{xy}}{n\sum{x^2}-(\sum{x})^2}=\) 163.8214484
\(b_1=\frac{n\sum{xy}-\sum{x}\sum{y}}{n\sum{x^2}-(\sum{x})^2}=\) 1.0734543
De la anterior diapositiva tenemos:
\(b_0=\frac{\sum{y}\sum{x^2}-\sum{x}\sum{xy}}{n\sum{x^2}-(\sum{x})^2}=\) 163.8214484
\(b_1=\frac{n\sum{xy}-\sum{x}\sum{y}}{n\sum{x^2}-(\sum{x})^2}=\) 1.0734543
Entonces, la ecuación de regresión sería:
\(\hat{y}=\) 163.8214484 \(+\) 1.0734543 \(x\)
A partir de estos datos, podemos suponer que el valor 163.8214484, es el valor inicial de renta y que por cada \(pie^2\) que aumente el área, la renta incrementará su valor en 1.0734543 dólares.
Cálcule e interprete los valores de los coeficientes de la recta de regresión para cada enunciado.
Enunciado 1: La preocupación por el calentamiento global ha conducido a la realización de estudios de la relación entre la temperatura global y la concentración de dióxido de carbono (CO2). A continuación se presentan las concentraciones (en partes por millón) de CO2 y las temperaturas (en °C) para diferentes años (según datos del Earth Policy Institute).
| CO2 | 314 | 317 | 320 | 326 | 331 | 339 | 346 | 354 | 361 | 369 |
| Temperatura | 13.9 | 14.0 | 13.9 | 14.1 | 14.0 | 14.3 | 14.1 | 14.5 | 14.5 | 14.4 |
Cálcule e interprete los valores de los coeficientes de la recta de regresión para cada enunciado.
Enunciado 2: A continuación se presentan las mediciones del tamaño del cerebro (en cm3) y las puntuaciones de CI de Wechsler de un grupo de sujetos (según datos de StatLib y “Brain Size, Head Size, and Intelligence Quotient in Monozygotic Twins”, de Tramo, et al., Neurology, vol. 50, núm. 5). ¿Parece que las personas con cerebros más grandes son más inteligentes?
| Tamaño | 965 | 1029 | 1030 | 1285 | 1049 | 1077 | 1037 | 1068 | 1176 | 1105 |
|---|---|---|---|---|---|---|---|---|---|---|
| CI | 90 | 85 | 86 | 102 | 103 | 97 | 124 | 125 | 102 | 114 |
(Puedes desplazar el cursor sobre los puntos y la recta)