Regresión lineal simple
Variables correlacionadas, presión y temperatura
Presión vs Temperatura
Importar
Visualizar
- Gráfico de correlación o gráfico de pares
Temperatura (°C), Presión (kPa)
## Temperatura Presión
## 1 5 0.8721
## 2 10 1.2276
## 3 15 1.7051
## 4 20 2.3390
## 5 25 3.1690
## 6 30 4.2460
Modelar
Grado de correlación lineal
- Matriz de coeficientes de correlación
## Temperatura Presión
## Temperatura 1.0000000 0.8656424
## Presión 0.8656424 1.0000000
Cálculo y representación de la recta de mínimos cuadrados
##
## Call:
## lm(formula = Presión ~ Temperatura, data = tempre)
##
## Residuals:
## Min 1Q Median 3Q Max
## -242.32 -188.76 -47.61 151.37 597.12
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -332.894 71.164 -4.678 3.61e-05 ***
## Temperatura 6.448 0.605 10.658 5.64e-13 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 220.8 on 38 degrees of freedom
## Multiple R-squared: 0.7493, Adjusted R-squared: 0.7427
## F-statistic: 113.6 on 1 and 38 DF, p-value: 5.637e-13
- Entonces, la recta de mínimos cuadrados, sería la siguiente:
\[ y = -332.894 + 6.448 x\]
Representación gráfica de la recta
plot(tempre$Temperatura, tempre$Presión, xlab="Temperatura (°C)", ylab="Presión (kPa)")
abline(regresion)Modelación de valores
## 1 2 3 4 5 6 7
## -74.978892 -68.531010 -62.083127 -55.635244 -49.187362 -42.739479 -36.291597
## 8 9 10 11 12 13 14
## -29.843714 -23.395832 -16.947949 -10.500066 -4.052184 2.395699 8.843581
## 15 16 17 18 19 20 21
## 15.291464 21.739347 28.187229 34.635112 41.082994 47.530877 53.978760
## 22 23 24 25 26 27 28
## 60.426642 66.874525 73.322407 79.770290 86.218173 92.666055 99.113938
## 29 30 31 32 33 34 35
## 105.561820 112.009703 118.457586 124.905468 131.353351 137.801233 144.249116
## 36 37 38 39 40 41 42
## 150.696999 157.144881 163.592764 170.040646 176.488529 182.936412 189.384294
## 43 44 45 46 47 48 49
## 195.832177 202.280059 208.727942 215.175825 221.623707 228.071590 234.519472
## 50 51
## 240.967355 247.415238
Inferencia en el modelo de regresión lineal simple
Suponemos que los datos proceden de un modelo de regresión simple de la forma:
\[ y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1,\ldots,n, \]
en donde:
Los errores aleatorios \(\epsilon_i\) son independientes con distribución normal de media 0 y varianza \(\sigma^2\)
Bajo este modelo:
Los errores típicos de los estimadores de los parámetros \(\beta_0\) y \(\beta_1\) se encuentran en la columna Std Error (error estándar) de la salida anterior. Los valores son: 71.164 y 0.605 respectivamente.
Los intervalos de confianza de los parámetros se obtienen con el comando confint. El parámetro level permite elegir el nivel de confianza (por lo regular es 0.95)
## 2.5 % 97.5 %
## (Intercept) -476.95837 -188.830020
## Temperatura 5.22319 7.672575
## 10 % 90 %
## (Intercept) -425.708557 -240.0798
## Temperatura 5.658866 7.2369
¿Qué tan confiable es este modelo? Comparativa de datos reales vs datos predecidos
Los intervalos de confianza para la respuesta media y los intervalos de confianza para la respuesta se pueden obtener con el comando predict. Por ejemplo, el código a continuación estima, o calcula, y representa los dos tipos de intervalos (para el rango de temperaturas de 40 a 180 grados), los de predicción en rojo.
nuevas.temperaturas <- data.frame(Temperatura=seq(40,180))
#Gráfico de dispersión y recta
plot(tempre$Temperatura, tempre$Presión, xlab="Temperatura", ylab="Presión")
abline(regresion)
#Intervalos de confianza de la respuesta media
# ic (intervalo de confianza)
# ic es una matriz con tres columnas
#la primera es la predicción, las otras son los extremos del intervalo
ic <- predict(regresion, nuevas.temperaturas, interval="confidence")
lines(nuevas.temperaturas$Temperatura, ic[,2], lty=2) #limite inferior
lines(nuevas.temperaturas$Temperatura, ic[,3], lty=2) #limite superior
#lty = tipo de línea, formato, presentación
#Intervalos de predicción
ic <- predict(regresion, nuevas.temperaturas, interval="prediction")
lines(nuevas.temperaturas$Temperatura, ic[,2], lty=2, col="red") #limite inferior
lines(nuevas.temperaturas$Temperatura, ic[,3], lty=2, col="red") #limite superiorANOVA
Análisis de varianza
- La tabla de análisis de varianza se obtiene con el comando ANOVA
## Analysis of Variance Table
##
## Response: Presión
## Df Sum Sq Mean Sq F value Pr(>F)
## Temperatura 1 5539894 5539894 113.6 5.637e-13 ***
## Residuals 38 1853169 48768
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Conclusión
- El caso de la variables presión y temperatura, es un caso de correlación que sí implica causalidad, pues en la Ley Termodinámica de Gay Lussac, se establece que la presión de un volumen fijo de un gas, es directamente proporcional a su temperatura. El análisis desarrollado nos arroja un índice de correlación del 86.56%, en este dato pueden influir factores como el fluido con el que se está trabajando.
- Se elaboró un gráfico de pares, y una recta de mínimos cuadrados. Se hizo un análisis cuantitativo para calcular el nivel de inferencia del modelo de regresion lineal simple, con intervalos de confianza y predicción mostrados en una gráfica. (Fuera de los intervalos de confianza, el modelo no es tan bueno).
- Podemos observar como nuestro modelo de correlación lineal no es tan bueno, pues los datos reales nos arrojan un gráfico exponencial.
Investigación
Análisis de confianza
Intervalo de confianza
Un intervalo de confianza es una técnica de estimación utilizada en inferencia estadística que permite acotar un par o varios pares de valores, dentro de los cuales se encontrará la estimación puntual buscada (con una determinada probabilidad).
Un intervalo de confianza nos va a permitir calcular dos valores alrededor de una media muestral (uno superior y otro inferior). Estos valores van a acotar un rango dentro del cual, con una determinada probabilidad, se va a localizar el parámetro poblacional.
Intervalo de confianza = media +- margen de error
La estimación puntual aproxima mediante un número el valor de una característica poblacional o parámetro desconocido (la altura media de los españoles, la intención de voto a un partido en las próximas elecciones generales, el tiempo medio de ejecución de un algoritmo, el número de taxis…) pero no nos indica el error que se comete en dicha estimación.
Lo razonable, en la práctica, es adjuntar, junto a la estimación puntual del parámetro, un intervalo que mida el margen de error de la estimación. La construcción de dicho intervalo es el objetivo de la estimación por intervalos de confianza.
Un intervalo de confianza para un parámetro con un nivel de confianza \(1-\alpha\) (\(0<\alpha <1\)), es un intervalo de extremos aleatorios \((L,U)\) que, con probabilidad \(1-\alpha\), contiene al parámetro en cuestión.
\[ P\left( \text{parámetro} \in (L,U)\right)=1-\alpha. \]
Los valores más habituales del nivel de confianza \(1-\alpha\) son 0.9, 0.95 o 0.99 (la confianza es del 90%, 95% o 99%). En ocasiones también se emplea la terminología nivel de significación para el valor \(\alpha\).
En la estimación por intervalos de confianza partimos de una muestra \(x_{1},\ldots ,x_{n}\). A partir de estos valores obtenemos un intervalo numérico. Por ejemplo, podríamos hablar de que, con una confianza del 99 por ciento, la proporción de voto al partido político “Unidas Ciudadanas” está entre el 29 y el 31 por ciento. O que, con una confianza del 90 por ciento, la estatura media está entre 1.80 y 1.84.
Análisis de varianza
Modelo de Análisis de Varianza
La técnica de análisis de varianza (ANOVA) también conocida como análisis factorial y desarrollada por Fisher en 1930, constituye la herramienta básica para el estudio del efecto de uno o más factores (cada uno con dos o más niveles) sobre la media de una variable continua. Es por lo tanto el test estadístico a emplear cuando se desea comparar las medias de dos o más grupos. Esta técnica puede generalizarse también para estudiar los posibles efectos de los factores sobre la varianza de una variable.
La hipótesis nula de la que parten los diferentes tipos de ANOVA es que la media de la variable estudiada es la misma en los diferentes grupos, en contraposición a la hipótesis alternativa de que al menos dos medias difieren de forma significativa. ANOVA permite comparar múltiples medias, pero lo hace mediante el estudio de las varianzas.
El funcionamiento básico de un ANOVA consiste en calcular la media de cada uno de los grupos para a continuación comparar la varianza de estas medias (varianza explicada por la variable grupo, intervarianza) frente a la varianza promedio dentro de los grupos (la no explicada por la variable grupo, intravarianza). Bajo la hipótesis nula de que las observaciones de los distintos grupos proceden todas la misma población (tienen la misma media y varianza), la varianza ponderada entre grupos será la misma que la varianza promedio dentro de los grupos. Conforme las medias de los grupos estén más alejadas las unas de las otras, la varianza entre medias se incrementará y dejará de ser igual a la varianza promedio dentro de los grupos.
ANOVA
El nombre “análisis de varianza” se basa en el enfoque en el cual el procedimiento utiliza las varianzas para determinar si las medias son diferentes. El procedimiento funciona comparando la varianza entre las medias de los grupos y la varianza dentro de los grupos como una manera de determinar si los grupos son todos parte de una población más grande o poblaciones separadas con características diferentes.
Por ejemplo, usted diseña un experimento para evaluar la durabilidad de cuatro productos de alfombra experimentales. Usted coloca una muestra de cada tipo de alfombra en diez hogares y mide la durabilidad después de 60 días. Debido a que está examinando un factor (tipo de alfombra), usted utiliza un ANOVA de un solo factor.
Si el valor p es menor que el nivel de significancia, entonces usted concluye que al menos una media de durabilidad es diferente. Para información más detallada sobre las diferencias entre medias específicas, utilice un método de comparaciones múltiples como el de Tukey.
El nombre “análisis de varianza” se basa en el enfoque en el cual el procedimiento utiliza las varianzas para determinar si las medias son diferentes. El procedimiento funciona comparando la varianza entre las medias de los grupos y la varianza dentro de los grupos como una manera de determinar si los grupos son todos parte de una población más grande o poblaciones separadas con características diferentes.
Conclusión
- El análisis de confianza permite acotar una muestra de valores para trabajar con aquellos más cercanos a la media, e indica el margen de error.
- El análisis de la varianza permite contrastar las medias de diferentes poblaciones. Este contraste es fundamental en el análisis de resultados experimentales, en los que interesa comparar los resultados de factores con respecto a la variable dependiente o de interés.
Trabajos citados
- Amat, J. (01 de 2016). ANOVA análisis de varianza para comparar múltiples medias. Obtenido de cienciadedatos.net: https://www.cienciadedatos.net/documentos/19_anova
- Marco, F. (04 de 2020). Intervalo de confianza. Obtenido de Economipedia.com: https://economipedia.com/definiciones/intervalo-de-confianza.html
- MiniTab18. (2019). ¿Qué es ANOVA? Obtenido de Support.minitab.com: https://support.minitab.com/es-mx/minitab/18/help-and-how-to/modeling-statistics/anova/supporting-topics/basics/what-is-anova/
- Río, A. (s.f.). 7.4 Intervalos de confianza | Estadística Básica Edulcorada. Obtenido de BookDown.org: https://bookdown.org/aquintela/EBE/intervalos-de-confianza.html