Regreción lineal simple
gasolina.jpg
Importar datos
Los datos proporcionados en este ejericio vienen de la libreria tidyverse (mpg)
datos <- mpg
cilindros <- as.numeric(datos$displ)
millas <- as.numeric(datos$hwy)
cilmi <- data.frame(cilindros,millas)
names(cilmi)## [1] "cilindros" "millas"
Visualizar
- grafico de correlación, grafíco de pares
## cilindros millas
## 1 1.8 29
## 2 1.8 29
## 3 2.0 31
## 4 2.0 30
## 5 2.8 26
## 6 2.8 26
Modelar
Grado de correlación lineal
- Matriz de coeficientes de correlacón
## cilindros millas
## cilindros 1.00000 -0.76602
## millas -0.76602 1.00000
Cálculo y representacion de la recta de minimos y cuadrados
##
## Call:
## lm(formula = millas ~ cilindros, data = cilmi)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.1039 -2.1646 -0.2242 2.0589 15.0105
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 35.6977 0.7204 49.55 <2e-16 ***
## cilindros -3.5306 0.1945 -18.15 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.836 on 232 degrees of freedom
## Multiple R-squared: 0.5868, Adjusted R-squared: 0.585
## F-statistic: 329.5 on 1 and 232 DF, p-value: < 2.2e-16
- Entonces la recta de mínimos cuadrados, sería la siguiente:
\[ Y = 35.6977 - 3.5306 x\]
Rerecentación grafíca de la recta
Inferencia en el modelo de regreción lineal simple
supongamos que los datos proceden de un modelo de regresión simple de la forma:
\[y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1,\ldots,n, \] en donde:
Los errores aleatoreos \(\epsilon_i\) son independientes con distribución normal media 0 y varianza \(i=1,\ldots,n,\)
Bajo este modelo:
Los errores típicos de los estimadores de los parametros \(\beta_0\) y \(\beta_1\) se encuentran en la columna std error de la salidad anterior, los valores son : 29.6376 y 0.7243 respectivamente.
Los **intervalos de confianza de los parámetros* se obtienen con el comando confit. El parámetro level permite elegir el nivel de confianza (por lo regular es de 0.95)
## 2.5 % 97.5 %
## (Intercept) 34.278353 37.11695
## cilindros -3.913828 -3.14735
## 5 % 95 %
## (Intercept) 34.508001 36.88730
## cilindros -3.851818 -3.20936
¿Que tan confiable es este modelo? comparativa de datos reales vs datos predecidos
Los intervalos de confianza para la respuesta media y los intervalos de confianza para la respuesta se pueden obtener con el comando predict. Por ejemplo el código de continuación estima y representa los dos tipos de intervalos ( para el rango de edades de 20-60 años), los de predicción en rojo)
nuevo.cilindraje <- data.frame(cilindros=seq(1,6))
# grafico de dispercion y recta
plot(cilmi$cilindros, cilmi$millas, xlab = "cilindros", ylab = "millas por galon")
abline(regresion)
#intervalos de confianza de la respuesta media
#ic es una matriz con tres columnas.
# la primera es la prediccion, las otras son los extremos del intervalo
ic <- predict(regresion,nuevo.cilindraje, interval = "confidence")
lines(nuevo.cilindraje$cilindros, ic[, 2], lty =2)
lines(nuevo.cilindraje$cilindros, ic[, 3], lty =2)#Intervalo de prediccion
nuevo.cilindraje <- data.frame(cilindros=seq(1,6))
# Gráfico de dispersión y recta
plot (cilmi$cilindros, cilmi$millas, xlab = "cilindros", ylab="millas por galon")
abline(regresion)
#Intervalos de confianza de la respuesta media
# ic es una matriz con tres columnas:
#la primera es la predicción, las otras son los extremos del intervalo
ic <- predict(regresion,nuevo.cilindraje, interval = "confidence")
lines(nuevo.cilindraje$cilindros, ic[, 2], lty=2)
lines(nuevo.cilindraje$cilindros, ic[, 3], lty=2)
#Intervalos de predicción
ic <- predict(regresion,nuevo.cilindraje, interval = "prediction")
lines(nuevo.cilindraje$cilindros, ic[, 2], lty=2, col = "red")
lines(nuevo.cilindraje$cilindros, ic[, 3], lty=2, col = "red")ANOVA
- La tabla de analizis de varianza se obtiene con el comando ANOVA
## Analysis of Variance Table
##
## Response: millas
## Df Sum Sq Mean Sq F value Pr(>F)
## cilindros 1 4847.8 4847.8 329.45 < 2.2e-16 ***
## Residuals 232 3413.8 14.7
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Descripción
En este ejericio, se realizo a detalle un análisis dde la correlación de las variables, cilindraje de un auto y las millas que rinde la gasolina por galon. Como lo podemos observar al aumentar el cilindraje dara pocas millas por galon, se podria decir que es bastante obio que entre mas grande sea el motor el combustible rendira menos.y si ya que esto tiene una elacion del -73%, ¿porque negativa? por que esta es inversamente proporcinal como lo podemos ver en la graficad e puntos a manera que aumenta lax el valor de y disminuye. Como lo podemos ver nuestro modelo es bueno ya que los datos se encuentran cerca de la linea principal.
Investigación
Análisis de confianza
confianza.png
Intervalo de confianza(Un intervalo de confianza es una técnica de estimación utilizada en inferencia estadística que permite acotar un par o varios pares de valores, dentro de los cuales se encontrará la estimación puntual buscada (con una determinada probabilidad). Este nos va a permitir calcular dos valores alrededor de una media muestral (uno superior y otro inferior). Estos valores van a acotar un rango dentro del cual, con una determinada probabilidad, se va a localizar el parámetro poblacional. Intervalo de confianza = media +- margen de error)
Un intervalo de confianza para un parámetro con un nivel de confianza 1−α (0<α<1), es un intervalo de extremos aleatorios (L,U) que, con probabilidad 1−α, contiene al parámetro en cuestión.
P(parámetro∈(L,U))=1−α.
Los valores más habituales del nivel de confianza 1−α son 0.9, 0.95 o 0.99 (la confianza es del 90%, 95% o 99%). En ocasiones también se emplea la terminología nivel de significación para el valor α.
En la estimación por intervalos de confianza partimos de una muestra x1,…,xn. A partir de estos valores obtenemos un intervalo numérico. Por ejemplo, podríamos hablar de que, con una confianza del 99 por ciento, la proporción de voto al partido político “Unidas Ciudadanas” está entre el 29 y el 31 por ciento. O que, con una confianza del 90 por ciento, la estatura media está entre 1.80 y 1.84.
ANOVA
anova.png
Un análisis de varianza (ANOVA) prueba la hipótesis de que las medias de dos o más poblaciones son iguales. Los ANOVA evalúan la importancia de uno o más factores al comparar las medias de la variable de respuesta en los diferentes niveles de los factores. La hipótesis nula establece que todas las medias de la población (medias de los niveles de los factores) son iguales mientras que la hipótesis alternativa establece que al menos una es diferente. El nombre “análisis de varianza” se basa en el enfoque en el cual el procedimiento utiliza las varianzas para determinar si las medias son diferentes. El procedimiento funciona comparando la varianza entre las medias de los grupos y la varianza dentro de los grupos como una manera de determinar si los grupos son todos parte de una población más grande o poblaciones separadas con características diferentes.
Bibliografia
santiago. (2005). Intervalos de Confianza. 2020, de sielo Sitio web: https://scielo.conicyt.cl/scielo.php?script=sci_arttext&pid=S0034-98872005000900017
Joaquín Amat Rodrigo. (ANOVA análisis de varianza para comparar múltiples medias). 2016. 2020, de desconocida Sitio web: https://www.cienciadedatos.net/documentos/19_anova