U1A10
Regresión lineal simple
Importar
Datos
Cobaya mordiendo un trozo de vegatal.
- Se tienen los datos de 60 cobayas a los cuales se les proporcionó Vitamina C en dos métodos distintos, ambos en mg por día y que les fueron recolectados los datos que expresan el crecimiento visto es sus dientes.
Cobayas Tamaño...mm Método Dosis
1 1 4.2 VC 0.5
2 2 11.5 VC 0.5
3 3 7.3 VC 0.5
4 4 5.8 VC 0.5
5 5 6.4 VC 0.5
6 6 10.0 VC 0.5
7 7 11.2 VC 0.5
8 8 11.2 VC 0.5
9 9 5.2 VC 0.5
10 10 7.0 VC 0.5
11 11 16.5 VC 1.0
12 12 16.5 VC 1.0
13 13 15.2 VC 1.0
14 14 17.3 VC 1.0
15 15 22.5 VC 1.0
16 16 17.3 VC 1.0
17 17 13.6 VC 1.0
18 18 14.5 VC 1.0
[ reached 'max' / getOption("max.print") -- omitted 42 rows ]
Transformar
- En este caso se extraen los datos que pueden resultar más importantes para saber si existe correlación entre el tamaño de la dósis proporcionada y el tamaño de los dientes de las cobayas.
tamaño <- as.numeric(dientes$Tamaño...mm)
dosis <- as.numeric(dientes$Dosis)
crecimiento <- data.frame(dosis, tamaño)- Gráfico de correlación, gráfico de pares
dosis tamaño
1 0.5 4.2
2 0.5 11.5
3 0.5 7.3
4 0.5 5.8
5 0.5 6.4
6 0.5 10.0
Modelar
Grado de correlación lineal
- Matriz de coeficientes de correlación:
dosis tamaño
dosis 1.0000000 0.8026913
tamaño 0.8026913 1.0000000
Cálculo y representación de la recta de mínimos cuadrados
- La sintaxis requerida para este código, consiste en insertar la variable que está en función de otra (y ~ x), mientras que data = nombreVariable es la parte donde se le indica a R de que variabla de datos está sacando la información.
#Se construye un modelo con los datos proporcionados.
regresion <- lm(tamaño ~ dosis, data=crecimiento)
summary (regresion)
Call:
lm(formula = tamaño ~ dosis, data = crecimiento)
Residuals:
Min 1Q Median 3Q Max
-8.4496 -2.7406 -0.7452 2.8344 10.1139
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.4225 1.2601 5.89 2.06e-07 ***
dosis 9.7636 0.9525 10.25 1.23e-14 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 4.601 on 58 degrees of freedom
Multiple R-squared: 0.6443, Adjusted R-squared: 0.6382
F-statistic: 105.1 on 1 and 58 DF, p-value: 1.233e-14
- Entonces, la recta de mínimos cuadrados, sería la siguiente:
\[ y = 7.4225 + 9.7636 x \] ### Representación gráfica de la recta
#Se realiza la gráfica que permite observar el como la recta del modelo construido se ajusta
#los datos proporcionados.
plot(crecimiento$dosis, crecimiento$tamaño,xlab = "Dósis", ylab = "Tamaño")
abline(regresion) ### Modelación de valores
#Se utiliza el modelo construido para predecir los valores que se tienen en el intervalo dado.
nuevas_dosis <- data.frame(dosis = seq (0.2, 0.4, by = 0.01))
predict(regresion, nuevas_dosis) 1 2 3 4 5 6 7 8
9.375214 9.472850 9.570486 9.668121 9.765757 9.863393 9.961029 10.058664
9 10 11 12 13 14 15 16
10.156300 10.253936 10.351571 10.449207 10.546843 10.644479 10.742114 10.839750
17 18 19 20 21
10.937386 11.035021 11.132657 11.230293 11.327929
Inferencia en el modelo de regresión lineal simple
Suponemos que los datos proceden de un modelo de regresión simple de la forma: \[y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1,\ldots,n,\] en donde:
Los errores aleatorios \(\epsilon_i\) son independientes con distribución normal de media 0 y varianza \(\sigma^2\)
Bajo este modelo:
Los errores típicos de los estimadores de los parámetros \(\beta_0\) y \(\beta_1\) se encuentran en la columna std Error de la salida anterior. Los valores son: 1.2106 y 0.9525 respectivamente.
Los intervalos de confianza de los parámetros se obtienen con el comando confint. El parámetro level permite elegir el nivel de confianza (por lo regular es 0.95)
2.5 % 97.5 %
(Intercept) 4.900171 9.944829
dosis 7.856870 11.670273
¿Qué tan confiable es este modelo? Comparativa de datos reales vs datos predecidos
Los intervalos de confianza para la respuesta media y los intervalos de confianza para
#Se utiliza el modelo construido para predecir los valores que se tienen en el intervalo dado.
nuevas_dosis <- data.frame(dosis = seq (0.5, 4.0, by = 0.1))
#Gráfico de dispersión y recta
plot(crecimiento$dosis, crecimiento$tamaño,xlab = "Dósis", ylab = "Tamaño")
abline(regresion)
#Intervalos de confianza de la respuesta media
# IC es una matriz con 3 columnas.
#La primera es la predicción, las otras son los límites.
ic <- predict(regresion, nuevas_dosis, interval = "confidence")
lines(nuevas_dosis$dosis, ic[, 2], lty=2)
lines(nuevas_dosis$dosis, ic[, 3], lty=3)
#Intervalos de predicción
ic <- predict(regresion, nuevas_dosis, interval = "prediction")
lines(nuevas_dosis$dosis, ic[, 2], lty=2, col="red")
lines(nuevas_dosis$dosis, ic[, 3], lty=3, col="red")Anova
- La tabla de análisis de varianza se obtiene con el comando ANOVA
Analysis of Variance Table
Response: tamaño
Df Sum Sq Mean Sq F value Pr(>F)
dosis 1 2224.3 2224.30 105.06 1.233e-14 ***
Residuals 58 1227.9 21.17
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Conceptos investigados
El Intervalo de confianza se refiere al margen que existe en el cual el modelo realizado tiene valores en los cuales se apega a ciertos valores esperados, por lo cual al ser un margen, este posee un valor máximo y un valor mínimo.
Anova es la forma en que se conoce al análisis de varianza y su función es comprobar las medias de las distintas variable que eintervienen en el estudio. La hipótesis nula es cuando las medias de dos variables son iguales, contrastando con la hipótesis alternativa, en la cual se establece que la media de al menos una variable es diferente.
El funcionamiento básico de un ANOVA consiste en calcular la media de cada uno de los grupos para a continuación comparar la varianza de estas medias (varianza explicada por la variable grupo, intervarianza) frente a la varianza promedio dentro de los grupos (la no explicada por la variable grupo, intravarianza). Bajo la hipótesis nula de que las observaciones de los distintos grupos proceden todas la misma población (tienen la misma media y varianza), la varianza ponderada entre grupos será la misma que la varianza promedio dentro de los grupos. Conforme las medias de los grupos estén más alejadas las unas de las otras, la varianza entre medias se incrementará y dejará de ser igual a la varianza promedio dentro de los grupos.
Redacción personal
Al ser esta una continuación de la práctica anterior, se tiene establecido que existe una correlación entre los datos presentados, siendos estos la dosis de vitamina C que les es administradas a cierto número de Cobayas y la longitud de sus dientes. Con eso, puede notarse que el intervalo de confianza, donde los datos del modelo se ajustan a los valores que se desaean, no abarca la mayoría de ellos. Sin embargo, si se encuentran en el margen de las predicciones realizadas, con la excepción de unos pocos valores que podrían ser considerados como atípicos.
Referencias
Sanjuán, F. J. M. (2020, 28 abril). Intervalo de confianza. Economipedia. https://economipedia.com/definiciones/intervalo-de-confianza.html
¿Qué es ANOVA? - Minitab. (s. f.). (C) Minitab, LLC. All rights Reserved. 2019. https://support.minitab.com/es-mx/minitab/18/help-and-how-to/modeling-statistics/anova/supporting-topics/basics/what-is-anova/
Rodrigo J. A. (2016) Idea intuitiva del ANOVA. Ciencia de Datos. Recuperado de: https://www.cienciadedatos.net/documentos/19_anova
¿Cómo realizar el ANOVA de una vía en R? (2019, 20 diciembre). Máxima Formación. https://www.maximaformacion.es/blog-dat/como-realizar-el-anova-de-una-via-en-r/
Anónimo. (2020) La Cobaya y la Vitamina C. Ateuves. Recuperado de: https://ateuves.es/la-cobaya-y-la-vitamina-c/
Anónimo. (2013) Las cobayas y la vitamina C. Cobayas. Recuperado de: https://www.cobayas.org/2013/06/las-cobayas-y-la-vitamina-c/