AI2UC1

setwd("~/ESTADISTICA")
library(readr)
miel <- read_csv("prommiel.csv")

## Rows: 1549 Columns: 2

## -- Column specification --------------------------------------------------------
## Delimiter: ","
## dbl (2): Volumen, Valor

## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.

View(miel)

Dispersion

Varianza

var(miel)

##           Volumen      Valor
## Volumen  14278.97   548080.1
## Valor   548080.14 21376888.6

Matriz de coeficientes de correlacion

En estadística, el coeficiente de correlación de Pearson es una medida de dependencia lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables. De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas y continuas.

cor(miel)

##           Volumen     Valor
## Volumen 1.0000000 0.9920269
## Valor   0.9920269 1.0000000

Matriz de diagramas de dispersion

pairs(miel)

## Matriz de coeficientes de correlacion

cor(miel)

##           Volumen     Valor
## Volumen 1.0000000 0.9920269
## Valor   0.9920269 1.0000000

Calculo y representacion de la recta de minimos cuadrados

El comando básico es lm (linear models). El primer argumento de este comando es una fórmula y ~ x en la que se especifica cuál es la variable respuesta o dependiente (y ) y cuál es la variable regresora o independiente (x). El segundo argumento, llamado data especifica cuál es el fichero en el que se encuentran las variables. El resultado lo guardamos en un objeto llamado regresion. Este objeto es una lista que contiene toda la información relevante sobre el análisis. Mediante el comando summary obtenemos un resumen de los principales resultados:

regresion <- lm (Valor ~ Volumen, data= miel)
summary(regresion)

## 
## Call:
## lm(formula = Valor ~ Volumen, data = miel)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6163.6  -168.9  -121.8    20.0  7667.8 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  186.117     15.677   11.87   <2e-16 ***
## Volumen       38.384      0.124  309.60   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 582.9 on 1547 degrees of freedom
## Multiple R-squared:  0.9841, Adjusted R-squared:  0.9841 
## F-statistic: 9.585e+04 on 1 and 1547 DF,  p-value: < 2.2e-16

Los parámetros de la ecuación de la recta de mínimos cuadrados que relaciona la cantidad de grasas en la sangre en función del peso vienen dados por la columna ´Estimate´ de la tabla ´Coefficients´ de la salida anterior. Por lo tanto, en este ejemplo la ecuación de la recta de mínimos cuadrados es:

\[ y = 186.117 + 38.384x \]

Representacion de la recta de minimos cuadrados

plot(miel$Volumen, miel$Valor, xlab="Volumen", ylab = "Valor")
abline(regresion)

El coeficiente de determinación (es decir, el coeficiente de correlación al cuadrado) mide la bondad del ajuste de la recta a los datos. A partir de la salida anterior, vemos que su valor en este caso es Multiple R-squared: 0.701.

Calculo de predicciones

nuevos.volumenes <- data.frame(Volumen = seq(30,50))
predict(regresion, nuevos.volumenes)

##        1        2        3        4        5        6        7        8 
## 1337.629 1376.013 1414.396 1452.780 1491.164 1529.548 1567.931 1606.315 
##        9       10       11       12       13       14       15       16 
## 1644.699 1683.083 1721.466 1759.850 1798.234 1836.618 1875.001 1913.385 
##       17       18       19       20       21 
## 1951.769 1990.153 2028.536 2066.920 2105.304

Inferencia en modelo de regresion lineal simple

La ecuacion de la recta, tiene la siguiente forma

y_i = _0 + _1 x_i + _i, i=1,,n,

donde los errores aleatorios ϵi son independientes con distribución normal de media 0 y varianza σ2 .

Bajo este modelo,

Los errores típicos de los estimadores de los parámetros β0 y β1 se encuentran en la columna Std Error de la salida anterior. En el ejemplo, sus valores son 29.638 y 0.724 respectivamente.

La columna t value contiene el estadístico t, es decir, cociente entre cada estimador y su error típico. Estos cocientes son la base para llevar a cabo los contrastes H0:β0=0 y H0:β1=0 . Los correspondientes p-valores aparecen en la columna Pr(>|t|). En este caso son muy pequeños por lo que se rechazan ambas hipótesis para los niveles de significación habituales.

El estimador de la desviación típica de los errores σ aparece como Residual standard error y su valor en el ejemplo es 43.5

Los intervalos de confianza para los parámetros se obtienen con el comando confint. El parámetro level permite elegir el nivel de confianza (por defecto es 0.95):

Intervalos de confianza

confint(regresion)

##                 2.5 %    97.5 %
## (Intercept) 155.36564 216.86758
## Volumen      38.14056  38.62692

Los intervalos de confianza para la respuesta media y los intervalos de predicción para la respuesta se pueden obtener usando el comando predict. Por ejemplo, el siguiente código calcula y representa los dos tipos de intervalos para el rango de edades que va de 20 a 60 años (los de predicción en rojo):

nuevos.Volumenes <- data.frame(Volumen = seq(0,2000))
#Grafico de dispersion y recta 
plot(miel$Volumen, miel$Valor, xlab="Volumen", ylab = "Valor")
abline(regresion)

#Intervalo de confianza de la respuesta media 

ic <- predict(regresion, nuevos.volumenes, interval = 'confidence')
lines(nuevos.volumenes$Volumen, ic[, 2], lty = 2)
lines(nuevos.volumenes$Volumen, ic[, 3], lty = 2)

#Intervalo de prediccion de la respuesta media 
# ic matriz de tres columnas: prediccion,limite inferior y el limite superior
ic <- predict(regresion, nuevos.Volumenes, interval = 'prediction')
lines(nuevos.Volumenes$Volumen, ic[, 2], lty = 2, col = "red")
lines(nuevos.Volumenes$Volumen, ic[, 3], lty = 2, col = "red")

Tabla de análisis de varianza

anova(regresion)

## Analysis of Variance Table
## 
## Response: Valor
##             Df     Sum Sq    Mean Sq F value    Pr(>F)    
## Volumen      1 3.2566e+10 3.2566e+10   95855 < 2.2e-16 ***
## Residuals 1547 5.2558e+08 3.3974e+05                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El análisis de varianza (ANOVA) puede determinar si las medias de tres o más grupos son diferentes. ANOVA utiliza la prueba F para evaluar estadísticamente la igualdad de las medias. En esta publicación, les mostraré cómo funcionan el ANOVA y la prueba F utilizando un ejemplo de ANOVA de un solo factor.

Pero, esperen un momento ¿alguna vez se han detenido a pensar por qué usarían un análisis de varianza para determinar si las medias son diferentes? También les mostraré de qué manera las varianzas proveen información sobre las medias.

Prueba F, F de Fisher La prueba F llevan el nombre de su estadística de prueba, F, que fue nombrado así en honor al científico inglés Ronald Fisher. La estadística F es simplemente un cociente de dos varianzas. Las varianzas son una medida de dispersión, es decir, qué tan dispersos están los datos con respecto a la media. Los valores más altos representan mayor dispersión.

La varianza es el cuadrado de la desviación estándar. Para nosotros los seres humanos, las desviaciones estándar son más fáciles de entender que las varianzas, porque están en las mismas unidades que los datos y no en unidades elevadas al cuadrado. Sin embargo, muchos análisis en realidad utilizan las varianzas en los cálculos.

Las estadísticas F se basan en la proporción de cuadrados medios. El término “cuadrados medios” puede parecer confuso, pero simplemente es una estimación de la varianza de la población que explica los grados de libertad (GL) utilizados para calcular esa estimación.

A pesar de ser una relación de varianzas, la prueba F se puede utilizar en una amplia variedad de situaciones. Como era de esperar, la prueba F puede evaluar la igualdad de las varianzas. Sin embargo, al cambiar las varianzas que se incluyen en la relación, la prueba F se convierte en una prueba muy flexible. Por ejemplo, las estadísticas F y las pruebas F se pueden utilizar para evaluar la significancia general de un modelo de regresión, para comparar el ajuste de diferentes modelos, para probar términos de regresión específicos y para evaluar la igualdad de las medias.

Diagnostico del modelo

Los valores ajustados ŷ i y los residuos ei=ŷ i−yi se pueden obtener con los comandos fitted y residuals respectivamente. Los residuos estandarizados se obtienen con rstandard. Por ejemplo, el siguiente código obtiene una representación de los residuos estandarizados frente a los valores ajustados, que resulta útil al llevar a cabo el diagnóstico del modelo:

residuos <- rstandard(regresion)
valores.ajustados <- fitted(regresion)
plot(valores.ajustados, residuos)

En estadística se dice que un modelo predictivo presenta homocedasticidad cuando la varianza del error condicional a las variables explicativas es constante a lo largo de las observaciones.1.

No se observa ningún patrón especial, por lo que tanto la homocedasticidad como la linealidad resultan hipótesis razonables.

¿Los datos son normales?

Grafico QQ

qqnorm(residuos)
qqline(residuos)

CONCLUSION DE LA ACTIVIDAD

En esta actividad basicamente nos pudimos dar cuenta de la poca productividad de miel y la gran importancia que son las abejas a lo que veo en el grafico QQ los datos representados son anormales, por la forma en que se ven representados en el grafico.

AI2UC1_3

Rafael Garcia Soqui

8/9/2021