CORRELACION
- Impotar paquetes y definir folder de trabajo
setwd("~/ProbYEstadistica")
library(pacman)
library(readxl)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "ggplot2", "tidyr", "plotly", "DT")- Importar datos
## [1] "AÑO" "INDICE"
- Descripcion de datos Se estan tomando 112 datos sobre el rendimiento relativo de pescaderias de altura entre los años de 1990 a 2017 como muestra.
Correlacion con matriz de diagrama de dispesion
En este diagrama de dispersion encontramos la puntuacion de indice de rendimiento entre los años que estan siendo estudiados, donde podemos notar como al pasar los años aumenta más el rango de estos llegando a valores muy altos.
Cuantificar el grado de relacion lineal(coef. de correlacion )
## AÑO INDICE
## AÑO 1.0000000 0.2647343
## INDICE 0.2647343 1.0000000
Estimacion y representacion de la recta de minimos cuadrados
El comando básico es lm (linear models). El primer argumento de este comando es una fórmula y ~ x en la que se especifica cuál es la variable respuesta o dependiente (y) y cuál es la variable regresora o independiente (x). El segundo argumento, llamado data especifica cuál es el fichero en el que se encuentran las variables. El resultado lo guardamos en un objeto llamado regresion. Este objeto es una lista que contiene toda la información relevante sobre el análisis. Mediante el comando summary obtenemos un resumen de los principales resultados:
##
## Call:
## lm(formula = INDICE ~ AÑO, data = RENDIMIENTO)
##
## Residuals:
## Min 1Q Median 3Q Max
## -75.15 -40.03 -3.36 28.48 198.55
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -3389.5904 1209.2518 -2.803 0.00598 **
## AÑO 1.7378 0.6036 2.879 0.00479 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 51.6 on 110 degrees of freedom
## Multiple R-squared: 0.07008, Adjusted R-squared: 0.06163
## F-statistic: 8.29 on 1 and 110 DF, p-value: 0.004791
En base a esto obtenemos la ecuacion de la recta de minimos cuadrados \[ y= -3389.59 + 1.734x \] Y con ello realizamos un grafico de dispersion con una linea de regresion
plot(RENDIMIENTO$AÑO, RENDIMIENTO$INDICE, xlab="Año", ylab="Indice de rendimiento", col= "darkblue" )
abline(regresion)El coeficiente de determinación (es decir, el coeficiente de correlación al cuadrado) mide la bondad del ajuste de la recta a los datos. A partir de la salida anterior, vemos que su valor en este caso es Multiple R-squared: 0.07.
Calculo de predicciones
Suponiendo que necesitamos realizar una prediccion del rendimiento que habra en pescaderias de altura en los siguientes 4 lustros:
## 1 2 3 4 5 6 7 8
## 112.1476 113.8854 115.6233 117.3611 119.0989 120.8368 122.5746 124.3125
## 9 10 11 12 13 14 15 16
## 126.0503 127.7881 129.5260 131.2638 133.0016 134.7395 136.4773 138.2151
## 17 18 19 20 21
## 139.9530 141.6908 143.4286 145.1665 146.9043