CORRELACION

setwd("~/ProbYEstadistica")
library(pacman)
library(readxl)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "ggplot2", "tidyr", "plotly", "DT")
RENDIMIENTO <- read_excel("Pesquerias.xlsx")
header= TRUE
names(RENDIMIENTO)
## [1] "AÑO"    "INDICE"
datatable(RENDIMIENTO)

Correlacion con matriz de diagrama de dispesion

pairs(RENDIMIENTO, col ="blue")

En este diagrama de dispersion encontramos la puntuacion de indice de rendimiento entre los años que estan siendo estudiados, donde podemos notar como al pasar los años aumenta más el rango de estos llegando a valores muy altos.

Cuantificar el grado de relacion lineal(coef. de correlacion )

cor(RENDIMIENTO)
##              AÑO    INDICE
## AÑO    1.0000000 0.2647343
## INDICE 0.2647343 1.0000000

Estimacion y representacion de la recta de minimos cuadrados

El comando básico es lm (linear models). El primer argumento de este comando es una fórmula y ~ x en la que se especifica cuál es la variable respuesta o dependiente (y) y cuál es la variable regresora o independiente (x). El segundo argumento, llamado data especifica cuál es el fichero en el que se encuentran las variables. El resultado lo guardamos en un objeto llamado regresion. Este objeto es una lista que contiene toda la información relevante sobre el análisis. Mediante el comando summary obtenemos un resumen de los principales resultados:

regresion <- lm(INDICE  ~   AÑO, data=RENDIMIENTO )
summary(regresion)
## 
## Call:
## lm(formula = INDICE ~ AÑO, data = RENDIMIENTO)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -75.15 -40.03  -3.36  28.48 198.55 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)   
## (Intercept) -3389.5904  1209.2518  -2.803  0.00598 **
## AÑO             1.7378     0.6036   2.879  0.00479 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 51.6 on 110 degrees of freedom
## Multiple R-squared:  0.07008,    Adjusted R-squared:  0.06163 
## F-statistic:  8.29 on 1 and 110 DF,  p-value: 0.004791

En base a esto obtenemos la ecuacion de la recta de minimos cuadrados \[ y= -3389.59 + 1.734x \] Y con ello realizamos un grafico de dispersion con una linea de regresion

plot(RENDIMIENTO$AÑO, RENDIMIENTO$INDICE, xlab="Año", ylab="Indice de rendimiento", col= "darkblue" )
abline(regresion)

El coeficiente de determinación (es decir, el coeficiente de correlación al cuadrado) mide la bondad del ajuste de la recta a los datos. A partir de la salida anterior, vemos que su valor en este caso es Multiple R-squared: 0.07.

Calculo de predicciones

Suponiendo que necesitamos realizar una prediccion del rendimiento que habra en pescaderias de altura en los siguientes 4 lustros:

nuevos.rendimientos <- data.frame(AÑO= seq(2015,2035))
predict(regresion,nuevos.rendimientos)
##        1        2        3        4        5        6        7        8 
## 112.1476 113.8854 115.6233 117.3611 119.0989 120.8368 122.5746 124.3125 
##        9       10       11       12       13       14       15       16 
## 126.0503 127.7881 129.5260 131.2638 133.0016 134.7395 136.4773 138.2151 
##       17       18       19       20       21 
## 139.9530 141.6908 143.4286 145.1665 146.9043