U4A1

En esta asignación se quiere conocer el grado de asociación lineal entre dos variables. En este caso se tomó la temperatura media normal de dos Puertos distintos los cuales son Guaymas, Sonora y Mazatlán, Sinaloa del año 1971 al 2000.

Dichos datos fuerón tomados de la página Servicio Meteorológico Nacional, los cuales se pueden descargar en el siguiente hípervinculo:

xfun::embed_file("clima.xlsx")
Download clima.xlsx
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "readr", "ggplot2", "tidyr", "plotly", "DT",  "readxl")
setwd("~/VERANOPYE")
clima00 <- read_excel("clima.xlsx")
names(clima00)
## [1] "Mes"      "Guaymas"  "Mazatlan"

Se tienen 12 de datos de temperaturas de dos puertos distintos desde 1971 al 2000.

datatable(clima00)

Correlación con matriz de diagrama de dispersión

pairs(clima00)

En este gráfico se puede observar la correlación que existe entre las temperaturas de los dos Puertos.

Cuantificar el grado de relación lineal (coef. de correlación)

cor(clima00)
##                Mes   Guaymas  Mazatlan
## Mes      1.0000000 0.2421354 0.4960173
## Guaymas  0.2421354 1.0000000 0.9414310
## Mazatlan 0.4960173 0.9414310 1.0000000

La correlación entre los dos puertos es de 0.9414310 o más bien de 94.1%

Estimación y representación de la recta de mínimos cuadrados

regresion <-lm(Mazatlan ~ Guaymas, data=clima00)
summary(regresion)
## 
## Call:
## lm(formula = Mazatlan ~ Guaymas, data = clima00)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.6747 -0.8078 -0.3296  0.6623  2.1930 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  2.81226    2.54856   1.103    0.296    
## Guaymas      0.87101    0.09866   8.829 4.92e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.302 on 10 degrees of freedom
## Multiple R-squared:  0.8863, Adjusted R-squared:  0.8749 
## F-statistic: 77.94 on 1 and 10 DF,  p-value: 4.917e-06

Los parámetros de la ecuación de la recta de mínimos cuadrados que relaciona las diferentes temperaturas de dos puertos distintos en función del mes vienen dados por la columna ´Estimate´ de la tabla ´Coefficients´ de la salida anterior. Por lo tanto, en este ejemplo la ecuación de la recta de mínimos cuadrados es:

\[ y = 2.81226 + 0.87101 x \]

Los siguientes comandos representan la nube de puntos (comando plot) y añaden la representación gráfica de la recta de mínimos cuadrados (comando abline aplicado al objeto generado por lm):

plot(clima00$Guaymas, clima00$Mazatlan, xlab="Guaymas", ylab="Mazatlan")
abline(regresion)

El coeficiente de determinación (es decir, el coeficiente de correlación al cuadrado) mide la bondad del ajuste de la recta a los datos. A partir de la salida anterior, vemos que su valor en este caso es Multiple R-squared: 0.8863

Cálculo de predicciones

Supongamos que queremos utilizar la recta de mínimos cuadrados para predecir la temperaturas en Guaymas para las temperaturas 22,23,24,…,28. Basta crear un fichero de datos que contenga las nuevas variables regresoras y usar el comando predict:

nuevas.temperaturas <- data.frame(Guaymas= seq(22,28))
predict(regresion, nuevas.temperaturas)
##        1        2        3        4        5        6        7 
## 21.97457 22.84558 23.71659 24.58761 25.45862 26.32964 27.20065

Por ejemplo, la temperatura en Guaymas en el mes de Enero, predecimos que su temperatura es de 21.9