Objetivo

Determinar la covarianza y correlación del conjunto de datos women.

Descripción

Se cargan los datos existentes de la función data() y específicamente los datos de women.

Se exploran los datos y estadístico descriptivos

Visualizar la dispersión de los datos con ggplot()

Determinar covarianza y correlación

Interpretación de los datos

Fundamento teórico

Covarianza

La covarianza se establece como una medida descriptiva de la asociación entre dos variables x e y. (Cita Pendiente )

La covarianza sirve para sustentar una correlación lineal entre dos variables

Fórmula de covarianza

\[ _{[1]}S_{xy} = \frac{\sum(x_i - \bar{x}) \cdot (y_i - \bar{y})}{n - 1} \]

Correlación

Fórmula de Correlación

\[ _{[2]}r = \frac{S_{xy}}{S_x \cdot S_y} \]

Desarrollo

Cargar librerías

library(ggplot2)
# library(plotly) # no se está usando
library(knitr)
library(PerformanceAnalytics) # Para coorelaciones gráficas

Cargar funciones (sinónimo de librerías)

source("https://raw.githubusercontent.com/rpizarrog/Machine-Learning-con-R/main/funciones/mis%20funciones.R")
f.saludos("Rubén")
## [1] "hola Rubén"

Cargar datos

datos <- as.data.frame(women)

Explorar los datos

summary(datos)
##      height         weight     
##  Min.   :58.0   Min.   :115.0  
##  1st Qu.:61.5   1st Qu.:124.5  
##  Median :65.0   Median :135.0  
##  Mean   :65.0   Mean   :136.7  
##  3rd Qu.:68.5   3rd Qu.:148.0  
##  Max.   :72.0   Max.   :164.0
str(datos)
## 'data.frame':    15 obs. of  2 variables:
##  $ height: num  58 59 60 61 62 63 64 65 66 67 ...
##  $ weight: num  115 117 120 123 126 129 132 135 139 142 ...

Mostrar los datos

kable(datos, caption = "Los datos de women")
Los datos de women
height weight
58 115
59 117
60 120
61 123
62 126
63 129
64 132
65 135
66 139
67 142
68 146
69 150
70 154
71 159
72 164

Visualizar la dispersión de los datos

ggplot(data = datos) +
  geom_point(aes(x = height, y = weight), col='blue')

Covarianza

cov(datos$height, datos$weight)
## [1] 69

Correlación

chart.Correlation(R = datos, histogram = TRUE)

cor(datos$height, datos$weight)
## [1] 0.9954948

Interpretación

Se observa que hay una fuerte asociación entre las variables height y weight dado que visualemente cuando aumenta una aumenta la otra.

El valor de la covarianza es de 60 es es una estadístico que refleja la asocian con entre las variables y significa determinar la dirección de la relación lineal de las variables positivo y negativo [Brenda].

El valor de correlación es por encima de 0.95 que se entiende de acuerdo a Henández Sampiere se establece que es una asociación fuerte entre las variables.