Determinar la covarianza y correlación del conjunto de datos women.
Se cargan los datos existentes de la función data() y específicamente los datos de women.
Se exploran los datos y estadístico descriptivos
Visualizar la dispersión de los datos con ggplot()
Determinar covarianza y correlación
Interpretación de los datos
La covarianza se establece como una medida descriptiva de la asociación entre dos variables x e y. (Cita Pendiente )
La covarianza sirve para sustentar una correlación lineal entre dos variables
Fórmula de covarianza
\[ _{[1]}S_{xy} = \frac{\sum(x_i - \bar{x}) \cdot (y_i - \bar{y})}{n - 1} \]
Correlación
Fórmula de Correlación
\[ _{[2]}r = \frac{S_{xy}}{S_x \cdot S_y} \]
library(ggplot2)
# library(plotly) # no se está usando
library(knitr)
library(PerformanceAnalytics) # Para coorelaciones gráficas
source("https://raw.githubusercontent.com/rpizarrog/Machine-Learning-con-R/main/funciones/mis%20funciones.R")
f.saludos("Rubén")
## [1] "hola Rubén"
datos <- as.data.frame(women)
summary(datos)
## height weight
## Min. :58.0 Min. :115.0
## 1st Qu.:61.5 1st Qu.:124.5
## Median :65.0 Median :135.0
## Mean :65.0 Mean :136.7
## 3rd Qu.:68.5 3rd Qu.:148.0
## Max. :72.0 Max. :164.0
str(datos)
## 'data.frame': 15 obs. of 2 variables:
## $ height: num 58 59 60 61 62 63 64 65 66 67 ...
## $ weight: num 115 117 120 123 126 129 132 135 139 142 ...
kable(datos, caption = "Los datos de women")
| height | weight |
|---|---|
| 58 | 115 |
| 59 | 117 |
| 60 | 120 |
| 61 | 123 |
| 62 | 126 |
| 63 | 129 |
| 64 | 132 |
| 65 | 135 |
| 66 | 139 |
| 67 | 142 |
| 68 | 146 |
| 69 | 150 |
| 70 | 154 |
| 71 | 159 |
| 72 | 164 |
ggplot(data = datos) +
geom_point(aes(x = height, y = weight), col='blue')
cov(datos$height, datos$weight)
## [1] 69
chart.Correlation(R = datos, histogram = TRUE)
cor(datos$height, datos$weight)
## [1] 0.9954948
Se observa que hay una fuerte asociación entre las variables height y weight dado que visualemente cuando aumenta una aumenta la otra.
El valor de la covarianza es de 60 es es una estadístico que refleja la asocian con entre las variables y significa determinar la dirección de la relación lineal de las variables positivo y negativo [Brenda].
El valor de correlación es por encima de 0.95 que se entiende de acuerdo a Henández Sampiere se establece que es una asociación fuerte entre las variables.