Construir diagramas de dispersión de dos variables
La dispersión de datos significa un diagrama que identifica como el grado de distanciamiento de un conjunto de valores respecto a su valor medio.
A partir de dicho concepto se puede establecer dispersión de medidas tales como rango, varianza, desviación; ahora en estos temas se asociará la dispersión en términos de covarianza y coeficiente de correlación.
Un ejemplo de una dispersión sería asociar a través de punto que son coordenadas de valores de dos variables \(x , y\).
La tabla 2 identifica valores de dos variables. La primer columna son los vendedores, la segunda columna denota el número de llamadas que hace un vendedor vía telefónica para que le adquieran un producto, y la columna tres refleja las ventas de ese vendedor.
{r message=FALSE, warning=FALSE} library(ggplot2) library(readr) library(dplyr)
Se cargan funciones que se reutilizan en el caso
{r message=FALSE, warning=FALSE} source("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/Enero%20Junio%202022/funciones/f.diagramas.graficos.r", encoding = "UTF-8")
llamadas <- c(96, 40, 104, 128, 164, 76, 72, 80 , 36, 84, 180, 132, 120, 44, 84)
ventas <- c(41, 41, 51, 60, 61, 29, 39, 50, 28, 43, 70, 56, 45, 31, 30)
Se manda llamar función previamente programada en las para visualizar diagrama de dispersión
f_diag.dispersion(data.frame(llamadas, ventas))
Se cargan datos de dirección de internet
datos.bruto <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/Enero%20Junio%202022/datos/players_20.csv", stringsAsFactors = TRUE, encoding = "UTF-8")
str(datos.bruto)
Son 18278 observaciones o registros y 104 variables.
Se seleccionan dos variables numéricas de interés, height_cm y weight_kg; se modifican los nombres de variables o columnas en el conjunto de datos y se muestran los primeros 10 y últimos 10 registros.
datos <- datos.bruto %>%
select(height_cm, weight_kg)
colnames(datos) <- c("altura", "peso")
head(datos, 10)
tail(datos, 10)
Se muestran los estadísticos descriptivos principales de datos
summary(datos)
f_diag.dispersion(datos)
Se solicita al alumno identificar un archivo CSV con dos variables numéricas de interés, que se puedan importar a R y construir un diagrama de dispersión con las dos variables de interés \(x, y\)
Pendiente
Pendiente
Pendiente
Pendiente
¿Qué es un diagrama de dispersión?
¿Cómo se interpreta un diagrama de dispersión?
¿Que estadísticos se pueden asociar con un diagrama de dispersión?