Objetivo

Construir diagramas de dispersión de dos variables

Marco teórico

La dispersión de datos significa un diagrama que identifica como el grado de distanciamiento de un conjunto de valores respecto a su valor medio.

A partir de dicho concepto se puede establecer dispersión de medidas tales como rango, varianza, desviación; ahora en estos temas se asociará la dispersión en términos de covarianza y coeficiente de correlación.

Un ejemplo de una dispersión sería asociar a través de punto que son coordenadas de valores de dos variables \(x , y\).

La tabla 2 identifica valores de dos variables. La primer columna son los vendedores, la segunda columna denota el número de llamadas que hace un vendedor vía telefónica para que le adquieran un producto, y la columna tres refleja las ventas de ese vendedor.

Desarrollo

Cargar librerías

library(ggplot2)
library(readr)
library(dplyr)

Cargar funciones

Se cargan funciones que se reutilizan en el caso

source("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/Enero%20Junio%202022/funciones/f.diagramas.graficos.r", encoding = "UTF-8")

Llamadas y ventas

Datos

llamadas <- c(96, 40, 104, 128, 164, 76, 72, 80 , 36, 84, 180, 132, 120, 44, 84) 
ventas <- c(41, 41, 51, 60, 61, 29, 39, 50, 28, 43, 70, 56, 45, 31, 30)

Construir diagrama de dispersión

Se manda llamar función previamente programada en las para visualizar diagrama de dispersión

f_diag.dispersion(data.frame(llamadas, ventas))

Datos de Fifa

Datos

Se cargan datos de dirección de internet

#datos.bruto <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/Enero%20Junio%202022/datos/players_20.csv", stringsAsFactors = TRUE, encoding = "UTF-8")

Son 18278 observaciones o registros y 104 variables.

Seleccionar las variables de interés

Se seleccionan dos variables numéricas de interés, height_cm y weight_kg; se modifican los nombres de variables o columnas en el conjunto de datos y se muestran los primeros 10 y últimos 10 registros.

#datos <- datos.bruto %>%
    #select(height_cm, weight_kg)
#colnames(datos) <- c("altura", "peso")
#head(datos, 10)
#tail(datos, 10)

Se muestran los estadísticos descriptivos principales de datos

#summary(datos)

Dispersión de los datos

#f_diag.dispersion(datos)

Otros datos de ejemplo

Se solicita al alumno identificar un archivo CSV con dos variables numéricas de interés, que se puedan importar a R y construir un diagrama de dispersión con las dos variables de interés \(x, y\)

Importar datos

#Datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/fuerza%20brazo%20levantamiento%20pesas.csv", stringsAsFactors = TRUE, encoding = "UTF-8")
#str(Datos)

Variables de interés

#Datos_1 <- Datos %>%
    #select(fuerza.brazo, levantamiento)
#colnames(Datos_1) <- c("Fuerza", "Levantamiento")
#head(Datos_1, 10)
#tail(Datos_1, 10)

Descripción de los datos con summary()

#summary(Datos_1)

Diagrama de dispersión

#Datos_1 <- data.frame(Datos_1)
  #nom.x = colnames(Datos_1[1])
  #nom.y = colnames(Datos_1[2])
  #x = Datos_1[,1]
  #y = Datos_1[,2]
  
  #media.x <- round(mean(x), 4)
  #media.y <- round(mean(y), 4)
  
  #ggplot() +
    #geom_point(aes(x = x, y = y), col='blue') +
    #geom_vline(xintercept = media.x, col='red') +
    #geom_hline(yintercept = media.y, col='red') +
    #ggtitle(label = paste("Dispersión de ", nom.x, " y ", nom.y) , 
            #subtitle = paste("Media ", nom.x, " =", #media.x, 
                             #" , ", "Media ", nom.y, #"=", media.y))+
    #xlab( nom.x)+
    #ylab( nom.y)

Interpretación

¿Qué es un diagrama de dispersión? Es una representación en la cual se muestra la relación que existe entre 2 variables. ¿Cómo se interpreta un diagrama de dispersión? Mostramos la relacion entre las variables de manera grafica. ¿Que estadísticos se pueden asociar con un diagrama de dispersión? Cualquier conjunto con una relacion entre las variables # Bibliografía