1 Objetivo

Construir diagramas de dispersión de dos variables

2 Marco teórico

La dispersión de datos significa un diagrama que identifica como el grado de distanciamiento de un conjunto de valores respecto a su valor medio.

A partir de dicho concepto se puede establecer dispersión de medidas tales como rango, varianza, desviación; ahora en estos temas se asociará la dispersión en términos de covarianza y coeficiente de correlación.

Un ejemplo de una dispersión sería asociar a través de punto que son coordenadas de valores de dos variables \(x , y\).

3 Desarrollo

3.1 Cargar librerías

library(ggplot2)
library(readr)
library(dplyr)
library(DT)

3.2 Cargar funciones

Se cargan funciones que se reutilizan en el caso

source("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2023/funciones/funciones%20para%20dispersion%20correlacion%20regresion.R", encoding = "UTF-8")

3.2.1 Llamadas y ventas

3.2.1.1 Datos

Se trata de emular las ventas que hace una empresa en razón de la cantidad de llamadas que hacen vía teléfónica sus empleados. Se construyen dos vectores, el primero denota el número de llamadas que hace un vendedor vía telefónica para que le adquieran un producto, y la columna tres refleja las ventas de ese vendedor.

llamadas <- c(96, 40, 104, 128, 164, 76, 72, 80 , 36, 84, 180, 132, 120, 44, 84) 
ventas <- c(41, 41, 51, 60, 61, 29, 39, 50, 28, 43, 70, 56, 45, 31, 30)

3.2.1.2 Construir diagrama de dispersión

Se manda llamar función previamente programada en las para visualizar diagrama de dispersión

f_diag.dispersion(data.frame(llamadas, ventas))

3.2.2 Datos de FIFA

3.2.2.1 Datos

Se cargan datos de dirección de internet

datos.bruto <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2023/datos/players_20.csv", stringsAsFactors = TRUE, encoding = "UTF-8")

Son 18278 observaciones o registros y 104 variables.

3.2.2.2 Seleccionar las variables de interés

Se seleccionan dos variables numéricas de interés, height_cm y weight_kg; se modifican los nombres de variables o columnas en el conjunto de datos y se muestran los primeros 10 y últimos 10 registros.

datos <- datos.bruto %>%
    select(height_cm, weight_kg)
colnames(datos) <- c("altura", "peso")
datatable(datos, caption = "Jugadores FIFA")

Se muestran los estadísticos descriptivos principales de datos

summary(datos)
##      altura           peso       
##  Min.   :156.0   Min.   : 50.00  
##  1st Qu.:177.0   1st Qu.: 70.00  
##  Median :181.0   Median : 75.00  
##  Mean   :181.4   Mean   : 75.28  
##  3rd Qu.:186.0   3rd Qu.: 80.00  
##  Max.   :205.0   Max.   :110.00

3.2.2.3 Dispersión de los datos

f_diag.dispersion(datos)

3.2.3 Otros datos de ejemplo

Se solicita al alumno identificar un archivo CSV con dos variables numéricas de interés, que se puedan importar o simular en R y construir un diagrama de dispersión con las dos variables de interés \(x, y\)

3.2.4 Calificaciones de alumnos

Se construye un conjunto de datos de 100 alumnos con calificaciones de asignaturas de matemáticas e inglés y se hace diagrama de dispersión

matematicas <- sort(rnorm(n = 100, mean = 80, 5))
ingles <- sort(rnorm(n = 100, mean = 80, sd = 8))
datos <- data.frame(matematicas, ingles)
datatable(datos, caption = "Calificaciones")

3.2.4.1 Variables de interés

Las variables de interés son calificaciones de matemáticas e inglés

3.2.4.2 Descripción de los datos con summary()

summary(datos)
##   matematicas        ingles     
##  Min.   :67.56   Min.   :58.56  
##  1st Qu.:76.06   1st Qu.:76.19  
##  Median :78.78   Median :81.73  
##  Mean   :79.41   Mean   :81.10  
##  3rd Qu.:82.76   3rd Qu.:86.83  
##  Max.   :90.13   Max.   :98.97

3.2.4.3 Diagrama de dispersión

f_diag.dispersion(datos)

Se observa que hay mucha relación entre calificaciones de matemática e inglés. Los datos fueron simulados y ordenados de menor a menor, buscando precisamente que las calificaciones bajas de matemáticas se parecieran a las calificaciones bajas de matemáticas y viceversa.

3.2.5 Datos de ranking de Universidades

3.2.5.1 Cargar datos

Es un conjunto de datos de las 300 mejores universades del mundo. El enlace de la descarga origen está en el portal de kaggle: https://www.kaggle.com/datasets/aneesayoub/world-universities-ranking-2022.

Aquí los datos preparados para este ejercicio

datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2023/datos/world%20ranking%20universities.csv", encoding = "UTF-8", stringsAsFactors = TRUE)

Las variables del conjunto de datos. Son 300 observaciones y 13 variables de las cuales sólo interesan dos variables: publication y ranking.

  • publication y publications significan la cantidad en miles de publicaciones técnico científica que produce la universidad. Es decir, resultados de investigaciones.

  • acceptance_num es el valor numérico de aceptación de la univesidad, en un porcentaje de 0 a 100 pero en valor numérico y no %.

  • El ranking y/o rank en valor numérico es la jerarquía de la universidad, el ranking con valor 1 es la más alta jerarquía.

datatable(datos, caption = "Ranking Universidades")

3.2.5.2 Variables de interés1

Las variables de interés. Se seleccionan dos variables de interés: accepance_num, publications y el ranking y/o rank en valor numérico de la universidad

datos_a_visualizar <- datos %>%
    select(publications, acceptance_num)

3.2.5.3 Diagrama de dispersión

f_diag.dispersion(datos_a_visualizar)

No se detecta una tendencia del nivel de aceptación de una universidad con el número de publicaciones en la misma.

¿Que relación visual existirá el número de publicaiones con el ranking de la universidad?

¿Será que a mayor publicaciones es mejor ranking?

datos_a_visualizar <- datos %>%
    select(publications, rank)

3.2.5.4 Diagrama de dispersión

f_diag.dispersion(datos_a_visualizar)

Se observa una tendencia lineal hacia abajo, tal vez con una curva descediente, entre más publicaciones tenga la universidad, mejor ranking tiene, por ejemplo aquellas universidades que publican por encima de la media aritmética de 98666 artículos están en el top 100 del ranking a nivel mundial.

4 Interpretación

¿Qué es un diagrama de dispersión?

Es una herramienta que muestra de manera gráfica la dispersión de la relación entre datos de dos variables, se usa cuando se quiere conocer su comportamiento o características de alguna de las variables o de ambas variables; el hecho de que cada dato esté representado con un punto hace referencia a que tan “dispersos” están los datos y la relación en cuestión a su valor en las variables.

Cabe mencionar que aunque los datos tiendan a seguir un patrón, no necesariamente debe cumplirse en todas las relaciones de datos.

¿Cómo se interpreta un diagrama de dispersión?

La dispersión de los datos en función a dos variables y la relación que tienen o pueden tener.

¿Que estadísticos se pueden asociar con un diagrama de dispersión?

Podemos observar si existe una tendencia, o en otras palabras, qué tan fuerte es la relación de una variable respecto a otra; por ejemplo, que si una aumenta, la otra tenga la tendencia a aumentar también, y si baja, que la otra tenga la tendencia a disminuir.

¿Que representa cada diagrama de dispersión de cada ejercicios de este caso?

La relación entre dos variables, en el primero, podemos ver que con más llamadas, tiende a haber más ventas, para el segundo, vemos que entre más alto sea un jugador, tiene la tendencia a tener más peso, para el tercero, vemos que si tiende a ser bueno en matemáticas, también tiende a ser bueno en inglés, y para el último, no parece existir una relación clara entre el número de publicaciones de una universidad y la aceptación que tiene.

5 Bibliografía