Objetivo

Construir diagramas de dispersión de dos variables

Marco teórico

La dispersión de datos significa un diagrama que identifica como el grado de distanciamiento de un conjunto de valores respecto a su valor medio.

A partir de dicho concepto se puede establecer dispersión de medidas tales como rango, varianza, desviación; ahora en estos temas se asociará la dispersión en términos de covarianza y coeficiente de correlación.

Un ejemplo de una dispersión sería asociar a través de punto que son coordenadas de valores de dos variables \(x , y\).

Desarrollo

Cargar librerías

{r message=FALSE, warning=FALSE} library(ggplot2) library(readr) library(dplyr) library(DT)

Cargar funciones

Se cargan funciones que se reutilizan en el caso

{r message=FALSE, warning=FALSE} source("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/Agosto-Diciembre%202022/funciones/funciones%20para%20dispersion%20correlacion%20regresion.R", encoding = "UTF-8")

Llamadas y ventas

Datos

Se trata de emular las ventas que hace una empresa en razón de la cantidad de llamadas que hacen vía teléfónica sus empleados. Se construyen dos vectores, el primero denota el número de llamadas que hace un vendedor vía telefónica para que le adquieran un producto, y la columna tres refleja las ventas de ese vendedor.

llamadas <- c(96, 40, 104, 128, 164, 76, 72, 80 , 36, 84, 180, 132, 120, 44, 84) 
ventas <- c(41, 41, 51, 60, 61, 29, 39, 50, 28, 43, 70, 56, 45, 31, 30)

Construir diagrama de dispersión

Se manda llamar función previamente programada en las para visualizar diagrama de dispersión

f_diag.dispersion(data.frame(llamadas, ventas))

Datos de FIFA

Datos

Se cargan datos de dirección de internet

datos.bruto <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/Agosto-Diciembre%202022/datos/players_20.csv", stringsAsFactors = TRUE, encoding = "UTF-8")
str(datos.bruto)

Son 18278 observaciones o registros y 104 variables.

Seleccionar las variables de interés

Se seleccionan dos variables numéricas de interés, height_cm y weight_kg; se modifican los nombres de variables o columnas en el conjunto de datos y se muestran los primeros 10 y últimos 10 registros.

datos <- datos.bruto %>%
    select(height_cm, weight_kg)
colnames(datos) <- c("altura", "peso")
datatable(datos, caption = "Jugadores FIFA")

Se muestran los estadísticos descriptivos principales de datos

summary(datos)

Dispersión de los datos

f_diag.dispersion(datos)

Otros datos de ejemplo

Se solicita al alumno identificar un archivo CSV con dos variables numéricas de interés, que se puedan importar o simular en R y construir un diagrama de dispersión con las dos variables de interés \(x, y\)

Calificaciones de alumnos

Se construye un conjunto de datos de 100 alumnos con calificaciones de asignaturas de matemáticas e inglés y se hace diagrama de dispersión

matematicas <- sort(rnorm(n = 100, mean = 80, 5))
ingles <- sort(rnorm(n = 100, mean = 80, sd = 8))
datos <- data.frame(matematicas, ingles)
datatable(datos, caption = "Calificaciones")

Variables de interés

Las variables de interés son calificaciones de matemáticas e inglés

Descripción de los datos con summary()

summary(datos)

Diagrama de dispersión

f_diag.dispersion(datos)

Se observa que hay mucha relación entre calificaciones de matemática e inglés. Los datos fueron simulados y ordenados de menor a menor, buscando precisamente que las calificaciones bajas de matemáticas se parecieran a las calificaciones bajas de matemáticas y viceversa.

Datos de ranking de Universidades

Cargar datos

Es un conjunto de datos de las 300 mejores universades del mundo. El enlace de la descarga origen está en el portal de kaggle: https://www.kaggle.com/datasets/aneesayoub/world-universities-ranking-2022.

Aquí los datos preparados para este ejercicio

{r message=FALSE, warning=FALSE} # Local # datos_bruto <- read.csv("../datos/Top 300 universities of World.csv", encoding = "UTF-8", stringsAsFactors = TRUE) # Con url datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/Agosto-Diciembre%202022/datos/world%20ranking%20universities.csv", encoding = "UTF-8", stringsAsFactors = TRUE)

Las variables del conjunto de datos. Son 300 observaciones y 13 variables de las cuales sólo interesan dos variables: publication y ranking.

  • publication y publications significan la cantidad en miles de publicaciones técnico científica que produce la universidad. Es decir, resultados de investigaciones.

  • acceptance_num es el valor numérico de aceptación de la univesidad, en un porcentaje de 0 a 100 pero en valor numérico y no %.

  • El ranking y/o rank en valor numérico es la jerarquía de la universidad, el ranking con valor 1 es la más alta jerarquía.

datatable(datos, caption = "Ranking Universidades")

La estructura de los datos

str(datos)

Variables de interés

Las variables de interés. Se seleccionan dos variables de interés: accepance_num, publications y el ranking y/o rank en valor numérico de la universidad

datos_a_visualizar <- datos %>%
    select(publications, acceptance_num)

Diagrama de dispersión

f_diag.dispersion(datos_a_visualizar)

No se detecta una tendencia del nivel de aceptación de una universidad con el número de publicaciones en la misma.

¿Que relación visual existirá el número de publicaiones con el ranking de la universidad?

¿Será que a mayor publicaciones es mejor ranking?

datos_a_visualizar <- datos %>%
    select(publications, rank)

Diagrama de dispersión

f_diag.dispersion(datos_a_visualizar)

Se observa una tendencia lineal hacia abajo, tal vez con una curva descediente, entre más publicaciones tenga la universidad, mejor ranking tiene, por ejemplo aquellas universidades que publican por encima de la media aritmética de 118153 artículos están en el top 100 del ranking a nivel mundial.

Interpretación

¿Qué es un diagrama de dispersión? Es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos

¿Cómo se interpreta un diagrama de dispersión? Se puede intrerpretar como si una variablen da cierto valor la otra tendra mas valor, por ejemplo entre mas altura mas peso.

¿Que estadísticos se pueden asociar con un diagrama de dispersión? Cualquier dato, como peso, estatura, calificaciones, edades, generos. temperatura, etc

¿Que representa cada diagrama de dispersión de cada ejercicios de este caso? Representa la relacion entre las variables

Bibliografía