Construir diagramas de dispersión de dos variables
La dispersión de datos significa un diagrama que identifica como el grado de distanciamiento de un conjunto de valores respecto a su valor medio.
A partir de dicho concepto se puede establecer dispersión de medidas tales como rango, varianza, desviación; ahora en estos temas se asociará la dispersión en términos de covarianza y coeficiente de correlación.
Un ejemplo de una dispersión sería asociar a través de punto que son coordenadas de valores de dos variables \(x , y\).
{r message=FALSE, warning=FALSE} library(ggplot2) library(readr) library(dplyr) library(DT)
Se cargan funciones que se reutilizan en el caso
{r message=FALSE, warning=FALSE} source("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/Agosto-Diciembre%202022/funciones/funciones%20para%20dispersion%20correlacion%20regresion.R", encoding = "UTF-8")
Se trata de emular las ventas que hace una empresa en razón de la cantidad de llamadas que hacen vía teléfónica sus empleados. Se construyen dos vectores, el primero denota el número de llamadas que hace un vendedor vía telefónica para que le adquieran un producto, y la columna tres refleja las ventas de ese vendedor.
llamadas <- c(96, 40, 104, 128, 164, 76, 72, 80 , 36, 84, 180, 132, 120, 44, 84)
ventas <- c(41, 41, 51, 60, 61, 29, 39, 50, 28, 43, 70, 56, 45, 31, 30)
Se manda llamar función previamente programada en las para visualizar diagrama de dispersión
f_diag.dispersion(data.frame(llamadas, ventas))
Se cargan datos de dirección de internet
datos.bruto <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/Agosto-Diciembre%202022/datos/players_20.csv", stringsAsFactors = TRUE, encoding = "UTF-8")
str(datos.bruto)
Son 18278 observaciones o registros y 104 variables.
Se seleccionan dos variables numéricas de interés, height_cm y weight_kg; se modifican los nombres de variables o columnas en el conjunto de datos y se muestran los primeros 10 y últimos 10 registros.
datos <- datos.bruto %>%
select(height_cm, weight_kg)
colnames(datos) <- c("altura", "peso")
datatable(datos, caption = "Jugadores FIFA")
Se muestran los estadísticos descriptivos principales de datos
summary(datos)
f_diag.dispersion(datos)
Se solicita al alumno identificar un archivo CSV con dos variables numéricas de interés, que se puedan importar o simular en R y construir un diagrama de dispersión con las dos variables de interés \(x, y\)

Se construye un conjunto de datos de 100 alumnos con calificaciones de asignaturas de matemáticas e inglés y se hace diagrama de dispersión
matematicas <- sort(rnorm(n = 100, mean = 80, 5))
ingles <- sort(rnorm(n = 100, mean = 80, sd = 8))
datos <- data.frame(matematicas, ingles)
datatable(datos, caption = "Calificaciones")
Las variables de interés son calificaciones de matemáticas e inglés
summary(datos)
f_diag.dispersion(datos)
Se observa que hay mucha relación entre calificaciones de matemática e inglés. Los datos fueron simulados y ordenados de menor a menor, buscando precisamente que las calificaciones bajas de matemáticas se parecieran a las calificaciones bajas de matemáticas y viceversa.

Es un conjunto de datos de las 300 mejores universades del mundo. El enlace de la descarga origen está en el portal de kaggle: https://www.kaggle.com/datasets/aneesayoub/world-universities-ranking-2022.
Aquí los datos preparados para este ejercicio
{r message=FALSE, warning=FALSE} # Local # datos_bruto <- read.csv("../datos/Top 300 universities of World.csv", encoding = "UTF-8", stringsAsFactors = TRUE) # Con url datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/Agosto-Diciembre%202022/datos/world%20ranking%20universities.csv", encoding = "UTF-8", stringsAsFactors = TRUE)
Las variables del conjunto de datos. Son 300 observaciones y 13 variables de las cuales sólo interesan dos variables: publication y ranking.
publication y publications significan la cantidad en miles de publicaciones técnico científica que produce la universidad. Es decir, resultados de investigaciones.
acceptance_num es el valor numérico de aceptación de la univesidad, en un porcentaje de 0 a 100 pero en valor numérico y no %.
El ranking y/o rank en valor numérico es la jerarquía de la universidad, el ranking con valor 1 es la más alta jerarquía.
datatable(datos, caption = "Ranking Universidades")
La estructura de los datos
str(datos)
Las variables de interés. Se seleccionan dos variables de interés: accepance_num, publications y el ranking y/o rank en valor numérico de la universidad
datos_a_visualizar <- datos %>%
select(publications, acceptance_num)
f_diag.dispersion(datos_a_visualizar)
No se detecta una tendencia del nivel de aceptación de una universidad con el número de publicaciones en la misma.
¿Que relación visual existirá el número de publicaiones con el ranking de la universidad?
¿Será que a mayor publicaciones es mejor ranking?
datos_a_visualizar <- datos %>%
select(publications, rank)
f_diag.dispersion(datos_a_visualizar)
Se observa una tendencia lineal hacia abajo, tal vez con una curva descediente, entre más publicaciones tenga la universidad, mejor ranking tiene, por ejemplo aquellas universidades que publican por encima de la media aritmética de 118153 artículos están en el top 100 del ranking a nivel mundial.
¿Qué es un diagrama de dispersión? Es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos
¿Cómo se interpreta un diagrama de dispersión? Se puede intrerpretar como si una variablen da cierto valor la otra tendra mas valor, por ejemplo entre mas altura mas peso.
¿Que estadísticos se pueden asociar con un diagrama de dispersión? Cualquier dato, como peso, estatura, calificaciones, edades, generos. temperatura, etc
¿Que representa cada diagrama de dispersión de cada ejercicios de este caso? Representa la relacion entre las variables