Guillermo Villarreal Gallegos

Objetivo

Identificar medidas de dispersión y visualizar datos de alumnos inscritos de una institución de educación superior.

Descripción

Cargar datos de los alumnos inscritos en el semestre Septiembre 2020-Enero 2021 y determinar medidas centrales media, mediana; encontrar medidas de dispersión varianza, desviación estándar y coeficiente de variación; visualizar datos con diagrama de cajas de alumnos por carrera y sus promedios para ubicar cuartiles, gráficas de dispersión de cada carrera y los promedios de cada alumno identificando el coeficiente de dispersión en cada conjunto de datos.

Fundamento teórico

Pendiente

¿Qué es y qué representa un diagrama de caja? ¿Qué es y qué representa un diagrama de dispersión? ¿Qué es y qué representan las medidas de localización cuartiles? ¿Qué es qué representan las medidas de dispersón varianza y desviación estándard ? ¿Qué es y qué representa el coeficiente de dispersión?

Proceso

Cargar librerías library (readr), (ggplot2), (dplyr) Cargar los datos de la dirección citada. read.csv() Genera gráfica de caja de promedios de alumnos en función de las carreras para identificar cuartiles (1 gráfica) Identificar medidas de tendencia central con histograma y líneas de sus media y mediana de cada carrera en función de los promedios (14 gráficas) Identificar varianza y desviación estándar en una gráfica de dispersión de los promedios de cada carrera (14 gráficas) Identificar el coeficiente de dispersión para cada carrera en función de los promedios Interpretación del CASO 5 Generar una descripción del caso de manera descriptiva (texto libre) de entre 180 y 200 palabras con ideas claras, ordenadas y con una descripción que explique los resultados, las gráficas mencionando cual de las carreras tiene menor dispersión (menor coeficiente de variación). Comentarios finales

1. Cargar librerías library (readr), (ggplot2), (dplyr)

library(readr)
library("dplyr")

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(ggplot2)

2. Cargar los datos de la dirección citada. read.csv()

datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/promedios%20alumnos/datos%20alumnos%20promedios%20SEP%202020.csv", encoding = "UTF-8")

Identificar los primeros seis registros

head(datos)

Identificar los últios seis registros

tail(datos)

datos

3. Genera gráfica de caja de promedios de alumnos en función de las carreras para identificar cuartiles (1 gráfica)

Se requiere library(dplyr) para utilizar las funciones filter() y select()

ggplot(filter(datos, Promedio > 0), aes(x = Carrera, y = Promedio, color= Carrera ) ) +
    geom_boxplot() +
  labs(title = "Promedios de Administración")

4. Identificar medidas de tendencia central con histograma y líneas de sus media y mediana de cada carrera en función de los promedios (14 gráficas)

Carrera de ADMINISTRACION Variables de interés es Carrera y Promedio *Se utiliza la función filter() de la librería dplyr para filtrar registros u observaciones de un conjunto de datos

administracion <- filter (datos, Promedio > 0 & Carrera == "ADMINISTRACION") 

mean(administracion$Promedio)

## [1] 89.44312

median(administracion$Promedio)

## [1] 89.605

sistemas <- filter (datos, Promedio > 0 & Carrera == "SISTEMAS") 

mean(sistemas$Promedio)

## [1] 85.90464

median(sistemas$Promedio)

## [1] 85.34

arquitectura <- filter (datos, Promedio > 0 & Carrera == "ARQUITECTURA") 

mean(arquitectura$Promedio)

## [1] 86.46481

median(arquitectura$Promedio)

## [1] 86.58

quimica <- filter (datos, Promedio > 0 & Carrera == "QUIMICA") 

mean(quimica$Promedio)

## [1] 86.05215

median(quimica$Promedio)

## [1] 85.67

ggplot(administracion, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Administración",subtitle =  paste("Media = ", round(mean(administracion$Promedio),2), ", Mediana = ", round(median(administracion$Promedio),2)))

5. Identificar varianza y desviación estándar en una gráfica de dispersión de los promedios de cada carrera (14 gráficas)

n <- nrow(administracion)
ggplot(administracion, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Administración", subtitle =  paste("Varianza = ", round(var(administracion$Promedio),2), ", DesvStd = ", round(sd(administracion$Promedio),2), ", C.V. = ",  round(sd(administracion$Promedio) / mean(administracion$Promedio) *  100, 2 )))

n <- nrow(sistemas)
ggplot(sistemas, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Sistemas", subtitle =  paste("Varianza = ", round(var(sistemas$Promedio),2), ", DesvStd = ", round(sd(sistemas$Promedio),2), ", C.V. = ",  round(sd(sistemas$Promedio) / mean(sistemas$Promedio) *  100, 2 )))

n <- nrow(arquitectura)
ggplot(arquitectura, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Arquitectura", subtitle =  paste("Varianza = ", round(var(arquitectura$Promedio),2), ", DesvStd = ", round(sd(arquitectura$Promedio),2), ", C.V. = ",  round(sd(arquitectura$Promedio) / mean(arquitectura$Promedio) *  100, 2 )))

n <- nrow(quimica)
ggplot(quimica, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de quimica", subtitle =  paste("Varianza = ", round(var(quimica$Promedio),2), ", DesvStd = ", round(sd(quimica$Promedio),2), ", C.V. = ",  round(sd(quimica$Promedio) / mean(quimica$Promedio) *  100, 2 )))

6. Determinar una tabla para todos los parámetros estadísticos solicitados

tabla <- datos %>%
    group_by (Carrera) %>%
    summarise(n = n(), media = mean(Promedio), mediana = median(Promedio), vari = var(Promedio), desvstd = sd(Promedio), cv = desvstd / media * 100)

## `summarise()` ungrouping output (override with `.groups` argument)

tabla

7. Interpretación del CASO 5

Como podemos observar en las graficas de cada una de las carreras analizadas en este caso que son Administración, Sistemas, Arquitectura y Química, podemos observar en la gráfica de dispersión como la dispersión varía de acuerdo con cada carrera. *Administración: Este es un claro ejemplo de cómo sus promedios están más condensados y no existe algún caso en este registro de promedios mucho menores a 80, tal como indica nuestra varianza que es de 12.08, con tan solo ver ese número podríamos imaginar ese comportamiento en el conjunto de datos.

*Sistemas: En el caso de sistemas podemos ver como existe una varianza mayor 17.05 y si vemos la gráfica de dispersión se observa claramente ese patrón, donde los promedios pueden ir desde muy por debajo de 80 o estar sobre el 90 y algunos casos en 95.

*Arquitectura: En esta grafica podemos ver algo curioso, que es como los promedios están agrupados en su mayoría dentro del conjunto de entre 90 y 80, pero aun así existen casos mayores y menores a dichos valores, sin ser una cantidad llamativa, podríamos concluir en que los alumnos de arquitectura tienen un nivel similar de aprovechamiento.

*Química; En química se pueden observar patrones antes vistos como en arquitectura, pero podemos notar algunas diferencias en la grafica y se debe a la cantidad de alumnos

R Notebook