Caso 5 Medidas de dispersión. VARIANZA, DESVIACION Y COEFICIENTE DE VARIACION

Objetivo

Identificar medidas de dispersión y visualizar datos de alumnos inscritos de una institución de educación superior.

Descripción

Cargar datos de los alumnos inscritos en el semestre Septiembre 2020-Enero 2021 y determinar medidas centrales media, mediana; encontrar medidas de dispersión varianza, desviación estándar y coeficiente de variación; visualizar datos con diagrama de cajas de alumnos por carrera y sus promedios para ubicar cuartiles, gráficas de dispersión de cada carrera y los promedios de cada alumno identificando el coeficiente de dispersión en cada conjunto de datos.

Fundamento teórico

Pendiente
  • ¿Qué es y qué representa un diagrama de caja?
  • ¿Qué es y qué representa un diagrama de dispersión?
  • ¿Qué es y qué representan las medidas de localización cuartiles?
  • ¿Qué es qué representan las medidas de dispersón varianza y desviación estándard ?
  • ¿Qué es y qué representa el coeficiente de dispersión?

Proceso

  • 1.-Cargar librerías library (readr), (ggplot2), (dplyr)
  • 2.-Cargar los datos de la dirección citada. read.csv()
  • 3.-Genera gráfica de caja de promedios de alumnos en función de las carreras para * identificar cuartiles (1 gráfica)
  • 4.-Identificar medidas de tendencia central con histograma y líneas de sus media y mediana de cada carrera en función de los promedios (14 gráficas)
  • 5.-Identificar varianza y desviación estándar en una gráfica de dispersión de los promedios de cada carrera (14 gráficas)
  • 6.-Identificar el coeficiente de dispersión para cada carrera en función de los promedios
  • 7.-Interpretación del CASO 5
    • Generar una descripción del caso de manera descriptiva (texto libre) de entre 180 y 200 palabras con ideas claras, ordenadas y con una descripción que explique los resultados, las gráficas mencionando cual de las carreras tiene menor dispersión (menor coeficiente de variación).
    • Comentarios finales

install.packages(“dplyr”) ### Cargar librerías library (readr), (ggplot2), (dplyr)

library(readr)
library(dplyr)    # install.packages("dplyr")
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)

2. Cargar los datos de la dirección citada. read.csv()

datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/promedios%20alumnos/datos%20alumnos%20promedios%20SEP%202020.csv", encoding = "UTF-8")
  • Identificar los primeros seis registros
  • Identificar los últios seis registros
head(datos)
##   No..Control Alumno Semestre Cr..Apr. Carga Promedio  Carrera
## 1    20190001      1       11      198    19    80.21 SISTEMAS
## 2    20190002      2       11      235    10    84.33 SISTEMAS
## 3    20190003      3        9      235    10    95.25 SISTEMAS
## 4    20190004      4        9      226    19    95.00 SISTEMAS
## 5    20190005      5       10      231    14    82.32 SISTEMAS
## 6    20190006      6        9      212    23    95.02 SISTEMAS
tail(datos)
##      No..Control Alumno Semestre Cr..Apr. Carga Promedio        Carrera
## 5924    20195924   5924        2       27    28    92.83 ADMINISTRACION
## 5925    20195925   5925        7       94    13    80.95 ADMINISTRACION
## 5926    20195926   5926        5      103    32    92.68 ADMINISTRACION
## 5927    20195927   5927        4       79    34    86.18 ADMINISTRACION
## 5928    20195928   5928        5      108    32    90.48 ADMINISTRACION
## 5929    20195929   5929        7      169    32    92.33 ADMINISTRACION

3. Genera gráfica de caja de promedios de alumnos en función de las carreras para identificar cuartiles (1 gráfica)

  • Se requiere library(dplyr) para utilizar las funciones filter() y select()
ggplot(filter(datos, Promedio > 0), aes(x = Carrera, y = Promedio, color= Carrera ) ) +
    geom_boxplot() +
  labs(title = "Promedios de Administración")

## 4. Identificar medidas de tendencia central con histograma y líneas de sus media y mediana de cada carrera en función de los promedios (14 gráficas) * Carrera de ADMINISTRACION * Variables de interés es Carrera y Promedio * Se utiliza la función filter() de la librería dplyr para filtrar registros u observaciones de un conjunto de datos

administracion <- filter (datos, Promedio > 0 & Carrera == "ADMINISTRACION") 
mean(administracion$Promedio)
## [1] 89.44312
median(administracion$Promedio)
## [1] 89.605
ggplot(administracion, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Administración",subtitle =  paste("Media = ", round(mean(administracion$Promedio),2), ", Mediana = ", round(median(administracion$Promedio),2))) 

* Carrera de SISTEMAS * Variables de interés es Carrera y Promedio

5. Identificar varianza y desviación estándar en una gráfica de dispersión de los promedios de cada carrera (14 gráficas)

n <- nrow(administracion)
ggplot(administracion, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Administración", subtitle =  paste("Varianza = ", round(var(administracion$Promedio),2), ", DesvStd = ", round(sd(administracion$Promedio),2), ", C.V. = ",  round(sd(administracion$Promedio) / mean(administracion$Promedio) *  100, 2 )))

6. Determinar una tabla para todos los parámetros estadísticos solicitados

tabla <- datos %>%
    group_by (Carrera) %>%
    summarize(n = n(), media = mean(Promedio), mediana = median(Promedio), vari = var(Promedio), desvstd = sd(Promedio), cv = desvstd / media * 100)
## `summarise()` ungrouping output (override with `.groups` argument)
tabla
## # A tibble: 14 x 7
##    Carrera                 n media mediana  vari desvstd    cv
##    <chr>               <int> <dbl>   <dbl> <dbl>   <dbl> <dbl>
##  1 ADMINISTRACION        497  74.5    88.4 1125.    33.5  45.0
##  2 ARQUITECTURA          675  70.1    85.4 1163.    34.1  48.7
##  3 BIOQUIMICA            441  68.6    82.8 1126.    33.6  48.9
##  4 CIVIL                 648  73.1    83.1  834.    28.9  39.5
##  5 ELECTRICA             280  60.7    81.8 1414.    37.6  61.9
##  6 ELECTRONICA           161  67.3    85.3 1324.    36.4  54.1
##  7 GESTION EMPRESARIAL   585  74.2    86.7 1013.    31.8  42.9
##  8 INDUSTRIAL            707  74.2    83.7  819.    28.6  38.6
##  9 INFORMATICA           101  60.6    83.6 1581.    39.8  65.6
## 10 MECANICA              301  61.7    80.7 1302.    36.1  58.4
## 11 MECATRONICA           432  70.8    83.4  981.    31.3  44.3
## 12 QUIMICA               568  72.6    84.6  996.    31.6  43.5
## 13 SISTEMAS              452  70.9    84.1 1081.    32.9  46.4
## 14 TIC                    81  66.6    81.7 1209.    34.8  52.2

7. Interpretación del CASO 5

“Que tal buen dia esta seria mi opinion sobre el caso”

En este caso en lo particular se aplicaron las medidas de dispersion en forma que se representan en graficas, de tal forma se aplico la varianza la cual se ve representada con una serie de datos respecto a su media, la cual se calculo con la suma de los residuos al cuadrado divididos entre el total de observaciones que se hicieron. la desviacion igual se pudo obtener de forma que esta cuantifica la variacion de el conjunto de datos y el coeficiente de variacion el cual nos permite comparar las dispersiones en dos distribuciones distintas, siempre que sus medidas sean positivas, de esta forma se pudieron aplicar nuevas formulas las cuales se implementaron en forma de graficas las cuales nos dan una mejor vista de lo que se esta obteniendo. En pocas palabras lo que me gusto de este caso fueron ams que nada el implemento de la varianza y la grafica ya que en mi opinion dan mucho de que hablar y al igual al hacerlo con el uso de R studio.