Objetivo.

Descripcion .

Datos.

1. Cargar librerías

  • library (readr), (ggplot2) y (dplyr)
library(readr)
library(ggplot2)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

2. Cargar los datos de la dirección citada.

  • read.csv()
  • Identificar los primeros seis registros .
  • Identificar los últiMos seis registros.
datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/promedios%20alumnos/datos%20alumnos%20promedios%20SEP%202020.csv")

head(datos)
##   No..Control Alumno Semestre Cr..Apr. Carga Promedio  Carrera
## 1    20190001      1       11      198    19    80.21 SISTEMAS
## 2    20190002      2       11      235    10    84.33 SISTEMAS
## 3    20190003      3        9      235    10    95.25 SISTEMAS
## 4    20190004      4        9      226    19    95.00 SISTEMAS
## 5    20190005      5       10      231    14    82.32 SISTEMAS
## 6    20190006      6        9      212    23    95.02 SISTEMAS
tail(datos)
##      No..Control Alumno Semestre Cr..Apr. Carga Promedio        Carrera
## 5924    20195924   5924        2       27    28    92.83 ADMINISTRACION
## 5925    20195925   5925        7       94    13    80.95 ADMINISTRACION
## 5926    20195926   5926        5      103    32    92.68 ADMINISTRACION
## 5927    20195927   5927        4       79    34    86.18 ADMINISTRACION
## 5928    20195928   5928        5      108    32    90.48 ADMINISTRACION
## 5929    20195929   5929        7      169    32    92.33 ADMINISTRACION

3. Genera gráfica de caja

  • De promedios de alumnos en función de las carreras para identificar cuartiles (1 gráfica)
ggplot(filter(datos, Promedio > 0), aes(x = Carrera, y = Promedio, color= Carrera ) ) +
    geom_boxplot() +
  labs(title = "Promedios de Administración")

4. Identificar medidas de tendencia central

  • con histograma y líneas de sus media y mediana de cada carrera en función de los promedios (14 gráficas)
  • Variable de interes *utilizando la funicion filter() para filtrar registros de datos.

1) Adiministracion

administracion <- filter (datos, Promedio > 0 & Carrera == "ADMINISTRACION") 

mean(administracion$Promedio)
## [1] 89.44312
median(administracion$Promedio)
## [1] 89.605
ggplot(administracion, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Administración",subtitle =  paste("Media = ", round(mean(administracion$Promedio),2), ", Mediana = ", round(median(administracion$Promedio),2))) 

2) Arquitectura

arquitectura <- filter (datos, Promedio > 0 & Carrera == "ARQUITECTURA") 

mean(arquitectura$Promedio)
## [1] 86.46481
median(arquitectura$Promedio)
## [1] 86.58
ggplot(arquitectura, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Arquitectura",subtitle =  paste("Media = ", round(mean(arquitectura$Promedio),2), ", Mediana = ", round(median(arquitectura$Promedio),2))) 

3) Bioquimica

bioquimica <- filter (datos, Promedio > 0 & Carrera == "BIOQUIMICA") 

mean(bioquimica$Promedio)
## [1] 84.68143
median(bioquimica$Promedio)
## [1] 84.06
ggplot(bioquimica, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de bioquimica",subtitle =  paste("Media = ", round(mean(bioquimica$Promedio),2), ", Mediana = ", round(median(bioquimica$Promedio),2)))

4) Civil

civil <- filter (datos, Promedio > 0 & Carrera == "CIVIL") 

mean(civil$Promedio)
## [1] 84.281
median(civil$Promedio)
## [1] 83.915
ggplot(civil, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de civil",subtitle =  paste("Media = ", round(mean(civil$Promedio),2), ", Mediana = ", round(median(civil$Promedio),2)))

5) Electrica

Electrica <- filter (datos, Promedio > 0 & Carrera == "ELECTRICA") 

mean(Electrica$Promedio)
## [1] 83.77305
median(Electrica$Promedio)
## [1] 83.24
ggplot(Electrica, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Electrica",subtitle =  paste("Media = ", round(mean(Electrica$Promedio),2), ", Mediana = ", round(median(Electrica$Promedio),2)))

6) Electronica

Electronica <- filter (datos, Promedio > 0 & Carrera == "ELECTRONICA") 

mean(Electronica$Promedio)
## [1] 86.6572
median(Electronica$Promedio)
## [1] 86.67
ggplot(Electronica, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Electronica",subtitle =  paste("Media = ", round(mean(Electronica$Promedio),2), ", Mediana = ", round(median(Electronica$Promedio),2)))

7) Gestion_Empresarial

Gestion_Empresarial <- filter (datos, Promedio > 0 & Carrera == "GESTION EMPRESARIAL") 

mean(Gestion_Empresarial$Promedio)
## [1] 87.66966
median(Gestion_Empresarial$Promedio)
## [1] 87.59
ggplot(Gestion_Empresarial, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Gestion_Empresarial",subtitle =  paste("Media = ", round(mean(Gestion_Empresarial$Promedio),2), ", Mediana = ", round(median(Gestion_Empresarial$Promedio),2)))

8) industrial

industrial <- filter (datos, Promedio > 0 & Carrera == "INDUSTRIAL") 

mean(industrial$Promedio)
## [1] 85.01737
median(industrial$Promedio)
## [1] 84.64
ggplot(industrial, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de industrial",subtitle =  paste("Media = ", round(mean(industrial$Promedio),2), ", Mediana = ", round(median(industrial$Promedio),2)))

9) informatica

informatica <- filter (datos, Promedio > 0 & Carrera == "INFORMATICA") 

mean(informatica$Promedio)
## [1] 86.26577
median(informatica$Promedio)
## [1] 86.64
ggplot(informatica, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de informatica",subtitle =  paste("Media = ", round(mean(informatica$Promedio),2), ", Mediana = ", round(median(informatica$Promedio),2))) 

10) mecanica

mecanica <- filter (datos, Promedio > 0 & Carrera == "MECANICA") 

mean(mecanica$Promedio)
## [1] 82.58467
median(mecanica$Promedio)
## [1] 82.02
ggplot(mecanica, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de mecanica",subtitle =  paste("Media = ", round(mean(mecanica$Promedio),2), ", Mediana = ", round(median(mecanica$Promedio),2))) 

11) Mecatronica

Mecatronica <- filter (datos, Promedio > 0 & Carrera == "MECATRONICA") 

mean(Mecatronica$Promedio)
## [1] 84.45948
median(Mecatronica$Promedio)
## [1] 84.085
ggplot(Mecatronica, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Mecatronica",subtitle =  paste("Media = ", round(mean(Mecatronica$Promedio),2), ", Mediana = ", round(median(Mecatronica$Promedio),2))) 

12) Quimica

Quimica <- filter (datos, Promedio > 0 & Carrera == "QUIMICA") 

mean(Quimica$Promedio)
## [1] 86.05215
median(Quimica$Promedio)
## [1] 85.67
ggplot(Quimica, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Quimica",subtitle =  paste("Media = ", round(mean(Quimica$Promedio),2), ", Mediana = ", round(median(Quimica$Promedio),2))) 

13) Sistemas

Sistemas <- filter (datos, Promedio > 0 & Carrera == "SISTEMAS") 

mean(Sistemas$Promedio)
## [1] 85.90464
median(Sistemas$Promedio)
## [1] 85.34
ggplot(Sistemas, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Sistemas",subtitle =  paste("Media = ", round(mean(Sistemas$Promedio),2), ", Mediana = ", round(median(Sistemas$Promedio),2))) 

14) TIC

TIC <- filter (datos, Promedio > 0 & Carrera == "TIC") 

mean(TIC$Promedio)
## [1] 84.31719
median(TIC$Promedio)
## [1] 83.24
ggplot(TIC, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de TIC",subtitle =  paste("Media = ", round(mean(TIC$Promedio),2), ", Mediana = ", round(median(TIC$Promedio),2))) 

5. Identificar varianza y desviación estándar

  • En una gráfica de dispersión de los promedios de cada carrera (14 gráficas)

1) Administracion

n <- nrow(administracion)
ggplot(administracion, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Administración", subtitle =  paste("Varianza = ", round(var(administracion$Promedio),2), ", DesvStd = ", round(sd(administracion$Promedio),2), ", C.V. = ",  round(sd(administracion$Promedio) / mean(administracion$Promedio) *  100, 2 )))

2) Arquitectura

n <- nrow(arquitectura)
ggplot(arquitectura, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Arquitectura", subtitle =  paste("Varianza = ", round(var(arquitectura$Promedio),2), ", DesvStd = ", round(sd(arquitectura$Promedio),2), ", C.V. = ",  round(sd(arquitectura$Promedio) / mean(arquitectura$Promedio) *  100, 2 )))

3) bioquimica

n <- nrow(bioquimica)
ggplot(bioquimica, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de bioquimica", subtitle =  paste("Varianza = ", round(var(bioquimica$Promedio),2), ", DesvStd = ", round(sd(bioquimica$Promedio),2), ", C.V. = ",  round(sd(bioquimica$Promedio) / mean(bioquimica$Promedio) *  100, 2 )))

4) civil

n <- nrow(civil)
ggplot(civil, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de civil", subtitle =  paste("Varianza = ", round(var(civil$Promedio),2), ", DesvStd = ", round(sd(civil$Promedio),2), ", C.V. = ",  round(sd(civil$Promedio) / mean(civil$Promedio) *  100, 2 )))

5) Electrica

n <- nrow(Electrica)
ggplot(Electrica, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Electrica", subtitle =  paste("Varianza = ", round(var(Electrica$Promedio),2), ", DesvStd = ", round(sd(Electrica$Promedio),2), ", C.V. = ",  round(sd(Electrica$Promedio) / mean(Electrica$Promedio) *  100, 2 )))

6) Electronica

n <- nrow(Electronica)
ggplot(Electronica, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Electronica", subtitle =  paste("Varianza = ", round(var(Electronica$Promedio),2), ", DesvStd = ", round(sd(Electronica$Promedio),2), ", C.V. = ",  round(sd(Electronica$Promedio) / mean(Electronica$Promedio) *  100, 2 )))

7) Gestion_Empresarial

n <- nrow(Gestion_Empresarial)
ggplot(Gestion_Empresarial, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Gestion_Empresarial", subtitle =  paste("Varianza = ", round(var(Gestion_Empresarial$Promedio),2), ", DesvStd = ", round(sd(Gestion_Empresarial$Promedio),2), ", C.V. = ",  round(sd(Gestion_Empresarial$Promedio) / mean(Gestion_Empresarial$Promedio) *  100, 2 )))

8) industrial

n <- nrow(industrial)
ggplot(industrial, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de industrial", subtitle =  paste("Varianza = ", round(var(industrial$Promedio),2), ", DesvStd = ", round(sd(industrial$Promedio),2), ", C.V. = ",  round(sd(industrial$Promedio) / mean(industrial$Promedio) *  100, 2 )))

9) informatica

n <- nrow(informatica)
ggplot(informatica, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de informatica", subtitle =  paste("Varianza = ", round(var(informatica$Promedio),2), ", DesvStd = ", round(sd(informatica$Promedio),2), ", C.V. = ",  round(sd(informatica$Promedio) / mean(informatica$Promedio) *  100, 2 )))

10) mecanica

n <- nrow(mecanica)
ggplot(mecanica, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de mecanica", subtitle =  paste("Varianza = ", round(var(mecanica$Promedio),2), ", DesvStd = ", round(sd(mecanica$Promedio),2), ", C.V. = ",  round(sd(mecanica$Promedio) / mean(mecanica$Promedio) *  100, 2 )))

11) Mecatronica

n <- nrow(Mecatronica)
ggplot(Mecatronica, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Mecatronica", subtitle =  paste("Varianza = ", round(var(Mecatronica$Promedio),2), ", DesvStd = ", round(sd(Mecatronica$Promedio),2), ", C.V. = ",  round(sd(Mecatronica$Promedio) / mean(Mecatronica$Promedio) *  100, 2 )))

12) Quimica

n <- nrow(Quimica)
ggplot(Quimica, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Quimica", subtitle =  paste("Varianza = ", round(var(Quimica$Promedio),2), ", DesvStd = ", round(sd(Quimica$Promedio),2), ", C.V. = ",  round(sd(Quimica$Promedio) / mean(Quimica$Promedio) *  100, 2 )))

13) Sistemas

n <- nrow(Sistemas)
ggplot(Sistemas, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Sistemas", subtitle =  paste("Varianza = ", round(var(Sistemas$Promedio),2), ", DesvStd = ", round(sd(Sistemas$Promedio),2), ", C.V. = ",  round(sd(Sistemas$Promedio) / mean(Sistemas$Promedio) *  100, 2 )))

14) TIC

n <- nrow(TIC)
ggplot(TIC, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de TIC", subtitle =  paste("Varianza = ", round(var(TIC$Promedio),2), ", DesvStd = ", round(sd(TIC$Promedio),2), ", C.V. = ",  round(sd(TIC$Promedio) / mean(TIC$Promedio) *  100, 2 )))

6) Identificar el coeficiente de dispersión para cada carrera en función de los promedios

tabla <- datos %>%
    group_by (Carrera) %>%
    summarize(n = n(), media = mean(Promedio), mediana = median(Promedio), vari = var(Promedio), desvstd = sd(Promedio), cv = desvstd / media * 100)
## `summarise()` ungrouping output (override with `.groups` argument)
tabla
## # A tibble: 14 x 7
##    Carrera                 n media mediana  vari desvstd    cv
##    <chr>               <int> <dbl>   <dbl> <dbl>   <dbl> <dbl>
##  1 ADMINISTRACION        497  74.5    88.4 1125.    33.5  45.0
##  2 ARQUITECTURA          675  70.1    85.4 1163.    34.1  48.7
##  3 BIOQUIMICA            441  68.6    82.8 1126.    33.6  48.9
##  4 CIVIL                 648  73.1    83.1  834.    28.9  39.5
##  5 ELECTRICA             280  60.7    81.8 1414.    37.6  61.9
##  6 ELECTRONICA           161  67.3    85.3 1324.    36.4  54.1
##  7 GESTION EMPRESARIAL   585  74.2    86.7 1013.    31.8  42.9
##  8 INDUSTRIAL            707  74.2    83.7  819.    28.6  38.6
##  9 INFORMATICA           101  60.6    83.6 1581.    39.8  65.6
## 10 MECANICA              301  61.7    80.7 1302.    36.1  58.4
## 11 MECATRONICA           432  70.8    83.4  981.    31.3  44.3
## 12 QUIMICA               568  72.6    84.6  996.    31.6  43.5
## 13 SISTEMAS              452  70.9    84.1 1081.    32.9  46.4
## 14 TIC                    81  66.6    81.7 1209.    34.8  52.2

7) Interpretación del CASO 5

  • Generar una descripción del caso de manera descriptiva (texto libre) de entre 180 y 200 palabras con ideas claras, ordenadas y con una descripción que explique los resultados, las gráficas mencionando cual de las carreras tiene menor dispersión (menor coeficiente de variación).

  • Damos interpretacion y solucion a que la carrera de administracion es la carrera que mas alumnos tiene y tiene mas demanda en todo el tecno, mientras que la carrera de TIC es de las ultimas en todas las carreras existentes, puede estar en peligro de que la remuevan del tecno y agragar otra de mas demanda. Gestion empresaral es la media de todas las carreras y va sobresaliendo entre los años ya que es la lider en todas las ingenierias existentes hasta hoy.

  • Mediante graficas de dispersion podemos ver cuales carreras son mas demandadas que otras mucho mas facilmente ya que es grafico y es mas facil manejar datos ya graficados, a datos numericos.

  • Tambien generamos graficas en barras para que contiene ademas la media y mediana de cada carrera espesificamente, con su diverso color para generar ese importancia y mejor vista, para hacerle la vida mas facil al lector y entienda facilmente.

  • Tambien tenemos otra grafica mas complicada que serial la primera la bicolores, que nos muestra el promedio de cada carrera con lineas, ademas tambien la media y la mediana, en foma de un rectangulo para cada una de ellas.

  • Son datos reales recopilados reales del instituto tecnologico de Durango. por lo que identificamos que nuestra carrera le falta un poco mas de mercadotecnia para sobrasalir mas por ensima de las carreras y no este en peligro de que la terminen sacando, auque esta carrera de sistemas computacionales es muy importante para la generacion actual y la generaciones siguiente ya que lleva mucha aplucacion en las tecnologias y en la vida cotidiana del día a día.