Estadistica Descriptiva

  1. Descargue la base de datos de Saber 11 de 2020 que encuentra acá e impórtela a R. Esta base es una muestra del total de personas que presentaron la prueba Saber 11 en 2020. La muestra la extraje aleatoriamente y corresponde al 1% del total de 520.307 estudiantes incluidos en la base de datos original. Cuando importen a R la base de datos, esta debe tener 5203 observaciones y 81 variables. El diccionario de datos lo encuentran aquí.
  2. Calcule la media, la mediana y la desviación estándar del puntaje de matemáticas y del puntaje de lectura crítica. Compare la distribución de ambos puntajes de acuerdo con las medidas calculadas. En su comparación, asegúrese de hacer alguna mención a la tendencia central y a la dispersión de ambas variables.
  3. Calcule la correlación entre los dos puntajes que uso en la pregunta anterior. Con base en esta correlación, ¿QUé podría decir sobre la relación lineal existente entre los dos puntajes?

Solución:

Activar paquetes

library(tidyverse)
## -- Attaching packages --------------------------------------- tidyverse 1.3.0 --
## v ggplot2 3.3.3     v purrr   0.3.4
## v tibble  3.0.6     v dplyr   1.0.4
## v tidyr   1.1.2     v stringr 1.4.0
## v readr   1.4.0     v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
library(descr)
library(modeest)
## Warning: package 'modeest' was built under R version 4.0.4
## Registered S3 method overwritten by 'rmutil':
##   method         from
##   print.response httr
library(GGally)
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
library (tidyverse)

Limpiar espacio de trabajo

rm(list = ls())

Importar datos

saber11_2020 <- read_delim("saber11_2020.txt", delim = ";")
## 
## -- Column specification --------------------------------------------------------
## cols(
##   .default = col_character(),
##   PERIODO = col_double(),
##   ESTU_COD_RESIDE_DEPTO = col_double(),
##   ESTU_COD_RESIDE_MCPIO = col_double(),
##   COLE_CODIGO_ICFES = col_double(),
##   COLE_COD_DANE_ESTABLECIMIENTO = col_double(),
##   COLE_COD_DANE_SEDE = col_double(),
##   COLE_COD_MCPIO_UBICACION = col_double(),
##   COLE_COD_DEPTO_UBICACION = col_double(),
##   ESTU_COD_MCPIO_PRESENTACION = col_double(),
##   ESTU_COD_DEPTO_PRESENTACION = col_double(),
##   PUNT_LECTURA_CRITICA = col_double(),
##   PERCENTIL_LECTURA_CRITICA = col_double(),
##   DESEMP_LECTURA_CRITICA = col_double(),
##   PUNT_MATEMATICAS = col_double(),
##   PERCENTIL_MATEMATICAS = col_double(),
##   DESEMP_MATEMATICAS = col_double(),
##   PUNT_C_NATURALES = col_double(),
##   PERCENTIL_C_NATURALES = col_double(),
##   DESEMP_C_NATURALES = col_double(),
##   PUNT_SOCIALES_CIUDADANAS = col_double()
##   # ... with 9 more columns
## )
## i Use `spec()` for the full column specifications.

Media puntaje matemáticas

mean(saber11_2020$PUNT_MATEMATICAS)
## [1] 51.09245

Mediana puntaje matemáticas

median(saber11_2020$PUNT_MATEMATICAS)
## [1] 51

Desviación Estándar puntaje matemáticas

sd(saber11_2020$PUNT_MATEMATICAS, na.rm = TRUE)
## [1] 11.87255

Media puntaje lectura critica

mean(saber11_2020$PUNT_LECTURA_CRITICA)
## [1] 52.37517

Mediana puntaje lectura critica

median(saber11_2020$PUNT_LECTURA_CRITICA)
## [1] 52

Desviación estandar puntaje lectura critica

sd(saber11_2020$PUNT_LECTURA_CRITICA, na.rm = TRUE)
## [1] 10.19853

Distribución de ambos puntajes

Distribución Matematicas

medias <- c()

for (i in 1:1000){
  muestra <- saber11_2020 %>% sample_n(30)
  medias[i] <- mean(muestra$PUNT_MATEMATICAS)
}

medias[1:10]
##  [1] 50.16667 51.06667 50.83333 51.56667 51.63333 52.26667 52.90000 53.03333
##  [9] 51.50000 52.93333

Distribucion Lectura Critica

medias <- c()

for (i in 1:1000){
  muestra <- saber11_2020 %>% sample_n(30)
  medias[i] <- mean(muestra$PUNT_LECTURA_CRITICA)
}

medias[1:10]
##  [1] 52.36667 52.83333 55.80000 55.90000 53.30000 52.90000 52.60000 49.96667
##  [9] 53.30000 51.20000

Se evidencia que ambas ditribuciones cuentan con la misma cantidad de variables, es decir con 10. Además, ambas promedian al rededor de 50 puntos, esto también se refleja en la media, donde los resultados respectivos fueron 52.37517, en lectura critica y 51.09245 en matemáticas, mostrando un puntaje similar en ambas áreas de estudio.

Medidas de dispersión

Rango puntaje Matemáticas

range(saber11_2020$PUNT_MATEMATICAS, na.rm = TRUE)
## [1]   0 100

Rango Intercuartilico puntaje matemáticas

IQR(saber11_2020$PUNT_MATEMATICAS)
## [1] 16

Varianza puntaje matemáticas

var(saber11_2020$PUNT_MATEMATICAS)
## [1] 140.9574

Rango Puntaje Lectura Critica

range(saber11_2020$PUNT_LECTURA_CRITICA, na.rm = TRUE)
## [1]   0 100

Rango Intercuartilico puntaje Lectura Critica

IQR(saber11_2020$PUNT_LECTURA_CRITICA)
## [1] 14

varianza puntaje Lectura Critica

var(saber11_2020$PUNT_LECTURA_CRITICA)
## [1] 104.0099

Se evidencia que la disperción entre los puntajes de matematicas, son más amplios que los del puntaje de lectura critica. Esto se puede observar en el rango interucalitico de ambos, donde el intervalo del valor maximo y del valor minimo de cuartiles es menor en el área de lectura critica , lo mismo sucede en la varianza, que es menor en el puntaje de lectura critica.

Correlación entre ambos puntajes

cor(saber11_2020$PUNT_LECTURA_CRITICA, saber11_2020$PUNT_MATEMATICAS)
## [1] 0.6954415

Se puede observar que hay una relación moderada entre ambas variables, ya que el resultado se ubica entre el medio de 0 y 1, por lo que se evidencia que no es una relación líneal porque no es tan cercana a 1, pero tampoco es una relación débil, ya que no es u valor cercano a 0.

Probabilidad

  1. En una ciudad, 30 % de los trabajadores emplean el transporte público.

    a. ¿Cuál es la probabilidad de que en una muestra de 10 trabajadores exactamente tres empleen el transporte público?

R//:

#Probabilidad

n=10
pUsarTransporte=0.30
f10Binomial=dbinom(3,n,pUsarTransporte)
f10Binomial
## [1] 0.2668279
  1. ¿Cuál es la probabilidad de que en una muestra de 10 trabajadores 5 o menos tres empleen el transporte público?

R//:

n=10
pUsarTransporte=0.30
f10Binomial=pbinom(5 < 3,n,pUsarTransporte)
f10Binomial
## [1] 0.02824752
  1. ¿Cuál es la probabilidad de que en una muestra de 10 trabajadores por lo menos 8 empleen el transporte público?

R//:

n=10
pUsarTransporte=0.30
f10Binomial=pbinom(8,n,pUsarTransporte)
f10Binomial
## [1] 0.9998563
  1. En una universidad se encontró que 20 % de los estudiantes no terminan el primer curso de estadística, al curso se inscriben 20 estudiantes.

  2. Calcule la probabilidad de que cuatro, exactamente, no terminen.

    R//:

n=20
pUsarPasarEstadistica=0.20
f10Binomial=dbinom(4,n,pUsarPasarEstadistica)
f10Binomial
## [1] 0.2181994
  1. Calcule la probabilidad de que 15, exactamente, no termine.

    R//:

n=20
pUsarPasarEstadistica=0.20
f10Binomial=dbinom(15,n,pUsarPasarEstadistica)
f10Binomial
## [1] 1.664729e-07
  1. Calcule la probabilidad de que dos o menos no terminen.
n=20
pUsarPasarEstadistica=0.20
f10Binomial=pbinom(2,n,pUsarPasarEstadistica)
f10Binomial
## [1] 0.2060847
  1. Calcule la probabilidad de que más de tres no terminen. R//:
n=20
pUsarPasarEstadistica=0.20
f10Binomial=pbinom(3,n,pUsarPasarEstadistica)
f10Binomial
## [1] 0.4114489
  1. Calcule la probabilidad de que al menos 16 no terminen.

R//:

n=20
pUsarPasarEstadistica=0.20
f10Binomial=pbinom(16,n,pUsarPasarEstadistica)
f10Binomial
## [1] 1
  1. Calcule la probabilidad de que 18 o menos no terminen.

R//:

n=20
pUsarPasarEstadistica=0.20
f10Binomial=pbinom(18,n,pUsarPasarEstadistica)
f10Binomial
## [1] 1
  1. Dado que z es la variable normal estándar, realice una gráfica en la que se muestre las probabilidad por la que se está preguntando, y calcule las siguientes probabilidades usando R:

    a.PP(0 ≤ z ≤ 0, 83) 1

    R//:

ggplot() + xlim(c(-4,4)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(0, 0.83),
                       geom = "area", fill = "pink")

pnorm(0) - pnorm(0.38)
## [1] -0.1480273
  1. P(−1, 57 ≤ z ≤ 0)
ggplot() + xlim(c(-4,4)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(-1.57, 0),
                       geom = "area", fill = "Orange")

pnorm(1.57) - pnorm(0)
## [1] 0.4417924
  1. P(z > 0, 44)
ggplot() + xlim(c(-4,4)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(0.44, 4),
                       geom = "area", fill = "blue")

pnorm(0.44, lower.tail = FALSE)
## [1] 0.3299686
1 - dnorm(0.44)
## [1] 0.6378651
  1. P(z ≥ −0, 23)
ggplot() + xlim(c(-4,4)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(0.23, 4),
                       geom = "area", fill = "blue")

pnorm(0.23, lower.tail = FALSE)
## [1] 0.4090459
1 - pnorm(0.23)
## [1] 0.4090459
  1. P(z < 1, 20)
ggplot() + xlim(c(-4,4)) +
  geom_function(fun = dnorm)  +
  stat_function(fun = dnorm, xlim = c(-4, 1.20),
                       geom = "area", fill = "red")

dnorm(1.20)
## [1] 0.1941861
  1. P(z ≤ −0, 71)
ggplot() + xlim(c(-4,4)) +
  geom_function(fun = dnorm)  +
  stat_function(fun = dnorm, xlim = c(-4, -0.71),
                       geom = "area", fill = "pink")

pnorm(1.20)
## [1] 0.8849303
  1. Dado que z es la variable normal estándar, realice una gráfica en la que se muestre las probabilidad por la que se está preguntando, y encuentre z en cada unas de las situaciones siguientes usando

    R//:

    a.El área a la derecha de z es 0,01.

    qnorm(0.01, lower.tail = FALSE)
    ## [1] 2.326348
ggplot() + xlim(c(-4,4)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(2.32, 4),
                       geom = "area", fill = "Green")

El valor de z es el que se indica arriba.

  1. El área a la derecha de z es 0,025.
qnorm(0.025, lower.tail = FALSE)
## [1] 1.959964
ggplot() + xlim(c(-4,4)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(1.959, 4),
                       geom = "area", fill = "pink")

  1. c. El área a la derecha de z es 0,05.

    qnorm(0.05, lower.tail = FALSE)
    ## [1] 1.644854
    ggplot() + xlim(c(-4,4)) +
      geom_function(fun = dnorm) +
      stat_function(fun = dnorm, xlim = c(1.64, 4),
                           geom = "area", fill = "yellow")

  2. El área a la derecha de z es 0,10.

    qnorm(0.10, lower.tail = FALSE)
    ## [1] 1.281552
ggplot() + xlim(c(-4,4)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(1.28, 4),
                       geom = "area", fill = "gray")