Introducción

Este documento de R markdown está divido en dos partes, la primera denota una muestra aleatoria del 1% de los resultados de los 520307 estudiantes que presentaron las pruebas a saber del año 2020, y una segunda parte donde se le da respuesta a situaciones hipoteticas utilizando herrramientas estadisticas.

library(tidyverse)
## -- Attaching packages -------------------------------------------------- tidyverse 1.3.0 --
## v ggplot2 3.3.2     v purrr   0.3.4
## v tibble  3.0.3     v dplyr   1.0.1
## v tidyr   1.1.1     v stringr 1.4.0
## v readr   1.3.1     v forcats 0.5.0
## -- Conflicts ----------------------------------------------------- tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
library(ggplot2)
library(readr)
saber11_2020 <- read_csv2("C://Users/jebet/Documents/R/saber11_2020.txt", col_names = TRUE)
## Using ',' as decimal and '.' as grouping mark. Use read_delim() for more control.
## Parsed with column specification:
## cols(
##   .default = col_character(),
##   PERIODO = col_double(),
##   ESTU_COD_RESIDE_DEPTO = col_double(),
##   ESTU_COD_RESIDE_MCPIO = col_double(),
##   COLE_CODIGO_ICFES = col_double(),
##   COLE_COD_DANE_ESTABLECIMIENTO = col_double(),
##   COLE_COD_DANE_SEDE = col_double(),
##   COLE_COD_MCPIO_UBICACION = col_double(),
##   COLE_COD_DEPTO_UBICACION = col_double(),
##   ESTU_COD_MCPIO_PRESENTACION = col_double(),
##   ESTU_COD_DEPTO_PRESENTACION = col_double(),
##   PUNT_LECTURA_CRITICA = col_double(),
##   PERCENTIL_LECTURA_CRITICA = col_double(),
##   DESEMP_LECTURA_CRITICA = col_double(),
##   PUNT_MATEMATICAS = col_double(),
##   PERCENTIL_MATEMATICAS = col_double(),
##   DESEMP_MATEMATICAS = col_double(),
##   PUNT_C_NATURALES = col_double(),
##   PERCENTIL_C_NATURALES = col_double(),
##   DESEMP_C_NATURALES = col_double(),
##   PUNT_SOCIALES_CIUDADANAS = col_double()
##   # ... with 9 more columns
## )
## See spec(...) for full column specifications.

Segundo punto

mean(saber11_2020$PUNT_LECTURA_CRITICA)
## [1] 52.37517
median(saber11_2020$PUNT_LECTURA_CRITICA)
## [1] 52
sd(saber11_2020$PUNT_LECTURA_CRITICA)
## [1] 10.19853
mean(saber11_2020$PUNT_MATEMATICAS)
## [1] 51.09245
median(saber11_2020$PUNT_MATEMATICAS)
## [1] 51
sd(saber11_2020$PUNT_MATEMATICAS)
## [1] 11.87255

A partir de los datos anteriores podemos extraer tres puntos:

  1. El promedio del puntaje en el área de lectura crítica es mayor que el promedio del puntaje de matemáticas, lo que significa que el muestreo de los estudiantes del año 2020 tuvieron un desempeño mejor en el primer área.
  2. La mediana nos muestra el valor de la mita de los resultados, y por tanto, la tendencia central de los estudiantes fue mayor en el puntaje de lectura crítica que en el de matemáticas.
  3. La desviación estándar determina que los datos de los puntajes de matemáticas están más dispersos que los de lectura crítica.

Tercer punto

cor(saber11_2020$PUNT_LECTURA_CRITICA, saber11_2020$PUNT_MATEMATICAS)
## [1] 0.6954415

Nos podemos dar cuenta que existe una fuerte relación (69%) entre el puntaje de lectura crítica y el puntaje de matemáticas, lo que significa que a mayor puntaje de lectura, mayor puntaje de matemáticas.

Probabilidad

  1. Primero, planteamos la situación en un chunk.
n = 10
usotransporte <- 0.30

¿Cuál es la probabilidad de que en una muestra de 10 trabajadores exactamente tres empleen el transporte público?

dbinom(x = 3, n, usotransporte)
## [1] 0.2668279

¿Cuál es la probabilidad de que en una muestra de 10 trabajadores 5 o menos tres empleen el transporte público?

dbinom(x = 5 > 3, n, usotransporte) 
## [1] 0.1210608

¿Cuál es la probabilidad de que en una muestra de 10 trabajadores por lo menos 8 empleen el transporte público?

pbinom(8, n, usotransporte)
## [1] 0.9998563

2)Planteamos la situación.

n = 20
nostats <- 0.20

Calcule la probabilidad de que cuatro, exactamente, no terminen.

pbinom(4, n, nostats)
## [1] 0.6296483

Calcule la probabilidad de que 15, exactamente, no terminen.

pbinom(15, n, nostats)
## [1] 1

Calcule la probabilidad de que dos o menos no terminen.

pbinom(2, n, nostats)
## [1] 0.2060847

Calcule la probabilidad de que más de tres no terminen.

pbinom(3, n, nostats, lower.tail = FALSE)
## [1] 0.5885511

Calcule la probabilidad de que al menos 16 no terminen.

pbinom(16, n, nostats)
## [1] 1

Calcule la probabilidad de que 18 o menos no terminen.

pbinom(18, n, nostats, lower.tail = TRUE)
## [1] 1

a.P(0 ≤ z ≤ 0.83)

pnorm(0.83)-pnorm(0)
## [1] 0.2967306
ggplot() + xlim(c(-1,1)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(0, 0.83),
                       geom = "area", fill = "purple")

b.P(−1.57 ≤ z ≤ 0)

pnorm(0)-pnorm(-1.57)
## [1] 0.4417924
ggplot() + xlim(c(-2,2)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(-1.57, 0),
                       geom = "area", fill = "purple")

c.P(z > 0.44)

pnorm(0.44)
## [1] 0.6700314
ggplot() + xlim(c(-2,2)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(0.44, 0.88),
                       geom = "area", fill = "purple")

d.P(z ≥ −0.23)

pnorm(−0.23)
## [1] 0.4090459
ggplot() + xlim(c(-1,1)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(-0.23, -0.115),
                       geom = "area", fill = "purple")

e.P(z < 1.20)

pnorm(1.20)
## [1] 0.8849303
ggplot() + xlim(c(-1.20,1.20)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(0, 1.19),
                       geom = "area", fill = "purple")

f.P(z ≤ −0.71)

pnorm (-0.71)
## [1] 0.2388521
ggplot() + xlim(c(-1,1)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(-0.71,-0.335 ),
                       geom = "area", fill = "purple")

  1. El área a la derecha de z es 0.01
qnorm(0.01, lower.tail = FALSE)
## [1] 2.326348
ggplot() + xlim(c(-1,3)) +
geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(qnorm(0.01, lower.tail = FALSE),3),
                          geom = "area", fill = "purple")

  1. El área a la derecha de z es 0.025
qnorm(0.025, lower.tail = FALSE)
## [1] 1.959964
ggplot() + xlim(c(-1,3)) +
geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(qnorm(0.025, lower.tail = FALSE),3),
                          geom = "area", fill = "purple")

  1. El área a la derecha de z es 0.05
qnorm(0.05, lower.tail = FALSE)
## [1] 1.644854
ggplot() + xlim(c(-1,3)) +
geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(qnorm(0.05, lower.tail = FALSE),3),
                          geom = "area", fill = "purple")

  1. El área a la derecha de z es 0.10
qnorm(0.10, lower.tail = FALSE)
## [1] 1.281552
ggplot() + xlim(c(-1,2)) +
geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(qnorm(0.10, lower.tail = FALSE),2),
                          geom = "area", fill = "purple")