Introducción
Este documento de R markdown está divido en dos partes, la primera denota una muestra aleatoria del 1% de los resultados de los 520307 estudiantes que presentaron las pruebas a saber del año 2020, y una segunda parte donde se le da respuesta a situaciones hipoteticas utilizando herrramientas estadisticas.
library(tidyverse)
## -- Attaching packages -------------------------------------------------- tidyverse 1.3.0 --
## v ggplot2 3.3.2 v purrr 0.3.4
## v tibble 3.0.3 v dplyr 1.0.1
## v tidyr 1.1.1 v stringr 1.4.0
## v readr 1.3.1 v forcats 0.5.0
## -- Conflicts ----------------------------------------------------- tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
library(ggplot2)
library(readr)
saber11_2020 <- read_csv2("C://Users/jebet/Documents/R/saber11_2020.txt", col_names = TRUE)
## Using ',' as decimal and '.' as grouping mark. Use read_delim() for more control.
## Parsed with column specification:
## cols(
## .default = col_character(),
## PERIODO = col_double(),
## ESTU_COD_RESIDE_DEPTO = col_double(),
## ESTU_COD_RESIDE_MCPIO = col_double(),
## COLE_CODIGO_ICFES = col_double(),
## COLE_COD_DANE_ESTABLECIMIENTO = col_double(),
## COLE_COD_DANE_SEDE = col_double(),
## COLE_COD_MCPIO_UBICACION = col_double(),
## COLE_COD_DEPTO_UBICACION = col_double(),
## ESTU_COD_MCPIO_PRESENTACION = col_double(),
## ESTU_COD_DEPTO_PRESENTACION = col_double(),
## PUNT_LECTURA_CRITICA = col_double(),
## PERCENTIL_LECTURA_CRITICA = col_double(),
## DESEMP_LECTURA_CRITICA = col_double(),
## PUNT_MATEMATICAS = col_double(),
## PERCENTIL_MATEMATICAS = col_double(),
## DESEMP_MATEMATICAS = col_double(),
## PUNT_C_NATURALES = col_double(),
## PERCENTIL_C_NATURALES = col_double(),
## DESEMP_C_NATURALES = col_double(),
## PUNT_SOCIALES_CIUDADANAS = col_double()
## # ... with 9 more columns
## )
## See spec(...) for full column specifications.
Segundo punto
mean(saber11_2020$PUNT_LECTURA_CRITICA)
## [1] 52.37517
median(saber11_2020$PUNT_LECTURA_CRITICA)
## [1] 52
sd(saber11_2020$PUNT_LECTURA_CRITICA)
## [1] 10.19853
mean(saber11_2020$PUNT_MATEMATICAS)
## [1] 51.09245
median(saber11_2020$PUNT_MATEMATICAS)
## [1] 51
sd(saber11_2020$PUNT_MATEMATICAS)
## [1] 11.87255
A partir de los datos anteriores podemos extraer tres puntos:
Tercer punto
cor(saber11_2020$PUNT_LECTURA_CRITICA, saber11_2020$PUNT_MATEMATICAS)
## [1] 0.6954415
Nos podemos dar cuenta que existe una fuerte relación (69%) entre el puntaje de lectura crítica y el puntaje de matemáticas, lo que significa que a mayor puntaje de lectura, mayor puntaje de matemáticas.
Probabilidad
n = 10
usotransporte <- 0.30
¿Cuál es la probabilidad de que en una muestra de 10 trabajadores exactamente tres empleen el transporte público?
dbinom(x = 3, n, usotransporte)
## [1] 0.2668279
¿Cuál es la probabilidad de que en una muestra de 10 trabajadores 5 o menos tres empleen el transporte público?
dbinom(x = 5 > 3, n, usotransporte)
## [1] 0.1210608
¿Cuál es la probabilidad de que en una muestra de 10 trabajadores por lo menos 8 empleen el transporte público?
pbinom(8, n, usotransporte)
## [1] 0.9998563
2)Planteamos la situación.
n = 20
nostats <- 0.20
Calcule la probabilidad de que cuatro, exactamente, no terminen.
pbinom(4, n, nostats)
## [1] 0.6296483
Calcule la probabilidad de que 15, exactamente, no terminen.
pbinom(15, n, nostats)
## [1] 1
Calcule la probabilidad de que dos o menos no terminen.
pbinom(2, n, nostats)
## [1] 0.2060847
Calcule la probabilidad de que más de tres no terminen.
pbinom(3, n, nostats, lower.tail = FALSE)
## [1] 0.5885511
Calcule la probabilidad de que al menos 16 no terminen.
pbinom(16, n, nostats)
## [1] 1
Calcule la probabilidad de que 18 o menos no terminen.
pbinom(18, n, nostats, lower.tail = TRUE)
## [1] 1
a.P(0 ≤ z ≤ 0.83)
pnorm(0.83)-pnorm(0)
## [1] 0.2967306
ggplot() + xlim(c(-1,1)) +
geom_function(fun = dnorm) +
stat_function(fun = dnorm, xlim = c(0, 0.83),
geom = "area", fill = "purple")
b.P(−1.57 ≤ z ≤ 0)
pnorm(0)-pnorm(-1.57)
## [1] 0.4417924
ggplot() + xlim(c(-2,2)) +
geom_function(fun = dnorm) +
stat_function(fun = dnorm, xlim = c(-1.57, 0),
geom = "area", fill = "purple")
c.P(z > 0.44)
pnorm(0.44)
## [1] 0.6700314
ggplot() + xlim(c(-2,2)) +
geom_function(fun = dnorm) +
stat_function(fun = dnorm, xlim = c(0.44, 0.88),
geom = "area", fill = "purple")
d.P(z ≥ −0.23)
pnorm(−0.23)
## [1] 0.4090459
ggplot() + xlim(c(-1,1)) +
geom_function(fun = dnorm) +
stat_function(fun = dnorm, xlim = c(-0.23, -0.115),
geom = "area", fill = "purple")
e.P(z < 1.20)
pnorm(1.20)
## [1] 0.8849303
ggplot() + xlim(c(-1.20,1.20)) +
geom_function(fun = dnorm) +
stat_function(fun = dnorm, xlim = c(0, 1.19),
geom = "area", fill = "purple")
f.P(z ≤ −0.71)
pnorm (-0.71)
## [1] 0.2388521
ggplot() + xlim(c(-1,1)) +
geom_function(fun = dnorm) +
stat_function(fun = dnorm, xlim = c(-0.71,-0.335 ),
geom = "area", fill = "purple")
qnorm(0.01, lower.tail = FALSE)
## [1] 2.326348
ggplot() + xlim(c(-1,3)) +
geom_function(fun = dnorm) +
stat_function(fun = dnorm, xlim = c(qnorm(0.01, lower.tail = FALSE),3),
geom = "area", fill = "purple")
qnorm(0.025, lower.tail = FALSE)
## [1] 1.959964
ggplot() + xlim(c(-1,3)) +
geom_function(fun = dnorm) +
stat_function(fun = dnorm, xlim = c(qnorm(0.025, lower.tail = FALSE),3),
geom = "area", fill = "purple")
qnorm(0.05, lower.tail = FALSE)
## [1] 1.644854
ggplot() + xlim(c(-1,3)) +
geom_function(fun = dnorm) +
stat_function(fun = dnorm, xlim = c(qnorm(0.05, lower.tail = FALSE),3),
geom = "area", fill = "purple")
qnorm(0.10, lower.tail = FALSE)
## [1] 1.281552
ggplot() + xlim(c(-1,2)) +
geom_function(fun = dnorm) +
stat_function(fun = dnorm, xlim = c(qnorm(0.10, lower.tail = FALSE),2),
geom = "area", fill = "purple")