Taller 1

Introducción

Este documento de R markdown está divido en dos partes, la primera denota una muestra aleatoria del 1% de los resultados de los 520307 estudiantes que presentaron las pruebas a saber del año 2020, y una segunda parte donde se le da respuesta a situaciones hipoteticas utilizando herrramientas estadisticas.

library(tidyverse)

## -- Attaching packages -------------------------------------------------- tidyverse 1.3.0 --

## v ggplot2 3.3.2     v purrr   0.3.4
## v tibble  3.0.3     v dplyr   1.0.1
## v tidyr   1.1.1     v stringr 1.4.0
## v readr   1.3.1     v forcats 0.5.0

## -- Conflicts ----------------------------------------------------- tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

library(ggplot2)
library(readr)

saber11_2020 <- read_csv2("C://Users/jebet/Documents/R/saber11_2020.txt", col_names = TRUE)

## Using ',' as decimal and '.' as grouping mark. Use read_delim() for more control.

## Parsed with column specification:
## cols(
##   .default = col_character(),
##   PERIODO = col_double(),
##   ESTU_COD_RESIDE_DEPTO = col_double(),
##   ESTU_COD_RESIDE_MCPIO = col_double(),
##   COLE_CODIGO_ICFES = col_double(),
##   COLE_COD_DANE_ESTABLECIMIENTO = col_double(),
##   COLE_COD_DANE_SEDE = col_double(),
##   COLE_COD_MCPIO_UBICACION = col_double(),
##   COLE_COD_DEPTO_UBICACION = col_double(),
##   ESTU_COD_MCPIO_PRESENTACION = col_double(),
##   ESTU_COD_DEPTO_PRESENTACION = col_double(),
##   PUNT_LECTURA_CRITICA = col_double(),
##   PERCENTIL_LECTURA_CRITICA = col_double(),
##   DESEMP_LECTURA_CRITICA = col_double(),
##   PUNT_MATEMATICAS = col_double(),
##   PERCENTIL_MATEMATICAS = col_double(),
##   DESEMP_MATEMATICAS = col_double(),
##   PUNT_C_NATURALES = col_double(),
##   PERCENTIL_C_NATURALES = col_double(),
##   DESEMP_C_NATURALES = col_double(),
##   PUNT_SOCIALES_CIUDADANAS = col_double()
##   # ... with 9 more columns
## )

## See spec(...) for full column specifications.

Segundo punto

mean(saber11_2020$PUNT_LECTURA_CRITICA)

## [1] 52.37517

median(saber11_2020$PUNT_LECTURA_CRITICA)

## [1] 52

sd(saber11_2020$PUNT_LECTURA_CRITICA)

## [1] 10.19853

mean(saber11_2020$PUNT_MATEMATICAS)

## [1] 51.09245

median(saber11_2020$PUNT_MATEMATICAS)

## [1] 51

sd(saber11_2020$PUNT_MATEMATICAS)

## [1] 11.87255

A partir de los datos anteriores podemos extraer tres puntos:

El promedio del puntaje en el área de lectura crítica es mayor que el promedio del puntaje de matemáticas, lo que significa que el muestreo de los estudiantes del año 2020 tuvieron un desempeño mejor en el primer área.
La mediana nos muestra el valor de la mita de los resultados, y por tanto, la tendencia central de los estudiantes fue mayor en el puntaje de lectura crítica que en el de matemáticas.
La desviación estándar determina que los datos de los puntajes de matemáticas están más dispersos que los de lectura crítica.

Tercer punto

cor(saber11_2020$PUNT_LECTURA_CRITICA, saber11_2020$PUNT_MATEMATICAS)

## [1] 0.6954415

Nos podemos dar cuenta que existe una fuerte relación (69%) entre el puntaje de lectura crítica y el puntaje de matemáticas, lo que significa que a mayor puntaje de lectura, mayor puntaje de matemáticas.

Probabilidad

Primero, planteamos la situación en un chunk.

n = 10
usotransporte <- 0.30

¿Cuál es la probabilidad de que en una muestra de 10 trabajadores exactamente tres empleen el transporte público?

dbinom(x = 3, n, usotransporte)

## [1] 0.2668279

¿Cuál es la probabilidad de que en una muestra de 10 trabajadores 5 o menos tres empleen el transporte público?

dbinom(x = 5 > 3, n, usotransporte)

## [1] 0.1210608

¿Cuál es la probabilidad de que en una muestra de 10 trabajadores por lo menos 8 empleen el transporte público?

pbinom(8, n, usotransporte)

## [1] 0.9998563

2)Planteamos la situación.

n = 20
nostats <- 0.20

Calcule la probabilidad de que cuatro, exactamente, no terminen.

pbinom(4, n, nostats)

## [1] 0.6296483

Calcule la probabilidad de que 15, exactamente, no terminen.

pbinom(15, n, nostats)

## [1] 1

Calcule la probabilidad de que dos o menos no terminen.

pbinom(2, n, nostats)

## [1] 0.2060847

Calcule la probabilidad de que más de tres no terminen.

pbinom(3, n, nostats, lower.tail = FALSE)

## [1] 0.5885511

Calcule la probabilidad de que al menos 16 no terminen.

pbinom(16, n, nostats)

## [1] 1

Calcule la probabilidad de que 18 o menos no terminen.

pbinom(18, n, nostats, lower.tail = TRUE)

## [1] 1

a.P(0 ≤ z ≤ 0.83)

pnorm(0.83)-pnorm(0)

## [1] 0.2967306

ggplot() + xlim(c(-1,1)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(0, 0.83),
                       geom = "area", fill = "purple")

b.P(−1.57 ≤ z ≤ 0)

pnorm(0)-pnorm(-1.57)

## [1] 0.4417924

ggplot() + xlim(c(-2,2)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(-1.57, 0),
                       geom = "area", fill = "purple")

c.P(z > 0.44)

pnorm(0.44)

## [1] 0.6700314

ggplot() + xlim(c(-2,2)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(0.44, 0.88),
                       geom = "area", fill = "purple")

d.P(z ≥ −0.23)

pnorm(−0.23)

## [1] 0.4090459

ggplot() + xlim(c(-1,1)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(-0.23, -0.115),
                       geom = "area", fill = "purple")

e.P(z < 1.20)

pnorm(1.20)

## [1] 0.8849303

ggplot() + xlim(c(-1.20,1.20)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(0, 1.19),
                       geom = "area", fill = "purple")

f.P(z ≤ −0.71)

pnorm (-0.71)

## [1] 0.2388521

ggplot() + xlim(c(-1,1)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(-0.71,-0.335 ),
                       geom = "area", fill = "purple")

El área a la derecha de z es 0.01

qnorm(0.01, lower.tail = FALSE)

## [1] 2.326348

ggplot() + xlim(c(-1,3)) +
geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(qnorm(0.01, lower.tail = FALSE),3),
                          geom = "area", fill = "purple")

El área a la derecha de z es 0.025

qnorm(0.025, lower.tail = FALSE)

## [1] 1.959964

ggplot() + xlim(c(-1,3)) +
geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(qnorm(0.025, lower.tail = FALSE),3),
                          geom = "area", fill = "purple")

El área a la derecha de z es 0.05

qnorm(0.05, lower.tail = FALSE)

## [1] 1.644854

ggplot() + xlim(c(-1,3)) +
geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(qnorm(0.05, lower.tail = FALSE),3),
                          geom = "area", fill = "purple")

El área a la derecha de z es 0.10

qnorm(0.10, lower.tail = FALSE)

## [1] 1.281552

ggplot() + xlim(c(-1,2)) +
geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(qnorm(0.10, lower.tail = FALSE),2),
                          geom = "area", fill = "purple")

Taller 1

Métodos cuantitativos

Jesús Betin

10/3/2021