Activar paquetes
Limpiar espacio de trabajo
Importar datos
Media puntaje matemáticas
Mediana puntaje matemáticas
Desviación Estándar puntaje matemáticas
Media puntaje lectura critica
Desviación estandar puntaje lectura critica
Distribución de ambos puntajes
Medidas de dispersión
Correlación entre ambos puntajes

Estadistica Descriptiva

Descargue la base de datos de Saber 11 de 2020 que encuentra acá e impórtela a R. Esta base es una muestra del total de personas que presentaron la prueba Saber 11 en 2020. La muestra la extraje aleatoriamente y corresponde al 1% del total de 520.307 estudiantes incluidos en la base de datos original. Cuando importen a R la base de datos, esta debe tener 5203 observaciones y 81 variables. El diccionario de datos lo encuentran aquí.
Calcule la media, la mediana y la desviación estándar del puntaje de matemáticas y del puntaje de lectura crítica. Compare la distribución de ambos puntajes de acuerdo con las medidas calculadas. En su comparación, asegúrese de hacer alguna mención a la tendencia central y a la dispersión de ambas variables.
Calcule la correlación entre los dos puntajes que uso en la pregunta anterior. Con base en esta correlación, ¿QUé podría decir sobre la relación lineal existente entre los dos puntajes?

Solución:

Activar paquetes

library(tidyverse)

## -- Attaching packages --------------------------------------- tidyverse 1.3.0 --

## v ggplot2 3.3.3     v purrr   0.3.4
## v tibble  3.0.6     v dplyr   1.0.4
## v tidyr   1.1.2     v stringr 1.4.0
## v readr   1.4.0     v forcats 0.5.1

## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

library(descr)
library(modeest)

## Warning: package 'modeest' was built under R version 4.0.4

## Registered S3 method overwritten by 'rmutil':
##   method         from
##   print.response httr

library(GGally)

## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2

library (tidyverse)

Limpiar espacio de trabajo

rm(list = ls())

Importar datos

saber11_2020 <- read_delim("saber11_2020.txt", delim = ";")

## 
## -- Column specification --------------------------------------------------------
## cols(
##   .default = col_character(),
##   PERIODO = col_double(),
##   ESTU_COD_RESIDE_DEPTO = col_double(),
##   ESTU_COD_RESIDE_MCPIO = col_double(),
##   COLE_CODIGO_ICFES = col_double(),
##   COLE_COD_DANE_ESTABLECIMIENTO = col_double(),
##   COLE_COD_DANE_SEDE = col_double(),
##   COLE_COD_MCPIO_UBICACION = col_double(),
##   COLE_COD_DEPTO_UBICACION = col_double(),
##   ESTU_COD_MCPIO_PRESENTACION = col_double(),
##   ESTU_COD_DEPTO_PRESENTACION = col_double(),
##   PUNT_LECTURA_CRITICA = col_double(),
##   PERCENTIL_LECTURA_CRITICA = col_double(),
##   DESEMP_LECTURA_CRITICA = col_double(),
##   PUNT_MATEMATICAS = col_double(),
##   PERCENTIL_MATEMATICAS = col_double(),
##   DESEMP_MATEMATICAS = col_double(),
##   PUNT_C_NATURALES = col_double(),
##   PERCENTIL_C_NATURALES = col_double(),
##   DESEMP_C_NATURALES = col_double(),
##   PUNT_SOCIALES_CIUDADANAS = col_double()
##   # ... with 9 more columns
## )
## i Use `spec()` for the full column specifications.

Media puntaje matemáticas

mean(saber11_2020$PUNT_MATEMATICAS)

## [1] 51.09245

Mediana puntaje matemáticas

median(saber11_2020$PUNT_MATEMATICAS)

## [1] 51

Desviación Estándar puntaje matemáticas

sd(saber11_2020$PUNT_MATEMATICAS, na.rm = TRUE)

## [1] 11.87255

Media puntaje lectura critica

mean(saber11_2020$PUNT_LECTURA_CRITICA)

## [1] 52.37517

Mediana puntaje lectura critica

median(saber11_2020$PUNT_LECTURA_CRITICA)

## [1] 52

Desviación estandar puntaje lectura critica

sd(saber11_2020$PUNT_LECTURA_CRITICA, na.rm = TRUE)

## [1] 10.19853

Distribución de ambos puntajes

Distribución Matematicas

medias <- c()

for (i in 1:1000){
  muestra <- saber11_2020 %>% sample_n(30)
  medias[i] <- mean(muestra$PUNT_MATEMATICAS)
}

medias[1:10]

##  [1] 50.16667 51.06667 50.83333 51.56667 51.63333 52.26667 52.90000 53.03333
##  [9] 51.50000 52.93333

Distribucion Lectura Critica

medias <- c()

for (i in 1:1000){
  muestra <- saber11_2020 %>% sample_n(30)
  medias[i] <- mean(muestra$PUNT_LECTURA_CRITICA)
}

medias[1:10]

##  [1] 52.36667 52.83333 55.80000 55.90000 53.30000 52.90000 52.60000 49.96667
##  [9] 53.30000 51.20000

Se evidencia que ambas ditribuciones cuentan con la misma cantidad de variables, es decir con 10. Además, ambas promedian al rededor de 50 puntos, esto también se refleja en la media, donde los resultados respectivos fueron 52.37517, en lectura critica y 51.09245 en matemáticas, mostrando un puntaje similar en ambas áreas de estudio.

Medidas de dispersión

Rango puntaje Matemáticas

range(saber11_2020$PUNT_MATEMATICAS, na.rm = TRUE)

## [1]   0 100

Rango Intercuartilico puntaje matemáticas

IQR(saber11_2020$PUNT_MATEMATICAS)

## [1] 16

Varianza puntaje matemáticas

var(saber11_2020$PUNT_MATEMATICAS)

## [1] 140.9574

Rango Puntaje Lectura Critica

range(saber11_2020$PUNT_LECTURA_CRITICA, na.rm = TRUE)

## [1]   0 100

Rango Intercuartilico puntaje Lectura Critica

IQR(saber11_2020$PUNT_LECTURA_CRITICA)

## [1] 14

varianza puntaje Lectura Critica

var(saber11_2020$PUNT_LECTURA_CRITICA)

## [1] 104.0099

Se evidencia que la disperción entre los puntajes de matematicas, son más amplios que los del puntaje de lectura critica. Esto se puede observar en el rango interucalitico de ambos, donde el intervalo del valor maximo y del valor minimo de cuartiles es menor en el área de lectura critica , lo mismo sucede en la varianza, que es menor en el puntaje de lectura critica.

Correlación entre ambos puntajes

cor(saber11_2020$PUNT_LECTURA_CRITICA, saber11_2020$PUNT_MATEMATICAS)

## [1] 0.6954415

Se puede observar que hay una relación moderada entre ambas variables, ya que el resultado se ubica entre el medio de 0 y 1, por lo que se evidencia que no es una relación líneal porque no es tan cercana a 1, pero tampoco es una relación débil, ya que no es u valor cercano a 0.

Probabilidad

En una ciudad, 30 % de los trabajadores emplean el transporte público.

a. ¿Cuál es la probabilidad de que en una muestra de 10 trabajadores exactamente tres empleen el transporte público?

R//:

#Probabilidad

n=10
pUsarTransporte=0.30

f10Binomial=dbinom(3,n,pUsarTransporte)
f10Binomial

## [1] 0.2668279

¿Cuál es la probabilidad de que en una muestra de 10 trabajadores 5 o menos tres empleen el transporte público?

R//:

n=10
pUsarTransporte=0.30

f10Binomial=pbinom(5 < 3,n,pUsarTransporte)
f10Binomial

## [1] 0.02824752

¿Cuál es la probabilidad de que en una muestra de 10 trabajadores por lo menos 8 empleen el transporte público?

R//:

n=10
pUsarTransporte=0.30

f10Binomial=pbinom(8,n,pUsarTransporte)
f10Binomial

## [1] 0.9998563

En una universidad se encontró que 20 % de los estudiantes no terminan el primer curso de estadística, al curso se inscriben 20 estudiantes.
Calcule la probabilidad de que cuatro, exactamente, no terminen.

R//:

n=20
pUsarPasarEstadistica=0.20

f10Binomial=dbinom(4,n,pUsarPasarEstadistica)
f10Binomial

## [1] 0.2181994

Calcule la probabilidad de que 15, exactamente, no termine.

R//:

n=20
pUsarPasarEstadistica=0.20

f10Binomial=dbinom(15,n,pUsarPasarEstadistica)
f10Binomial

## [1] 1.664729e-07

Calcule la probabilidad de que dos o menos no terminen.

n=20
pUsarPasarEstadistica=0.20

f10Binomial=pbinom(2,n,pUsarPasarEstadistica)
f10Binomial

## [1] 0.2060847

Calcule la probabilidad de que más de tres no terminen. R//:

n=20
pUsarPasarEstadistica=0.20

f10Binomial=pbinom(3,n,pUsarPasarEstadistica)
f10Binomial

## [1] 0.4114489

Calcule la probabilidad de que al menos 16 no terminen.

R//:

n=20
pUsarPasarEstadistica=0.20

f10Binomial=pbinom(16,n,pUsarPasarEstadistica)
f10Binomial

## [1] 1

Calcule la probabilidad de que 18 o menos no terminen.

R//:

n=20
pUsarPasarEstadistica=0.20

f10Binomial=pbinom(18,n,pUsarPasarEstadistica)
f10Binomial

## [1] 1

Dado que z es la variable normal estándar, realice una gráfica en la que se muestre las probabilidad por la que se está preguntando, y calcule las siguientes probabilidades usando R:

a.PP(0 ≤ z ≤ 0, 83) 1

R//:

ggplot() + xlim(c(-4,4)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(0, 0.83),
                       geom = "area", fill = "pink")

pnorm(0) - pnorm(0.38)

## [1] -0.1480273

P(−1, 57 ≤ z ≤ 0)

ggplot() + xlim(c(-4,4)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(-1.57, 0),
                       geom = "area", fill = "Orange")

pnorm(1.57) - pnorm(0)

## [1] 0.4417924

P(z > 0, 44)

ggplot() + xlim(c(-4,4)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(0.44, 4),
                       geom = "area", fill = "blue")

pnorm(0.44, lower.tail = FALSE)

## [1] 0.3299686

1 - dnorm(0.44)

## [1] 0.6378651

P(z ≥ −0, 23)

ggplot() + xlim(c(-4,4)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(0.23, 4),
                       geom = "area", fill = "blue")

pnorm(0.23, lower.tail = FALSE)

## [1] 0.4090459

1 - pnorm(0.23)

## [1] 0.4090459

P(z < 1, 20)

ggplot() + xlim(c(-4,4)) +
  geom_function(fun = dnorm)  +
  stat_function(fun = dnorm, xlim = c(-4, 1.20),
                       geom = "area", fill = "red")

dnorm(1.20)

## [1] 0.1941861

P(z ≤ −0, 71)

ggplot() + xlim(c(-4,4)) +
  geom_function(fun = dnorm)  +
  stat_function(fun = dnorm, xlim = c(-4, -0.71),
                       geom = "area", fill = "pink")

pnorm(1.20)

## [1] 0.8849303

Dado que z es la variable normal estándar, realice una gráfica en la que se muestre las probabilidad por la que se está preguntando, y encuentre z en cada unas de las situaciones siguientes usando

R//:

a.El área a la derecha de z es 0,01.
```
qnorm(0.01, lower.tail = FALSE)
```
```
## [1] 2.326348
```

ggplot() + xlim(c(-4,4)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(2.32, 4),
                       geom = "area", fill = "Green")

El valor de z es el que se indica arriba.

El área a la derecha de z es 0,025.

qnorm(0.025, lower.tail = FALSE)

## [1] 1.959964

ggplot() + xlim(c(-4,4)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(1.959, 4),
                       geom = "area", fill = "pink")

c. El área a la derecha de z es 0,05.

qnorm(0.05, lower.tail = FALSE)

## [1] 1.644854

ggplot() + xlim(c(-4,4)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(1.64, 4),
                       geom = "area", fill = "yellow")

El área a la derecha de z es 0,10.

qnorm(0.10, lower.tail = FALSE)

## [1] 1.281552

ggplot() + xlim(c(-4,4)) +
  geom_function(fun = dnorm) +
  stat_function(fun = dnorm, xlim = c(1.28, 4),
                       geom = "area", fill = "gray")

Taller 1

Valentina Díaz Hernández

Activar paquetes

Limpiar espacio de trabajo

Importar datos

Media puntaje matemáticas

Mediana puntaje matemáticas

Desviación Estándar puntaje matemáticas

Media puntaje lectura critica

Desviación estandar puntaje lectura critica

Distribución de ambos puntajes

Medidas de dispersión

Rango puntaje Matemáticas

Varianza puntaje matemáticas

varianza puntaje Lectura Critica

Correlación entre ambos puntajes