Estadistica Descriptiva
Solución:
library(tidyverse)
## -- Attaching packages --------------------------------------- tidyverse 1.3.0 --
## v ggplot2 3.3.3 v purrr 0.3.4
## v tibble 3.0.6 v dplyr 1.0.4
## v tidyr 1.1.2 v stringr 1.4.0
## v readr 1.4.0 v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
library(descr)
library(modeest)
## Warning: package 'modeest' was built under R version 4.0.4
## Registered S3 method overwritten by 'rmutil':
## method from
## print.response httr
library(GGally)
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
library (tidyverse)
rm(list = ls())
saber11_2020 <- read_delim("saber11_2020.txt", delim = ";")
##
## -- Column specification --------------------------------------------------------
## cols(
## .default = col_character(),
## PERIODO = col_double(),
## ESTU_COD_RESIDE_DEPTO = col_double(),
## ESTU_COD_RESIDE_MCPIO = col_double(),
## COLE_CODIGO_ICFES = col_double(),
## COLE_COD_DANE_ESTABLECIMIENTO = col_double(),
## COLE_COD_DANE_SEDE = col_double(),
## COLE_COD_MCPIO_UBICACION = col_double(),
## COLE_COD_DEPTO_UBICACION = col_double(),
## ESTU_COD_MCPIO_PRESENTACION = col_double(),
## ESTU_COD_DEPTO_PRESENTACION = col_double(),
## PUNT_LECTURA_CRITICA = col_double(),
## PERCENTIL_LECTURA_CRITICA = col_double(),
## DESEMP_LECTURA_CRITICA = col_double(),
## PUNT_MATEMATICAS = col_double(),
## PERCENTIL_MATEMATICAS = col_double(),
## DESEMP_MATEMATICAS = col_double(),
## PUNT_C_NATURALES = col_double(),
## PERCENTIL_C_NATURALES = col_double(),
## DESEMP_C_NATURALES = col_double(),
## PUNT_SOCIALES_CIUDADANAS = col_double()
## # ... with 9 more columns
## )
## i Use `spec()` for the full column specifications.
mean(saber11_2020$PUNT_MATEMATICAS)
## [1] 51.09245
median(saber11_2020$PUNT_MATEMATICAS)
## [1] 51
sd(saber11_2020$PUNT_MATEMATICAS, na.rm = TRUE)
## [1] 11.87255
mean(saber11_2020$PUNT_LECTURA_CRITICA)
## [1] 52.37517
Mediana puntaje lectura critica
median(saber11_2020$PUNT_LECTURA_CRITICA)
## [1] 52
sd(saber11_2020$PUNT_LECTURA_CRITICA, na.rm = TRUE)
## [1] 10.19853
Distribución Matematicas
medias <- c()
for (i in 1:1000){
muestra <- saber11_2020 %>% sample_n(30)
medias[i] <- mean(muestra$PUNT_MATEMATICAS)
}
medias[1:10]
## [1] 50.16667 51.06667 50.83333 51.56667 51.63333 52.26667 52.90000 53.03333
## [9] 51.50000 52.93333
Distribucion Lectura Critica
medias <- c()
for (i in 1:1000){
muestra <- saber11_2020 %>% sample_n(30)
medias[i] <- mean(muestra$PUNT_LECTURA_CRITICA)
}
medias[1:10]
## [1] 52.36667 52.83333 55.80000 55.90000 53.30000 52.90000 52.60000 49.96667
## [9] 53.30000 51.20000
Se evidencia que ambas ditribuciones cuentan con la misma cantidad de variables, es decir con 10. Además, ambas promedian al rededor de 50 puntos, esto también se refleja en la media, donde los resultados respectivos fueron 52.37517, en lectura critica y 51.09245 en matemáticas, mostrando un puntaje similar en ambas áreas de estudio.
range(saber11_2020$PUNT_MATEMATICAS, na.rm = TRUE)
## [1] 0 100
Rango Intercuartilico puntaje matemáticas
IQR(saber11_2020$PUNT_MATEMATICAS)
## [1] 16
var(saber11_2020$PUNT_MATEMATICAS)
## [1] 140.9574
Rango Puntaje Lectura Critica
range(saber11_2020$PUNT_LECTURA_CRITICA, na.rm = TRUE)
## [1] 0 100
Rango Intercuartilico puntaje Lectura Critica
IQR(saber11_2020$PUNT_LECTURA_CRITICA)
## [1] 14
var(saber11_2020$PUNT_LECTURA_CRITICA)
## [1] 104.0099
Se evidencia que la disperción entre los puntajes de matematicas, son más amplios que los del puntaje de lectura critica. Esto se puede observar en el rango interucalitico de ambos, donde el intervalo del valor maximo y del valor minimo de cuartiles es menor en el área de lectura critica , lo mismo sucede en la varianza, que es menor en el puntaje de lectura critica.
cor(saber11_2020$PUNT_LECTURA_CRITICA, saber11_2020$PUNT_MATEMATICAS)
## [1] 0.6954415
Se puede observar que hay una relación moderada entre ambas variables, ya que el resultado se ubica entre el medio de 0 y 1, por lo que se evidencia que no es una relación líneal porque no es tan cercana a 1, pero tampoco es una relación débil, ya que no es u valor cercano a 0.
Probabilidad
En una ciudad, 30 % de los trabajadores emplean el transporte público.
a. ¿Cuál es la probabilidad de que en una muestra de 10 trabajadores exactamente tres empleen el transporte público?
R//:
#Probabilidad
n=10
pUsarTransporte=0.30
f10Binomial=dbinom(3,n,pUsarTransporte)
f10Binomial
## [1] 0.2668279
R//:
n=10
pUsarTransporte=0.30
f10Binomial=pbinom(5 < 3,n,pUsarTransporte)
f10Binomial
## [1] 0.02824752
R//:
n=10
pUsarTransporte=0.30
f10Binomial=pbinom(8,n,pUsarTransporte)
f10Binomial
## [1] 0.9998563
En una universidad se encontró que 20 % de los estudiantes no terminan el primer curso de estadística, al curso se inscriben 20 estudiantes.
Calcule la probabilidad de que cuatro, exactamente, no terminen.
R//:
n=20
pUsarPasarEstadistica=0.20
f10Binomial=dbinom(4,n,pUsarPasarEstadistica)
f10Binomial
## [1] 0.2181994
Calcule la probabilidad de que 15, exactamente, no termine.
R//:
n=20
pUsarPasarEstadistica=0.20
f10Binomial=dbinom(15,n,pUsarPasarEstadistica)
f10Binomial
## [1] 1.664729e-07
n=20
pUsarPasarEstadistica=0.20
f10Binomial=pbinom(2,n,pUsarPasarEstadistica)
f10Binomial
## [1] 0.2060847
n=20
pUsarPasarEstadistica=0.20
f10Binomial=pbinom(3,n,pUsarPasarEstadistica)
f10Binomial
## [1] 0.4114489
R//:
n=20
pUsarPasarEstadistica=0.20
f10Binomial=pbinom(16,n,pUsarPasarEstadistica)
f10Binomial
## [1] 1
R//:
n=20
pUsarPasarEstadistica=0.20
f10Binomial=pbinom(18,n,pUsarPasarEstadistica)
f10Binomial
## [1] 1
Dado que z es la variable normal estándar, realice una gráfica en la que se muestre las probabilidad por la que se está preguntando, y calcule las siguientes probabilidades usando R:
a.PP(0 ≤ z ≤ 0, 83) 1
R//:
ggplot() + xlim(c(-4,4)) +
geom_function(fun = dnorm) +
stat_function(fun = dnorm, xlim = c(0, 0.83),
geom = "area", fill = "pink")
pnorm(0) - pnorm(0.38)
## [1] -0.1480273
ggplot() + xlim(c(-4,4)) +
geom_function(fun = dnorm) +
stat_function(fun = dnorm, xlim = c(-1.57, 0),
geom = "area", fill = "Orange")
pnorm(1.57) - pnorm(0)
## [1] 0.4417924
ggplot() + xlim(c(-4,4)) +
geom_function(fun = dnorm) +
stat_function(fun = dnorm, xlim = c(0.44, 4),
geom = "area", fill = "blue")
pnorm(0.44, lower.tail = FALSE)
## [1] 0.3299686
1 - dnorm(0.44)
## [1] 0.6378651
ggplot() + xlim(c(-4,4)) +
geom_function(fun = dnorm) +
stat_function(fun = dnorm, xlim = c(0.23, 4),
geom = "area", fill = "blue")
pnorm(0.23, lower.tail = FALSE)
## [1] 0.4090459
1 - pnorm(0.23)
## [1] 0.4090459
ggplot() + xlim(c(-4,4)) +
geom_function(fun = dnorm) +
stat_function(fun = dnorm, xlim = c(-4, 1.20),
geom = "area", fill = "red")
dnorm(1.20)
## [1] 0.1941861
ggplot() + xlim(c(-4,4)) +
geom_function(fun = dnorm) +
stat_function(fun = dnorm, xlim = c(-4, -0.71),
geom = "area", fill = "pink")
pnorm(1.20)
## [1] 0.8849303
Dado que z es la variable normal estándar, realice una gráfica en la que se muestre las probabilidad por la que se está preguntando, y encuentre z en cada unas de las situaciones siguientes usando
R//:
a.El área a la derecha de z es 0,01.
qnorm(0.01, lower.tail = FALSE)
## [1] 2.326348ggplot() + xlim(c(-4,4)) +
geom_function(fun = dnorm) +
stat_function(fun = dnorm, xlim = c(2.32, 4),
geom = "area", fill = "Green")
El valor de z es el que se indica arriba.
qnorm(0.025, lower.tail = FALSE)
## [1] 1.959964
ggplot() + xlim(c(-4,4)) +
geom_function(fun = dnorm) +
stat_function(fun = dnorm, xlim = c(1.959, 4),
geom = "area", fill = "pink")
c. El área a la derecha de z es 0,05.
qnorm(0.05, lower.tail = FALSE)
## [1] 1.644854
ggplot() + xlim(c(-4,4)) +
geom_function(fun = dnorm) +
stat_function(fun = dnorm, xlim = c(1.64, 4),
geom = "area", fill = "yellow")
El área a la derecha de z es 0,10.
qnorm(0.10, lower.tail = FALSE)
## [1] 1.281552ggplot() + xlim(c(-4,4)) +
geom_function(fun = dnorm) +
stat_function(fun = dnorm, xlim = c(1.28, 4),
geom = "area", fill = "gray")