1- Utilice la herramienta RStudio y habilite un nuevo archivo en formato R-markdown
2- Guarde el archivo con el nombre “Nombre_apellido_TPfinal_Módulo_Prob_y_Estad”
3- Genere y ejecute una simulación para estimar el evento más probable dado algún experimento aleatorio de interés.
Sea el experimento de lanzar cuatro dados legales (de seis caras). Se pretende estimar la probabilidad de que la suma de los cuatro valores de las caras de los dados sea par. Por ejemplo, si el lanzamiento de los cuatro dados se realiza una sola vez, entonces un posible resultado sería
sum(sample(seq(1,6), 4, replace=T))
## [1] 12
library(gtools)
resultados.posibles <- permutations(6,4,repeats.allowed = T)
head(resultados.posibles,10)
## [,1] [,2] [,3] [,4]
## [1,] 1 1 1 1
## [2,] 1 1 1 2
## [3,] 1 1 1 3
## [4,] 1 1 1 4
## [5,] 1 1 1 5
## [6,] 1 1 1 6
## [7,] 1 1 2 1
## [8,] 1 1 2 2
## [9,] 1 1 2 3
## [10,] 1 1 2 4
tail(resultados.posibles,10)
## [,1] [,2] [,3] [,4]
## [1287,] 6 6 5 3
## [1288,] 6 6 5 4
## [1289,] 6 6 5 5
## [1290,] 6 6 5 6
## [1291,] 6 6 6 1
## [1292,] 6 6 6 2
## [1293,] 6 6 6 3
## [1294,] 6 6 6 4
## [1295,] 6 6 6 5
## [1296,] 6 6 6 6
cantidad.resultados <- nrow(resultados.posibles)
cantidad.resultados
## [1] 1296
suma.cada.fila <- rowSums(resultados.posibles)
plot(prop.table(table(suma.cada.fila)))
probabilidades.exactas <- prop.table(table(suma.cada.fila))
probabilidades.exactas
## suma.cada.fila
## 4 5 6 7 8 9
## 0.0007716049 0.0030864198 0.0077160494 0.0154320988 0.0270061728 0.0432098765
## 10 11 12 13 14 15
## 0.0617283951 0.0802469136 0.0964506173 0.1080246914 0.1126543210 0.1080246914
## 16 17 18 19 20 21
## 0.0964506173 0.0802469136 0.0617283951 0.0432098765 0.0270061728 0.0154320988
## 22 23 24
## 0.0077160494 0.0030864198 0.0007716049
sum(probabilidades.exactas)
## [1] 1
simulacion.resultados <- sapply(1:10000, function(x){sum(sample(seq(1,6), 4, replace = T))})
probabilidades.aproximadas <- prop.table(table(simulacion.resultados))
probabilidades.aproximadas
## simulacion.resultados
## 4 5 6 7 8 9 10 11 12 13 14
## 0.0006 0.0035 0.0082 0.0144 0.0274 0.0446 0.0592 0.0817 0.0958 0.1118 0.1153
## 15 16 17 18 19 20 21 22 23 24
## 0.1047 0.0947 0.0733 0.0632 0.0429 0.0299 0.0178 0.0080 0.0025 0.0005
plot(probabilidades.aproximadas)
4- Descargue los microdatos de la Encuesta Permanente de Hogares del año 2021 para la serie comparable.
url <- "https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2021/data/9e824reg02_ephc2021.csv"
download.file(url, "EPH2021.csv")
Hacemos la importación de los datos
eph2021 <- read.csv("EPH2021.csv",sep = ";")
5- Establezca una hipótesis a verificar al respecto de alguna variable de interés, describa la hipótesis nula y alternativa, además de la tabla de decisiones. (10 p)
Se utilizará la variable añoest para contrastar un
promedio. Se considerarán solo a las personas que tengan desde 18 años
de edad.
table(eph2021$añoest)
##
## 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
## 1222 472 745 935 873 863 2317 670 667 966 510 513 1974 291 432 490
## 16 17 18 99
## 687 432 171 3
Se debe filtrar el conjunto de datos de forma a excluir el valor 99, pues es una codificación que se le dio a las personas que no respondieron a esta variable.
library(dplyr)
eph2021.anioest <- eph2021 %>%
filter(añoest!=99 & P02>17) %>%
select(añoest,P02)
La descripción básica se muestra numérica y gráficamente.
summary(eph2021.anioest)
## añoest P02
## Min. : 0.00 Min. : 18.00
## 1st Qu.: 6.00 1st Qu.: 28.00
## Median : 9.00 Median : 40.00
## Mean : 8.99 Mean : 42.98
## 3rd Qu.:12.00 3rd Qu.: 56.00
## Max. :18.00 Max. :101.00
hist(eph2021.anioest$añoest, xlab = "Años de estudio", ylab = "Número de personas",
main = "Distribución de los años de estudio", col = "blue")
La intención es descubrir si en la población paraguaya mayor de edad, la media de los años de estudio se puede considerar inferior a 9.
Para el efecto sean las siguientes hipótesis:
\(H_0:\) La media de los años de estudio en la población paraguaya no es inferior a 9.
\(H_1:\) La media de los años de estudio en la población paraguaya es inferior a 9.
Se utilizará el estadístico de contraste basado en la distribución normal estándar.
\[z_{cal}=\frac{\bar{x}-\mu}{\hat{s}/\sqrt{n}}\]
donde \(\bar{x}\) es la media muestral, \(\mu\) la media poblacional en \(H_0\), \(\hat{s}\) la desviación estándar muestral y \(n\) el tamaño de la muestra.
Definimos estas cantidades
media_muestral <- mean(eph2021.anioest$añoest)
media_muestral
## [1] 8.990095
mu <- 9
mu
## [1] 9
s <- sd(eph2021.anioest$añoest)
s
## [1] 4.743613
n <- length(eph2021.anioest$añoest)
n
## [1] 11207
6- Verifique la prueba de hipótesis utilizando, interprete los resultados:
z_crit <- qnorm(0.95)
z_crit
## [1] 1.644854
z_cal <- (media_muestral-mu)/(s/sqrt(n))
z_cal
## [1] -0.2210391
p_valor <- pnorm(z_cal)
p_valor
## [1] 0.412531
El \(P valor =0.413>0.05\), lo cual significa que no se puede rechazar la hipótesis nula de que el promedio de años de estudio no es inferior a 9, asumiendo un nivel de significación del 5%.
El intervalo de confianza unilateral para la media se calcula mediante la formula
\[IC(\mu)=\left(-\infty,\bar{x}+1.645\frac{\hat{s}}{\sqrt{n}}\right]\]
Aunque en el contexto de la variable sería
\[IC(\mu)=\left[0;\ \bar{x}+1.645\frac{\hat{s}}{\sqrt{n}}\right]\]
IC <- paste("[","0",";",round(media_muestral+z_crit*s/sqrt(n),3),"]",sep = " ")
IC
## [1] "[ 0 ; 9.064 ]"
Con una confianza del 95%, se espera que la verdadera media de los años de estudio se halle dentro de este intervalo. Observamos que dicho intervalo le contiene al valor 9, permitiendo concluir de la misma manera que con el p valor, respecto al no rechazo de la hipótesis nula.
7- Compilar en formato html y publicar el resultado (10 p), añadiendo un breve resumen al respecto de la experiencia de trabajo (10 p).
Realizar el trabajo de la forma planteada permitió visualizar las
ventajas que tiene el software estadística R para la
simulación, la inferencia estadística y la reproducibilidad de un
análisis. Estos factores son sumamente importantes en un mundo que
necesita cada vez más velocidad en los procesamientos y análisis de
datos con el objeto de poder tomar decisiones de una forma más
vertiginosa. La experiencia en general resultó ser bastante buena,
además se aprende cada día cosas nuevas, más aún con el apoyo de las
herramientas tecnológicas que disponemos en la actualidad.