Fundamentos de Estadística (Probabilidad e Inferencia Básica)

1- Utilice la herramienta RStudio y habilite un nuevo archivo en formato R-markdown

2- Guarde el archivo con el nombre “Nombre_apellido_TPfinal_Módulo_Prob_y_Estad”

3- Genere y ejecute una simulación para estimar el evento más probable dado algún experimento aleatorio de interés.

Sea el experimento de lanzar cuatro dados legales (de seis caras). Se pretende estimar la probabilidad de que la suma de los cuatro valores de las caras de los dados sea par. Por ejemplo, si el lanzamiento de los cuatro dados se realiza una sola vez, entonces un posible resultado sería

sum(sample(seq(1,6), 4, replace=T))

## [1] 12

Describa el espacio muestral en todos sus eventos simples (10 p)

library(gtools)
resultados.posibles <- permutations(6,4,repeats.allowed = T)
head(resultados.posibles,10)

##       [,1] [,2] [,3] [,4]
##  [1,]    1    1    1    1
##  [2,]    1    1    1    2
##  [3,]    1    1    1    3
##  [4,]    1    1    1    4
##  [5,]    1    1    1    5
##  [6,]    1    1    1    6
##  [7,]    1    1    2    1
##  [8,]    1    1    2    2
##  [9,]    1    1    2    3
## [10,]    1    1    2    4

tail(resultados.posibles,10)

##         [,1] [,2] [,3] [,4]
## [1287,]    6    6    5    3
## [1288,]    6    6    5    4
## [1289,]    6    6    5    5
## [1290,]    6    6    5    6
## [1291,]    6    6    6    1
## [1292,]    6    6    6    2
## [1293,]    6    6    6    3
## [1294,]    6    6    6    4
## [1295,]    6    6    6    5
## [1296,]    6    6    6    6

cantidad.resultados <- nrow(resultados.posibles)
cantidad.resultados

## [1] 1296

suma.cada.fila <- rowSums(resultados.posibles)
plot(prop.table(table(suma.cada.fila)))

Calcule la probabilidad exacta de cada evento simple aplicando las fórmulas de probabilidad (10 p)

probabilidades.exactas <- prop.table(table(suma.cada.fila))
probabilidades.exactas

## suma.cada.fila
##            4            5            6            7            8            9 
## 0.0007716049 0.0030864198 0.0077160494 0.0154320988 0.0270061728 0.0432098765 
##           10           11           12           13           14           15 
## 0.0617283951 0.0802469136 0.0964506173 0.1080246914 0.1126543210 0.1080246914 
##           16           17           18           19           20           21 
## 0.0964506173 0.0802469136 0.0617283951 0.0432098765 0.0270061728 0.0154320988 
##           22           23           24 
## 0.0077160494 0.0030864198 0.0007716049

sum(probabilidades.exactas)

## [1] 1

Estime la probabilidad mediante una simulación del experimento aleatorio (20 p)

simulacion.resultados <- sapply(1:10000, function(x){sum(sample(seq(1,6), 4, replace = T))})
probabilidades.aproximadas <- prop.table(table(simulacion.resultados))
probabilidades.aproximadas

## simulacion.resultados
##      4      5      6      7      8      9     10     11     12     13     14 
## 0.0006 0.0035 0.0082 0.0144 0.0274 0.0446 0.0592 0.0817 0.0958 0.1118 0.1153 
##     15     16     17     18     19     20     21     22     23     24 
## 0.1047 0.0947 0.0733 0.0632 0.0429 0.0299 0.0178 0.0080 0.0025 0.0005

plot(probabilidades.aproximadas)

4- Descargue los microdatos de la Encuesta Permanente de Hogares del año 2021 para la serie comparable.

url <- "https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2021/data/9e824reg02_ephc2021.csv"
download.file(url, "EPH2021.csv")

Hacemos la importación de los datos

eph2021 <- read.csv("EPH2021.csv",sep = ";")

5- Establezca una hipótesis a verificar al respecto de alguna variable de interés, describa la hipótesis nula y alternativa, además de la tabla de decisiones. (10 p)

Se utilizará la variable añoest para contrastar un promedio. Se considerarán solo a las personas que tengan desde 18 años de edad.

table(eph2021$añoest)

## 
##    0    1    2    3    4    5    6    7    8    9   10   11   12   13   14   15 
## 1222  472  745  935  873  863 2317  670  667  966  510  513 1974  291  432  490 
##   16   17   18   99 
##  687  432  171    3

Se debe filtrar el conjunto de datos de forma a excluir el valor 99, pues es una codificación que se le dio a las personas que no respondieron a esta variable.

library(dplyr)
eph2021.anioest <- eph2021 %>%
  filter(añoest!=99 & P02>17) %>%
  select(añoest,P02)

La descripción básica se muestra numérica y gráficamente.

summary(eph2021.anioest)

##      añoest           P02        
##  Min.   : 0.00   Min.   : 18.00  
##  1st Qu.: 6.00   1st Qu.: 28.00  
##  Median : 9.00   Median : 40.00  
##  Mean   : 8.99   Mean   : 42.98  
##  3rd Qu.:12.00   3rd Qu.: 56.00  
##  Max.   :18.00   Max.   :101.00

hist(eph2021.anioest$añoest, xlab = "Años de estudio", ylab = "Número de personas",
     main = "Distribución de los años de estudio", col = "blue")

La intención es descubrir si en la población paraguaya mayor de edad, la media de los años de estudio se puede considerar inferior a 9.

Para el efecto sean las siguientes hipótesis:

\(H_0:\) La media de los años de estudio en la población paraguaya no es inferior a 9.

\(H_1:\) La media de los años de estudio en la población paraguaya es inferior a 9.

Se utilizará el estadístico de contraste basado en la distribución normal estándar.

\[z_{cal}=\frac{\bar{x}-\mu}{\hat{s}/\sqrt{n}}\]

donde \(\bar{x}\) es la media muestral, \(\mu\) la media poblacional en \(H_0\), \(\hat{s}\) la desviación estándar muestral y \(n\) el tamaño de la muestra.

Definimos estas cantidades

media_muestral <- mean(eph2021.anioest$añoest)
media_muestral

## [1] 8.990095

mu <- 9
mu

## [1] 9

s <- sd(eph2021.anioest$añoest)
s

## [1] 4.743613

n <- length(eph2021.anioest$añoest)
n

## [1] 11207

6- Verifique la prueba de hipótesis utilizando, interprete los resultados:

Valor crítico (10 p)

z_crit <- qnorm(0.95)
z_crit

## [1] 1.644854

z_cal <- (media_muestral-mu)/(s/sqrt(n))
z_cal

## [1] -0.2210391

P-Valor (10p)

p_valor <- pnorm(z_cal)
p_valor

## [1] 0.412531

El \(P valor =0.413>0.05\), lo cual significa que no se puede rechazar la hipótesis nula de que el promedio de años de estudio no es inferior a 9, asumiendo un nivel de significación del 5%.

Intervalo de confianza (10 p)

El intervalo de confianza unilateral para la media se calcula mediante la formula

\[IC(\mu)=\left(-\infty,\bar{x}+1.645\frac{\hat{s}}{\sqrt{n}}\right]\]

Aunque en el contexto de la variable sería

\[IC(\mu)=\left[0;\ \bar{x}+1.645\frac{\hat{s}}{\sqrt{n}}\right]\]

IC <- paste("[","0",";",round(media_muestral+z_crit*s/sqrt(n),3),"]",sep = " ")
IC

## [1] "[ 0 ; 9.064 ]"

Con una confianza del 95%, se espera que la verdadera media de los años de estudio se halle dentro de este intervalo. Observamos que dicho intervalo le contiene al valor 9, permitiendo concluir de la misma manera que con el p valor, respecto al no rechazo de la hipótesis nula.

7- Compilar en formato html y publicar el resultado (10 p), añadiendo un breve resumen al respecto de la experiencia de trabajo (10 p).

Realizar el trabajo de la forma planteada permitió visualizar las ventajas que tiene el software estadística R para la simulación, la inferencia estadística y la reproducibilidad de un análisis. Estos factores son sumamente importantes en un mundo que necesita cada vez más velocidad en los procesamientos y análisis de datos con el objeto de poder tomar decisiones de una forma más vertiginosa. La experiencia en general resultó ser bastante buena, además se aprende cada día cosas nuevas, más aún con el apoyo de las herramientas tecnológicas que disponemos en la actualidad.

Fundamentos de Estadística (Probabilidad e Inferencia Básica)

Trabajo Final

Juan Ignacio Mereles

06-12-2022