install.packages("readr")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.5'
## (as 'lib' is unspecified)
library(readr)
# Leer los datos
wagebase <- read_csv("wagebase.csv")
## Rows: 526 Columns: 7
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## dbl (7): wage, educ, exper, tenure, female, married, numdep
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
head(wagebase)
## # A tibble: 6 × 7
## wage educ exper tenure female married numdep
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3.1 11 2 0 1 0 2
## 2 3.24 12 22 2 1 1 3
## 3 3 11 2 0 0 0 2
## 4 6 8 44 28 0 1 0
## 5 5.3 12 7 2 0 1 1
## 6 8.75 16 9 8 0 1 0
datos <- wagebase
# 1. Crear variable salario en pesos colombianos
# Tasa de cambio: 1 USD = 3800 COP (aproximación para 11-mar-2022)
datos$salario <- datos$wage * 8 * 30 * 3800
# Verificar la estructura de los datos
head(datos)
## # A tibble: 6 × 8
## wage educ exper tenure female married numdep salario
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3.1 11 2 0 1 0 2 2827200
## 2 3.24 12 22 2 1 1 3 2954880
## 3 3 11 2 0 0 0 2 2736000
## 4 6 8 44 28 0 1 0 5472000
## 5 5.3 12 7 2 0 1 1 4833600
## 6 8.75 16 9 8 0 1 0 7980000
Población: Todos los trabajadores Variable: Salario mensual en COP (cuantitativa continua) Parámetro: μ (media poblacional del salario)
Hipótesis: H0: μ ≤ 4,750,000 H1: μ > 4,750,000 (afirmación)
# Prueba t de una muestra
test_2 <- t.test(datos$salario, mu = 4750000, alternative = "greater")
print(test_2)
##
## One Sample t-test
##
## data: datos$salario
## t = 4.2712, df = 525, p-value = 1.154e-05
## alternative hypothesis: true mean is greater than 4750000
## 95 percent confidence interval:
## 5135262 Inf
## sample estimates:
## mean of x
## 5377246
# Valor p = 0.9978 > 0.05
# No rechazamos H0
Población: Todos los trabajadores Variable: Estado civil (cualitativa binomial) Parámetro: p (proporción poblacional de casados)
Hipótesis: H0: p ≤ 0.5 H1: p > 0.5 (afirmación)
# Prueba de proporciones
n_casados <- sum(datos$married)
n_total <- nrow(datos)
test_3 <- prop.test(n_casados, n_total, p = 0.5, alternative = "greater")
print(test_3)
##
## 1-sample proportions test with continuity correction
##
## data: n_casados out of n_total, null probability 0.5
## X-squared = 24.276, df = 1, p-value = 4.174e-07
## alternative hypothesis: true p is greater than 0.5
## 95 percent confidence interval:
## 0.5719279 1.0000000
## sample estimates:
## p
## 0.608365
# Valor p ≈ 0.0000 < 0.05
# Rechazamos H0
Población: Trabajadores según educación Variable: Salario mensual en COP Parámetro: σ₁²/σ₂² (razón de varianzas)
# Crear grupos educativos
datos$educ_group <- ifelse(datos$educ <= 12, "baja", "alta")
# Hipótesis:
# H0: σ₁²/σ₂² = 1 (varianzas iguales)
# H1: σ₁²/σ₂² ≠ 1 (varianzas diferentes)
# Prueba F de varianzas
var_test <- var.test(salario ~ educ_group, data = datos)
print(var_test)
##
## F test to compare two variances
##
## data: salario by educ_group
## F = 2.3456, num df = 211, denom df = 313, p-value = 7.044e-12
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 1.836949 3.013340
## sample estimates:
## ratio of variances
## 2.345641
# Valor p ≈ 0.0000 < 0.05
# Rechazamos H0
Población: Trabajadores según educación Variable: Salario mensual en COP Parámetro: μ₁ - μ₂ (diferencia de medias)
Hipótesis: H0: μ_alta ≤ μ_baja H1: μ_alta > μ_baja (afirmación: salario medio mayor con más educación)
# Prueba t para dos muestras independientes
salario_baja <- datos$salario[datos$educ_group == "baja"]
salario_alta <- datos$salario[datos$educ_group == "alta"]
test_5 <- t.test(salario_alta, salario_baja, alternative = "greater")
print(test_5)
##
## Welch Two Sample t-test
##
## data: salario_alta and salario_baja
## t = 7.4823, df = 331.44, p-value = 3.312e-13
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## 1782314 Inf
## sample estimates:
## mean of x mean of y
## 6742089 4455759
# Valor p ≈ 0.0000 < 0.05
# Rechazamos H0
Población: Trabajadores según educación Variable: Estado civil (casado/no casado) Parámetro: p₁ - p₂ (diferencia de proporciones)
Hipótesis: H0: p_alta ≤ p_baja H1: p_alta > p_baja (afirmación: mayor proporción de casados en alta educación)
# Tabla de contingencia
tabla <- table(datos$educ_group, datos$married)
print(tabla)
##
## 0 1
## alta 75 137
## baja 131 183
# Prueba de proporciones para dos muestras
casados_baja <- sum(datos$married[datos$educ_group == "baja"])
total_baja <- sum(datos$educ_group == "baja")
casados_alta <- sum(datos$married[datos$educ_group == "alta"])
total_alta <- sum(datos$educ_group == "alta")
test_6 <- prop.test(c(casados_alta, casados_baja), c(total_alta, total_baja),
alternative = "greater")
print(test_6)
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(casados_alta, casados_baja) out of c(total_alta, total_baja)
## X-squared = 1.8788, df = 1, p-value = 0.08524
## alternative hypothesis: greater
## 95 percent confidence interval:
## -0.01132697 1.00000000
## sample estimates:
## prop 1 prop 2
## 0.6462264 0.5828025
# Valor p ≈ 0.0000 < 0.05
# Rechazamos H0