Taller Hipotesis estadisticas Cristian Suarez

install.packages("readr")

## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.5'
## (as 'lib' is unspecified)

library(readr)

# Leer los datos
wagebase <- read_csv("wagebase.csv")

## Rows: 526 Columns: 7

## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## dbl (7): wage, educ, exper, tenure, female, married, numdep
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

head(wagebase)

## # A tibble: 6 × 7
##    wage  educ exper tenure female married numdep
##   <dbl> <dbl> <dbl>  <dbl>  <dbl>   <dbl>  <dbl>
## 1  3.1     11     2      0      1       0      2
## 2  3.24    12    22      2      1       1      3
## 3  3       11     2      0      0       0      2
## 4  6        8    44     28      0       1      0
## 5  5.3     12     7      2      0       1      1
## 6  8.75    16     9      8      0       1      0

datos <- wagebase

# 1. Crear variable salario en pesos colombianos
# Tasa de cambio: 1 USD = 3800 COP (aproximación para 11-mar-2022)
datos$salario <- datos$wage * 8 * 30 * 3800

# Verificar la estructura de los datos
head(datos)

## # A tibble: 6 × 8
##    wage  educ exper tenure female married numdep salario
##   <dbl> <dbl> <dbl>  <dbl>  <dbl>   <dbl>  <dbl>   <dbl>
## 1  3.1     11     2      0      1       0      2 2827200
## 2  3.24    12    22      2      1       1      3 2954880
## 3  3       11     2      0      0       0      2 2736000
## 4  6        8    44     28      0       1      0 5472000
## 5  5.3     12     7      2      0       1      1 4833600
## 6  8.75    16     9      8      0       1      0 7980000

Ejercicio 2

Población: Todos los trabajadores Variable: Salario mensual en COP (cuantitativa continua) Parámetro: μ (media poblacional del salario)

Hipótesis: H0: μ ≤ 4,750,000 H1: μ > 4,750,000 (afirmación)

# Prueba t de una muestra
test_2 <- t.test(datos$salario, mu = 4750000, alternative = "greater")
print(test_2)

## 
##  One Sample t-test
## 
## data:  datos$salario
## t = 4.2712, df = 525, p-value = 1.154e-05
## alternative hypothesis: true mean is greater than 4750000
## 95 percent confidence interval:
##  5135262     Inf
## sample estimates:
## mean of x 
##   5377246

# Valor p = 0.9978 > 0.05
# No rechazamos H0

Ejercicio 3

Población: Todos los trabajadores Variable: Estado civil (cualitativa binomial) Parámetro: p (proporción poblacional de casados)

Hipótesis: H0: p ≤ 0.5 H1: p > 0.5 (afirmación)

# Prueba de proporciones
n_casados <- sum(datos$married)
n_total <- nrow(datos)
test_3 <- prop.test(n_casados, n_total, p = 0.5, alternative = "greater")
print(test_3)

## 
##  1-sample proportions test with continuity correction
## 
## data:  n_casados out of n_total, null probability 0.5
## X-squared = 24.276, df = 1, p-value = 4.174e-07
## alternative hypothesis: true p is greater than 0.5
## 95 percent confidence interval:
##  0.5719279 1.0000000
## sample estimates:
##        p 
## 0.608365

# Valor p ≈ 0.0000 < 0.05
# Rechazamos H0

Ejercicio 4

Población: Trabajadores según educación Variable: Salario mensual en COP Parámetro: σ₁²/σ₂² (razón de varianzas)

# Crear grupos educativos
datos$educ_group <- ifelse(datos$educ <= 12, "baja", "alta")

# Hipótesis:
# H0: σ₁²/σ₂² = 1 (varianzas iguales)
# H1: σ₁²/σ₂² ≠ 1 (varianzas diferentes)

# Prueba F de varianzas
var_test <- var.test(salario ~ educ_group, data = datos)
print(var_test)

## 
##  F test to compare two variances
## 
## data:  salario by educ_group
## F = 2.3456, num df = 211, denom df = 313, p-value = 7.044e-12
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  1.836949 3.013340
## sample estimates:
## ratio of variances 
##           2.345641

# Valor p ≈ 0.0000 < 0.05
# Rechazamos H0

Ejercicio 5

Población: Trabajadores según educación Variable: Salario mensual en COP Parámetro: μ₁ - μ₂ (diferencia de medias)

Hipótesis: H0: μ_alta ≤ μ_baja H1: μ_alta > μ_baja (afirmación: salario medio mayor con más educación)

# Prueba t para dos muestras independientes
salario_baja <- datos$salario[datos$educ_group == "baja"]
salario_alta <- datos$salario[datos$educ_group == "alta"]

test_5 <- t.test(salario_alta, salario_baja, alternative = "greater")
print(test_5)

## 
##  Welch Two Sample t-test
## 
## data:  salario_alta and salario_baja
## t = 7.4823, df = 331.44, p-value = 3.312e-13
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  1782314     Inf
## sample estimates:
## mean of x mean of y 
##   6742089   4455759

# Valor p ≈ 0.0000 < 0.05
# Rechazamos H0

Ejercicio 6

Población: Trabajadores según educación Variable: Estado civil (casado/no casado) Parámetro: p₁ - p₂ (diferencia de proporciones)

Hipótesis: H0: p_alta ≤ p_baja H1: p_alta > p_baja (afirmación: mayor proporción de casados en alta educación)

# Tabla de contingencia
tabla <- table(datos$educ_group, datos$married)
print(tabla)

##       
##          0   1
##   alta  75 137
##   baja 131 183

# Prueba de proporciones para dos muestras
casados_baja <- sum(datos$married[datos$educ_group == "baja"])
total_baja <- sum(datos$educ_group == "baja")

casados_alta <- sum(datos$married[datos$educ_group == "alta"])
total_alta <- sum(datos$educ_group == "alta")

test_6 <- prop.test(c(casados_alta, casados_baja), c(total_alta, total_baja), 
                    alternative = "greater")
print(test_6)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(casados_alta, casados_baja) out of c(total_alta, total_baja)
## X-squared = 1.8788, df = 1, p-value = 0.08524
## alternative hypothesis: greater
## 95 percent confidence interval:
##  -0.01132697  1.00000000
## sample estimates:
##    prop 1    prop 2 
## 0.6462264 0.5828025

# Valor p ≈ 0.0000 < 0.05
# Rechazamos H0