library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.1 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.1
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(sf)
## Linking to GEOS 3.8.0, GDAL 3.0.4, PROJ 6.3.1; sf_use_s2() is TRUE
library(tigris)
## To enable caching of data, set `options(tigris_use_cache = TRUE)`
## in your R script or .Rprofile.
library(tidycensus)
library(mapview)
library(viridis)
## Loading required package: viridisLite
library(knitr)
library(leaflet)
library(stringr)
library(openintro)
## Loading required package: airports
## Loading required package: cherryblossom
## Loading required package: usdata
options(tigris_use_cache = TRUE)
census_api_key("9201280c0d35c282fc82be768c1b1ceec062e2b3")
## To install your API key for use in future sessions, run this function with `install = TRUE`.
census_us_county_income <- get_acs(geography = "county", variables = "B19013_001",
shift_geo = TRUE, geometry = TRUE)
## Getting data from the 2018-2022 5-year ACS
## Warning: The `shift_geo` argument is deprecated and will be removed in a future
## release. We recommend using `tigris::shift_geometry()` instead.
## Using feature geometry obtained from the albersusa package
## Please note: Alaska and Hawaii are being shifted and are not to scale.
## old-style crs object detected; please recreate object with a recent sf::st_crs()
shift_geo argument is deprecated and will
be removed in a futuretigris::shift_geometry()
instead.ggplot(data = census_us_county_income) +
geom_sf(aes(fill = estimate), color = NA) +
coord_sf(datum = NA) +
theme_minimal() +
scale_fill_viridis_c()
sample_us_county_income <- sample_frac(tbl = census_us_county_income, size = 0.2)
sample_us_county_income
##Intervalos de confianza Con varianza conocida 281357623 USD^2
# Paso 1: Calcular la media de la muestra
mean_sample <- mean(sample_us_county_income$estimate, na.rm = TRUE)
# Paso 2: Desviación estándar poblacional
sigma <- sqrt(281357623)
# Paso 3: Determinar el tamaño de la muestra
n <- nrow(sample_us_county_income)
# Paso 4: Calcular el error estándar de la media
se <- sigma / sqrt(n)
# Paso 5: Obtener el valor crítico z para un nivel de confianza del 90%
alpha <- 0.10
z_critical <- qnorm(1 - alpha/2)
# Paso 6: Calcular el intervalo de confianza
lower_bound <- mean_sample - z_critical * se
upper_bound <- mean_sample + z_critical * se
# Resultados
intervalo_confianza <- c(lower_bound, upper_bound)
intervalo_confianza
## [1] 62347.36 64551.06
Esto significa que estamos 90% seguros de que la verdadera media poblacional del ingreso se encuentra entre 62,905.69 y 65,097.00. Este intervalo proporciona un rango dentro del cual es probable que se encuentre la media verdadera de los ingresos, basado en los datos de la muestra.
# Paso 1: Calcular la media de la muestra
mean_sample <- mean(sample_us_county_income$estimate, na.rm = TRUE)
# Paso 2: Desviación estándar poblacional
sigma <- sqrt(281357623)
# Paso 3: Determinar el tamaño de la muestra
n <- nrow(sample_us_county_income)
# Paso 4: Calcular el error estándar de la media
se <- sigma / sqrt(n)
# Paso 5: Obtener los valores críticos z para los niveles de confianza del 95% y 99%
alpha_95 <- 0.05
alpha_99 <- 0.01
z_critical_95 <- qnorm(1 - alpha_95/2)
z_critical_99 <- qnorm(1 - alpha_99/2)
# Paso 6: Calcular los intervalos de confianza
ic_95_lower <- mean_sample - z_critical_95 * se
ic_95_upper <- mean_sample + z_critical_95 * se
ic_99_lower <- mean_sample - z_critical_99 * se
ic_99_upper <- mean_sample + z_critical_99 * se
# Resultados
intervalo_confianza_95 <- c(ic_95_lower, ic_95_upper)
intervalo_confianza_99 <- c(ic_99_lower, ic_99_upper)
list(intervalo_confianza_95 = intervalo_confianza_95, intervalo_confianza_99 = intervalo_confianza_99)
## $intervalo_confianza_95
## [1] 62136.27 64762.15
##
## $intervalo_confianza_99
## [1] 61723.72 65174.70
En el primer ejercicio, estamos 95% seguros de que la verdadera media poblacional del ingreso se encuentra entre 63,790.26 y 66,416.13. Este intervalo proporciona un rango más estrecho que el intervalo del 99%, reflejando un mayor nivel de precisión. Para el segundo resultado, estamos 99% seguros de que la verdadera media poblacional del ingreso se encuentra entre 63,377.70 y 66,828.68. Este intervalo es más amplio que el intervalo del 95%, reflejando un mayor nivel de certeza. Ambos intervalos proporcionan información sobre la media poblacional del ingreso con diferentes niveles de confianza. Un intervalo más amplio (99%) ofrece mayor seguridad de incluir la media verdadera, mientras que un intervalo más estrecho (95%) proporciona una estimación más precisa pero con menor seguridad. La elección del intervalo depende del balance deseado entre precisión y confianza. Estos resultados son obtenidos gracias a la varianza otorgada en el Paper original del parcial que nos fue proporcionada por el porfesor, es decir una varienza de 281357623 USD ^2. ## Con Varianza Desconocida
# Parámetros conocidos
sigma_squared <- 281357623
sigma <- sqrt(sigma_squared)
n <- nrow(sample_us_county_income)
# Media muestral
mean_sample <- mean(sample_us_county_income$estimate, na.rm = TRUE)
# Prueba Z para media diferente de $50,000 (5%)
mu_0_50000 <- 50000
z_50000 <- (mean_sample - mu_0_50000) / (sigma / sqrt(n))
p_value_50000 <- 2 * (1 - pnorm(abs(z_50000)))
# Prueba Z para media mayor a $45,000 (1%)
mu_0_45000 <- 45000
z_45000 <- (mean_sample - mu_0_45000) / (sigma / sqrt(n))
p_value_45000 <- 1 - pnorm(z_45000)
# Prueba Z para media menor a $60,000 (10%)
mu_0_60000 <- 60000
z_60000 <- (mean_sample - mu_0_60000) / (sigma / sqrt(n))
p_value_60000 <- pnorm(z_60000)
# Prueba Z para media diferente de $55,000 (5%)
mu_0_55000 <- 55000
z_55000 <- (mean_sample - mu_0_55000) / (sigma / sqrt(n))
p_value_55000 <- 2 * (1 - pnorm(abs(z_55000)))
# Resultados
list(
prueba_50000 = list(z = z_50000, p_value = p_value_50000, reject_null = p_value_50000 < 0.05),
prueba_45000 = list(z = z_45000, p_value = p_value_45000, reject_null = p_value_45000 < 0.01),
prueba_60000 = list(z = z_60000, p_value = p_value_60000, reject_null = p_value_60000 < 0.10),
prueba_55000 = list(z = z_55000, p_value = p_value_55000, reject_null = p_value_55000 < 0.05)
)
## $prueba_50000
## $prueba_50000$z
## [1] 20.07711
##
## $prueba_50000$p_value
## [1] 0
##
## $prueba_50000$reject_null
## [1] TRUE
##
##
## $prueba_45000
## $prueba_45000$z
## [1] 27.54116
##
## $prueba_45000$p_value
## [1] 0
##
## $prueba_45000$reject_null
## [1] TRUE
##
##
## $prueba_60000
## $prueba_60000$z
## [1] 5.149015
##
## $prueba_60000$p_value
## [1] 0.9999999
##
## $prueba_60000$reject_null
## [1] FALSE
##
##
## $prueba_55000
## $prueba_55000$z
## [1] 12.61306
##
## $prueba_55000$p_value
## [1] 0
##
## $prueba_55000$reject_null
## [1] TRUE
Interpretación: - Dado que el valor p es 0, es significativamente menor que 0.05, por lo que rechazamos la hipótesis nula. Esto indica que la media poblacional de la variable ingreso es significativamente diferente de $50,000.
Interpretación: - El valor p es 0, mucho menor que 0.01, por lo que rechazamos la hipótesis nula. Esto sugiere que la media poblacional de la variable ingreso es significativamente mayor a $45,000.
Interpretación: - El valor p es 0.9999999, mucho mayor que 0.10, por lo que no rechazamos la hipótesis nula. Esto indica que no hay suficiente evidencia para concluir que la media poblacional de la variable ingreso es significativamente menor a $60,000.
Interpretación: - El valor p es 0, mucho menor que 0.05, por lo que rechazamos la hipótesis nula. Esto sugiere que la media poblacional de la variable ingreso es significativamente diferente de $55,000.
Para Resumir, podemos afrimar lo siguiente: - Media = $50,000: La media poblacional es significativamente diferente de $50,000. - Media > $45,000: La media poblacional es significativamente mayor a $45,000. - Media < $60,000: No hay suficiente evidencia para concluir que la media poblacional es significativamente menor a $60,000. - Media = $55,000: La media poblacional es significativamente diferente de $55,000.
En cada caso, los resultados indican si hay suficiente evidencia para rechazar la hipótesis nula basándonos en los valores p y el nivel de significancia especificado.
##Intervalos de confianza para Varianza desconocida
# Datos de la muestra
sample_us_county_income <- sample_frac(tbl = census_us_county_income, size = 0.2)
# Intervalo de confianza del 90%
intervalo_confianza_90 <- t.test(sample_us_county_income$estimate, conf.level = 0.90)$conf.int
# Intervalo de confianza del 95%
intervalo_confianza_95 <- t.test(sample_us_county_income$estimate, conf.level = 0.95)$conf.int
# Intervalo de confianza del 99%
intervalo_confianza_99 <- t.test(sample_us_county_income$estimate, conf.level = 0.99)$conf.int
# Resultados
list(
intervalo_confianza_90 = intervalo_confianza_90,
intervalo_confianza_95 = intervalo_confianza_95,
intervalo_confianza_99 = intervalo_confianza_99
)
## $intervalo_confianza_90
## [1] 62520.50 64758.05
## attr(,"conf.level")
## [1] 0.9
##
## $intervalo_confianza_95
## [1] 62305.56 64972.99
## attr(,"conf.level")
## [1] 0.95
##
## $intervalo_confianza_99
## [1] 61884.52 65394.03
## attr(,"conf.level")
## [1] 0.99
Interpretación
Interpretación: - Estamos 90% seguros de que la media poblacional de la variable ingreso se encuentra entre 62,676.97 y 64,848.69. - Esto significa que si tomamos muchas muestras y calculamos un intervalo de confianza del 90% para cada muestra, aproximadamente el 90% de esos intervalos contendrían la verdadera media poblacional.
Interpretación: - Estamos 95% seguros de que la media poblacional de la variable ingreso se encuentra entre 62,468.36 y 65,057.30. - Similarmente, si se repitiera el proceso de muestreo muchas veces, alrededor del 95% de los intervalos calculados contendrían la verdadera media poblacional.
Interpretación: - Estamos 99% seguros de que la media poblacional de la variable ingreso se encuentra entre 62,059.70 y 65,465.95. - En este caso, el intervalo es más amplio para reflejar el mayor nivel de confianza. Aproximadamente el 99% de los intervalos calculados a partir de muchas muestras contendrían la verdadera media poblacional.
# Prueba t para media diferente de $50,000 (5%)
resultado_50000 <- t.test(sample_us_county_income$estimate, mu = 50000, alternative = "two.sided", conf.level = 0.95)
# Prueba t para media mayor a $45,000 (1%)
resultado_45000 <- t.test(sample_us_county_income$estimate, mu = 45000, alternative = "greater", conf.level = 0.99)
# Prueba t para media menor a $60,000 (10%)
resultado_60000 <- t.test(sample_us_county_income$estimate, mu = 60000, alternative = "less", conf.level = 0.90)
# Prueba t para media diferente de $55,000 (5%)
resultado_55000 <- t.test(sample_us_county_income$estimate, mu = 55000, alternative = "two.sided", conf.level = 0.95)
# Resultados
list(
prueba_50000 = resultado_50000,
prueba_45000 = resultado_45000,
prueba_60000 = resultado_60000,
prueba_55000 = resultado_55000
)
## $prueba_50000
##
## One Sample t-test
##
## data: sample_us_county_income$estimate
## t = 20.082, df = 626, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 50000
## 95 percent confidence interval:
## 62305.56 64972.99
## sample estimates:
## mean of x
## 63639.27
##
##
## $prueba_45000
##
## One Sample t-test
##
## data: sample_us_county_income$estimate
## t = 27.444, df = 626, p-value < 2.2e-16
## alternative hypothesis: true mean is greater than 45000
## 99 percent confidence interval:
## 62055.25 Inf
## sample estimates:
## mean of x
## 63639.27
##
##
## $prueba_60000
##
## One Sample t-test
##
## data: sample_us_county_income$estimate
## t = 5.3585, df = 626, p-value = 1
## alternative hypothesis: true mean is less than 60000
## 90 percent confidence interval:
## -Inf 64510.58
## sample estimates:
## mean of x
## 63639.27
##
##
## $prueba_55000
##
## One Sample t-test
##
## data: sample_us_county_income$estimate
## t = 12.72, df = 626, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 55000
## 95 percent confidence interval:
## 62305.56 64972.99
## sample estimates:
## mean of x
## 63639.27
Interpretación: - El valor del estadístico z (20.20984) es muy alto, lo que indica una gran diferencia entre la media muestral y $50,000. - Un p-valor de 0 significa que la probabilidad de observar un resultado tan extremo, si la media poblacional realmente fuera $50,000, es prácticamente nula. - Dado que el p-valor es menor que el nivel de significancia del 5% (0.05), rechazamos la hipótesis nula y concluimos que la media poblacional es significativamente diferente de $50,000.
Interpretación: - El valor del estadístico z (27.67389) es muy alto, indicando una diferencia significativa entre la media muestral y $45,000. - Un p-valor de 0 implica que es extremadamente improbable observar un resultado tan extremo si la media poblacional realmente fuera $45,000. - Dado que el p-valor es menor que el nivel de significancia del 1% (0.01), rechazamos la hipótesis nula y concluimos que la media poblacional es significativamente mayor que $45,000.
Interpretación: - El valor del estadístico z (5.281741) es positivo pero no lo suficientemente alto como para rechazar la hipótesis nula a favor de la alternativa. - Un p-valor de 0.9999999 indica que la probabilidad de observar un resultado tan extremo, si la media poblacional realmente fuera $60,000, es extremadamente alta. - Dado que el p-valor es mayor que el nivel de significancia del 10% (0.10), no rechazamos la hipótesis nula y concluimos que no hay suficiente evidencia para afirmar que la media poblacional es significativamente menor que $60,000.
Interpretación: - El valor del estadístico z (12.74579) es muy alto, indicando una diferencia significativa entre la media muestral y $55,000. - Un p-valor de 0 significa que es extremadamente improbable observar un resultado tan extremo si la media poblacional realmente fuera $55,000. - Dado que el p-valor es menor que el nivel de significancia del 5% (0.05), rechazamos la hipótesis nula y concluimos que la media poblacional es significativamente diferente de $55,000.
Cada prueba se basa en el estadístico z y el p-valor calculado, y se interpreta con respecto al nivel de significancia especificado para cada prueba.
##Para Varianza sigma^2
# Cargar librerías necesarias
library(tidyverse)
# Datos de la muestra
sample_us_county_income <- sample_frac(tbl = census_us_county_income, size = 0.2)
# Paso 1: Calcular la varianza de la muestra
var_sample <- var(sample_us_county_income$estimate, na.rm = TRUE)
# Paso 2: Determinar el tamaño de la muestra
n <- nrow(sample_us_county_income)
# Paso 3: Determinar los valores críticos chi-cuadrado para diferentes niveles de confianza
df <- n - 1
# Intervalo de Confianza del 90%
alpha_90 <- 0.10
chi2_critical_lower_90 <- qchisq(alpha_90/2, df)
chi2_critical_upper_90 <- qchisq(1 - alpha_90/2, df)
ic_var_90_lower <- (df * var_sample) / chi2_critical_upper_90
ic_var_90_upper <- (df * var_sample) / chi2_critical_lower_90
# Intervalo de Confianza del 95%
alpha_95 <- 0.05
chi2_critical_lower_95 <- qchisq(alpha_95/2, df)
chi2_critical_upper_95 <- qchisq(1 - alpha_95/2, df)
ic_var_95_lower <- (df * var_sample) / chi2_critical_upper_95
ic_var_95_upper <- (df * var_sample) / chi2_critical_lower_95
# Intervalo de Confianza del 99%
alpha_99 <- 0.01
chi2_critical_lower_99 <- qchisq(alpha_99/2, df)
chi2_critical_upper_99 <- qchisq(1 - alpha_99/2, df)
ic_var_99_lower <- (df * var_sample) / chi2_critical_upper_99
ic_var_99_upper <- (df * var_sample) / chi2_critical_lower_99
# Resultados
resultados <- list(
intervalo_confianza_var_90 = c(ic_var_90_lower, ic_var_90_upper),
intervalo_confianza_var_95 = c(ic_var_95_lower, ic_var_95_upper),
intervalo_confianza_var_99 = c(ic_var_99_lower, ic_var_99_upper)
)
resultados
## $intervalo_confianza_var_90
## [1] 249569175 300608453
##
## $intervalo_confianza_var_95
## [1] 245306202 306203101
##
## $intervalo_confianza_var_99
## [1] 237251938 317542743
Claro, aquí tienes la interpretación de los resultados con la corrección solicitada:
\[ [260,648,176 \, \text{USD}^2; 313,953,217 \, \text{USD}^2] \] Este intervalo sugiere que, con un 90% de confianza, la varianza poblacional de los ingresos se encuentra entre 260,648,176 y 313,953,217 USD^2. Esto significa que si tomamos muchas muestras y calculamos los intervalos de confianza del 90% para cada muestra, aproximadamente el 90% de esos intervalos contendrán la verdadera varianza poblacional.
\[ [256,195,959 \, \text{USD}^2; 319,796,224 \, \text{USD}^2] \] Este intervalo indica que, con un 95% de confianza, la varianza poblacional de los ingresos se encuentra entre 256,195,959 y 319,796,224 USD^2. Este intervalo es más amplio que el del 90% debido a que un mayor nivel de confianza requiere un margen más amplio para asegurar que la verdadera varianza está contenida dentro del intervalo en un mayor número de muestras.
\[ [247,784,147 \, \text{USD}^2; 331,639,262 \, \text{USD}^2] \] Este intervalo sugiere que, con un 99% de confianza, la varianza poblacional de los ingresos se encuentra entre 247,784,147 y 331,639,262 USD^2. Este es el intervalo más amplio de los tres, lo que refleja la mayor certeza (99%) de que este intervalo contiene la verdadera varianza poblacional. A medida que aumentamos el nivel de confianza, el intervalo se ensancha para cubrir la verdadera varianza con mayor seguridad.
En concluison se puede afirmar que: - Confianza del 90%: Varianza entre 260,648,176 y 313,953,217 USD^2. - Confianza del 95%: Varianza entre 256,195,959 y 319,796,224 USD^2. - Confianza del 99%: Varianza entre 247,784,147 y 331,639,262 USD^2.
Estos intervalos de confianza nos proporcionan una estimación del rango en el que es probable que se encuentre la varianza poblacional de los ingresos, con diferentes niveles de confianza. La ampliación de los intervalos con niveles de confianza más altos refleja la necesidad de mayor certeza en la estimación.
# Prueba para media diferente de $50,000 (5%)
resultado_50000 <- t.test(sample_us_county_income$estimate, mu = 50000, alternative = "two.sided", conf.level = 0.95)
# Prueba para media mayor a $45,000 (1%)
resultado_45000 <- t.test(sample_us_county_income$estimate, mu = 45000, alternative = "greater", conf.level = 0.99)
# Prueba para media menor a $60,000 (10%)
resultado_60000 <- t.test(sample_us_county_income$estimate, mu = 60000, alternative = "less", conf.level = 0.90)
# Prueba para media diferente de $55,000 (5%)
resultado_55000 <- t.test(sample_us_county_income$estimate, mu = 55000, alternative = "two.sided", conf.level = 0.95)
# Resultados
resultados <- list(
prueba_50000 = resultado_50000,
prueba_45000 = resultado_45000,
prueba_60000 = resultado_60000,
prueba_55000 = resultado_55000
)
resultados
## $prueba_50000
##
## One Sample t-test
##
## data: sample_us_county_income$estimate
## t = 20.613, df = 626, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 50000
## 95 percent confidence interval:
## 62310.76 64903.38
## sample estimates:
## mean of x
## 63607.07
##
##
## $prueba_45000
##
## One Sample t-test
##
## data: sample_us_county_income$estimate
## t = 28.188, df = 626, p-value < 2.2e-16
## alternative hypothesis: true mean is greater than 45000
## 99 percent confidence interval:
## 62067.47 Inf
## sample estimates:
## mean of x
## 63607.07
##
##
## $prueba_60000
##
## One Sample t-test
##
## data: sample_us_county_income$estimate
## t = 5.4643, df = 626, p-value = 1
## alternative hypothesis: true mean is less than 60000
## 90 percent confidence interval:
## -Inf 64453.94
## sample estimates:
## mean of x
## 63607.07
##
##
## $prueba_55000
##
## One Sample t-test
##
## data: sample_us_county_income$estimate
## t = 13.039, df = 626, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 55000
## 95 percent confidence interval:
## 62310.76 64903.38
## sample estimates:
## mean of x
## 63607.07
Para los 50000$
Interpretación: La media de la muestra (63,140.05) es significativamente diferente de 50,000. El p-valor es muy pequeño, lo que indica que hay una alta evidencia en contra de la hipótesis nula de que la media es 50,000. Además, el intervalo de confianza del 95% está claramente por encima de 50,000.
Para 45000
Interpretación: La media de la muestra es significativamente mayor que 45,000. El p-valor muy bajo sugiere que hay evidencia suficiente para rechazar la hipótesis nula y aceptar que la media es mayor que 45,000. El intervalo de confianza del 99% confirma que 63,140.05 está muy por encima de 45,000.
Para 60000
Interpretación: La prueba no proporciona evidencia suficiente para aceptar que la media es menor que 60,000, ya que el p-valor es 1. Esto sugiere que no se puede rechazar la hipótesis nula de que la media es igual o mayor que 60,000. El intervalo de confianza del 90% incluye valores mayores que 60,000.
Para 55000
Interpretación: La media de la muestra (63,140.05) es significativamente diferente de 55,000. El p-valor extremadamente bajo indica que se rechaza la hipótesis nula de que la media es 55,000. El intervalo de confianza del 95% muestra que la media está claramente por encima de 55,000.
Concsulsión: La media de la muestra es consistentemente mayor que los valores de referencia dados, como 45,000, 50,000, y 55,000, y no se puede establecer que sea menor que 60,000 con la evidencia proporcionada.