library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.1 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.1
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(sf)
## Linking to GEOS 3.8.0, GDAL 3.0.4, PROJ 6.3.1; sf_use_s2() is TRUE
library(tigris)
## To enable caching of data, set `options(tigris_use_cache = TRUE)`
## in your R script or .Rprofile.
library(tidycensus)
library(mapview)
library(viridis)
## Loading required package: viridisLite
library(knitr)
library(leaflet)
library(stringr)
library(openintro)
## Loading required package: airports
## Loading required package: cherryblossom
## Loading required package: usdata
options(tigris_use_cache = TRUE)
census_api_key("4a589322e2f968ccd74df23c6a2a44e239f5ac27")
## To install your API key for use in future sessions, run this function with `install = TRUE`.
La Oficina del Censo de los Estados Unidos (en inglés: United States Census Bureau) forma parte del Departamento de Comercio de Estados Unidos. Es el organismo gubernamental que se encarga del censo en los Estados Unidos. Es la fuente de datos confiables sobre la economía y los habitantes de la nación, y lleva a cabo estudios demográficos tales como niveles de población y tendencias en la vivienda, y estudios económicos, como por ejemplo de productividad.
census_us_county_income <- get_acs(geography = "county", variables = "B19013_001",
shift_geo = TRUE, geometry = TRUE)
## Getting data from the 2018-2022 5-year ACS
## Warning: The `shift_geo` argument is deprecated and will be removed in a future
## release. We recommend using `tigris::shift_geometry()` instead.
## Using feature geometry obtained from the albersusa package
## Please note: Alaska and Hawaii are being shifted and are not to scale.
## old-style crs object detected; please recreate object with a recent sf::st_crs()
ggplot(data = census_us_county_income) +
geom_sf(aes(fill = estimate), color = NA) +
coord_sf(datum = NA) +
theme_minimal() +
scale_fill_viridis_c()
Tome una muestra aleatoria del 20% de la población para generar un interválo de confianza a los niveles de confiabilidad 1−α y significancia α solicitados
sample_us_county_income <- sample_frac(tbl = census_us_county_income, size = 0.2)
\[\left(\bar{x}_{n}-z_{\frac{\alpha}{2}}\sqrt{\frac{{\sigma^2}}{n}};\bar{x}_{n}+z_{\frac{\alpha}{2}}\sqrt{\frac{{\sigma^2}}{n}}\right)\]
muestra <- mean(sample_us_county_income$estimate, na.rm = TRUE)
Construir un intervalo de confianza
Tamaño de la muestra
n <- length(muestra)
n
## [1] 1
Intervalo de confianza (90%)
sigma2 <- 281357623
z_90 <- qnorm(0.90)
z_90
## [1] 1.281552
Parametro poblacional
p1 <- muestra - z_90 * sqrt(sigma2 / n)
p2 <- muestra + z_90 * sqrt(sigma2 / n)
p1
## [1] 41946.51
p2
## [1] 84939.28
Conclusión: Este intervalo muestra que la media de los ingresos de EEUU está dentro del rango dado.
muestra <- mean(sample_us_county_income$estimate, na.rm = TRUE)
muestra
## [1] 63442.9
Construir un intervalo de confianza
Tamaño de la muestra
n <- length(muestra)
n
## [1] 1
Intervalo de confianza (90%)
sigma2 <- 281357623
z_90 <- qnorm(0.95)
z_90
## [1] 1.644854
Parametro poblacional
p1 <- muestra - z_90 * sqrt(sigma2 / n)
p2 <- muestra + z_90 * sqrt(sigma2 / n)
p1
## [1] 35852.59
p2
## [1] 91033.21
Conclusión: Este intervalo muestra que la media de los ingresos de EEUU está dentro del rango dado.
muestra <- mean(sample_us_county_income$estimate, na.rm = TRUE)
muestra
## [1] 63442.9
Construir un intervalo de confianza
Tamaño de la muestra
n <- length(muestra)
n
## [1] 1
Intervalo de confianza (90%)
sigma2 <- 281357623
z_90 <- qnorm(0.99)
z_90
## [1] 2.326348
Parametro poblacional
p1 <- muestra - z_90 * sqrt(sigma2 / n)
p2 <- muestra + z_90 * sqrt(sigma2 / n)
p1
## [1] 24421.39
p2
## [1] 102464.4
Conclusión: Este intervalo muestra que la media de los ingresos de EEUU está dentro del rango dado.
\[\left(\bar{x}_{n}-z_{\frac{\alpha}{2}}\sqrt{\frac{{s^2}}{n}};\bar{x}_{n}+z_{\frac{\alpha}{2}}\sqrt{\frac{{s^2}}{n}}\right)\]
muestra <- sample_us_county_income$estimate
xbarra <- mean(muestra, na.rm = TRUE)
xbarra
## [1] 63442.9
Varianza muestral
S2 <- var(sample_us_county_income$estimate, na.rm = TRUE)
S2
## [1] 285014088
Tamaño de la muestra
n <- length(muestra)
n
## [1] 627
Error estándar
error.estandar <- sqrt(x=S2/n)
error.estandar
## [1] 674.2165
Error de estimación
error.de.estimacion <- qt(p=0.90, df=n-1) * error.estandar
error.de.estimacion
## [1] 864.956
Intervalo de confianza (90%)
intervalo <- round(x=xbarra + c(-error.de.estimacion, +error.de.estimacion), digits=2)
intervalo
## [1] 62577.94 64307.85
Conclusión: Este intervalo de confianza indica que se tiene el 90% de certeza que la media del ingreso es como se muestra en la gráfica.
muestra <- sample_us_county_income$estimate
xbarra <- mean(muestra, na.rm = TRUE)
xbarra
## [1] 63442.9
Varianza muestral
S2 <- var(sample_us_county_income$estimate, na.rm = TRUE)
S2
## [1] 285014088
Tamaño de la muestra
n <- length(muestra)
n
## [1] 627
Error estándar
error.estandar <- sqrt(x=S2/n)
error.estandar
## [1] 674.2165
Error de estimación
error.de.estimacion <- qt(p=0.95, df=n-1) * error.estandar
error.de.estimacion
## [1] 1110.631
Intervalo de confianza (95%)
intervalo <- round(x=xbarra + c(-error.de.estimacion, +error.de.estimacion), digits=2)
intervalo
## [1] 62332.27 64553.53
muestra <- sample_us_county_income$estimate
xbarra <- mean(muestra, na.rm = TRUE)
xbarra
## [1] 63442.9
Varianza muestral
S2 <- var(sample_us_county_income$estimate, na.rm = TRUE)
S2
## [1] 285014088
Tamaño de la muestra
n <- length(muestra)
n
## [1] 627
Error estándar
error.estandar <- sqrt(x=S2/n)
error.estandar
## [1] 674.2165
Error de estimación
error.de.estimacion <- qt(p=0.99, df=n-1) * error.estandar
error.de.estimacion
## [1] 1572.488
Intervalo de confianza (99%)
intervalo <- round(x=xbarra + c(-error.de.estimacion, +error.de.estimacion), digits=2)
intervalo
## [1] 61870.41 65015.39
\[\left(\frac{({n}-1)s^2}{{\chi}_{n-1,1-\frac{\alpha}{2}}^{2}};\frac{({n}-1)s^2}{{\chi}_{n-1,\frac{\alpha}{2}}^{2}}\right)\]
muestra <- sample_us_county_income$estimate
S2 <- var(muestra, na.rm = TRUE)
n <- length(muestra)
df <- n - 1
alpha <- 0.90
chi2_upper <- qchisq(p = 1 - alpha / 2, df = df)
chi2_lower <- qchisq(p = alpha / 2, df = df)
df1 <- (df * S2) / chi2_upper
df2 <- (df * S2) / chi2_lower
intervalo <- round(c(df1, df2), digits = 2)
intervalo
## [1] 283299995 287354980
muestra <- sample_us_county_income$estimate
S2 <- var(muestra, na.rm = TRUE)
n <- length(muestra)
df <- n - 1
alpha <- 0.95
chi2_upper <- qchisq(p = 1 - alpha / 2, df = df)
chi2_lower <- qchisq(p = alpha / 2, df = df)
df1 <- (df * S2) / chi2_upper
df2 <- (df * S2) / chi2_lower
intervalo <- round(c(df1, df2), digits = 2)
intervalo
## [1] 284308542 286332008
muestra <- sample_us_county_income$estimate
S2 <- var(muestra, na.rm = TRUE)
n <- length(muestra)
df <- n - 1
alpha <- 0.99
chi2_upper <- qchisq(p = 1 - alpha / 2, df = df)
chi2_lower <- qchisq(p = alpha / 2, df = df)
df1 <- (df * S2) / chi2_upper
df2 <- (df * S2) / chi2_lower
intervalo <- round(c(df1, df2), digits = 2)
intervalo
## [1] 285115760 285520197