library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.1 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.1
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(sf)
## Linking to GEOS 3.8.0, GDAL 3.0.4, PROJ 6.3.1; sf_use_s2() is TRUE
library(tigris)
## To enable caching of data, set `options(tigris_use_cache = TRUE)`
## in your R script or .Rprofile.
library(tidycensus)
library(mapview)
library(viridis)
## Loading required package: viridisLite
library(knitr)
library(leaflet)
library(stringr)
library(openintro)
## Loading required package: airports
## Loading required package: cherryblossom
## Loading required package: usdata
options(tigris_use_cache = TRUE)
census_api_key("56b8b07e85c34786f652458b0ce050d981641070")
## To install your API key for use in future sessions, run this function with `install = TRUE`.
La Oficina del Censo de los Estados Unidos (en inglés: United States Census Bureau) forma parte del Departamento de Comercio de Estados Unidos. Es el organismo gubernamental que se encarga del censo en los Estados Unidos. Es la fuente de datos confiables sobre la economía y los habitantes de la nación, y lleva a cabo estudios demográficos tales como niveles de población y tendencias en la vivienda, y estudios económicos, como por ejemplo de productividad.
census_us_county_income <- get_acs(geography = "county", variables = "B19013_001",
shift_geo = TRUE, geometry = TRUE)
## Getting data from the 2018-2022 5-year ACS
## Warning: The `shift_geo` argument is deprecated and will be removed in a future
## release. We recommend using `tigris::shift_geometry()` instead.
## Using feature geometry obtained from the albersusa package
## Please note: Alaska and Hawaii are being shifted and are not to scale.
## old-style crs object detected; please recreate object with a recent sf::st_crs()
ggplot(data = census_us_county_income) +
geom_sf(aes(fill = estimate), color = NA) +
coord_sf(datum = NA) +
theme_minimal() +
scale_fill_viridis_c(name="Ingreso Promedio")
Tome una muestra aleatoria del 20% de la población para generar un interválo de confianza a los niveles de confiabilidad \(1-\alpha\) y significancia \(\alpha\) solicitados
sample_us_county_income <- sample_frac(tbl = census_us_county_income, size = 0.2)
\[ \left(\bar{x}_{n}-z_{\frac{\alpha}{2}}\sqrt{\frac{{\sigma^2}}{n}};\bar{x}_{n}+z_{\frac{\alpha}{2}}\sqrt{\frac{{\sigma^2}}{n}}\right) \]
Entonces, el intervalo de confianza del 90% (\(1-\alpha\)) y una varianza conocida \((\sigma^2= 281.357.623{dolares}^2)\)
S2 <- 281357623
desviacion_estandar <- sqrt(S2)
intervalo_confianza <- 0.90
alpha <- 1 - intervalo_confianza
z_alpha <- qnorm(1 - alpha / 2)
media_muestra <- mean(sample_us_county_income$estimate, na.rm = TRUE)
n <- nrow(sample_us_county_income)
error_estandar <- sqrt(S2/n)
intervalo_I <- media_muestra - z_alpha * error_estandar
intervalo_S <- media_muestra + z_alpha * error_estandar
cat("Intervalo de confianza 90%:", intervalo_I, "al", intervalo_S)
## Intervalo de confianza 90%: 62303.92 al 64507.62
Interpretación: Este rango de 62541.26 dóleres a 64744.96 dólares con un nivel de confianza del 90%, indica que hay un 90% de certeza de que el ingreso promedio real de la población de los condados en EE. UU. esté dentro de ese rango.
Entonces, el intervalo de confianza del 95% (\(1-\alpha\)) y una varianza conocida \((\sigma^2= 281.357.623{dolares}^2)\)
S2 <- 281357623
desviacion_estandar <- sqrt(S2)
intervalo_confianza <- 0.95
alpha <- 1 - intervalo_confianza
z_alpha <- qnorm(1 - alpha / 2)
media_muestra <- mean(sample_us_county_income$estimate, na.rm = TRUE)
n <- nrow(sample_us_county_income)
error_estandar <- sqrt(S2/n)
intervalo_I <- media_muestra - z_alpha * error_estandar
intervalo_S <- media_muestra + z_alpha * error_estandar
cat("Intervalo de confianza 95%:", intervalo_I, "al", intervalo_S)
## Intervalo de confianza 95%: 62092.83 al 64718.71
Interpretación: A diferencia del punto anterior este rango va desde 62330.18 dólares a 64956.05 dólares, es decir, a medida de que el rango de un intervalo es más amplio tendrá más probabilidad de acierto (cuando tiene un nivel mayor de confianza, en este caso, 95%), mientras que para un intervalo más pequeño, (como lo es el punto anterior) disminuye la probabilidad de presición.
Entonces, el intervalo de confianza del 99% (\(1-\alpha\)) y una varianza conocida \((\sigma^2= 281.357.623{dolares}^2)\)
S2 <- 281357623
desviacion_estandar <- sqrt(S2)
intervalo_confianza <- 0.99
alpha <- 1 - intervalo_confianza
z_alpha <- qnorm(1 - alpha / 2)
media_muestra <- mean(sample_us_county_income$estimate, na.rm = TRUE)
n <- nrow(sample_us_county_income)
error_estandar <- sqrt(S2/n)
intervalo_I <- media_muestra - z_alpha * error_estandar
intervalo_S <- media_muestra + z_alpha * error_estandar
cat("Intervalo de confianza 99%:", intervalo_I, "al", intervalo_S)
## Intervalo de confianza 99%: 61680.28 al 65131.26
Interprestación: En este punto se encuentra un rango de 61917.62 dólares a 65368.6 dólares, de igual forma que el punto anterior, a medida de que el rango de un intervalo es más amplio tendrá más probabilidad de acierto (en este caso es mucho mayor a los puntos anteriores, 99%), mientras que para un intervalo más pequeño, disminuye la probabilidad de presición.
\[ \left(\bar{x}_{n}-z_{\frac{\alpha}{2}}\sqrt{\frac{{s^2}}{n}};\bar{x}_{n}+z_{\frac{\alpha}{2}}\sqrt{\frac{{s^2}}{n}}\right) \]
Entonces, el intervalo de confianza del 90% (\(1-\alpha\))
intervalo_confianza <- 0.90
alpha <- 1 - intervalo_confianza
t_alpha <- qt(1 - alpha / 2, df = n - 1)
media_muestra <- mean(sample_us_county_income$estimate, na.rm = TRUE)
S2 <- sd(sample_us_county_income$estimate, na.rm = TRUE)
n <- nrow(sample_us_county_income)
error_estandar <- sqrt(S2/n)
Intervalo_I <- media_muestra - t_alpha * error_estandar
Intervalo_S <- media_muestra + t_alpha * error_estandar
cat("Intervalo de confianza 90%:", Intervalo_I, "a", Intervalo_S)
## Intervalo de confianza 90%: 63397.24 a 63414.3
Interpretación: Este intervalo de confianza va de un rango de 63461.02 a 63478.78 dólares. Es muy poca la amplitud del rango, diferenciandose por unos centavos. Esto sucede cuando la variable de ingreso es desconocida.
Entonces, el intervalo de confianza del 95% (\(1-\alpha\))
intervalo_confianza <- 0.95
alpha <- 1 - intervalo_confianza
t_alpha <- qt(1 - alpha / 2, df = n - 1)
media_muestra <- mean(sample_us_county_income$estimate, na.rm = TRUE)
S2 <- sd(sample_us_county_income$estimate, na.rm = TRUE)
n <- nrow(sample_us_county_income)
error_estandar <- sqrt(S2/n)
Intervalo_I <- media_muestra - t_alpha * error_estandar
Intervalo_S <- media_muestra + t_alpha * error_estandar
cat("Intervalo de confianza 95%:", Intervalo_I, "a", Intervalo_S)
## Intervalo de confianza 95%: 63395.6 a 63415.94
Interpretación: El rango del intervalo de confianza 95% varía de 63459.31 dólares a 63480.48 dólares, aumenta la amplitud del rango aunque la variable de ingreso sea desconocida.
Entonces, el intervalo de confianza del 99% (\(1-\alpha\))
intervalo_confianza <- 0.99
alpha <- 1 - intervalo_confianza
t_alpha <- qt(1 - alpha / 2, df = n - 1)
media_muestra <- mean(sample_us_county_income$estimate, na.rm = TRUE)
S2 <- sd(sample_us_county_income$estimate, na.rm = TRUE)
n <- nrow(sample_us_county_income)
error_estandar <- sqrt(S2/n)
Intervalo_I <- media_muestra - t_alpha * error_estandar
Intervalo_S <- media_muestra + t_alpha * error_estandar
cat("Intervalo de confianza 99%:", Intervalo_I, "a", Intervalo_S)
## Intervalo de confianza 99%: 63392.39 a 63419.15
Interpretación: El intervalo de confianza varía desde 63455.97 dólares a 63483.83 dólares, la amplitud del rango es un poco más alta a diefrencia de otros puntos. Esto pasa cuando la variable ingreso es desconocida.
\[ \left(\frac{({n}-1)s^2}{{\chi}_{n-1,1-\frac{\alpha}{2}}^{2}};\frac{({n}-1)s^2}{{\chi}_{n-1,\frac{\alpha}{2}}^{2}}\right) \]
n <- nrow(sample_us_county_income)
varianza <- var(sample_us_county_income$estimate, na.rm = TRUE)
intervalo_confianza <- 0.90
alpha <- 1 - intervalo_confianza
chi_cuadrado_I <- qchisq(1 - alpha / 2, df = n - 1)
chi_cuadrado_S <- qchisq(alpha / 2, df = n - 1)
Intervalo_I <- ((n - 1) * varianza) / chi_cuadrado_I
Intervalo_S <- ((n - 1) * varianza) / chi_cuadrado_S
cat("Intervalo de confianza 90% para la varianza:", Intervalo_I, "a", Intervalo_S)
## Intervalo de confianza 90% para la varianza: 258347195 a 311181663
Interpretación: El intervalo 305270491 a 367701221 representa el rango dentro del cual se espera a que se encuentre la varianza poblacional del ingreso promedio por condado en EE.UU, con un nivel de confianza del 90%. Este resultado ayuda a medir la dispersión O extensión que se espera de los ingresos dentro de una población.
n <- nrow(sample_us_county_income)
varianza <- var(sample_us_county_income$estimate, na.rm = TRUE)
intervalo_confianza <- 0.95
alpha <- 1 - intervalo_confianza
chi_cuadrado_I <- qchisq(1 - alpha / 2, df = n - 1)
chi_cuadrado_S <- qchisq(alpha / 2, df = n - 1)
Intervalo_I <- ((n - 1) * varianza) / chi_cuadrado_I
Intervalo_S <- ((n - 1) * varianza) / chi_cuadrado_S
cat("Intervalo de confianza 95% para la varianza:", Intervalo_I, "a", Intervalo_S)
## Intervalo de confianza 95% para la varianza: 253934282 a 316973089
n <- nrow(sample_us_county_income)
varianza <- var(sample_us_county_income$estimate, na.rm = TRUE)
intervalo_confianza <- 0.99
alpha <- 1 - intervalo_confianza
chi_cuadrado_I <- qchisq(1 - alpha / 2, df = n - 1)
chi_cuadrado_S <- qchisq(alpha / 2, df = n - 1)
Intervalo_I <- ((n - 1) * varianza) / chi_cuadrado_I
Intervalo_S <- ((n - 1) * varianza) / chi_cuadrado_S
cat("Intervalo de confianza 99% para la varianza:", Intervalo_I, "a", Intervalo_S)
## Intervalo de confianza 99% para la varianza: 245596728 a 328711576