Librerias a usar

library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.1     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(sf)
## Linking to GEOS 3.8.0, GDAL 3.0.4, PROJ 6.3.1; sf_use_s2() is TRUE
library(tigris)
## To enable caching of data, set `options(tigris_use_cache = TRUE)`
## in your R script or .Rprofile.
library(tidycensus)
library(mapview)
library(viridis)
## Loading required package: viridisLite
library(knitr)
library(leaflet)
library(stringr)
library(openintro)
## Loading required package: airports
## Loading required package: cherryblossom
## Loading required package: usdata
options(tigris_use_cache = TRUE)

Clave Api

census_api_key("56b8b07e85c34786f652458b0ce050d981641070")
## To install your API key for use in future sessions, run this function with `install = TRUE`.

Censo de los Estados Unidos

La Oficina del Censo de los Estados Unidos (en inglés: United States Census Bureau) forma parte del Departamento de Comercio de Estados Unidos. Es el organismo gubernamental que se encarga del censo en los Estados Unidos. Es la fuente de datos confiables sobre la economía y los habitantes de la nación, y lleva a cabo estudios demográficos tales como niveles de población y tendencias en la vivienda, y estudios económicos, como por ejemplo de productividad.

Variable a trabajar (ingreso)

census_us_county_income <- get_acs(geography = "county", variables = "B19013_001", 
                            shift_geo = TRUE, geometry = TRUE)
## Getting data from the 2018-2022 5-year ACS
## Warning: The `shift_geo` argument is deprecated and will be removed in a future
## release. We recommend using `tigris::shift_geometry()` instead.
## Using feature geometry obtained from the albersusa package
## Please note: Alaska and Hawaii are being shifted and are not to scale.
## old-style crs object detected; please recreate object with a recent sf::st_crs()

Distribución poblacional del ingreso

ggplot(data = census_us_county_income) + 
  geom_sf(aes(fill = estimate), color = NA) + 
  coord_sf(datum = NA) + 
  theme_minimal() + 
  scale_fill_viridis_c(name="Ingreso Promedio")

Muestra aleatoria

Tome una muestra aleatoria del 20% de la población para generar un interválo de confianza a los niveles de confiabilidad \(1-\alpha\) y significancia \(\alpha\) solicitados

Tomar muestra aleatoria

sample_us_county_income <- sample_frac(tbl = census_us_county_income, size = 0.2)

Intervalos de confianza

Para la media \(\mu\) con varianza conocida \((\sigma^2= 281.357.623{dolares}^2)\)

\[ \left(\bar{x}_{n}-z_{\frac{\alpha}{2}}\sqrt{\frac{{\sigma^2}}{n}};\bar{x}_{n}+z_{\frac{\alpha}{2}}\sqrt{\frac{{\sigma^2}}{n}}\right) \]

  1. Con base en la muestra aleatoria generada calcule un intervalo de confianza para la media poblacional de la variable ingreso, basándose en la muestra aleatoria generada \((sample_us_county_income)\) del 90%

Entonces, el intervalo de confianza del 90% (\(1-\alpha\)) y una varianza conocida \((\sigma^2= 281.357.623{dolares}^2)\)

Parámetros

S2 <- 281357623
desviacion_estandar <- sqrt(S2)
intervalo_confianza <- 0.90
alpha <- 1 - intervalo_confianza
z_alpha <- qnorm(1 - alpha / 2)

Media muestral

media_muestra <- mean(sample_us_county_income$estimate, na.rm = TRUE)

Tamaño de la muestra

n <- nrow(sample_us_county_income)

Intervalo de confianza

error_estandar <- sqrt(S2/n)
intervalo_I <- media_muestra - z_alpha * error_estandar
intervalo_S <- media_muestra + z_alpha * error_estandar
cat("Intervalo de confianza 90%:", intervalo_I, "al", intervalo_S)
## Intervalo de confianza 90%: 62303.92 al 64507.62

Interpretación: Este rango de 62541.26 dóleres a 64744.96 dólares con un nivel de confianza del 90%, indica que hay un 90% de certeza de que el ingreso promedio real de la población de los condados en EE. UU. esté dentro de ese rango.

  1. Con base en la muestra aleatoria generada calcule un intervalo de confianza para la media poblacional de la variable ingreso, basándose en la muestra aleatoria generada \((sample_us_county_income)\) del 95%

Entonces, el intervalo de confianza del 95% (\(1-\alpha\)) y una varianza conocida \((\sigma^2= 281.357.623{dolares}^2)\)

Parámetros

S2 <- 281357623
desviacion_estandar <- sqrt(S2)
intervalo_confianza <- 0.95
alpha <- 1 - intervalo_confianza
z_alpha <- qnorm(1 - alpha / 2)

Media muestral

media_muestra <- mean(sample_us_county_income$estimate, na.rm = TRUE)

Tamaño de la muestra

n <- nrow(sample_us_county_income)

Intervalo de confianza

error_estandar <- sqrt(S2/n)
intervalo_I <- media_muestra - z_alpha * error_estandar
intervalo_S <- media_muestra + z_alpha * error_estandar
cat("Intervalo de confianza 95%:", intervalo_I, "al", intervalo_S)
## Intervalo de confianza 95%: 62092.83 al 64718.71

Interpretación: A diferencia del punto anterior este rango va desde 62330.18 dólares a 64956.05 dólares, es decir, a medida de que el rango de un intervalo es más amplio tendrá más probabilidad de acierto (cuando tiene un nivel mayor de confianza, en este caso, 95%), mientras que para un intervalo más pequeño, (como lo es el punto anterior) disminuye la probabilidad de presición.

  1. Con base en la muestra aleatoria generada calcule un intervalo de confianza para la media poblacional de la variable ingreso, basándose en la muestra aleatoria generada \((sample_us_county_income)\) del 99%

Entonces, el intervalo de confianza del 99% (\(1-\alpha\)) y una varianza conocida \((\sigma^2= 281.357.623{dolares}^2)\)

Parámetros

S2 <- 281357623
desviacion_estandar <- sqrt(S2)
intervalo_confianza <- 0.99
alpha <- 1 - intervalo_confianza
z_alpha <- qnorm(1 - alpha / 2)

Media muestral

media_muestra <- mean(sample_us_county_income$estimate, na.rm = TRUE)

Tamaño de la muestra

n <- nrow(sample_us_county_income)

Intervalo de confianza

error_estandar <- sqrt(S2/n)
intervalo_I <- media_muestra - z_alpha * error_estandar
intervalo_S <- media_muestra + z_alpha * error_estandar
cat("Intervalo de confianza 99%:", intervalo_I, "al", intervalo_S)
## Intervalo de confianza 99%: 61680.28 al 65131.26

Interprestación: En este punto se encuentra un rango de 61917.62 dólares a 65368.6 dólares, de igual forma que el punto anterior, a medida de que el rango de un intervalo es más amplio tendrá más probabilidad de acierto (en este caso es mucho mayor a los puntos anteriores, 99%), mientras que para un intervalo más pequeño, disminuye la probabilidad de presición.

Para la media \(\mu\) con varianza desconocida

\[ \left(\bar{x}_{n}-z_{\frac{\alpha}{2}}\sqrt{\frac{{s^2}}{n}};\bar{x}_{n}+z_{\frac{\alpha}{2}}\sqrt{\frac{{s^2}}{n}}\right) \]

  1. Con base en la muestra aleatoria generada calcule un intervalo de confianza para la media poblacional de la variable ingreso, basándose en la muestra aleatoria generada \((sample_us_county_income)\) del 90%

Entonces, el intervalo de confianza del 90% (\(1-\alpha\))

Parámetros

intervalo_confianza <- 0.90
alpha <- 1 - intervalo_confianza
t_alpha <- qt(1 - alpha / 2, df = n - 1)

Media muestral

media_muestra <- mean(sample_us_county_income$estimate, na.rm = TRUE)

Desviación estándar

S2 <- sd(sample_us_county_income$estimate, na.rm = TRUE)

Tamaño de la muestra

n <- nrow(sample_us_county_income)

Intervalo de confianza

error_estandar <- sqrt(S2/n)
Intervalo_I <- media_muestra - t_alpha * error_estandar
Intervalo_S <- media_muestra + t_alpha * error_estandar
cat("Intervalo de confianza 90%:", Intervalo_I, "a", Intervalo_S)
## Intervalo de confianza 90%: 63397.24 a 63414.3

Interpretación: Este intervalo de confianza va de un rango de 63461.02 a 63478.78 dólares. Es muy poca la amplitud del rango, diferenciandose por unos centavos. Esto sucede cuando la variable de ingreso es desconocida.

  1. Con base en la muestra aleatoria generada calcule un intervalo de confianza para la media poblacional de la variable ingreso, basándose en la muestra aleatoria generada \((sample_us_county_income)\) del 95%

Entonces, el intervalo de confianza del 95% (\(1-\alpha\))

Parámetros

intervalo_confianza <- 0.95
alpha <- 1 - intervalo_confianza
t_alpha <- qt(1 - alpha / 2, df = n - 1)

Media muestral

media_muestra <- mean(sample_us_county_income$estimate, na.rm = TRUE)

Desviación estándar

S2 <- sd(sample_us_county_income$estimate, na.rm = TRUE)

Tamaño de la muestra

n <- nrow(sample_us_county_income)

Intervalo de confianza

error_estandar <- sqrt(S2/n)
Intervalo_I <- media_muestra - t_alpha * error_estandar
Intervalo_S <- media_muestra + t_alpha * error_estandar
cat("Intervalo de confianza 95%:", Intervalo_I, "a", Intervalo_S)
## Intervalo de confianza 95%: 63395.6 a 63415.94

Interpretación: El rango del intervalo de confianza 95% varía de 63459.31 dólares a 63480.48 dólares, aumenta la amplitud del rango aunque la variable de ingreso sea desconocida.

  1. Con base en la muestra aleatoria generada calcule un intervalo de confianza para la media poblacional de la variable ingreso, basándose en la muestra aleatoria generada \((sample_us_county_income)\) del 99%

Entonces, el intervalo de confianza del 99% (\(1-\alpha\))

Parámetros

intervalo_confianza <- 0.99
alpha <- 1 - intervalo_confianza
t_alpha <- qt(1 - alpha / 2, df = n - 1)

Media muestral

media_muestra <- mean(sample_us_county_income$estimate, na.rm = TRUE)

Desviación estándar

S2 <- sd(sample_us_county_income$estimate, na.rm = TRUE)

Tamaño de la muestra

n <- nrow(sample_us_county_income)

Intervalo de confianza

error_estandar <- sqrt(S2/n)
Intervalo_I <- media_muestra - t_alpha * error_estandar
Intervalo_S <- media_muestra + t_alpha * error_estandar
cat("Intervalo de confianza 99%:", Intervalo_I, "a", Intervalo_S)
## Intervalo de confianza 99%: 63392.39 a 63419.15

Interpretación: El intervalo de confianza varía desde 63455.97 dólares a 63483.83 dólares, la amplitud del rango es un poco más alta a diefrencia de otros puntos. Esto pasa cuando la variable ingreso es desconocida.

Para la varianza \(\sigma^2\)

\[ \left(\frac{({n}-1)s^2}{{\chi}_{n-1,1-\frac{\alpha}{2}}^{2}};\frac{({n}-1)s^2}{{\chi}_{n-1,\frac{\alpha}{2}}^{2}}\right) \]

  1. Con base en la muestra aleatoria generada calcule un intervalo de confianza para la varianza poblacional de la variable ingreso, basándose en la muestra aleatoria generada \((sample_us_county_income)\) del 90%

Tamaño de la muestra

n <- nrow(sample_us_county_income)

Varianza muestral

varianza <- var(sample_us_county_income$estimate, na.rm = TRUE)

Intervalo de confianza

intervalo_confianza <- 0.90
alpha <- 1 - intervalo_confianza

Valores de Chi Cuadrado

chi_cuadrado_I <- qchisq(1 - alpha / 2, df = n - 1)
chi_cuadrado_S <- qchisq(alpha / 2, df = n - 1)

Intervalo de confianza final 90%

Intervalo_I <- ((n - 1) * varianza) / chi_cuadrado_I
Intervalo_S <- ((n - 1) * varianza) / chi_cuadrado_S
cat("Intervalo de confianza 90% para la varianza:", Intervalo_I, "a", Intervalo_S)
## Intervalo de confianza 90% para la varianza: 258347195 a 311181663

Interpretación: El intervalo 305270491 a 367701221 representa el rango dentro del cual se espera a que se encuentre la varianza poblacional del ingreso promedio por condado en EE.UU, con un nivel de confianza del 90%. Este resultado ayuda a medir la dispersión O extensión que se espera de los ingresos dentro de una población.

  1. Con base en la muestra aleatoria generada calcule un intervalo de confianza para la varianza poblacional de la variable ingreso, basándose en la muestra aleatoria generada \((sample_us_county_income)\) del 95%

Tamaño de la muestra

n <- nrow(sample_us_county_income)

Varianza muestral

varianza <- var(sample_us_county_income$estimate, na.rm = TRUE)

Intervalo de confianza

intervalo_confianza <- 0.95
alpha <- 1 - intervalo_confianza

Valores de Chi Cuadrado

chi_cuadrado_I <- qchisq(1 - alpha / 2, df = n - 1)
chi_cuadrado_S <- qchisq(alpha / 2, df = n - 1)

Intervalo de confianza final 90%

Intervalo_I <- ((n - 1) * varianza) / chi_cuadrado_I
Intervalo_S <- ((n - 1) * varianza) / chi_cuadrado_S
cat("Intervalo de confianza 95% para la varianza:", Intervalo_I, "a", Intervalo_S)
## Intervalo de confianza 95% para la varianza: 253934282 a 316973089
  1. Con base en la muestra aleatoria generada calcule un intervalo de confianza para la varianza poblacional de la variable ingreso, basándose en la muestra aleatoria generada \((sample_us_county_income)\) del 99%

Tamaño de la muestra

n <- nrow(sample_us_county_income)

Varianza muestral

varianza <- var(sample_us_county_income$estimate, na.rm = TRUE)

Intervalo de confianza

intervalo_confianza <- 0.99
alpha <- 1 - intervalo_confianza

Valores de Chi Cuadrado

chi_cuadrado_I <- qchisq(1 - alpha / 2, df = n - 1)
chi_cuadrado_S <- qchisq(alpha / 2, df = n - 1)

Intervalo de confianza final 90%

Intervalo_I <- ((n - 1) * varianza) / chi_cuadrado_I
Intervalo_S <- ((n - 1) * varianza) / chi_cuadrado_S
cat("Intervalo de confianza 99% para la varianza:", Intervalo_I, "a", Intervalo_S)
## Intervalo de confianza 99% para la varianza: 245596728 a 328711576