PARCIAL 3

library(tidyverse)

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.1     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

library(sf)

## Linking to GEOS 3.8.0, GDAL 3.0.4, PROJ 6.3.1; sf_use_s2() is TRUE

library(tigris)

## To enable caching of data, set `options(tigris_use_cache = TRUE)`
## in your R script or .Rprofile.

library(tidycensus)
library(mapview)
library(viridis)

## Loading required package: viridisLite

library(knitr)
library(leaflet)
library(stringr)
library(openintro)

## Loading required package: airports
## Loading required package: cherryblossom
## Loading required package: usdata

options(tigris_use_cache = TRUE)

census_api_key("4a589322e2f968ccd74df23c6a2a44e239f5ac27")

## To install your API key for use in future sessions, run this function with `install = TRUE`.

Censo de los Estados Unidos

La Oficina del Censo de los Estados Unidos (en inglés: United States Census Bureau) forma parte del Departamento de Comercio de Estados Unidos. Es el organismo gubernamental que se encarga del censo en los Estados Unidos. Es la fuente de datos confiables sobre la economía y los habitantes de la nación, y lleva a cabo estudios demográficos tales como niveles de población y tendencias en la vivienda, y estudios económicos, como por ejemplo de productividad.

Variable ingreso

census_us_county_income <- get_acs(geography = "county", variables = "B19013_001", 
                            shift_geo = TRUE, geometry = TRUE)

## Getting data from the 2018-2022 5-year ACS

## Warning: The `shift_geo` argument is deprecated and will be removed in a future
## release. We recommend using `tigris::shift_geometry()` instead.

## Using feature geometry obtained from the albersusa package

## Please note: Alaska and Hawaii are being shifted and are not to scale.

## old-style crs object detected; please recreate object with a recent sf::st_crs()

Distribución poblacional del ingreso

ggplot(data = census_us_county_income) + 
  geom_sf(aes(fill = estimate), color = NA) + 
  coord_sf(datum = NA) + 
  theme_minimal() + 
  scale_fill_viridis_c()

Muestra aleatoria

Tome una muestra aleatoria del 20% de la población para generar un interválo de confianza a los niveles de confiabilidad 1−α y significancia α solicitados

sample_us_county_income <- sample_frac(tbl = census_us_county_income, size = 0.2)

Intervalos de confianza

Para la media μ con varianza conocida (σ2=281.357.623 dolares2)

\[\left(\bar{x}_{n}-z_{\frac{\alpha}{2}}\sqrt{\frac{{\sigma^2}}{n}};\bar{x}_{n}+z_{\frac{\alpha}{2}}\sqrt{\frac{{\sigma^2}}{n}}\right)\]

1. Con base en la muestra aleatoria generada calcule un intervalo de confianza para la media poblacional de la variable ingreso, basándose en la muestra aleatoria generada (sample_us_county_income) del 90%

muestra <- mean(sample_us_county_income$estimate, na.rm = TRUE)

Construir un intervalo de confianza

Tamaño de la muestra

n <- length(muestra)
n

## [1] 1

Intervalo de confianza (90%)

sigma2 <- 281357623
z_90 <- qnorm(0.90)
z_90

## [1] 1.281552

Parametro poblacional

p1 <- muestra - z_90 * sqrt(sigma2 / n)
p2 <- muestra + z_90 * sqrt(sigma2 / n)
p1

## [1] 41946.51

p2

## [1] 84939.28

Conclusión: Este intervalo muestra que la media de los ingresos de EEUU está dentro del rango dado.

1. Con base en la muestra aleatoria generada calcule un intervalo de confianza para la media poblacional de la variable ingreso, basándose en la muestra aleatoria generada (sample_us_county_income) del 95%

muestra <- mean(sample_us_county_income$estimate, na.rm = TRUE)
muestra

## [1] 63442.9

Construir un intervalo de confianza

Tamaño de la muestra

n <- length(muestra)
n

## [1] 1

Intervalo de confianza (90%)

sigma2 <- 281357623
z_90 <- qnorm(0.95)
z_90

## [1] 1.644854

Parametro poblacional

p1 <- muestra - z_90 * sqrt(sigma2 / n)
p2 <- muestra + z_90 * sqrt(sigma2 / n)
p1

## [1] 35852.59

p2

## [1] 91033.21

Conclusión: Este intervalo muestra que la media de los ingresos de EEUU está dentro del rango dado.

1. Con base en la muestra aleatoria generada calcule un intervalo de confianza para la media poblacional de la variable ingreso, basándose en la muestra aleatoria generada (sample_us_county_income) del 99%

muestra <- mean(sample_us_county_income$estimate, na.rm = TRUE)
muestra

## [1] 63442.9

Construir un intervalo de confianza

Tamaño de la muestra

n <- length(muestra)
n

## [1] 1

Intervalo de confianza (90%)

sigma2 <- 281357623
z_90 <- qnorm(0.99)
z_90

## [1] 2.326348

Parametro poblacional

p1 <- muestra - z_90 * sqrt(sigma2 / n)
p2 <- muestra + z_90 * sqrt(sigma2 / n)
p1

## [1] 24421.39

p2

## [1] 102464.4

Conclusión: Este intervalo muestra que la media de los ingresos de EEUU está dentro del rango dado.

Para la media μ con varianza desconocida

\[\left(\bar{x}_{n}-z_{\frac{\alpha}{2}}\sqrt{\frac{{s^2}}{n}};\bar{x}_{n}+z_{\frac{\alpha}{2}}\sqrt{\frac{{s^2}}{n}}\right)\]

Con base en la muestra aleatoria generada calcule un intervalo de confianza para la media poblacional de la variable ingreso, basándose en la muestra aleatoria generada (sample_us_county_income) del 90%

muestra <- sample_us_county_income$estimate

xbarra <- mean(muestra, na.rm = TRUE)
xbarra

## [1] 63442.9

Varianza muestral

S2 <- var(sample_us_county_income$estimate, na.rm = TRUE)
S2

## [1] 285014088

Tamaño de la muestra

n <- length(muestra)
n

## [1] 627

Error estándar

error.estandar <- sqrt(x=S2/n)
error.estandar

## [1] 674.2165

Error de estimación

error.de.estimacion <- qt(p=0.90, df=n-1) * error.estandar
error.de.estimacion

## [1] 864.956

Intervalo de confianza (90%)

intervalo <- round(x=xbarra + c(-error.de.estimacion, +error.de.estimacion), digits=2)
intervalo

## [1] 62577.94 64307.85

Conclusión: Este intervalo de confianza indica que se tiene el 90% de certeza que la media del ingreso es como se muestra en la gráfica.

Con base en la muestra aleatoria generada calcule un intervalo de confianza para la media poblacional de la variable ingreso, basándose en la muestra aleatoria generada (sample_us_county_income) del 95%

muestra <- sample_us_county_income$estimate

xbarra <- mean(muestra, na.rm = TRUE)
xbarra

## [1] 63442.9

Varianza muestral

S2 <- var(sample_us_county_income$estimate, na.rm = TRUE)
S2

## [1] 285014088

Tamaño de la muestra

n <- length(muestra)
n

## [1] 627

Error estándar

error.estandar <- sqrt(x=S2/n)
error.estandar

## [1] 674.2165

Error de estimación

error.de.estimacion <- qt(p=0.95, df=n-1) * error.estandar
error.de.estimacion

## [1] 1110.631

Intervalo de confianza (95%)

intervalo <- round(x=xbarra + c(-error.de.estimacion, +error.de.estimacion), digits=2)
intervalo

## [1] 62332.27 64553.53

Con base en la muestra aleatoria generada calcule un intervalo de confianza para la media poblacional de la variable ingreso, basándose en la muestra aleatoria generada (sample_us_county_income) del 99%

muestra <- sample_us_county_income$estimate

xbarra <- mean(muestra, na.rm = TRUE)
xbarra

## [1] 63442.9

Varianza muestral

S2 <- var(sample_us_county_income$estimate, na.rm = TRUE)
S2

## [1] 285014088

Tamaño de la muestra

n <- length(muestra)
n

## [1] 627

Error estándar

error.estandar <- sqrt(x=S2/n)
error.estandar

## [1] 674.2165

Error de estimación

error.de.estimacion <- qt(p=0.99, df=n-1) * error.estandar
error.de.estimacion

## [1] 1572.488

Intervalo de confianza (99%)

intervalo <- round(x=xbarra + c(-error.de.estimacion, +error.de.estimacion), digits=2)
intervalo

## [1] 61870.41 65015.39

Para la varianza σ2

\[\left(\frac{({n}-1)s^2}{{\chi}_{n-1,1-\frac{\alpha}{2}}^{2}};\frac{({n}-1)s^2}{{\chi}_{n-1,\frac{\alpha}{2}}^{2}}\right)\]

Con base en la muestra aleatoria generada calcule un intervalo de confianza para la varianza poblacional de la variable ingreso, basándose en la muestra aleatoria generada (sample_us_county_income) del 90%

muestra <- sample_us_county_income$estimate
S2 <- var(muestra, na.rm = TRUE)

n <- length(muestra)

df <- n - 1

alpha <- 0.90
chi2_upper <- qchisq(p = 1 - alpha / 2, df = df)
chi2_lower <- qchisq(p = alpha / 2, df = df)

df1 <- (df * S2) / chi2_upper
df2 <- (df * S2) / chi2_lower
intervalo <- round(c(df1, df2), digits = 2)
intervalo

## [1] 283299995 287354980

Con base en la muestra aleatoria generada calcule un intervalo de confianza para la varianza poblacional de la variable ingreso, basándose en la muestra aleatoria generada (sample_us_county_income) del 95%

muestra <- sample_us_county_income$estimate
S2 <- var(muestra, na.rm = TRUE)

n <- length(muestra)

df <- n - 1

alpha <- 0.95
chi2_upper <- qchisq(p = 1 - alpha / 2, df = df)
chi2_lower <- qchisq(p = alpha / 2, df = df)

df1 <- (df * S2) / chi2_upper
df2 <- (df * S2) / chi2_lower
intervalo <- round(c(df1, df2), digits = 2)
intervalo

## [1] 284308542 286332008

Con base en la muestra aleatoria generada calcule un intervalo de confianza para la varianza poblacional de la variable ingreso, basándose en la muestra aleatoria generada (sample_us_county_income) del 99%

muestra <- sample_us_county_income$estimate
S2 <- var(muestra, na.rm = TRUE)

n <- length(muestra)

df <- n - 1

alpha <- 0.99
chi2_upper <- qchisq(p = 1 - alpha / 2, df = df)
chi2_lower <- qchisq(p = alpha / 2, df = df)

df1 <- (df * S2) / chi2_upper
df2 <- (df * S2) / chi2_lower
intervalo <- round(c(df1, df2), digits = 2)
intervalo

## [1] 285115760 285520197

PARCIAL 3

Yeri Stephania Pérez

2024-11-26

Censo de los Estados Unidos

Variable ingreso

Distribución poblacional del ingreso

Muestra aleatoria

Intervalos de confianza

Para la media μ con varianza conocida (σ2=281.357.623 dolares2)

Para la media μ con varianza desconocida

Para la varianza σ2