Parcial

#install.packages("tidyverse")
library(tidyverse)

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.1     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

#install.packages("sf")
library(sf)

## Linking to GEOS 3.8.0, GDAL 3.0.4, PROJ 6.3.1; sf_use_s2() is TRUE

#install.packages("tigris")
library(tigris)

## To enable caching of data, set `options(tigris_use_cache = TRUE)`
## in your R script or .Rprofile.

#install.packages("tidycensus")
library(tidycensus)

#install.packages("mapview")
library(mapview)

#installed.packages("viridis")
library(viridis)

## Loading required package: viridisLite

#("knitr")
library(knitr)

#install.packages("leaflet")
library(leaflet)

#install.packages("stringr")
library(stringr)

#install.packages("openintro")
library(openintro)

## Loading required package: airports

## Loading required package: cherryblossom

## Loading required package: usdata

#install.packages("ggplot2")
library(ggplot2)

#install.packages("dplyr")
library(dplyr)

#install.packages("mosaic")
library(mosaic)

## Registered S3 method overwritten by 'mosaic':
##   method                           from   
##   fortify.SpatialPolygonsDataFrame ggplot2

## 
## The 'mosaic' package masks several functions from core packages in order to add 
## additional features.  The original behavior of these functions should not be affected by this.

## 
## Attaching package: 'mosaic'

## The following object is masked from 'package:Matrix':
## 
##     mean

## The following object is masked from 'package:openintro':
## 
##     dotPlot

## The following objects are masked from 'package:dplyr':
## 
##     count, do, tally

## The following object is masked from 'package:purrr':
## 
##     cross

## The following object is masked from 'package:ggplot2':
## 
##     stat

## The following objects are masked from 'package:stats':
## 
##     binom.test, cor, cor.test, cov, fivenum, IQR, median, prop.test,
##     quantile, sd, t.test, var

## The following objects are masked from 'package:base':
## 
##     max, mean, min, prod, range, sample, sum

census_api_key("e13f626332e63c4d3bd3665e0437a9907b983518")

## To install your API key for use in future sessions, run this function with `install = TRUE`.

Censo de los Estados Unidos

La Oficina del Censo de los Estados Unidos (en inglés: United States Census Bureau) forma parte del Departamento de Comercio de Estados Unidos. Es el organismo gubernamental que se encarga del censo en los Estados Unidos. Es la fuente de datos confiables sobre la economía y los habitantes de la nación, y lleva a cabo estudios demográficos tales como niveles de población y tendencias en la vivienda, y estudios económicos, como por ejemplo de productividad.

census_us_county_income <- get_acs(geography = "county", variables = "B19013_001", 
                            shift_geo = TRUE, geometry = TRUE)

## Getting data from the 2018-2022 5-year ACS

## Warning: The `shift_geo` argument is deprecated and will be removed in a future
## release. We recommend using `tigris::shift_geometry()` instead.

## Using feature geometry obtained from the albersusa package

## Please note: Alaska and Hawaii are being shifted and are not to scale.

## old-style crs object detected; please recreate object with a recent sf::st_crs()

Distribución poblacional del ingreso

ggplot(data = census_us_county_income) + 
  geom_sf(aes(fill = estimate), color = NA) + 
  coord_sf(datum = NA) + 
  theme_minimal() + 
  scale_fill_viridis_c()

Muestra aleatoria

Tome una muestra aleatoria del 20% de la población para generar un interválo de confianza a los niveles de confiabilidad 1−α y significancia α solicitados

sample_us_county_income <- sample_frac(tbl = census_us_county_income, size = 0.2)

Intervalos de confianza

Para la media μ con varianza conocida (σ2=281.357.623 dolares2)

\[ \left(\bar{x}_{n}-z_{\frac{\alpha}{2}}\sqrt{\frac{{\sigma^2}}{n}};\bar{x}_{n}+z_{\frac{\alpha}{2}}\sqrt{\frac{{\sigma^2}}{n}}\right) \]

1.Con base en la muestra aleatoria generada calcule un intervalo de confianza para la media poblacional de la variable ingreso, basándose en la muestra aleatoria generada (sample_us_county_income) del 90%

Media <-(mean(sample_us_county_income$estimate))
Media

## [1] 63221.62

Desviacion

Desviación <- round(281357623)
Desviación

## [1] 281357623

Calculo de tamaño

size <- length(sample_us_county_income$estimate)
size

## [1] 627

Calculo del error estándar

ErrorEstandar_SE <- round(Desviación/sqrt(size))
ErrorEstandar_SE

## [1] 11236341

Calculo del cuantíl de la distribución normal estánda

nivel.conf <- 0.9; z_alfa_0_5 <- qnorm((1 + nivel.conf)/2)
nivel.conf

## [1] 0.9

Calculo del error de estimación

ErrorEstimacion <- round(z_alfa_0_5 * ErrorEstandar_SE)
ErrorEstimacion

## [1] 18482136

Calculo del límite inferior del intervalo de confianza

Int.inf <- Media - ErrorEstimacion
Int.inf

## [1] -18418914

Calculo del límite inferior del intervalo de confianza

Int.sup <- Media + ErrorEstimacion
Int.sup

## [1] 18545358

Calculo del intervalo de confianza

Media + c(-ErrorEstimacion, +ErrorEstimacion)

## [1] -18418914  18545358

Graficación del intervalo de confianza

mean(sample_us_county_income$estimate) + cdist( "norm", .90) * 0.5 / sqrt(size)

## [1] 63221.59 63221.65

Conclusiòn:

Como podemos ver, los resultados obtenidos representan una estimación razonable del ingreso promedio de los condados estadounidenses. El intervalo de confianza -18417423 18546849 nos proporciona una mejor comprensión de la incertidumbre que rodea a la estimación. Debido a que el rango del intervalo de confianza es bastante amplio, inferimos que los datos relativos a nuestras variables de interés están dispersos, lo que es lógico teniendo en cuenta la gran variabilidad en los ingresos del condado.

2.Con base en la muestra aleatoria generada calcule un intervalo de confianza para la media poblacional de la variable ingreso, basándose en la muestra aleatoria generada (sample_us_county_income) del 95%

Media <-(mean(sample_us_county_income$estimate))
Media

## [1] 63221.62

Desviacion

Desviación <- round(281357623)
Desviación

## [1] 281357623

Calculo de tamaño

size <- length(sample_us_county_income$estimate)
size

## [1] 627

Calculo del error estándar

ErrorEstandar_SE <- round(Desviación/sqrt(size))
ErrorEstandar_SE

## [1] 11236341

Calculo del cuantíl de la distribución normal estánda

nivel.conf <- 0.95; z_alfa_2_5 <- qnorm((1 + nivel.conf)/2); z_alfa_2_5

## [1] 1.959964

nivel.conf

## [1] 0.95

Calculo del error de estimación

ErrorEstimacion <- round(z_alfa_2_5 * ErrorEstandar_SE)
ErrorEstimacion

## [1] 22022824

Calculo del límite inferior del intervalo de confianza

Int.inf <- Media - ErrorEstimacion
Int.inf

## [1] -21959602

Calculo del límite inferior del intervalo de confianza

Int.sup <- Media + ErrorEstimacion
Int.sup

## [1] 22086046

Calculo del intervalo de confianza

Media + c(-ErrorEstimacion, +ErrorEstimacion)

## [1] -21959602  22086046

Graficación del intervalo de confianza

mean(sample_us_county_income$estimate) + cdist( "norm", .95) * 2.5 / sqrt(size)

## [1] 63221.42 63221.82

Conclusión

Después de calcular el intervalo de confianza para la media de los ingresos en los condados de Estados unidos, podemos afirmar con un nivel de confianza del 95% (-21958111 22087537) y que la media (64712.54) poblacional verdadera de los ingresos se encuentra dentro del intervalo calculado evidenciamos que el límite inferior del intervalo de confianza es (-21958111), y el límite superior del intervalo de confianza es (22087537)

El intervalo de confianza refleja la incertidumbre inherente al trabajar con muestras en lugar de toda la población. A medida que el tamaño de la muestra aumenta, el error estándar disminuye, lo que conduce a un intervalo de confianza más estrecho y preciso.

al interpretar el intervalo proporciona un rango en el que es razonable esperar que se encuentre el verdadero valor medio de los ingresos, y esto puede guiar futuras investigaciones o análisis detallados.

3.Con base en la muestra aleatoria generada calcule un intervalo de confianza para la media poblacional de la variable ingreso, basándose en la muestra aleatoria generada (sample_us_county_income) del 99%

Media <-(mean(sample_us_county_income$estimate))
Media

## [1] 63221.62

Desviacion

Desviación <- round(281357623)
Desviación

## [1] 281357623

Calculo de tamaño

size <- length(sample_us_county_income$estimate)
size

## [1] 627

Calculo del error estándar

ErrorEstandar_SE <- round(Desviación/sqrt(size))
ErrorEstandar_SE

## [1] 11236341

Calculo del cuantíl de la distribución normal estánda

nivel.conf <- 0.99; z_alfa_0_05 <- qnorm((1 + nivel.conf)/2); z_alfa_0_05

## [1] 2.575829

nivel.conf

## [1] 0.99

Calculo del error de estimación

ErrorEstimacion <- round(z_alfa_0_05 * ErrorEstandar_SE)
ErrorEstimacion

## [1] 28942896

Calculo del límite inferior del intervalo de confianza

Int.inf <- Media - ErrorEstimacion
Int.inf

## [1] -28879674

Calculo del límite inferior del intervalo de confianza

Int.sup <- Media + ErrorEstimacion
Int.sup

## [1] 29006118

Calculo del intervalo de confianza

Media + c(-ErrorEstimacion, +ErrorEstimacion)

## [1] -28879674  29006118

Graficación del intervalo de confianza

mean(sample_us_county_income$estimate) + cdist( "norm", .99) * 0.05 / sqrt(size)

## [1] 63221.62 63221.63

Conclusión

Con base en el cálculo del intervalo de confianza con un nivel de confianza del 99%, podemos concluir que la media poblacional estimada de los ingresos por condado en los Estados Unidos se encuentra dentro del rango calculado: Límite Inferior(-28878183), Límite Superior (29007609).

El intervalo de confianza nos indica que, si repitiéramos el muestreo múltiples veces, el 99% de los intervalos construidos a partir de esas muestras incluirían la verdadera media poblacional.

Para la media μ con varianza desconocida

\[ \left(\bar{x}_{n}-z_{\frac{\alpha}{2}}\sqrt{\frac{{s^2}}{n}};\bar{x}_{n}+z_{\frac{\alpha}{2}}\sqrt{\frac{{s^2}}{n}}\right) \]

Con base en la muestra aleatoria generada calcule un intervalo de confianza para la media poblacional de la variable ingreso, basándose en la muestra aleatoria generada (sample_us_county_income) del 90% Media Muestral

Media <- round(mean(sample_us_county_income$estimate))
Media

## [1] 63222

Desviación estandar

Desviación <- round(sd(sample_us_county_income$estimate))
Desviación

## [1] 16985

Tamaño Muestral

size <- length(sample_us_county_income$estimate)
size

## [1] 627

Error Estandar

ErrorEstandar_SE <- round(Desviación/sqrt(size))
ErrorEstandar_SE

## [1] 678

Cuantíl de la distribución normal estándar

nivel.conf <- 0.90; t_alfa_0_01 <- qt((1 + nivel.conf)/2, df = size - 1)
nivel.conf

## [1] 0.9

Error de estimación

ErrorEstimacion <- round(t_alfa_0_01 * ErrorEstandar_SE)
ErrorEstimacion

## [1] 1117

Límite inferior del intervalo de confianza

Int.inf <- Media - ErrorEstimacion
Int.inf

## [1] 62105

Límite inferior del intervalo de confianza

Int.sup <- Media + ErrorEstimacion
Int.sup

## [1] 64339

Intervalo de confianza

Media + c(-ErrorEstimacion, +ErrorEstimacion)

## [1] 62105 64339

Graficación del intervalo de confianza

mean(sample_us_county_income$estimate) + cdist("t", p = 0.90, df=size-1) * sd(sample_us_county_income$estimate) / sqrt(size)

## [1] 62104.22 64339.02

Conclusión

Al calcular el intervalo de confianza para la media de los ingresos en los condados de Estados Unidos con un nivel de confianza del 90%, podemos afirmar que existe un 90% de probabilidad de que la verdadera media poblacional se encuentre dentro del rango calculado: Límite Inferior(63522), Límite Superior(65904).

El análisis sugiere que los ingresos promedio de los condados de Estados Unidos, probablemente se encuentran dentro del intervalo calculado. Este resultado refleja tanto la variabilidad inherente en los datos como el nivel de certeza establecido. Si es necesario aumentar la precisión del intervalo, se recomienda ampliar el tamaño de la muestra o ajustar el nivel de confianza según los objetivos del análisis.

Con base en la muestra aleatoria generada calcule un intervalo de confianza para la media poblacional de la variable ingreso, basándose en la muestra aleatoria generada (sample_us_county_income) del 95%

Media <- round(mean(sample_us_county_income$estimate))
Media

## [1] 63222

Desviación estandar

Desviación <- round(sd(sample_us_county_income$estimate))
Desviación

## [1] 16985

Tamaño Muestral

size <- length(sample_us_county_income$estimate)
size

## [1] 627

Error Estandar

ErrorEstandar_SE <- round(Desviación/sqrt(size))
ErrorEstandar_SE

## [1] 678

Cuantíl de la distribución normal estándar

nivel.conf <- 0.95; t_alfa_0_5 <- qt((1 + nivel.conf)/2, df = size - 1)
nivel.conf

## [1] 0.95

Error de estimación

ErrorEstimacion <- round(t_alfa_0_5 * ErrorEstandar_SE)
ErrorEstimacion

## [1] 1331

Límite inferior del intervalo de confianza

Int.inf <- Media - ErrorEstimacion
Int.inf

## [1] 61891

Límite inferior del intervalo de confianza

Int.sup <- Media + ErrorEstimacion
Int.sup

## [1] 64553

Intervalo de confianza

Media + c(-ErrorEstimacion, +ErrorEstimacion)

## [1] 61891 64553

Graficación del intervalo de confianza

mean(sample_us_county_income$estimate) + cdist("t", p = 0.95, df=size-1) * sd(sample_us_county_income$estimate) / sqrt(size)

## [1] 61889.56 64553.69

Conclusión

El análisis realizado permite calcular un intervalo de confianza al 95% para la media de los ingresos de los condados en Estados Unidos, basado en una muestra de datos. Este intervalo proporciona un rango estimado dentro del cual es razonable esperar que se encuentre la verdadera media poblacional con un 95% de confianza.

El intervalo resultante es limete superior (66133) , limite inferior (63293). Esto indica que la verdadera media poblacional probablemente se encuentra dentro de este rango.

El intervalo de confianza calculado ofrece una estimación fundamentada de los ingresos promedio en los condados de EE.UU. con un alto grado de certeza (95%). Esto refuerza la validez de los datos.

Con base en la muestra aleatoria generada calcule un intervalo de confianza para la media poblacional de la variable ingreso, basándose en la muestra aleatoria generada (sample_us_county_income) del 99%

Media <- round(mean(sample_us_county_income$estimate))
Media

## [1] 63222

Desviación estandar

Desviación <- round(sd(sample_us_county_income$estimate))
Desviación

## [1] 16985

Tamaño Muestral

size <- length(sample_us_county_income$estimate)
size

## [1] 627

Error Estandar

ErrorEstandar_SE <- round(Desviación/sqrt(size))
ErrorEstandar_SE

## [1] 678

Cuantíl de la distribución normal estándar

nivel.conf <- 0.99; t_alfa_0_01 <- qt((1 + nivel.conf)/2, df = size - 1)
nivel.conf

## [1] 0.99

Error de estimación

ErrorEstimacion <- round(t_alfa_0_01 * ErrorEstandar_SE)
ErrorEstimacion

## [1] 1752

Límite inferior del intervalo de confianza

Int.inf <- Media - ErrorEstimacion
Int.inf

## [1] 61470

Límite inferior del intervalo de confianza

Int.sup <- Media + ErrorEstimacion
Int.sup

## [1] 64974

Intervalo de confianza

Media + c(-ErrorEstimacion, +ErrorEstimacion)

## [1] 61470 64974

Graficación del intervalo de confianza

mean(sample_us_county_income$estimate) + cdist("t", p = 0.99, df=size-1) * sd(sample_us_county_income$estimate) / sqrt(size)

## [1] 61469.03 64974.21

Conclusión

El análisis estadístico realizado permitió calcular un intervalo de confianza al 99% para la media de los ingresos de los condados en Estados Unidos, basado en los datos muestrales proporcionados. Este intervalo ofrece un rango de confianza (62845 66581) en el que es altamente probable que se encuentre la verdadera media poblacional con un nivel de confianza del 99%.

El intervalo de confianza calculado refleja que los ingresos promedio de los condados estadounidenses están comprendidos dentro de los límites obtenidos. Este análisis proporciona una base sólida para investigaciones económicas y la toma de decisiones informadas.

Parcial

Wendy Xiomara Sanchez Ramirez

2024-11-17

Censo de los Estados Unidos

Distribución poblacional del ingreso

Muestra aleatoria

Intervalos de confianza

Conclusiòn:

Conclusión

Conclusión

Para la media μ con varianza desconocida

Conclusión

Conclusión

Conclusión