library(tidycensus)
library(tidyverse)
## ── Attaching packages ─────────────────────────────── tidyverse 1.3.0 ──
## ✓ ggplot2 3.3.2 ✓ purrr 0.3.4
## ✓ tibble 3.0.3 ✓ dplyr 1.0.2
## ✓ tidyr 1.1.2 ✓ stringr 1.4.0
## ✓ readr 1.3.1 ✓ forcats 0.5.0
## ── Conflicts ────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
library(knitr)
library(leaflet)
library(stringr)
library(sf)
## Linking to GEOS 3.5.1, GDAL 2.2.2, PROJ 4.9.2
##Exámen parcial Considere el censo realizado por los Estados Unidos que se trabajó en clase, durante cada una de las sesiones de trabajo, para la realización de un análisis descriptivos de la variable población de habitantes por Estado.
install = TRUE
#census_api_key("8e44aeeff76c2e9fbb16e7025114d89cf39d377b")
Haga un listado de las variables disponibles para análisis
v10 <- load_variables(2010, "sf1", cache = TRUE)
v10 <- v10 %>%
filter(grepl("population", tolower(label), fixed = TRUE))
kable(head(v10))
| name | label | concept |
|---|---|---|
| H011001 | Total population in occupied housing units | TOTAL POPULATION IN OCCUPIED HOUSING UNITS BY TENURE |
| H011002 | Total population in occupied housing units!!Owned with a mortgage or a loan | TOTAL POPULATION IN OCCUPIED HOUSING UNITS BY TENURE |
| H011003 | Total population in occupied housing units!!Owned free and clear | TOTAL POPULATION IN OCCUPIED HOUSING UNITS BY TENURE |
| H011004 | Total population in occupied housing units!!Renter occupied | TOTAL POPULATION IN OCCUPIED HOUSING UNITS BY TENURE |
| H011A001 | Population in occupied housing units | TOTAL POPULATION IN OCCUPIED HOUSING UNITS BY TENURE (WHITE ALONE HOUSEHOLDER) |
| H011A002 | Population in occupied housing units!!Owned with a mortgage or a loan | TOTAL POPULATION IN OCCUPIED HOUSING UNITS BY TENURE (WHITE ALONE HOUSEHOLDER) |
Seleccione una variable, por ejemplo la población total en unidades de vivienda ocupadas por estado en la variable denominada H011001, y proceda a realizar su análisis descriptivo que deberá incluir tablas, gráficos y análisis de los resultados, basados en las cifras, y con la interpretación correspondiente de lo hallado
population <- get_decennial(geography = "state", variables = c(population = "H011003"),
shift_geo = TRUE, geometry = TRUE)
## Getting data from the 2010 decennial Census
## Using feature geometry obtained from the albersusa package
## Please note: Alaska and Hawaii are being shifted and are not to scale.
kable(head(population))
| GEOID | NAME | variable | value | geometry |
|---|---|---|---|---|
| 04 | Arizona | population | 923252 | MULTIPOLYGON (((-1111066 -8… |
| 05 | Arkansas | population | 615128 | MULTIPOLYGON (((557903.1 -1… |
| 06 | California | population | 3363791 | MULTIPOLYGON (((-1853480 -9… |
| 08 | Colorado | population | 569484 | MULTIPOLYGON (((-613452.9 -… |
| 09 | Connecticut | population | 482238 | MULTIPOLYGON (((2226838 519… |
| 11 | District of Columbia | population | 42670 | MULTIPOLYGON (((1960720 -41… |
pal <- colorNumeric(palette = "viridis",
domain = population$value)
population %>%
st_transform(crs = "+init=epsg:4326") %>%
leaflet(width = "100%") %>%
addProviderTiles(provider = "CartoDB.Positron") %>%
addPolygons(popup = ~ str_extract(NAME, "^([^,]*)"),
stroke = FALSE,
smoothFactor = 0,
fillOpacity = 0.7,
color = ~ pal(value)) %>%
addLegend("bottomright",
pal = pal,
values = ~ value,
title = "Population",
#labFormat = labelFormat(prefix = "$"),
opacity = 1)
Proceda a realizar su análisis de los datos a continuación: ##Media o promedio muestral
with(population, mean(value, na.rm = TRUE))
## [1] 937940.5
En base a la magnitud de los datos obtenidos por el censo estadounidense, se logró establecer el promedio muestral de la población total en unidades de vivienda ocupadas !! Propiedad libre y clara (H011003) es de 937940.5
En este resultado se puede reflejar la importancia de los datos obtenidos teniendo en cuenta cada uno de ellos.
##Mediana
with(population, median(value, na.rm = TRUE))
## [1] 712159
Aquí se puede observar que 712159 es la mitad de la población total en orden ascendente que tienen viviendas ocupadas, siendo estas propiedades libres y claras en Estados Unidos según los datos obtenidos por el censo (H011003). Calculando la sumatoria de las cantidades obtenidas de las poblaciones en unidades de vivienda ocupadas, con propiedad libre y clara en USA es de 5.996.568, por lo que la mediana que se calculo se puede ver que a penas es 11.88% de la sumatoria total.
##Moda
with(population, as.numeric(names(table(value))[table(value)==max(table(value))]))
## [1] 42670 112922 116343 121937 128649 140085 160659 176389 185505
## [10] 200219 215494 242894 257510 259177 324019 338233 471357 482238
## [19] 510299 521181 557362 569484 596098 615128 623826 712159 775119
## [28] 809188 817737 857260 871239 889073 919680 923252 982526 1010449
## [37] 1027097 1043689 1052717 1175302 1188105 1290020 1541016 1767437 1848186
## [46] 1868758 2491483 2685346 3193671 3363791 4760988
Con estos resultados se puede determinar que aquí hay una distribución multimodal, esto en razón a que se puede observar como varias muestras tienen mas de una moda, entendiendo esta como el valor de la variable que más se repite.
##Rango
with(population, range(value, na.rm = TRUE))
## [1] 42670 4760988
Este rango que hemos utilizado para nuestro esducio no da razón de la dispersión de los datos respecto a un valor particular o a una medida de tendencia central. Sin embargo, esta formula nos permite calcular la diferencia entre el valor máximo y el valor mínimo del conjunto de datos, reconociendo que la amplitud del conjunto de datos dados establecidos según la población total en unidades de vivienda ocupadas !! Propiedad libre y clara (H011003) es de 42670 4760988. Teniendo esto en cuenta podemos decir que la diferencia entre los extremos de los datos es bastante amplia.
##Rango intercuartílico
with(population, IQR(value, na.rm = TRUE))
## [1] 789859.5
Esta formula permite encontra nevamente la amplitud del conjunto de datos, pero en esta ocasión se omiten los datos extremos, logrando de esta manera concentrarnos en el 50 % de los datos dados por el censo de Estados Unidos, que no hacen parte del 25% de los valores de los datos más bajos (Extremo inferior), ni del 25% de los valores más alto del conjunto de datos (Extremos superiores). Lo anterior finalmente nos da como resultado la diferencia entre el tercer y primer cuartil del conjunto de datos de la población total en unidades de vivienda ocupadas !! Propiedad libre y clara (H011003) que abarca el valor de 789859.5.
##La desviación media absoluta
with(population, mean(abs(value-mean(value, na.rm = TRUE)), na.rm = TRUE))
## [1] 641003.6
El resultado de la desviación media absoluta del conjunto de datos elegidos es la distancia promedio entre cada valor y el promedio. La desviación media absoluta nos ayuda a tener una idea de qué tan “extendidos” están los valores en un conjunto de datos. En este sentido podemos determinar que la distancia promedio entre los valores de la población total en unidades de viviendas ocupadas y el promedio, es decir, la media que tenia un valor de 937940.5, es de 641003.6.
##La varianza poblacional
with(population, mean((value-mean(value, na.rm = TRUE))**2, na.rm = TRUE))
## [1] 875762535937
La varianza poblacional esta determinada en torno a un parámetro, mientras que la varianza muestral es en relación a algo estadístico. la varianza poblacional se cálcula teniendo en cuenta la varianza muestral. Por eso, en la formula de varianza poblacional de arriba ya esta por defecto programada en R la varianza muestral; no obstante si se quiere ver expresamente la formula y resultado de la maestria muestral es lo siguiente:
with(population, var(value, na.rm = TRUE))
## [1] 893277786656
El rango y rango cuartilico que ya se ha presentado, informan ciertos análisis con respecto a los datos que obtuvimos del censo; no obstante, ninguno de estos dos análisis tienen en cuenta cómo se distribuyen las observaciones de la variable de estudio respecto a alguna medida de tendencia central, como la media, mediana o moda. En este sentido es pertinente tomar la medida de disperción de la varianza, debido a que esta sí toma en cuenta tal repartición de los datos respecto en este caso a la media. Según estos resultados, la dispersión de la distribución del conjunto de datos respecto al promedio es de 875762535937 lo que significa que al ser un valor mayor, los datos estan mas entre ellos más dispersos respecto a la media.
##La desviación estándar poblacional
with(population, sqrt(var(value, na.rm = TRUE)*(length(value)-1)/length(value)))
## [1] 935821.9
La interpretación de la varianza no es directa porque está expresada en unidades cuadráticas. Es por esta razón se dificulta su interpretación y puede llevar a realizar conclusiones errones.Por tal razón se realiza esta formula de desviación estándar poblacional, este resultado es un valor no negativo y es un valor que además tiene una relación directa con la disperción del conjunto de datos sacados del censo de Estados Unidos. El resultado aparentemente es 935821.9.
##La desviación estándar muestral
with(population, sqrt(var(value, na.rm = TRUE)))
## [1] 945133.7
Este valor nos da una estimación de una visión insesgada de la varianza poblacional, cuyo resultado es 945133.7, 93.118 por encima de la desviación estándar poblacional.
##El coeficiente de variación poblacional
with(population, sqrt(mean((value-mean(value, na.rm = TRUE))**2, na.rm = TRUE))/mean(value, na.rm = TRUE))
## [1] 0.9977412
Ya se vio la dispersión de una variable sin considerar el efecto de la unidad de medida. Por lo que es prudente utilizar una medida para conocer la otra parte que se desconoce, para eso utilizamos el coeficiente de variación poblacional. En este sentido la disperción es de 0.9977412, lo que nos hace comprender que los datos entre sí tienen una dispersión pequeña, al tener un valor menor.
##El coeficiente de variación muestral
with(population, sqrt(var(value, na.rm = TRUE))/mean(value, na.rm = TRUE))
## [1] 1.007669
Esta formula nos permite comprender que la división entre la desviación estándar y la media muestral, además el 1.007669 que se obtiene como resultado nos informa la estimación del coeficiente de varación poblacional de la población total en unidades de viviendas ocupadas obtenidas por el censo estadounidense.
##La distribución normal
library(ggplot2)
p <- ggplot(population, aes(x=value)) +
geom_density()
p
La distribución normal de la población total en unidades de viviendas ocupadas !! Propiedad libre y clara (H011003) evidencia en la gráfica lineal que si bien se presentó una distribución con valores tanto altos como bajos; los valores bajos son los que predominan en la grafica. Además de lo anterior se ve una tendencia ascendiente de la curva al inicio que a medida que avanza termina por tener una curva descendiente.
##Sesgo poblacional
library(e1071)
with(population, skewness(value, na.rm = TRUE))
## [1] 1.988583
El sesgo poblacional de los datos de población en unidades de viviendas ocupadas y de propiedad libre y clara es de 1.988583.
##La curtosis población
library(e1071)
with(population, kurtosis(value, na.rm = TRUE))
## [1] 4.296838
El grado de concentración que presentan los valores de los datos obtenidos en el censo estadounidense con respecto a la población total en unidades de viviendas ocupadas es de 4.296838. Este valor es con respeco de la zona central de la distribución de frecuencias.