Parcial 1 Estadística

library(tidycensus)
library(tidyverse)

## ── Attaching packages ─────────────────────────────── tidyverse 1.3.0 ──

## ✓ ggplot2 3.3.2     ✓ purrr   0.3.4
## ✓ tibble  3.0.3     ✓ dplyr   1.0.2
## ✓ tidyr   1.1.2     ✓ stringr 1.4.0
## ✓ readr   1.3.1     ✓ forcats 0.5.0

## ── Conflicts ────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

library(knitr)
library(leaflet)
library(stringr)
library(sf)

## Linking to GEOS 3.5.1, GDAL 2.2.2, PROJ 4.9.2

##Exámen parcial Considere el censo realizado por los Estados Unidos que se trabajó en clase, durante cada una de las sesiones de trabajo, para la realización de un análisis descriptivos de la variable población de habitantes por Estado.

install = TRUE
#census_api_key("8e44aeeff76c2e9fbb16e7025114d89cf39d377b")

Haga un listado de las variables disponibles para análisis

v10 <- load_variables(2010, "sf1", cache = TRUE)

v10 <- v10 %>% 
       filter(grepl("population", tolower(label), fixed = TRUE))
kable(head(v10))

name	label	concept
H011001	Total population in occupied housing units	TOTAL POPULATION IN OCCUPIED HOUSING UNITS BY TENURE
H011002	Total population in occupied housing units!!Owned with a mortgage or a loan	TOTAL POPULATION IN OCCUPIED HOUSING UNITS BY TENURE
H011003	Total population in occupied housing units!!Owned free and clear	TOTAL POPULATION IN OCCUPIED HOUSING UNITS BY TENURE
H011004	Total population in occupied housing units!!Renter occupied	TOTAL POPULATION IN OCCUPIED HOUSING UNITS BY TENURE
H011A001	Population in occupied housing units	TOTAL POPULATION IN OCCUPIED HOUSING UNITS BY TENURE (WHITE ALONE HOUSEHOLDER)
H011A002	Population in occupied housing units!!Owned with a mortgage or a loan	TOTAL POPULATION IN OCCUPIED HOUSING UNITS BY TENURE (WHITE ALONE HOUSEHOLDER)

Seleccione una variable, por ejemplo la población total en unidades de vivienda ocupadas por estado en la variable denominada H011001, y proceda a realizar su análisis descriptivo que deberá incluir tablas, gráficos y análisis de los resultados, basados en las cifras, y con la interpretación correspondiente de lo hallado

population <- get_decennial(geography = "state", variables = c(population = "H011003"), 
                            shift_geo = TRUE, geometry = TRUE)

## Getting data from the 2010 decennial Census

## Using feature geometry obtained from the albersusa package

## Please note: Alaska and Hawaii are being shifted and are not to scale.

kable(head(population))

GEOID	NAME	variable	value	geometry
04	Arizona	population	923252	MULTIPOLYGON (((-1111066 -8…
05	Arkansas	population	615128	MULTIPOLYGON (((557903.1 -1…
06	California	population	3363791	MULTIPOLYGON (((-1853480 -9…
08	Colorado	population	569484	MULTIPOLYGON (((-613452.9 -…
09	Connecticut	population	482238	MULTIPOLYGON (((2226838 519…
11	District of Columbia	population	42670	MULTIPOLYGON (((1960720 -41…

pal <- colorNumeric(palette = "viridis", 
                    domain = population$value)

population %>%
  st_transform(crs = "+init=epsg:4326") %>%
  leaflet(width = "100%") %>%
  addProviderTiles(provider = "CartoDB.Positron") %>%
  addPolygons(popup = ~ str_extract(NAME, "^([^,]*)"),
              stroke = FALSE,
              smoothFactor = 0,
              fillOpacity = 0.7,
              color = ~ pal(value)) %>%
  addLegend("bottomright", 
            pal = pal, 
            values = ~ value,
            title = "Population",
            #labFormat = labelFormat(prefix = "$"),
            opacity = 1)

Proceda a realizar su análisis de los datos a continuación: ##Media o promedio muestral

with(population, mean(value, na.rm = TRUE))

## [1] 937940.5

En base a la magnitud de los datos obtenidos por el censo estadounidense, se logró establecer el promedio muestral de la población total en unidades de vivienda ocupadas !! Propiedad libre y clara (H011003) es de 937940.5

En este resultado se puede reflejar la importancia de los datos obtenidos teniendo en cuenta cada uno de ellos.

##Mediana

with(population, median(value, na.rm = TRUE))

## [1] 712159

Aquí se puede observar que 712159 es la mitad de la población total en orden ascendente que tienen viviendas ocupadas, siendo estas propiedades libres y claras en Estados Unidos según los datos obtenidos por el censo (H011003). Calculando la sumatoria de las cantidades obtenidas de las poblaciones en unidades de vivienda ocupadas, con propiedad libre y clara en USA es de 5.996.568, por lo que la mediana que se calculo se puede ver que a penas es 11.88% de la sumatoria total.

##Moda

with(population, as.numeric(names(table(value))[table(value)==max(table(value))]))

##  [1]   42670  112922  116343  121937  128649  140085  160659  176389  185505
## [10]  200219  215494  242894  257510  259177  324019  338233  471357  482238
## [19]  510299  521181  557362  569484  596098  615128  623826  712159  775119
## [28]  809188  817737  857260  871239  889073  919680  923252  982526 1010449
## [37] 1027097 1043689 1052717 1175302 1188105 1290020 1541016 1767437 1848186
## [46] 1868758 2491483 2685346 3193671 3363791 4760988

Con estos resultados se puede determinar que aquí hay una distribución multimodal, esto en razón a que se puede observar como varias muestras tienen mas de una moda, entendiendo esta como el valor de la variable que más se repite.

##Rango

with(population, range(value, na.rm = TRUE))

## [1]   42670 4760988

Este rango que hemos utilizado para nuestro esducio no da razón de la dispersión de los datos respecto a un valor particular o a una medida de tendencia central. Sin embargo, esta formula nos permite calcular la diferencia entre el valor máximo y el valor mínimo del conjunto de datos, reconociendo que la amplitud del conjunto de datos dados establecidos según la población total en unidades de vivienda ocupadas !! Propiedad libre y clara (H011003) es de 42670 4760988. Teniendo esto en cuenta podemos decir que la diferencia entre los extremos de los datos es bastante amplia.

##Rango intercuartílico

with(population, IQR(value, na.rm = TRUE))

## [1] 789859.5

Esta formula permite encontra nevamente la amplitud del conjunto de datos, pero en esta ocasión se omiten los datos extremos, logrando de esta manera concentrarnos en el 50 % de los datos dados por el censo de Estados Unidos, que no hacen parte del 25% de los valores de los datos más bajos (Extremo inferior), ni del 25% de los valores más alto del conjunto de datos (Extremos superiores). Lo anterior finalmente nos da como resultado la diferencia entre el tercer y primer cuartil del conjunto de datos de la población total en unidades de vivienda ocupadas !! Propiedad libre y clara (H011003) que abarca el valor de 789859.5.

##La desviación media absoluta

with(population, mean(abs(value-mean(value, na.rm = TRUE)), na.rm = TRUE))

## [1] 641003.6

El resultado de la desviación media absoluta del conjunto de datos elegidos es la distancia promedio entre cada valor y el promedio. La desviación media absoluta nos ayuda a tener una idea de qué tan “extendidos” están los valores en un conjunto de datos. En este sentido podemos determinar que la distancia promedio entre los valores de la población total en unidades de viviendas ocupadas y el promedio, es decir, la media que tenia un valor de 937940.5, es de 641003.6.

##La varianza poblacional

with(population, mean((value-mean(value, na.rm = TRUE))**2, na.rm = TRUE))

## [1] 875762535937

La varianza poblacional esta determinada en torno a un parámetro, mientras que la varianza muestral es en relación a algo estadístico. la varianza poblacional se cálcula teniendo en cuenta la varianza muestral. Por eso, en la formula de varianza poblacional de arriba ya esta por defecto programada en R la varianza muestral; no obstante si se quiere ver expresamente la formula y resultado de la maestria muestral es lo siguiente:

with(population, var(value, na.rm = TRUE))

## [1] 893277786656

El rango y rango cuartilico que ya se ha presentado, informan ciertos análisis con respecto a los datos que obtuvimos del censo; no obstante, ninguno de estos dos análisis tienen en cuenta cómo se distribuyen las observaciones de la variable de estudio respecto a alguna medida de tendencia central, como la media, mediana o moda. En este sentido es pertinente tomar la medida de disperción de la varianza, debido a que esta sí toma en cuenta tal repartición de los datos respecto en este caso a la media. Según estos resultados, la dispersión de la distribución del conjunto de datos respecto al promedio es de 875762535937 lo que significa que al ser un valor mayor, los datos estan mas entre ellos más dispersos respecto a la media.

##La desviación estándar poblacional

with(population, sqrt(var(value, na.rm = TRUE)*(length(value)-1)/length(value)))

## [1] 935821.9

La interpretación de la varianza no es directa porque está expresada en unidades cuadráticas. Es por esta razón se dificulta su interpretación y puede llevar a realizar conclusiones errones.Por tal razón se realiza esta formula de desviación estándar poblacional, este resultado es un valor no negativo y es un valor que además tiene una relación directa con la disperción del conjunto de datos sacados del censo de Estados Unidos. El resultado aparentemente es 935821.9.

##La desviación estándar muestral

with(population, sqrt(var(value, na.rm = TRUE)))

## [1] 945133.7

Este valor nos da una estimación de una visión insesgada de la varianza poblacional, cuyo resultado es 945133.7, 93.118 por encima de la desviación estándar poblacional.

##El coeficiente de variación poblacional

with(population, sqrt(mean((value-mean(value, na.rm = TRUE))**2, na.rm = TRUE))/mean(value, na.rm = TRUE))

## [1] 0.9977412

Ya se vio la dispersión de una variable sin considerar el efecto de la unidad de medida. Por lo que es prudente utilizar una medida para conocer la otra parte que se desconoce, para eso utilizamos el coeficiente de variación poblacional. En este sentido la disperción es de 0.9977412, lo que nos hace comprender que los datos entre sí tienen una dispersión pequeña, al tener un valor menor.

##El coeficiente de variación muestral

with(population, sqrt(var(value, na.rm = TRUE))/mean(value, na.rm = TRUE))

## [1] 1.007669

Esta formula nos permite comprender que la división entre la desviación estándar y la media muestral, además el 1.007669 que se obtiene como resultado nos informa la estimación del coeficiente de varación poblacional de la población total en unidades de viviendas ocupadas obtenidas por el censo estadounidense.

##La distribución normal

library(ggplot2)
p <- ggplot(population, aes(x=value)) + 
  geom_density()
p

La distribución normal de la población total en unidades de viviendas ocupadas !! Propiedad libre y clara (H011003) evidencia en la gráfica lineal que si bien se presentó una distribución con valores tanto altos como bajos; los valores bajos son los que predominan en la grafica. Además de lo anterior se ve una tendencia ascendiente de la curva al inicio que a medida que avanza termina por tener una curva descendiente.

##Sesgo poblacional

library(e1071)
with(population, skewness(value, na.rm = TRUE))

## [1] 1.988583

El sesgo poblacional de los datos de población en unidades de viviendas ocupadas y de propiedad libre y clara es de 1.988583.

##La curtosis población

library(e1071)
with(population, kurtosis(value, na.rm = TRUE))

## [1] 4.296838

El grado de concentración que presentan los valores de los datos obtenidos en el censo estadounidense con respecto a la población total en unidades de viviendas ocupadas es de 4.296838. Este valor es con respeco de la zona central de la distribución de frecuencias.

Parcial 1 Estadística

Katherinne Vallejos Villarreal

27/8/2020