Estadística descriptiva

Medidas de localización y dispersión

Las medidas de tendencia central y dispersión son medidas del tipo estadístico cuyo propósito es resumir en un solo valor a un conjunto de datos o variable. Representan un centro en torno al cual se encuentra ubicado el conjunto de los datos. Las medidas de tendencia central más utilizadas son: media, mediana y moda.

Las medidas de dispersión en cambio miden el grado de dispersión de los valores de la variable. Dicho en otros términos las medidas de dispersión pretenden evaluar en qué medida los datos difieren entre sí. De esta forma, ambos tipos de medidas usadas en conjunto permiten describir un conjunto de datos entregando información acerca de su posición y su dispersión.

Los procedimientos para obtener las medidas estadísticas difieren levemente dependiendo de la cantidad y forma en que son obtenidos los datos; si las medidas estadísticas han sido obtenidos a partir de toda la poblaciíon de elementos estos corresponden a parametros poblacionales, valores fijos y por lo general desconocidos, y si los datos corresponden a una muestra, o subconjunto, de la población se hablará entonces de estadísticas muestrales.

Según este criterio, se hará paralelamente el estudio tanto de parametros poblacionales como de estadísticas muestrales conforme se vayan introduciendo cada una de las medidas.

Para trabajar,en este caso con la base del censo de los Estados Unidos, se requerirán los siguientes paquetes, previamente instalados.

Librerias a usar

library(tidyverse)

## ── Attaching packages ─────────────────────────────── tidyverse 1.3.0 ──

## ✓ ggplot2 3.2.1     ✓ purrr   0.3.3
## ✓ tibble  2.1.3     ✓ dplyr   0.8.4
## ✓ tidyr   1.0.2     ✓ stringr 1.4.0
## ✓ readr   1.3.1     ✓ forcats 0.4.0

## ── Conflicts ────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

library(sf)

## Linking to GEOS 3.5.1, GDAL 2.2.2, PROJ 4.9.2

library(tigris)

## To enable 
## caching of data, set `options(tigris_use_cache = TRUE)` in your R script or .Rprofile.

## 
## Attaching package: 'tigris'

## The following object is masked from 'package:graphics':
## 
##     plot

library(tidycensus)
library(mapview)
library(viridis)

## Loading required package: viridisLite

library(tidycensus)
library(knitr)
library(leaflet)
library(stringr)
library(ggplot2)
library(openintro)

## Loading required package: airports

## Loading required package: cherryblossom

## Loading required package: usdata

options(tigris_use_cache = TRUE)

tidycensus es un paquete R que permite a los usuarios interactuar con el censo decenal de la Oficina del Censo de los EE. UU. y las API de la comunidad estadounidense de cinco años y devolver marcos de datos listos para se usados con el paquete tidyverse. para obtener una clave de acceso debe acceder a la página web https://api.census.gov/data/key_signup.html y diligenciar el formulario, a continuación dentro de la siguiente instruccion deberá difitar su clave de acceso

census_api_key("clave personal obtenida del enlace y enviada al correo registrado en dicha página")

## To install your API key for use in future sessions, run this function with `install = TRUE`.

Censo de los Estados Unidos

La Oficina del Censo de los Estados Unidos (en inglés: United States Census Bureau) forma parte del Departamento de Comercio de Estados Unidos. Es el organismo gubernamental que se encarga del censo en los Estados Unidos. Es la fuente de datos confiables sobre la economía y los habitantes de la nación, y lleva a cabo estudios demográficos tales como niveles de población y tendencias en la vivienda, y estudios económicos, como por ejemplo de productividad.

## To install your API key for use in future sessions, run this function with `install = TRUE`.

Variables

census_us_county_income <- get_acs(geography = "county", variables = "B19013_001", 
                            shift_geo = TRUE, geometry = TRUE)

## Getting data from the 2014-2018 5-year ACS

## Using feature geometry obtained from the albersusa package

## Please note: Alaska and Hawaii are being shifted and are not to scale.

head(census_us_county_income)

ggplot(data = census_us_county_income) + 
  geom_sf(aes(fill = estimate), color = NA) + 
  coord_sf(datum = NA) + 
  theme_minimal() + 
  scale_fill_viridis_c()

Medidas tendencia central o localización de los datos

Se entiende por tendencia central a algún punto o cantidad que describa lo que podemos considerar como “el centro” de los datos, que podría coincidir con el espacio donde se concentran la mayor parte de los datos.

Ejemplos

Un estudiante con las siguientes notas: $x_{1}=5.0$, $x_{2}=4.0$ y $x_{3}=0.0$

\[\mu_x=\frac{\sum_{i=1}^{3}{x}_{i}}{3}=\frac{5.0+4.0+0.0}{3}=\frac{9.0}{3}=3.0\]

\[x_{(1)}=0.0,x_{(2)}=4.0\text{ y }x_{(3)}=5.0\]

\[\tilde{x}=x_{(2)}=4.0\]

\[Mod_x=\text{No existe}\]

x<-c(5,4,0);mean(x);median(x);table(x)

## [1] 3

## [1] 4

## x
## 0 4 5 
## 1 1 1

Un estudiante con las siguientes notas: $x_{1}=2.0$, $x_{2}=2.0$, $x_{3}=3.0$ y $x_{3}=5.0$

\[\mu_x=\frac{\sum\limits_{i=1}^{4}{x}_{i}}{4}=\frac{2.0+2.0+3.0+5.0}{4}=\frac{12.0}{4}=3,0\]

\[x_{(1)}=2.0,x_{(2)}=2.0,x_{(3)}=3.0\text{ y }x_{(4)}=5.0\]

\[\tilde{x}=\frac{x_{(2)}+x_{(3)}}{2}=\frac{2.0+3.0}{2}=\frac{5.0}{2}=2.5\]

\[Mod_x=2.0\]

x<-c(2,2,3,5);mean(x);median(x);table(x)

## [1] 3

## [1] 2.5

## x
## 2 3 5 
## 2 1 1

La media o promedio

Uno de estos puntos es la media que es lo mismo que el promedio de los datos. Es también equivalente a lo que conociste en distribuciones de probabilidad como el valor esperado, determinado por una suma o una integral. En el caso de variables discretas:

\[\mu_x=\sum\limits_{{\forall}{i}{\in}{U}}{x}_{i}{\cdot}P\left({x}_{i}\right)\]

Esa probabilidad es una ponderación o “peso” para cada resultado ${x}_{i}$, que si la hacemos la misma para una cantidad definida de datos $N$, entonces $P({x}_{i})=1/N$, o sea que todos los datos tienen el mismo peso. En la práctica usualmente los conjuntos de datos con los que se trabaja son muestras o subconjuntos de la población de tamaño ${n}{\leq}{N}$, así que la cantidad teórica que para una distribución es el valor esperado $μ$ se convierte en la cantidad práctica $\bar{x}$, que es el promedio de un conjunto de $n$ datos numéricos:

La media o promedio poblacional

La media poblacional, valor esperado o esperanza matemática de una variable aleatoria.

\[\mu_x=\frac{\sum\limits_{i=1}^{N}{x}_{i}}{N}\]

with(census_us_county_income, mean(estimate, na.rm = TRUE))

## [1] 51583.18

La media o promedio muestral

La media muestral, que es un estadístico que se calcula a partir de la media aritmética de un conjunto de valores de una variable aleatoria.

\[\bar{x}=\frac{\sum\limits_{i=1}^{n}{x}_{i}}{n}\]

La función en R que calcula la suma de los datos del ingreso estimado en el centos de los Estados Unidos dividida entre la cantidad de datos, denotada por $\bar{x}$ es mean.

La mediana

Esta es otra medida de tendencia central que no tiene que coincidir con la media, aunque a veces resultan valores cercanos entre sí. La mediana es el dato que queda justo a la mitad de una secuencia de datos numéricos acomodados en orden de menor a mayor, en cuanto a su valor se refiere, así: ${x}_{\left(1\right)},{x}_{\left(2\right)},\ldots,{x}_{\left(n\right)}$; da igual resultado si el ordenamiento es inverso, es decir de mayor a menor, de tal forma que: (i) si se tiene un número $n$ impar de datos, la mediana $\tilde{x}$ es el dato en la posición ${x}_{{\left(n+1\right)}/{2}}$; y (ii) si tienes un número $n$ par de datos, la mediana $\tilde{x}$ es el promedio de los datos en las posiciones ${x}_{{n}/{2}}$ y ${x}_{{n}/{2}+1}$, es decir, ${({x}_{{n}/{2}}+{x}_{{\left(n+1\right)}/{2}})}/2$.

En R la función median lo calcula sin importar el caso es la siguiente:

with(census_us_county_income, median(estimate, na.rm = TRUE))

## [1] 49888

La moda

La moda, denotada $mod$, de una distribución se define como el valor de la variable que más se repite. Una muestra puede tener más de una moda; en estos caso se afirmaría que la distribución es bimodal, trimodal, etc.

En R

Mode = function(x){
    ta = table(x)
    tam = max(ta)
    if (all(ta == tam))
         mod = NA
    else
         if(is.numeric(x))
    mod = as.numeric(names(ta)[ta == tam])
    else
         mod = names(ta)[ta == tam]
    return(mod)
}
with(census_us_county_income, Mode(estimate))

## [1] 35509 37188 40000 40978 42604 42689 44313 47500 48667

Tambien puede calcularse fácilmente mediante la siguiente instrucción

with(census_us_county_income, as.numeric(names(table(estimate))[table(estimate)==max(table(estimate))]))

## [1] 35509 37188 40000 40978 42604 42689 44313 47500 48667

Medidas de variabilidad o dispersión de los datos

Son funciones estadísticas, que dependen de la muestra, o estadísticos que indican como se alejan los datos respecto de la media aritmética. Sirven como indicador de la variabilidad de los datos. Las medidas de dispersión más utilizadas son el rango, la desviación estándar y la varianza.

Lo anterior nos indica que una forma de medir la variabilidad de un conjunto de datos es tomando la distancia de cada dato con la media y finalmente haciendo su suma:

\[{\sigma}_{x}^{2}=\sum\limits_{{\forall}{i}{\in}{U}}{{\left({x}_{i}-\mu\right)}^{2}}{\cdot}P\left({x}_{i}\right)\]

Ejemplo

Dos parejas; una con ingresos de $18.000.000 $2.000.000 y la otra pareja con ingresos de $9.800.000 y 10.200.000 por mes.

pareja.uno <- c(18000000,2000000)
mean(pareja.uno)

## [1] 1e+07

\[s_x=\frac{(18.000.000-10.000.000)+(2.000.000-10.000.000)}{2}=\frac{(8.000.000)+(-8.000.000)}{2}=\frac{0}{2}\]

Dos soluciones; una es tomar los valores absolutos de las distancias y la otra es elevar al cuadrado las distancias

Desviación media absoluta

\[s_x=\frac{|18.000.000-10.000.000|+|2.000.000-10.000.000|}{2}=\frac{|8.000.000|+|-8.000.000|}{2}=\frac{8.000.000+8.000.000}{2}=\frac{16.000.000}{2}=8.000.000\]

Varianza

\[s_x^2=\frac{(18.000.000-10.000.000)^2+(2.000.000-10.000.000)^2}{2}=\frac{(8.000.000)^2+(-8.000.000)^2}{2}=\frac{64.000.000.000.000+64.000.000.000.000}{2}=\frac{128.000.000.000.000}{2}=64.000.000.000.000\]

Desviación estándar o típica

\[s_x=\sqrt{s_x^2}{\implies}s_x=\sqrt{64.000.000.000.000}=8.000.000\]

\[s_x=\frac{(18.000.000-10.000.000)+(2.000.000-10.000.000)}{2}=\frac{(8.000.000)+(-8.000.000)}{2}=\frac{0}{2}\]

pareja.dos <- c(9800000,10200000)
mean(pareja.dos)

## [1] 1e+07

\[s_x=\frac{(9.800.000-10.000.000)+(10.200.000-10.000.000)}{2}=\frac{(-200.000)+(200.000)}{2}=\frac{0}{2}\]

Desviación media absoluta

\[s_x=\frac{|9.800.000-10.000.000|+|10.200.000-10.000.000|}{2}=\frac{|-200.000|+|200.000|}{2}=\frac{200.000+200.000}{2}=\frac{400.000}{2}=200.000\]

Varianza

\[s_x^2=\frac{(9.800.000-10.000.000)^2+(10.200.000-10.000.000)^2}{2}=\frac{(-200.000)^2+(200.000)^2}{2}=\frac{40.000.000.000+40.000.000.000}{2}=\frac{80.000.000.000}{2}=40.000.000.000\]

Desviación estándar o típica

\[s_x=\sqrt{s_x^2}{\implies}s_x=\sqrt{40.000.000.000}=200.000\]

Un estudiante con las notas $x_1=3.0$ y $X_2=5.0$

Medida de tendencia central

\[\mu_x=\frac{\sum_{i=1}^{n}x_i}{n}=\frac{3.0+5.0}{2}=\frac{8.0}{2}=4.0\]

\[\frac{\sum_{i=1}^{n}(x_i-\mu_x)}{n}=\frac{(3.0-4.0)+(5.0-4.0)}{2}=\frac{-1.0+1.0}{2}=\frac{0.0}{2}=0\]

Desviación media absoluta

\[DMA=\frac{\sum_{i=1}^{n}|x_i-\mu|}{n}=\frac{|3.0-4.0|+|5.0-4.0|}{2}=\frac{1.0+1.0}{2}=1.0\]

Varianza

\[\sigma_x^2=\frac{\sum_{i=1}^{n}(x_i-\mu)^2}{n}=\frac{(3.0-4.0)^2+(5.0-4.0)^2}{2}=\frac{(-1.0)^2+(1.0)^2}{2}=1.0^2\]

Desviación estándar o típica

\[\sigma_x=\sqrt{\sigma_x^2}=\sqrt{1.0^2}=1.0\]

x <- c(3.0, 5.0)
media.x <- mean(x)
cat("La media de las notas es: ",media.x,", ")

## La media de las notas es:  4 ,

varianza.x <- ((x[1]-media.x)^2 + (x[2]-media.x)^2)/2
cat("la varianza de las notas es: ",varianza.x," unidades al cuadrado"," y ")

## la varianza de las notas es:  1  unidades al cuadrado  y

desvest.x <- sqrt(varianza.x)
cat("la desviación estándar de las notas es: ",desvest.x)

## la desviación estándar de las notas es:  1

Un estudiante con las notas $x_1=3.8$ y $X_2=4.2$

\[\mu_x=\frac{\sum_{i=1}^{n}x_i}{n}=\frac{3.8+4.2}{2}=\frac{8.0}{2}=4.0\]

\[\frac{\sum_{i=1}^{n}(x_i-\mu)}{n}=\frac{(3.8-4.0)+(4.2-4.0)}{2}=\frac{-0.2+0.2}{2}=0\]

\[DMA=\frac{\sum_{i=1}^{n}|x_i-\mu|}{n}=\frac{|3.8-4.0|+|4.2-4.0|}{2}=\frac{0.2+0.2}{2}=0.2\]

Varianza

\[\sigma^2=\frac{\sum_{i=1}^{n}(x_i-\mu)^2}{n}=\frac{(3.8-4.0)^2+(4.2-4.0)^2}{2}=\frac{(-0.2)^2+(0.2)^2}{2}=\frac{0.2^2+0.2^2}{2}=0.04\]

Desviación estándar o típica

\[\sigma=\sqrt{0.04}=0.2\]

y <- c(3.8, 4.2)
media.y <- mean(y)
cat("La media de las notas es: ",media.y,", ")

## La media de las notas es:  4 ,

varianza.y <- ((y[1]-media.y)^2 + (y[2]-media.y)^2)/2
cat("la varianza de las notas es: ",varianza.y," décimas al cuadrado"," y ")

## la varianza de las notas es:  0.04  décimas al cuadrado  y

desvest.y <- sqrt(varianza.y)
cat("la desviación estándar de las notas es: ",desvest.y)

## la desviación estándar de las notas es:  0.2

El resultado de la anterior operación es indefectiblemente cero, por lo que se tienen distintas soluciones, entre las cuales están las siguientes:

El Rango

Indica la dispersión entre los valores extremos de una variable. se calcula como la diferencia entre el mayor ${x}_{\left(n\right)}$ y el menor ${x}_{\left(1\right)}$ valor de la variable al ordenar los datos de menor mayor ${x}_{\left(1\right)},{x}_{\left(2\right)},\ldots,{x}_{\left(n\right)}$. Se denota como $rang$.

En R no hay una función predefinida para calcular el rango, un código que sirve para calcular el rango es el siguiente:

Range = function(x){
    maximun = max(x, na.rm = TRUE)
    minimun = min(x, na.rm = TRUE)
    Range = maximun - minimun
    return(Range)
}
with(census_us_county_income, Range(estimate))

## [1] 116080

Puede calcularse con una función propia de R, es decir, sin la necesida de construirla usando el comando range que devuelve el valor máximo y mínimo de la variable, el código es como sigue:

with(census_us_county_income, range(estimate, na.rm = TRUE))

## [1]  20188 136268

Aquí es posible restar los valore, obteniendose el mismo resultado anterior de la siguiente manera

with(census_us_county_income, diff(range(estimate, na.rm = TRUE)))

## [1] 116080

El rango intercuartílico

Un valor muy utilizado en la medida de la dispersión y su visualización, es el intervalo o distancia entre cuartiles que son valores que dividen a los datos ordenados en cuatro partes iguales; es de notar que la mediana es un cuartíl, justamente el segundo, es decir, ${Q}_{2}$. A la distancia entre el ${Q}_{3}$ y el ${Q}_{1}$ se le llama el intervalo inter-cuartiles o rango intercuartílico; es notado como $IQR$, y su formula de calculo es: ${Q}_{3}-{Q}_{1}$. En R se calcula mediante la instrucción.

with(census_us_county_income, IQR(estimate, na.rm = TRUE))

## [1] 15131

La desviación media absoluta

La desviacion media absoluta $DMA$ considera todos los valores, no solo los valores máximo y mínimo como es el caso del rango, y mide el promedio de variacion de cada observacion en valores absolutos con respecto a la media. Su formula de cálculo es la que sigue:

\[{DMA}_{x}=\frac{\sum\limits_{i=1}^{N}\left|{x}_{i}-\mu_x\right|}{N}\]

En R puede calcularse mediante la siguiente instrucción:

with(census_us_county_income, mean(abs(estimate-mean(estimate, na.rm = TRUE)), na.rm = TRUE))

## [1] 10043.76

La varianza poblacional

La varianza es una medida de la diferencias entre cada punto y la media, elevadas al cuadrdado, de tal forma que si pensamos en los datos como una nube de puntos, la varianza $\sigma^2$ nos daría un indicio del tamaño de esa nube de puntos en el entendido que da información acerca de que tan disperso es un conjunto de datos, es decir, si la varianza es grande la dispersión es grande y viceversa:

\[{\sigma}_{x}^{2}=\frac{\sum_{i=1}^{N}{\left({x}_{i}-\mu\right)}^{2}}{N}\]

En R el siguiente código calcula la varianza poblacional tomando como insumo la varianza muestral, que por defecto es la que está programada mediante la instrucción $var$

with(census_us_county_income, mean((estimate-mean(estimate, na.rm = TRUE))**2, na.rm = TRUE))

## [1] 187726187

with(census_us_county_income, var(estimate, na.rm = TRUE)*(length(estimate)-1)/length(estimate))

## [1] 187726206

La varianza muestral

En muchas situaciones es preciso estimar la varianza de una población a partir de una muestra:

\[{s}_{x}^{2}=\frac{\sum_{i=1}^{n}{\left({x}_{i}-\bar{x}\right)}^{2}}{n-1}\]

t=+7-3+8-5+10+12-13
t

## [1] 16

24-t

## [1] 8

Grados de libertad

\[\mu_x=\frac{5.0+¿x_i?}{2}=3.0{\implies}x_i=1.0\]

En R puede calcularse la varianza muestral mediante la siguiente instrucción:

with(census_us_county_income, var(estimate, na.rm = TRUE))

## [1] 187785973

La desviación estándar poblacional

La desviación estándar es la medida de dispersión más común, que indica qué tan dispersos están los datos con respecto a la media; se define como la raíz cuadrada positiva de la varianza. Mientras mayor sea la desviación estándar, mayor será la dispersión de los datos; y su formula de calculo es como sigue: ${\sigma}=\sqrt{{\sigma}^{2}}$.

En R puede calcularse con el siguiente código:

\[{\sigma}_{x}=\sqrt{\frac{\sum\limits_{i=1}^{N}{\left({x}_{i}-\bar{x}\right)}^{2}}{N-1}{\times}\frac{N-1}{N}}=\sqrt{var(x){\times}\frac{N-1}{N}}=\sqrt{\frac{\sum\limits_{i=1}^{N}{\left({x}_{i}-\bar{x}\right)}^{2}}{N}}\]

with(census_us_county_income, sqrt(var(estimate, na.rm = TRUE)*(length(estimate)-1)/length(estimate)))

## [1] 13701.32

with(census_us_county_income, sqrt(mean((estimate-mean(estimate, na.rm = TRUE))**2, na.rm = TRUE)))

## [1] 13701.32

La desviación estándar muestral

Para obtener un estimador insesgado del varianza poblacional, con base en una muestra aleatoria, es necesario dividir la varianza entre el tamaño de la muestra menos uno. Si se quiere calcular la desviación estándar muestral, se debe extraer la raíz cuadrada positiva de la varianza muestral ${s}=\sqrt{{s}^{2}}$

En R pueden calcularse mediante la siguiente instrucción

with(census_us_county_income, sqrt(var(estimate, na.rm = TRUE)))

## [1] 13703.5

with(census_us_county_income, sd(estimate, na.rm = TRUE))

## [1] 13703.5

El coeficiente de variación poblacional

El coeficiente de variación poblacional corresponde a una medida sin unidades que proporciona información acerca de la dispersión de una varible sin considerar el efecto de la unidad de medida, muy útil cuando se quieren comparar poblaciones; su fórmula de calculo es

\[CV=\frac{\sigma_x}{\mu_x}\]

with(census_us_county_income, sd(estimate, na.rm = TRUE))

## [1] 13703.5

with(census_us_county_income, sd(3800*estimate, na.rm = TRUE))

## [1] 52073308

with(census_us_county_income, sqrt(mean((3800*estimate-mean(3800*estimate, na.rm = TRUE))**2, na.rm = TRUE))/mean(3800*estimate, na.rm = TRUE))

## [1] 0.2656161

with(census_us_county_income, sqrt(mean((estimate-mean(estimate, na.rm = TRUE))**2, na.rm = TRUE))/mean(estimate, na.rm = TRUE))

## [1] 0.2656161

with(census_us_county_income, sqrt(var(estimate, na.rm = TRUE)*(length(estimate)-1)/length(estimate))/mean(estimate, na.rm = TRUE))

## [1] 0.2656161

El coeficiente de variación muestral

El coeficiente de variación muestral es la división entre la desviación estándar y la media muestrales, y es una estimación del coeficiente de varaición poblacional; y dicho coeficiente no es un estimador insesgado de su conntraparte poblacional.

\[cv=\frac{s_x}{\bar{x}}\]

with(census_us_county_income, sqrt(var(estimate, na.rm = TRUE))/mean(estimate, na.rm = TRUE))

## [1] 0.2656584

with(census_us_county_income, sd(estimate, na.rm = TRUE)/mean(estimate, na.rm = TRUE))

## [1] 0.2656584

La distribución normal

También conocida como distribución de Gauss, gaussiana o de Laplace-Gauss, es una de las distribuciones de probabilidad para variables continuas más frecuentemente usada en estadística.

Su función de densidad $P(X=x)$ tiene una forma acampanada y es simétrica respecto de sus parámetros de localización (media, mediana y moda). Dicha curva se conoce como campana de Gauss.

La importancia de esta distribución radica en que permite modelar numerosos fenómenos naturales, sociales y psicológicos.

La distribución es importante por su relación con la estimación por mínimos cuadrados para regresión lineal, uno de los métodos de estimación más simples y antiguos.

Algunos ejemplos de variables asociadas a fenómenos naturales que siguen el modelo de la normal son:

caracteres morfológicos de individuos como la estatura;
caracteres fisiológicos como el efecto de un fármaco;
caracteres sociológicos como el consumo de cierto producto por un mismo grupo de individuos;
caracteres psicológicos como el cociente intelectual;
nivel de ruido en telecomunicaciones;
errores cometidos al medir ciertas magnitudes.

Se simulara una distribución normal con media igual a 170 y desviación estándar igual a 5. El código para hacerlo es el siguiente:

ingresos.medianos <- as.data.frame(rnorm(n = length(census_us_county_income$estimate), mean = mean(census_us_county_income$estimate, na.rm = TRUE), sd = sd(census_us_county_income$estimate, na.rm = TRUE)))

library(ggplot2)
p <- ggplot(ingresos.medianos, aes(x=`rnorm(n = length(census_us_county_income$estimate), mean = mean(census_us_county_income$estimate, na.rm = TRUE), sd = sd(census_us_county_income$estimate, na.rm = TRUE))`)) + geom_density()
p

p + geom_vline(aes(xintercept=mean(`rnorm(n = length(census_us_county_income$estimate), mean = mean(census_us_county_income$estimate, na.rm = TRUE), sd = sd(census_us_county_income$estimate, na.rm = TRUE))`)), color="blue", linetype="dashed", size=1)

library(ggplot2)
p <- ggplot(census_us_county_income, aes(x=estimate)) + 
  geom_density()
p

## Warning: Removed 1 rows containing non-finite values (stat_density).

El sesgo poblacional

library(e1071)
with(ingresos.medianos, skewness(`rnorm(n = length(census_us_county_income$estimate), mean = mean(census_us_county_income$estimate, na.rm = TRUE), sd = sd(census_us_county_income$estimate, na.rm = TRUE))`, na.rm = TRUE))

## [1] -0.08070919

library(e1071)
with(census_us_county_income, skewness(estimate, na.rm = TRUE))

## [1] 1.292373

La curtosis poblacional

library(e1071)
with(ingresos.medianos, kurtosis(`rnorm(n = length(census_us_county_income$estimate), mean = mean(census_us_county_income$estimate, na.rm = TRUE), sd = sd(census_us_county_income$estimate, na.rm = TRUE))`, na.rm = TRUE))

## [1] 0.01445913

library(e1071)
with(census_us_county_income, kurtosis(estimate, na.rm = TRUE))

## [1] 3.231551

Ejercicios

x <- rnorm(n = 1000000, mean = 176, sd = 15)
cat("Los primeros seis datos de las estaturas son los siguientes:", head(x))

## Los primeros seis datos de las estaturas son los siguientes: 177.8583 154.613 206.4467 171.4374 165.5222 172.2541

hist(x, col = rainbow(100), main = "Histograma de las estaturas", xlab = "Estaturas simuladas", ylab = "Frecuencias")

La media o promedio

cat("La media de las estaturas es: ", mean(x), " centímetros")

## La media de las estaturas es:  176  centímetros

Gráfico de caja y bigotes o boxplot

boxplot(x, col = rainbow(100), main = "Gráfico de caja y bigotes", horizontal = TRUE)

summary(x)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   100.6   165.9   176.0   176.0   186.1   253.7

cat("La mediana de las estaturas es: ", median(x), " centímetros")

## La mediana de las estaturas es:  175.9851  centímetros

cat("La moda de las estaturas es: ", Mode(x), " centímetros")

## La moda de las estaturas es:  NA  centímetros

cat("La media de los datos es: ",mean(x),", ","la mediana de los datos es: ",median(x)," y ","la moda de los datos es: ",Mode(x))

## La media de los datos es:  176 ,  la mediana de los datos es:  175.9851  y  la moda de los datos es:  NA

cat("La variana de las estaturas es: ", var(x), " centímetros al cuadrado; por tanto no es interpretable al estar a la dos")

## La variana de las estaturas es:  225.6595  centímetros al cuadrado; por tanto no es interpretable al estar a la dos

cat("La desviación estándar de las estaturas es: ", sd(x), " centímetros")

## La desviación estándar de las estaturas es:  15.02197  centímetros

cat("El rango de las estaturas es: ", Range(x), " centímetros")

## El rango de las estaturas es:  153.1185  centímetros

cat("El rango intercuartílico de las estaturas es: ", IQR(x), " centímetros")

## El rango intercuartílico de las estaturas es:  20.24702  centímetros

DMA <- function(x){
  mean(abs(x- mean(x)))
}

cat("La desviación media absoluta de las estaturas es: ", DMA(x), " centímetros")

## La desviación media absoluta de las estaturas es:  11.98003  centímetros

cat("La varianza de los datos es: ",var(x),", ","la desviación estándar de los datos es: ",sd(x),", ","el rango de los datos es: ",Range(x)," y ","el rango intercuartílico es: ",IQR(x))

## La varianza de los datos es:  225.6595 ,  la desviación estándar de los datos es:  15.02197 ,  el rango de los datos es:  153.1185  y  el rango intercuartílico es:  20.24702

set.seed(1234567890)
x <- rnorm(n = 100000, mean = 60, sd = 7)
cat("Los primeros seis datos de los pesos son los siguientes:", head(x))

## Los primeros seis datos de los pesos son los siguientes: 69.42147 66.9669 63.82359 46.61093 73.44899 69.6034

hist(x, col = rainbow(100), main = "Histograma de los pesos", xlab = "Pesos simulados (en kilogramos)", ylab = "Frecuencias")

cat("La media de los pesos es: ",mean(x),", ","la mediana de los pesos es: ",median(x)," y ","la moda de los pesos es: ",Mode(x))

## La media de los pesos es:  60.00629 ,  la mediana de los pesos es:  60.00991  y  la moda de los pesos es:  NA

boxplot(x, col = rainbow(100), main = "Gráfico de caja y bigotes para los pesos", horizontal = TRUE)

cat("La varianza de los pesos es: ",var(x),", ","la desviación estándar de los pesos es: ",sd(x),", ","el rango de los pesos es: ",Range(x)," y ","el rango intercuartílico de los pesos es: ",IQR(x))

## La varianza de los pesos es:  49.25318 ,  la desviación estándar de los pesos es:  7.018061 ,  el rango de los pesos es:  58.3311  y  el rango intercuartílico de los pesos es:  9.469249