library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")

Inferencia estadistica

La inferencia estadística es el conjunto de métodos que permiten inducir, a través de una muestra estadística, el comportamiento de una determinada población. La inferencia estadística, estudia entonces como, a través de la aplicación de dichos métodos sobre los datos de una muestra, se pueden extraer conclusiones sobre los parámetros de la población de datos. De la misma manera estudia también el grado de fiabilidad de los resultados extraídos del estudio.

  1. Inferencia: Inferir significa, literalmente, extraer juicios o conclusiones a partir de ciertos supuestos, sean estos generales o particulares.

  2. Población: Una población de datos, es el conjunto total de datos que existen sobre un variable.

  3. Muestra estadística: Una muestra es una parte de la población de datos.

Teniendo claro a lo que nos referimos con el concepto de inferir, una de las dudas fundamentales recae en el hecho de elegir una muestra en lugar de una población.

Normalmente, en estadística, se trabaja con muestras debido a la gran cantidad de datos que tiene una población. Por ejemplo, si queremos sacar conclusiones, esto es, inferir, los resultados de las elecciones generales, es imposible preguntar a toda la población del país. Para solventar ese problema se escoge una muestra variada y representativa. Gracias a la cual se puedan extraer una estimación del resultado final. Escoger una muestra adecuada corre a cargo de las distintas técnicas de muestreo.

Métodos de la inferencia estadística Los métodos y técnicas de la inferencia estadística se pueden dividir en dos: métodos de estimación de parámetros y métodos de contraste de hipótesis.

Muestreo

Usando el set de datos incluidos en R llamados “cars”, haremos el ejercicio de muestreo

carros <- data.frame(cars)
dim(carros)
## [1] 50  2

Muestreo simple aleatorio

Si queremos muestrear una n de 30

set.seed(123) #numero semilla para obtener los mismos resultados 
n <- 30
muestracarros <- sample(1:nrow(carros), size = n, replace = FALSE)
#replace sirve para indicar si las muestras se repetiran o no
muestracarros
##  [1] 31 15 14  3 42 43 37 48 25 26 27  5 40 28  9 29  8 41  7 10 36 19  4 45 17
## [26] 11 32 21 12 49

#Ordenar los datos

sort(muestracarros, decreasing = FALSE)
##  [1]  3  4  5  7  8  9 10 11 12 14 15 17 19 21 25 26 27 28 29 31 32 36 37 40 41
## [26] 42 43 45 48 49

Tabla de datos

datatable(carros)

Muestreo de datos con dplyr

Esta es una herramienta del tidyverse

Muestreo aleatorio simple sin reemplazo con dplyr

carrosmuestra1 <- carros %>%
  sample_n(size=n, replace = FALSE)
head(carrosmuestra1)
##   speed dist
## 1    18   42
## 2    20   56
## 3    23   54
## 4    10   18
## 5    10   34
## 6    20   52

Muestreo aleatorio simple con reemplazo usando dplyr

carrosmuestra1 <- cars %>%
  sample_n(size=n, replace = TRUE)
head(carrosmuestra1)
##   speed dist
## 1    15   54
## 2    17   50
## 3    13   26
## 4    17   40
## 5     9   10
## 6    20   64

muestreo ponderado (con pesos)

carsmuestracarros2 <- carros %>%
    sample_n(size=n, weight = dist)
head(carsmuestracarros2)
##   speed dist
## 1    24   93
## 2    15   20
## 3    14   36
## 4    25   85
## 5    20   52
## 6    10   18

Muestreo con ponderacion usando la fraccion

carritos <- data.frame(cars)
n <- 50
cars <- sample(1:nrow(carritos), size=n, replace=FALSE)
head(cars)
## [1] 46 17 50 35 40 30
  • Para muestrear una fraccion de 0.04 de la poblacion
cars.pesos <- carritos %>%
  sample_frac(0.04)
head(cars.pesos); dim(cars.pesos)
##   speed dist
## 1    22   66
## 2    14   60
## [1] 2 2

Muestreo estratificado

Para este muestreo usaremos datos estratificados de cars

dim(cars)
## NULL
head(cars)
## [1] 46 17 50 35 40 30