library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")

Inferencia estadistica

Es el conjunto de métodos y técnicas que permiten inducir, a partir de la información empírica proporcionada por una muestra, cual es el comportamiento de una determinada población con un riesgo de error medible en términos de probabilidad.

  1. Inferir: Sacar una consecuencia de una cosa. Sacar consecuencia o deducir una cosa de otra.

  2. Población: Una población de datos, es el conjunto total de datos que existen sobre un variable.

  3. Muestra estadística: Una muestra es una parte de la población de datos.

Teniendo claro a lo que nos referimos con el concepto de inferir, una de las dudas fundamentales recae en el hecho de elegir una muestra en lugar de una población.

*Métodos de la inferencia estadística

Los métodos y técnicas de la inferencia estadística se pueden dividir en dos: métodos de estimación de parámetros y métodos de contraste de hipótesis.

Muestreo

Usando el set de datos incluidos en R llamados “cars”, haremos el ejercicio de muestreo

cars <- data.frame(cars)
dim(cars)
## [1] 50  2

Muestreo simple aleatorio

Si queremos muestrear una n de 35

set.seed(123) #numero semilla para obtener los mismos resultados 
n <- 35
muestracars <- sample(1:nrow(cars), size = n, replace = FALSE)
#replace sirve para indicar si las muestras se repetiran o no
muestracars
##  [1] 31 15 14  3 42 43 37 48 25 26 27  5 40 28  9 29  8 41  7 10 36 19  4 45 17
## [26] 11 32 21 12 49 50 13 24 30 33

Ordenar los datos

sort(muestracars, decreasing = FALSE)
##  [1]  3  4  5  7  8  9 10 11 12 13 14 15 17 19 21 24 25 26 27 28 29 30 31 32 33
## [26] 36 37 40 41 42 43 45 48 49 50

Tabla de datos

datatable(cars)

Muestreo de datos con dplyr

Esta es una herramienta del tidyverse

Muestreo aleatorio simple sin reemplazo con dplyr

carsmuestracars2 <- cars %>%
  sample_n(size=n, replace = FALSE)
head(carsmuestracars2)
##   speed dist
## 1    11   17
## 2    14   80
## 3    16   32
## 4    10   18
## 5    24   93
## 6    18   42

Muestreo aleatorio simple con reemplazo usando dplyr

carsmuestracars2 <- cars %>%
  sample_n(size=n, replace = TRUE)
head(carsmuestracars2)
##   speed dist
## 1     7   22
## 2    12   20
## 3     8   16
## 4    15   26
## 5    14   60
## 6    15   26

muestreo ponderado

carsmuestracars3 <- cars %>%
    sample_n(size=n, weight = speed)
head(carsmuestracars3)
##   speed dist
## 1     7    4
## 2    18   84
## 3    20   48
## 4    19   36
## 5    25   85
## 6    22   66

Muestreo con ponderacion usando la fraccion

carros <- data.frame(cars)
n <- 50
cars <- sample(1:nrow(carros), size=n, replace=FALSE)
head(cars)
## [1] 32 21 11 36 44 19
  • Para muestrear una fraccion de 0.08 de la poblacion
cars.pesos <- carros %>%
  sample_frac(0.08)
head(cars.pesos); dim(cars.pesos)
##   speed dist
## 1    13   26
## 2    14   80
## 3    18   56
## 4    20   48
## [1] 4 2

Muestreo estratificado

dim(cars)
## NULL
head(cars)
## [1] 32 21 11 36 44 19
  • Establecer las variables categoricas de los subconjutos (especies) o estratos para hacer un muestreo aleatorio dentro.
levels(as.factor(iris$Species))
## [1] "setosa"     "versicolor" "virginica"
lirios <- iris
lirios$id <- 1:150
lirios [1:5, 4:6]
##   Petal.Width Species id
## 1         0.2  setosa  1
## 2         0.2  setosa  2
## 3         0.2  setosa  3
## 4         0.2  setosa  4
## 5         0.2  setosa  5