Inferencia estadistica

Es el conjunto de métodos y técnicas que permiten inducir, a partir de la información empírica proporcionada por una muestra, cual es el comportamiento de una determinada población con un riesgo de error medible en términos de probabilidad.

Inferir: Sacar una consecuencia de una cosa. Sacar consecuencia o deducir una cosa de otra.
Población: Una población de datos, es el conjunto total de datos que existen sobre un variable.
Muestra estadística: Una muestra es una parte de la población de datos.

Teniendo claro a lo que nos referimos con el concepto de inferir, una de las dudas fundamentales recae en el hecho de elegir una muestra en lugar de una población.

*Métodos de la inferencia estadística

Los métodos y técnicas de la inferencia estadística se pueden dividir en dos: métodos de estimación de parámetros y métodos de contraste de hipótesis.

Métodos de estimación de parámetros: Se encarga de asignar un valor al parámetro o al conjunto de parámetros que caracterizan el campo sujeto a estudio.
Métodos de contraste de hipótesis: Su objetivo es comprobar si una estimación corresponde con los valores poblacionales. En todo contraste de hipótesis existen dos supuestos. La hipótesis nula (H0) que recoge la idea de que un valor tiene un valor predeterminado. Si se rechaza la hipótesis nula (H0), entonces se acepta la hipótesis alternativa (H1).

Muestreo

Usando el set de datos incluidos en R llamados “cars”, haremos el ejercicio de muestreo

cars <- data.frame(cars)
dim(cars)

## [1] 50  2

Muestreo simple aleatorio

Si queremos muestrear una n de 35

set.seed(123) #numero semilla para obtener los mismos resultados 
n <- 35
muestracars <- sample(1:nrow(cars), size = n, replace = FALSE)
#replace sirve para indicar si las muestras se repetiran o no
muestracars

##  [1] 31 15 14  3 42 43 37 48 25 26 27  5 40 28  9 29  8 41  7 10 36 19  4 45 17
## [26] 11 32 21 12 49 50 13 24 30 33

Ordenar los datos

sort(muestracars, decreasing = FALSE)

##  [1]  3  4  5  7  8  9 10 11 12 13 14 15 17 19 21 24 25 26 27 28 29 30 31 32 33
## [26] 36 37 40 41 42 43 45 48 49 50

Tabla de datos

datatable(cars)

Muestreo de datos con dplyr

Esta es una herramienta del tidyverse

Muestreo aleatorio simple sin reemplazo con dplyr

carsmuestracars2 <- cars %>%
  sample_n(size=n, replace = FALSE)
head(carsmuestracars2)

##   speed dist
## 1    11   17
## 2    14   80
## 3    16   32
## 4    10   18
## 5    24   93
## 6    18   42

Muestreo aleatorio simple con reemplazo usando dplyr

carsmuestracars2 <- cars %>%
  sample_n(size=n, replace = TRUE)
head(carsmuestracars2)

##   speed dist
## 1     7   22
## 2    12   20
## 3     8   16
## 4    15   26
## 5    14   60
## 6    15   26

muestreo ponderado

carsmuestracars3 <- cars %>%
    sample_n(size=n, weight = speed)
head(carsmuestracars3)

##   speed dist
## 1     7    4
## 2    18   84
## 3    20   48
## 4    19   36
## 5    25   85
## 6    22   66

Muestreo con ponderacion usando la fraccion

carros <- data.frame(cars)
n <- 50
cars <- sample(1:nrow(carros), size=n, replace=FALSE)
head(cars)

## [1] 32 21 11 36 44 19

Para muestrear una fraccion de 0.08 de la poblacion

cars.pesos <- carros %>%
  sample_frac(0.08)
head(cars.pesos); dim(cars.pesos)

##   speed dist
## 1    13   26
## 2    14   80
## 3    18   56
## 4    20   48

## [1] 4 2

Muestreo estratificado

dim(cars)

## NULL

head(cars)

## [1] 32 21 11 36 44 19

Establecer las variables categoricas de los subconjutos (especies) o estratos para hacer un muestreo aleatorio dentro.

levels(as.factor(iris$Species))

## [1] "setosa"     "versicolor" "virginica"

lirios <- iris
lirios$id <- 1:150
lirios [1:5, 4:6]

##   Petal.Width Species id
## 1         0.2  setosa  1
## 2         0.2  setosa  2
## 3         0.2  setosa  3
## 4         0.2  setosa  4
## 5         0.2  setosa  5

Ejercicio No. 4

Jesús Murillo

17/9/2021