library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")
Es el conjunto de métodos y técnicas que permiten inducir, a partir de la información empírica proporcionada por una muestra, cual es el comportamiento de una determinada población con un riesgo de error medible en términos de probabilidad.
Inferir: Sacar una consecuencia de una cosa. Sacar consecuencia o deducir una cosa de otra.
Población: Una población de datos, es el conjunto total de datos que existen sobre un variable.
Muestra estadística: Una muestra es una parte de la población de datos.
Teniendo claro a lo que nos referimos con el concepto de inferir, una de las dudas fundamentales recae en el hecho de elegir una muestra en lugar de una población.
*Métodos de la inferencia estadística
Los métodos y técnicas de la inferencia estadística se pueden dividir en dos: métodos de estimación de parámetros y métodos de contraste de hipótesis.
Métodos de estimación de parámetros: Se encarga de asignar un valor al parámetro o al conjunto de parámetros que caracterizan el campo sujeto a estudio.
Métodos de contraste de hipótesis: Su objetivo es comprobar si una estimación corresponde con los valores poblacionales. En todo contraste de hipótesis existen dos supuestos. La hipótesis nula (H0) que recoge la idea de que un valor tiene un valor predeterminado. Si se rechaza la hipótesis nula (H0), entonces se acepta la hipótesis alternativa (H1).
Usando el set de datos incluidos en R llamados “cars”, haremos el ejercicio de muestreo
cars <- data.frame(cars)
dim(cars)
## [1] 50 2
Si queremos muestrear una n de 35
set.seed(123) #numero semilla para obtener los mismos resultados
n <- 35
muestracars <- sample(1:nrow(cars), size = n, replace = FALSE)
#replace sirve para indicar si las muestras se repetiran o no
muestracars
## [1] 31 15 14 3 42 43 37 48 25 26 27 5 40 28 9 29 8 41 7 10 36 19 4 45 17
## [26] 11 32 21 12 49 50 13 24 30 33
Ordenar los datos
sort(muestracars, decreasing = FALSE)
## [1] 3 4 5 7 8 9 10 11 12 13 14 15 17 19 21 24 25 26 27 28 29 30 31 32 33
## [26] 36 37 40 41 42 43 45 48 49 50
datatable(cars)
Esta es una herramienta del tidyverse
Muestreo aleatorio simple sin reemplazo con dplyr
carsmuestracars2 <- cars %>%
sample_n(size=n, replace = FALSE)
head(carsmuestracars2)
## speed dist
## 1 11 17
## 2 14 80
## 3 16 32
## 4 10 18
## 5 24 93
## 6 18 42
Muestreo aleatorio simple con reemplazo usando dplyr
carsmuestracars2 <- cars %>%
sample_n(size=n, replace = TRUE)
head(carsmuestracars2)
## speed dist
## 1 7 22
## 2 12 20
## 3 8 16
## 4 15 26
## 5 14 60
## 6 15 26
carsmuestracars3 <- cars %>%
sample_n(size=n, weight = speed)
head(carsmuestracars3)
## speed dist
## 1 7 4
## 2 18 84
## 3 20 48
## 4 19 36
## 5 25 85
## 6 22 66
carros <- data.frame(cars)
n <- 50
cars <- sample(1:nrow(carros), size=n, replace=FALSE)
head(cars)
## [1] 32 21 11 36 44 19
cars.pesos <- carros %>%
sample_frac(0.08)
head(cars.pesos); dim(cars.pesos)
## speed dist
## 1 13 26
## 2 14 80
## 3 18 56
## 4 20 48
## [1] 4 2
dim(cars)
## NULL
head(cars)
## [1] 32 21 11 36 44 19
levels(as.factor(iris$Species))
## [1] "setosa" "versicolor" "virginica"
lirios <- iris
lirios$id <- 1:150
lirios [1:5, 4:6]
## Petal.Width Species id
## 1 0.2 setosa 1
## 2 0.2 setosa 2
## 3 0.2 setosa 3
## 4 0.2 setosa 4
## 5 0.2 setosa 5