Es una forma de analizar datos que consiste en inspeccionar y explorar los datos antes de formular una hipótesis o ajustar algún predictor o buscar otro objetivo inferencial más ambicioso. Se busca conocer los estadísticos de resumen simples, dirigidos a la visualización mediante gráficos, explorar los datos para entender, interpretar y calcular estadísticos de resumen tanto de manera cuantitativa como visual. El tipo de análisis que se puede realizar es uno univariado, multivariado o bivariado.
Los tipos de variables pueden ser categóricos o continuos.
Vamos a simular algunos datos categóricos
gender <- c(rep('Boy',10),rep('Girl',12))
drink <- c(rep('Coke',5),rep('Sprite',3),rep('Coffee',6),rep('Tea',7),rep('Water',1))
age <- sample(c('Young','Old'),size = length(gender),replace = TRUE)
Se desordenarán los datos
n = length(gender)
gender <- gender[sample(1:n,n)] #Muestra de tama?o n con elem. de 1 a n
gender
## [1] "Girl" "Boy" "Girl" "Boy" "Boy" "Boy" "Boy" "Boy" "Boy" "Girl"
## [11] "Girl" "Boy" "Boy" "Girl" "Girl" "Boy" "Girl" "Girl" "Girl" "Girl"
## [21] "Girl" "Girl"
drink <- drink[sample(1:n,n)]
drink
## [1] "Coke" "Coffee" "Tea" "Coffee" "Sprite" "Tea" "Coke" "Tea"
## [9] "Coffee" "Sprite" "Tea" "Coffee" "Tea" "Coke" "Coffee" "Tea"
## [17] "Water" "Coke" "Sprite" "Tea" "Coke" "Coffee"
age <- age[sample(1:n,n)]
age
## [1] "Young" "Old" "Old" "Old" "Old" "Young" "Young" "Young" "Old"
## [10] "Old" "Young" "Young" "Old" "Young" "Young" "Old" "Young" "Young"
## [19] "Young" "Young" "Old" "Young"
Si se tienen variables categóricas, lo primero por conocer son las frecuencias de cada nivel de estas variables. Cuando una variable es cadena de caracter, puede mantenerse como tal o pasarse a una de tipo factor.
Para contar las frecuencias de cada nivel de las variables categóricas:
table(gender)
## gender
## Boy Girl
## 10 12
table(drink)
## drink
## Coffee Coke Sprite Tea Water
## 6 5 3 7 1
table(age)
## age
## Old Young
## 9 13
Si en lugar de ello, se desea calcular las proporciones:
prop.table(table(gender))
## gender
## Boy Girl
## 0.4545455 0.5454545
library(magrittr)
library(help = magrittr)
cbind(gender, drink) %>% head
## gender drink
## [1,] "Girl" "Coke"
## [2,] "Boy" "Coffee"
## [3,] "Girl" "Tea"
## [4,] "Boy" "Coffee"
## [5,] "Boy" "Sprite"
## [6,] "Boy" "Tea"
head(cbind(gender, drink))
## gender drink
## [1,] "Girl" "Coke"
## [2,] "Boy" "Coffee"
## [3,] "Girl" "Tea"
## [4,] "Boy" "Coffee"
## [5,] "Boy" "Sprite"
## [6,] "Boy" "Tea"
table1 <- table(gender,drink)
table1
## drink
## gender Coffee Coke Sprite Tea Water
## Boy 4 1 1 4 0
## Girl 2 4 2 3 1
table2_1 <- table(gender, drink, age)
table2_1
## , , age = Old
##
## drink
## gender Coffee Coke Sprite Tea Water
## Boy 3 0 1 2 0
## Girl 0 1 1 1 0
##
## , , age = Young
##
## drink
## gender Coffee Coke Sprite Tea Water
## Boy 1 1 0 2 0
## Girl 2 3 1 2 1
table2_2 <- ftable(gender,drink,age)
table2_2
## age Old Young
## gender drink
## Boy Coffee 3 1
## Coke 0 1
## Sprite 1 0
## Tea 2 2
## Water 0 0
## Girl Coffee 0 2
## Coke 1 3
## Sprite 1 1
## Tea 1 2
## Water 0 1
Las variables continuas admiten más operaciones que las categóricas tales como sumas, medias, percentiles, etc. Por el lado de las variables categóricas, solo admiten diagramas, estadísticas categórica.
Se generará un vector con elementos pseudo-aleatorios
x <- c(rexp(20),runif(80,0,20),rnorm(50,9,6.5),rweibull(20,5))
x <- x[sample(1:170,170)]
plot(x)
Se calculan las medidas de posición y de escala
m1 <- mean(x)
m1
## [1] 7.39807
m2 <- median(x)
m2
## [1] 5.53942
desEst <- sd(x)
RangoIntercuantilico <- IQR(x)
Para datos categóricos univariados:
barplot(table(age))
Para datos categóricos bivariados:
plot(table1, main = 'Gr?fico Bivariado')
plot(table2_1, main = 'Gr?fico Bivariado')
En primer lugar se simula una muestra
sample1 <- rnorm(100)
stripchart(x = sample1)
Histograma
hist(sample1, freq = T, main = 'Frecuencias')
hist(sample1, freq = F, main = 'Proporciones')
h1 <- hist(sample1)
Se colocará una curva de densidad sobre el histograma
hist(sample1, freq = F, main = 'Proporción/Densidad')
lines(density(sample1))
rug(sample1)
Teorema Central del Límite: Si aumento la cantidad de elementos de mi muestra, me acerco más a la distribución teórica
sample2 <- rnorm(10^6)
hist(sample2, freq = F, main = 'Proporción/Densidad')
lines(density(sample2))
rug(sample2)