Limpieza, Reducción de Dimensionalidad, Transformación e Integración de datos
Juan Manuel Fernández
Pablo Maximiliano Lulic
Bases de Datos Masivas - UNLu
Las técnicas que vamos a trabajar en esta clase son las siguientes:
library(infotheo)
data("iris")
# Armo los bins según Igual frecuencia
bin_eq_freq <- discretize(iris$Sepal.Width,"equalfreq", 5)
# Armo los bins según Igual ancho
bin_eq_width <- discretize(iris$Sepal.Width,"equalwidth", 5)
Discretización por bins de igual frecuencia antes y después
# barplot antes de discretizar
barplot(iris$Sepal.Width)
# barplot después de discretizar por igual frecuencia
barplot(table(bin_eq_freq))
Discretización por bins de igual ancho antes y después
# barplot antes de discretizar
barplot(iris$Sepal.Width)
# barplot después de discretizar por igual ancho
barplot(table(bin_eq_width))
valores.escalados <-scale(iris$Sepal.Width)
valores.zscore<-(iris$Sepal.Width-mean(iris$Sepal.Width))/sd(iris$Sepal.Width)
head(iris$Sepal.Width, n = 5)
[1] 3.5 3.0 3.2 3.1 3.6
head(valores.escalados, n = 5)
[,1]
[1,] 1.01560199
[2,] -0.13153881
[3,] 0.32731751
[4,] 0.09788935
[5,] 1.24503015
Normalización antes y después
# histograma antes de normalizar
hist(iris$Sepal.Width)
# histograma después de normalizar con scale
hist(valores.escalados)
Bases de Datos Masivas - UNLu