Preprocesamiento en R

Limpieza, Reducción de Dimensionalidad, Transformación e Integración de datos

Juan Manuel Fernández
Pablo Maximiliano Lulic


Bases de Datos Masivas - UNLu

Preprocessing...


  • Limpieza de datos
    • Datos Faltantes
    • Manejo de Ruido
    • Detección de Outliers


  • Integración de datos
    • Diversas fuentes de datos
    • Diferente representación


  • Reducción de dimensionalidad
    • Atributos Correlacionados
    • Test de Chi-Cuadrado
    • Componentes Principales (PCA)


  • Transformación de datos
    • Discretización
    • Normalización

Transformación de datos

Las técnicas que vamos a trabajar en esta clase son las siguientes:

  • Discretización de datos
library(infotheo)
data("iris")
# Armo los bins según Igual frecuencia
bin_eq_freq <- discretize(iris$Sepal.Width,"equalfreq", 5)
# Armo los bins según Igual ancho
bin_eq_width <- discretize(iris$Sepal.Width,"equalwidth", 5)

Transformación de datos (++)

Discretización por bins de igual frecuencia antes y después

# barplot antes de discretizar
barplot(iris$Sepal.Width)
# barplot después de discretizar por igual frecuencia
barplot(table(bin_eq_freq))

plot of chunk unnamed-chunk-2plot of chunk unnamed-chunk-2

Transformación de datos (+++)

Discretización por bins de igual ancho antes y después

# barplot antes de discretizar
barplot(iris$Sepal.Width)
# barplot después de discretizar por igual ancho
barplot(table(bin_eq_width))

plot of chunk unnamed-chunk-3plot of chunk unnamed-chunk-3

Transformación de datos (++++)

  • Normalización (Por ejemplo a través de scale)
valores.escalados <-scale(iris$Sepal.Width)

valores.zscore<-(iris$Sepal.Width-mean(iris$Sepal.Width))/sd(iris$Sepal.Width)

head(iris$Sepal.Width, n = 5)
[1] 3.5 3.0 3.2 3.1 3.6
head(valores.escalados, n = 5)
            [,1]
[1,]  1.01560199
[2,] -0.13153881
[3,]  0.32731751
[4,]  0.09788935
[5,]  1.24503015

Transformación de datos (+++++)

Normalización antes y después

# histograma antes de normalizar
hist(iris$Sepal.Width)
# histograma después de normalizar con scale
hist(valores.escalados)

plot of chunk unnamed-chunk-5plot of chunk unnamed-chunk-5




Muchas gracias!


Bases de Datos Masivas - UNLu