Técnicas básicas de detección de atributos redundantes
Juan Manuel Fernandez
En esta clase, vamos a trabajar con dos técnicas básicas de detección de atributos redundantes:
Cuando integramos datos desde múltiples fuentes podemos encontrar distintos atributos con el mismo comportamiento. El objetivo de estas técnicas es detectarlos para luego decidir si desechamos alguno de los atributos para nuestro proceso KDD.
En datos de tipo cualitativos/nominales: Test de Chi-Cuadrado
Hacemos la tabla de contingencia:
library(MASS)
tbl_cont = table(survey$Smoke, survey$Exer)
print(tbl_cont)
Freq None Some
Heavy 7 1 3
Never 87 18 84
Occas 12 3 4
Regul 9 1 7
Luego aplicamos el Test de Chi-cuadrado:
chisq.test(tbl_cont)
Pearson's Chi-squared test
data: tbl_cont
X-squared = 5.4885, df = 6, p-value = 0.4828
En datos de tipo cuantitativos/numéricos: Coeficiente de Correlación & Covarianza
llamadas=read.csv('llamadas.csv')
cor(llamadas$minutos,llamadas$unidades) # Coeficiente de Pearson
[1] 0.9936987
Debemos recordar validar los supuestos para una regresión -a menudo, esto no aparece en la Bibliografía-
plot(llamadas$minutos,llamadas$unidades, main = "Relación entre unidades y minutos", xlab = "Duración de la llamada (minutos)", ylab = "Unidades") # Gráficamente