library(DataExplorer)
speed_data_data <- read.csv("speed_data_data.csv")

Speed dating Intro

Entre 2002 y 2004, la Universidad de Columbia llevó a cabo un experimento de citas rápidas en el que se realizó un seguimiento de los datos de 21 sesiones de citas rápidas en las que la mayoría de los participantes eran adultos jóvenes que conocían a personas del sexo opuesto. En total fueron 8378 personas entrevistadas(filas), con 15 variables (columnas)

Antes de empezar, quisiera señalar: en total fueron, 8378 entrevistados, pero debido a que diversos campos y respuestas son tipo NA, al eliminar estos datos vacíos nos deja con tan solo 3,501 participantes que tienen todas sus variables respuestas.

Introducción.

#cleaning up NA values 
data_clean <- na.omit(speed_data_data)
introduce(data_clean)
##   rows columns discrete_columns continuous_columns all_missing_columns
## 1 3501      15                1                 14                   0
##   total_missing_values complete_rows total_observations memory_usage
## 1                    0          3501              52515       355008

Histograma y Barras

A continuación se muestran los histogramas y diagrama de barras

## 1 columns ignored with more than 50 categories.
## career: 204 categories

Correlación de variables

## Warning in dummify(data, maxcat = maxcat): Ignored all discrete features since
## `maxcat` set to 20 categories!

Análisis: Al observar la matriz de correlación, no se puede apreciar una gran tendencia a la correlación de variables, ninguna correlación entre variables supera el 0.7. Esto puede ser un producto de la cantidad de datos que fueron borrados en el proceso de preprocesamiento, al eliminar todos los individuos con valores NA.

Por otro lado, entre algunas variables moderadamente correlacionadas podemos ver el atractivo y la variable like ( valoración global de la persona). Esto tiene lógica desde una perspectiva del Efecto halo link y estudios referentes al Aspectismo link.

También tiene sentido que shar o shared interest: cuantos intereses tienen en este relacionado con la variable like.

Algo que me parece particular es la baja correlación que tiene income o ganancias con otras variables. Esto se podría explicar debido a que casi un 50% de todos los datos en esta variable eran NA, lo cual podría resultar en un bias.