La base de datos que toca analizar contiene información de 696 cuentas de instagram, también una variable que indica si la cuenta es falsa o no. El objetivo es analizar la base de datos y ver si hay algún comportamiento en cuentas falsas y no falsa, luego hay que aplicar un modelo de clasificación, el método es LDA.
La base consta de 12 variables, de las cuales 6 son variables dicotómicas que toman valores 0 y 1 y las otras 6 son numéricas. La variable respuesta es la que indica si la cuenta es falsa o no.
Un breve análisis para ver la distribución de los datos.
| No fake | Fake | Total | Porcentaje no fake | Porcentaje fake | |
|---|---|---|---|---|---|
| Sin foto de perfil | 2 | 199 | 201 | 1 % | 99 % |
| Con foto de perfil | 346 | 149 | 495 | 70 % | 30 % |
| Total | 348 | 348 | 696 |
La mitad de las cuentas son falsas y la otra mitad no. Aplicamos los siguientes métodos para verificar si hay alguna separación en los datos o ver si están mezclados. De antemano ya sabemos que sí hay una diferencia entre las cuentas, respecto a la foto de perfil, así que lo que se espera es ver datos separados.
Como parte del análisis descriptivo usamos componentes principales. En la Figura 1 está la gráfica de los dos primeros componentes principales. Se puede observar que hay algunas observaciones alejadas, ésto puede ser un problema al aplicar k-means y cluster jerárquico, por lo tanto aplicamos la transformación logaritmo a los datos. También se observa que, en efecto, los datos están separados en cuentas falsas y en cuentas no falsas.
Figura 1. A la izquierda,: gráfica de los primeros dos componentes principales. A la derecha: gráfico de los dos últimos componentes principales. Las observaciones fueron coloreadas según su clase de pertenencia. Con rojo= no fake, Azul: fake.
Al aplicar la transformación logaritmo, disminuyen los outliers y se abre la escala; en la Figura 2, se puede observar que al graficar los primeros dos componentes principales ya hay una separación evidente de los datos.
Figura 2. A la izquierda: gráfica de los primeros dos componentes principales de las variables transformadas. A la derecha: dos últimos componentes principales de las variables transformadas
Comparando los componentes principales de las observaciones a las que aplicamos logaritmo y las originales se observa que la tranformación logaritmo pone a las variables en la misma escala y ya no quedan variables tan alejadas, todavía hay variables alejadas, pero ya no están tan alejadas como antes de aplicar logaritmo. Es mejor aplicar una transformación a las observaciones para reducir la cantidad de datos atípicos que eliminar los datos atípicos. En la Figura 3 se comparan las gráficas de los primeros dos componentes principales antes y después de aplicar logaritmo, sigue habiendo variables alejadas, pero no en la misma magnitud que antes de aplicar la transformación.
Figura 3. Biplots de los primeros dos componentes principales. A la izquiera: datos sin transformación. A la derecha: datos transformados.
En la Figura 3 se puede observar nuevamente que los datos se separan, ya que los componentes le dan peso a distintas variables. Por lo tanto al aplicar k-means y métodos jerárquicos.
Los datos están separados y se juntan muy poco únicamente en el centro.
Con el método k-means vamos a ver si hay una separación en dos grupos (de antemano ya sabemos que los datos se dividen en dos categorías, por eso proponemos ese número), los componentes principales muestran que los datos están separados y por lo tanto al aplicar k-means sí deben de quedar dos grupo.
Primero aplicamos k-means a los datos sin transformar, aunque ésto no resulta en nada bueno, ya que tenemos outliers, en la Figura 4 se observa que el método k-means hace una separación muy mala.
Figura 4. Gráfica de las observaciones y los clusters creados vía k-means
Por lo tanto es mejor trabajar con los datos transformados. En la Figura 5 se observa que k-means hace una separación, ésto sirve como evidencia para mostrar que los datos están separados y los clusters concuerdan con lo visto en los componentes principales, ya que en el centro se juntan unas cuantas observaciones de los dos grupos.
Figura 5. Gráfica de las observaciones tranformadas y los clusters creados vía k-means.
Ahora aplicamos k-means a los componentes principales.
Primero k-means a los componentes principales de las observaciones sin transformar.
Figura 6. A la izquierda: primeros dos componentes principales son el cluster signado. A la derecha: primeros dos componentes principales con categorías a la que pertenecen.
k-means a los componentes principales de las variables transformadas
Figura 7. Para variables transformadas A la izquierda: primeros dos componentes principales con el cluster signado. A la derecha: primeros dos componentes principales con categorías a la que pertenecen.