CONOCIENDO LOS DATOS - Taller 2
Introducción
“Creo que el cine, las películas, y la magia siempre han estado estrechamente asociados. Las primeras personas que hicieron cine eran magos”
Francis Ford Coppola
Ningún arte es capaz de convertir imágenes en poesía y música, como lo hace el cine, creando en las personas, la capacidad de transportarse a mundos distintos, en donde encontrarán sentimientos y experiencias mágicas poniendo en auge su imaginación.
Una idea de brindar a los usuarios una cartelera variada de films a través de un análisis estadístico aplicando técnicas de minería de datos, es lo que se desarrollará en este trabajo, con el fin de obtener resultados óptimos para cumplir las preferencias de los usuarios.
La utilización de minería de datos como instrumento de toma de decisiones ha aumentado la posibilidad de su aplicación en disciplinas nuevas y diversas. Este manejo de datos permite clasificar y analizar los atributos de un objeto con el propósito de presentar resultados claros al cliente, entre estos elementos se pueden encontrar perfiles de usuarios, asociación entre grupos o predicciones. El campo cinematográfico es uno de los espacios que requiere de esta herramienta para el análisis tanto por parte de la preferencia de los usuarios como de las instituciones que buscan ofertar las películas. El presente documento estudia datos desde 1986 hasta el 2016 de la industria cinematográfica para determinar las películas que se proyectarán en el cine basándose en la técnica de clustering. Para ello se presenta la estadística descriptiva de los atributos a utilizar.
Objetivos
Objetivo General
- Determinar, de una amplia oferta cinematográfica disponible, las películas que se proyectarán de acuerdo a las limitaciones físicas y presupuestarias del cine, con el uso de herramientas estadísticas y de técnicas de Minería de datos, considerando la necesidad de ofrecer variedad a los potenciales clientes.
Objetivo Específico
Aplicar la técnica descriptiva de clustering para segmentar películas con atributos lo suficientemente similares y compararlas con otros grupos.
Facilitar el proceso de toma de decisión y presentar adecuadamente resultados útiles para cumplir con la política de variedad en la cartelera de películas.
¿Cuál es el problema?
La industria cinematográfica abarca una gran cantidad de películas con diferentes características como el presupuesto destinado a su elaboración, el género, el reparto que va a participar, el ranking, etc. Sin embargo, los cines cuyo objetivo es la oferta de estas películas no dejan de ser una empresa que busca mantener una buena cantidad de espectadores y obtener ganancias para ser rentable. El problema planteado en el presente documento es justamente utilizar la técnica clustering de minería de datos para determinar qué películas son adecuadas proyectar en el cine de acuerdo a las limitaciones físicas y presupuestarias de dicho establecimiento.
Metodología
La Metodología que se procede a usar es CRISP-DM (Cross Industry Standard Process for Data Mining), esta metodología nos permite una descripción del ciclo de vida de un proyecto de análisis de datos, además de cubrir las fases de un proyecto, las tareas a realizar y la relación entre ellas.
Fase de comprensión del negocio o problema
En el presente proyecto, en primer lugar, se estableció un problema a tratar el cual debe ser entendido, del mismo modo, una comprensión clara de los objetivos que se plantearon, para tener una perspectiva clara de lo que se pretende analizar, con el fin de convertirlos en objetivos técnicos y en un plan de proyecto. Este primer paso nos permitirá una correcta selección y tratamiento de los datos para interpretarlos y tener un óptimo resultado. En esta primera fase es muy importante tener la capacidad de poder convertir lo que se conoce del problema en un problema de Minería de datos.
Determinar los objetivos del problema, para abordar esta primera tarea es importante identificar el área que se va a trabajar, en este proyecto se pretende abordar el área Cinematográfica, específicamente el negocio de un cine, el cuál ofertará una cartelera variada de películas con mejor acogida, tomando en cuenta sus limitaciones físicas y presupuestarias, para ofrecer a sus usuarios una mejor experiencia al momento de seleccionar la función de su agrado.
Evaluación de la situación, es importante conocer la situación antes de iniciar con el proceso de tomar decisiones, el plantearse preguntas como ¿Qué conocimiento tengo para resolver el problema?, ¿Qué necesito para resolver el problema?, ¿Qué beneficios se obtendrán? Por lo tanto, debemos definir los requisitos del problema. Necesitamos en primer lugar, la idea del negocio, en este caso, ya especificado en los objetivos del problema es el ofertar una cartelera cinematográfica variada y con mejor aceptación basado en datos reales, por lo cual se sigue con la obtención de una base que proporcione la información para realizar un análisis estadístico y posteriormente generar resultados la cuál será especificada en la siguiente fase. El problema se procede a trabajar en un software para el tratamiento de los datos nuestro caso usando R studio, se podrá obtener una serie de resultados que facilitarán el análisis y especialmente para la comprensión del mismo.
Determinación de los objetivos, en base a la Minería de Datos, en esta sub-fase se procede a establecer los objetivos técnicos referentes a la Minería de datos como el aplicar técnicas descriptivas de clustering, para segmentar películas con atributos lo suficientemente similares y compararlas con otros grupos. Así esta última tarea de la primera fase tiene como meta desarrollar un plan para poder desarrollar el proyecto de una manera clara y comprensibles para el analísta.
Fase de comprensión de datos
Una vez recolectados los datos es necesario comprenderlos, para ello se identifica su calidad relacionándolo con el problema planteado. El procedimiento para llevar a cabo esta fase es el siguiente:
Recolección de datos iniciales, se toma en cuenta una base de datos que se asocie con el problema planteado, en este caso se tomaron datos de IMDb (Internet Movie Database), los cuales presentan características de películas entre el período de 1986 al 2006.
Descripción de datos, esta consta de determinar el volumen de los datos e identificar a las variables descritas. La base para este trabajo consta de 6820 películas y 14 variables que describen las características de estas como: el presupuesto, la productora, el país de origen, el director, el género principal de la película, ingresos de la película, el rating, fecha de lanzamiento (AAAA-MM-DD), la duración de la película, calificación de usuario de IMDb, el número de votos de los usuarios, el actor/actriz principal, el guionista y año de lanzamiento.
Exploración de datos, se busca encontrar una estructura para la base de datos, para ello es necesario realizar la estadística descriptiva de las variables y analizarlas.
Verificación de la calidad de los datos, en esta etapa se verifica la consistencia de los datos para su correcto análisis.
Fase de preparación de los datos
En esta fase se prepara a la base de datos para adaptarla a la técnica de clustering. Además, esta etapa se encuentra estrechamente relacionada con la fase de modelado puesto que los datos requieren ser procesados en función a la técnica de modelado que se ha elegido. Esta preparación de datos requiere de las siguientes acciones:
Selección de los datos, de la base proporcionada, se procede a seleccionar un subconjunto de datos los cuales nos permitirán un análisis que cumpla con los objetivos que se plantearon al inicio del proyecto. La base cuenta variables que no son relevantes que más adelante son separadas para un mejor análisis de las variables más correlacionadas.
Limpieza de datos, con la ayuda del sofware es posible verificar las variables con datos faltantes, en este caso la base se encuentra completa.
Estructuración de los datos, se trabajará con los atributos ya existentes no se aumentará otras variables para el estudio ni tampoco nuevos registros por el momento.
Integración de los datos, La integración de los datos, involucra la creación de nuevas estructuras, a partir de los datos seleccionados, por ejemplo, generación de nuevos campos a partir de otros existentes, creación de nuevos registros, fusión de tablas campos o nuevas tablas donde se resumen características de múltiples registros o de otros campos en nuevas tablas de resumen.-Gallardo. Dado que no se incluyen nuevas variables, ni registros no se requiere una integración de datos.
Formateo de los datos, la base no cuenta con caracteres especiales los cuales deban ser reemplazados, es una base limpia y apta para trabajar.
Fase de modelado
Al aplicar métodos de clustering, la elección del número de clusters es crucial. Una mala elección de los mismos puede dar lugar a agrupaciones de datos muy heterogéneos obteniendo muy pocos clusters. Determinar mal el número de clusters también puede ubicar datos similares en diferentes clusters generando clusters en exceso.
Para evitar estos problemas, existen varios métodos para determinar un número apropiado de clusters como el método de Elbow o el uso de Dendrogramas. También, se puede usar de forma práctica iteraciones con el algoritmo de KMeans para determinar con la suma de los cuadrados de los errores, una cantidad adecuada de clusters cuando este se llegue a normalizar el error. La elección de los métodos para determinar el número adecuado también dependerá de cómo se hayan tratado los datos en las fases previas.
Fase de evaluación
Ante la opción de poder usar métricas de evaluación internas y externas, se considera que las métricas internas evalúan qué tan buena es la estructura del clustering sin necesidad de información ajena a los propios datos, algoritmo y resultado. Por lo cual, se las estima adecuadas para este caso en particular.
Dentro de las métricas de evaluación internas encontramos dos criterios fundamentales, la cohesión y la separación. La cohesión se refiere a que el objeto de cada cluster debe ser lo más cercano posible al resto de miembros del mismo cluster. La separación por su parte, hace referencia a que los cluster deben estar separados ampliamente entre sí. Para medir la distancia entre cada cluster se pueden tomar los miembros más cercanos de cada cluster, los más distantes o los centroides.
Para resolver el criterio de cohesión, existe la métrica SSW (Sum of Squares Within), la cual es una medida que considera la sumatoria de la distancia al cuadrado de un punto del cluster y el centroide del cluster.
Para el criterio de separación se utiliza la medida SSB (Sum of Squares Between), que se obtiene de la sumatoria de la distancia al cuadrado del centroide del cluster y la media del dataset, por el número de elementos en cada cluster.
Además, existen índices que utilizan estas sumas de cuadrados como los propuestos a continuación:
- Ball-Hall (1965)
- Calinski-Harabaz (1974)
- Hartigan(1975)
- Xu(1997)
También existen índices basados en otros criterios como el Davies-Bouldin(DB) o el Coeficiente de Silhouette.
Fase de implementación
Después de un proceso de clustering validado, se transforma el conocimiento en acciones dentro del proceso. Vale recalcar que el uso de la Minería de datos no concluye en la implantación de técnicas, pues es necesario documentar y presntar los resultados de tal manera que sea comprensible para el cliente. Las tareas que se ejecutan en la implementación de los clusters y ofrecer al usuario la cartilla con mejores opciones para cumplir el objetivo, en este caso de brindar al usuario una variedad de películas para su entretenimiento. Dado todo este proceso, se requiere presentar un informe con un resumen de los puntos más importantes del proyecto para que el cliente pueda revisar y evaluar así dar su punto de vista y recomendar si se requiere mejorar algún aspecto, hasta conseguir la aprobación del mismo.
Herramientas
Para tener un análisis más entendible de variables y de datos se usará Excel, puesto que brinda un ambiente para mayor compresión breve de datos.
El software a utilizar como herramienta del análisis de los datos es R Studio. Este programa contiene funciones que nos permiten discernir de forma más completa los resultados, así como paquetes más complejos para el manejo de técnicas como el clustering.
Fases
Análisis preliminar y preparación de los datos
Hay 6820 películas en el conjunto de datos (220 películas por año, 1986-2016). Cada película tiene los siguientes atributos:
presupuesto: el presupuesto de una película. Algunas películas no tienen esto, por lo que aparece como 0
company: la productoracountry: país de origendirector: el directorgenre: género principal de la película.gross: ingresos de la películaname: nombre de la películarating: rating de la película (R, PG, etc.)released: fecha de lanzamiento (AAAA-MM-DD)runtime: duración de la películascore: calificación de usuario de IMDbvotes: número de votos de los usuariosstar: actor / actriz principalwriter: guionista de la películayear: año de lanzamiento
Selección y limpieza de los datos, análisis descriptivos de los datos, visualización de los datos
Con la ayuda de R podemos hacer uso de funciones que permitan realizar la correcta limpieza de datos, para nuestra base se sigue:
datasets_2745_4700_movies <- read.csv("C:/Users/MABE ROSERO/Documents/Mineria de Datos/ejercicio1/datasets_2745_4700_movies.csv")
sapply(datasets_2745_4700_movies,function(x)sum(is.na(x))) #ver el resumen de cuantos faltan budget company country director genre gross name rating
0 0 0 0 0 0 0 0
released runtime score star votes writer year
0 0 0 0 0 0 0
datasets_2745_4700_movies<- na.omit(datasets_2745_4700_movies,function(x)sum(is.na(x)))# quitar las filasA continuación se retira las variables que se han considerado menos relevantes en el estudio
Gráfico 1
Antes de empezar un estudio debemos conocer las variables más correlacionadas.
Notemos que como primera instancia la variable de recaudación o ganancia (gross) se encuentra fuertemente correlacionada con la variable de presupuesto (budget) y ademas esta misma variable se encuentra con una alta correlación con la variable que representa los votos de los usuarios (votes) Además, se puede observar que el presupuesto (budget) y la calificación (score) están débilmente correlacionados. Se podría interpretar que dentro del comportamiento racional de los espectadores el asignar presupuestos elevados a las películas no garantiza que tengan éxito, los expectadores valoran otros artributos.
Ahora, con herramientas de Excel se puede tener gráficas que permiten conocer datos relevantes de la base proporcionada, que se muestran a continuación.
Gráfico 2
Puesto que la mayoría de películas son producidas en USA, existe una cultura de cine más desarrollada y una propensión a calificar las películas por parte de los espectadores. Cabe mencionar que gracias a esta cultura la industria se encuentra más desarrollada por tanto tiene más recursos destinados a la calidad de las películas.
Gráfico 3
Se identifica que los espectadores que consumen el género de acción dedican su tiempo a votar, criticar y opinar sobre las películas.
Gráfico 4
El gráfico nos muestra la preferencia del público por el escritor Luc Besson para consumir películas producidas en Francia.
Gráfico 5
El gráfico evidencia que la compañía “Paramount Pictures” se ha mantenido al menos 27 años produciendo películas de alto impacto.
Gráfico 6
El gráfico nos muestra que la compañía “Warner Bros.” es la que genéra mayor impacto entre las películas de drama.
Resultados
Gráfico 7
Se presenta el siguiente gráfico de coordenadas paralelas pues es otra forma de visualizar datos multi-dimensionales. En vez de usar ejes perpendiculares usamos varios ejes paralelos entre sí, tomando las variables cuantitativas que se encontraron en la base de datos. Los valores de los distintos atributos son escalados para que cada eje tenga la misma altura. Cada observación representa una línea que une los distintos ejes de acuerdo a sus valores. De esta manera, objetos similares entre sí tienden a agruparse en líneas con trayectoria similar. Se pueden observar distintos colores, los cuales están representados por los 57 países y a pesar de ciertos casos puntuales se observa un patrón, con un pico prominente, dado por la calificación de las películas, y para cada uno de sus extremos tiene una caída hacia los votos y tiempo de duración. Como conclusión podríamos decir que las películas que tienen alta calificación tienen gran cantidad de votos, tienen una duración promedio, y además su presupuesto no fue tan elevado como su recaudación.
Gráfico 8
El gráfico de barras relaciona tres variables, el género de la película, su tiempo de duración y su calificación, representada como una barra de matiz de color. Salta a la vista que las películas de Drama de más de 300 minutos de duración son bien calificadas por sus espectadores, existe una relación proporcional entre la duración de la película de drama y su calificación. También es destacable que, pasados los 175 minutos de una película Biográfica, la calificación cae abruptamente; esto sugiere que podría existir un tiempo óptimo para que una película biográfica sea bien aceptada ubicado entre los 110 y 175 minutos.
Gráfico 9
El Diagrama de dispersión es una herramienta que nos ayudan a dar un primer vistazo a las posibles relaciones entre variables. El gráfico se presenta como puntos distribuidos en el plano cartesiano, concretamente, nuestro Diagrama de Dispersión relaciona las variables Calificación (Score) y Votos con la particularidad de haber tomado la media de cada uno de estos atributos por cada país; es decir, las coordenadas de cada punto representan la media de Calificación y Votos respectivamente.
Se puede observar que la mayoría de los puntos se encuentran dentro del rango de los 750 000 votos, a partir de los 750 000 votos sólo se obtienen calificaciones mayores a 7.25; esto sugiere que las películas que han despertado más interés, alcanzando incluso cantidades superiores al millón y medio de votos, son justamente las mejor calificadas por el público y las que han conquistado el interés suficiente para que más personas dediquen su tiempo a votar. En el mismo sentido, películas que han generado poco interés, han sido calificadas con valores bajos y han tenido menos alcance, obtienen pocos votos.
En cuanto a la orientación del Diagrama de Dispersión, se podría decir a primera vista que existe una relación positiva entre las variables. Algo que se podría esperar suponiendo que la personas recomienden las películas qué más gustan y obtienen mayores calificaciones, consiguiendo un mayor alcance e incrementando su cantidad de público disponible a votar. También, se podría ajustar la dispersión a una curva logarítmica.
Gráfico 10
Las caras de Chernoff son un método gráfico que asocia los atributos cuantitativos y cualitativos de un grupo con características físicas de la cara de una persona. Es decir, podemos determinar gráficamente cuales individuos muestran una similitud entre ellos y cuáles son los más distintos.
En relación a ello, nuestro objetivo es determinar gráficamente el parecido o diferencias entre los diferentes géneros de películas. Para ello, se toma en cuenta películas de genero de aventura, comedia, acción, drama, animación, biográfica, romántica, musical y de misterio. Además, los aspectos faciales se relacionan con los atributos de estas películas de la siguiente manera:
| Características faciales | Atributos |
|---|---|
| Altura de la cara | Tiempo de duración |
| Ancho de la cara | Presupuesto |
| Estructura de la cara | Ingreso |
| Altura de la boca | Puntaje |
| Ancho de boca | Tiempo de duración |
| Sonrisa | Presupuesto |
| Altura de los ojos | Ingreso |
| Ancho de ojos | Puntaje |
| Altura del cabello | Tiempo de duración |
| Ancho de cabello | Presupuesto |
| Estilo de cabello | Ingreso |
| Altura de la nariz | Puntaje |
| Ancho de la nariz | Tiempo de duración |
| Ancho de la oreja | Presupuesto |
| Altura de la oreja | Ingreso |
De forma preliminar, en el Gráfico 10 se observan similitudes entre las películas de acción y biográfica debido a la estructura de la cara. Por otro lado, la forma de los ojos iguales de las películas de aventura, animación y musical indican que el puntaje o score de estas son semejantes. Cabe mencionar que para el estudio en este gráfico se consideraron solamente dos variables, el tiempo de duración y el puntaje, para ver como influían pocas variables en las facciones de cada una de las caras. Finalmente, entre las películas de drama y romántica se visualiza una notable diferencia en todas las facciones de la cara.
Gráfico 11
Tomando en cuenta el análisis anterior, para el Gráfico 11 se tomaron en cuenta más variables, estás son el tiempo de duración de la película, el presupuesto, el ingreso y el puntaje. En esta ocasión se puede observar que las películas de misterio y romántica muestran una estructura de cara igual, por lo que se determina que el ingreso para estas era similar. De la misma forma ocurre con la estructura facial de las películas de acción y drama. Sin embargo, también se visualiza una pequeña diferencia en el largo del rostro, es decir que el tiempo de duración de este tipo de películas difiere entre sí. Finalmente, las películas de misterio y animación muestran diferencias bastantes notables.
Conclusión
Una vez realizado la estadística descriptiva de los atributos, se puede determinar de forma preliminar que los objetos pueden ser descritos con la técnica de clustering. Las variables se encuentran relacionadas y presentan distintos patrones, también existe variabilidad en los valores de los atributos de la base. El score se puede entender como una representación de las preferencias de los espectadores, esto se observa con otras variables que se correlacionan con esta como los votos; esto es, que existe una relación positiva entre el número de votos impulsada por las calificaciones. Los resultados pueden ser presentados mediante métodos de visualización amigables para el usuario destino, como las Caras de Chernoff, que son íconos asignados a cada película por el algoritmo, con características faciales dependientes de los diferentes valores de los atributos.
Referencias
- https://disi.unal.edu.co/~eleonguz/cursos/mda/presentaciones/validacion_Clustering.pdf
- https://www.kaggle.com/ffisegydd/cluster-analysis-of-movies-data
- https://cran.r-project.org/web/packages/clusterCrit/vignettes/clusterCrit.pdf
- http://www.oldemarrodriguez.com/yahoo_site_admin/assets/docs/Documento_CRISP-DM.2385037