Depuis 2015, Netflix produit ses propres films, appelés “Netflix Originals”. Lorsque la Fédération nationale des cinémas français (FNCF) a refusé la sortie de deux films originaux de Netflix, “Okja” de Bong Joon-ho et “The Meyerowitz Stories” de Noah Baumbach en 2017, pour des raisons de protection pour le marché cinématographique français, les utilisateurs ont commencé à percevoir les contenus originaux de Netflix et la production de films a aussi augmenté rapidement. Bien que les films Netflix ne soient pas encore sortis dans les cinémas français et ne soient pas invités à Cannes après cette année, de nombreux films ont remporté des prix d’Oscars du cinéma et ont été appréciés par ses 231 millions d’abonnés.
A travers cette tendance déjà normale, on vise à analyser le caracteristique des films de Netflix en utilisant le classement d’IMDB. Bien qu’il existe plusieurs critères pour évaluer la qualité d’un film, nous allons utiliser le score IMDB comme critère principal. Dans cette analyse, nous avons d’abord visualisé la relation entre la durée du film et le score IMDB sous forme d’un nuage de points, puis nous avons observé la relation entre la langue du film et le score en utilisant des boxplots et des jitters. Enfin, nous avons terminé notre analyse en représentant la relation entre les trois types de variables à travers un graphique en 3D. Le jeu de données utilisées a été obtenue sur Kaggle (Data source), et nous avons exclu les courts-métrages de moins de 60 minutes, les documentaires, les films de concert et les one-man-shows de toutes les analyses.
Coefficient de corrélation
## [1] 0.2376483
Les axes X et Y représentent respectivement la durée du film et le score IMDB. Les films ayant un score le plus élevé sont représentés par des points jaunes. En survolant les points avec la souris, il est possible d’afficher le titre, la durée et le score du film correspondant. La ligne rouge représente une régression linéaire qui montre une relation positive faible entre les deux variables. Le coefficient de corrélation de Pearson est de 0,2, indiquant une corrélation légèrement positive entre les deux variables.
ANOVA
## Df Sum Sq Mean Sq F value Pr(>F)
## Netflix$Language2 2 3.89 1.9434 2.601 0.0755 .
## Residuals 383 286.21 0.7473
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
L’axe X représente la langue du film et l’axe Y représente le score IMDB. Étant donné le grand nombre de langues dans le jeu de données d’origine, nous avons regroupé les langues en trois catégories : les langues asiatiques, les langues européennes et l’anglais. Nous avons séparé l’anglais en une catégorie distincte car le nombre de films en anglais est nettement supérieur au nombre de films en toute autre langue européenne. Il y a 249 films en anglais et 72 films en langues européennes. Sur ce graphique, nous avons également indiqué la moyenne des scores et nous pouvons observer que la moyenne des films en anglais est la plus élevée (6,1). Néanmoins, seleon le résumé d’ANOVA, on ne voit pas la relation entre les deux variables (p-value = 0,07).
Les trois axes représentent respectivement la durée, la langue et le score du film. Les différentes langues sont représentées par des couleurs et toutes les informations relatives à un film peuvent être affichées en survolant le point correspondant avec la souris. À partir de ce graphique, nous pouvons observer que le nombre de films en anglais est le plus élevé et que la relation positive faible entre la durée et le score observée dans le premier graphique est également visible ici.
Nous avons observé une relation positive légère entre la durée et le score d’IMDB, mais pas entre la langue du film et son score d’IMDB. Même pour la première analyse, nous ne pouvons pas établir une relation de causalité à partir de ces résultats, car la corrélation ne prouve pas la causalité. Néanmoins, ces résultats peuvent aider Netflix à prévoir qu’un film plus long pourrait obtenir une meilleure note, ce qui pourrait être pris en compte pour leurs futures productions de films. De plus, même s’il n’y a pas de relation entre la langue et le score, le film en anglais semble une tendance mondiale.