Longtemps cantonné à une image de niche, destiné en priorité aux jeunes garçons et adolescents dans les années 1990, le jeu vidéo s’est progressivement imposé comme l’un des secteurs les plus dynamiques de l’industrie culturelle mondiale. Pour appréhender les mécanismes qui structurent ce marché et en impactent les acteurs, quelques données suffisent à mesurer l’ampleur du phénomène.
À l’échelle mondiale, le chiffre d’affaires du secteur est estimé à plus de 522 milliards de dollars en 2025, selon Statista. En France, il représente 5,7 milliards d’euros d’après le Syndicat des Éditeurs de Logiciels de Loisirs (SELL). Le territoire compte environ 38,3 millions de joueurs, soit plus d’un Français sur deux, dont 75 % déclarent jouer au moins une fois par semaine. Contrairement à l’image juvénile dont le marché est souvent affublé, une étude du SELL publiée en 2024 révèle que le joueur moyen régulier est un homme ou une femme de 37 ans en moyenne, à parité quasi égale (54 % d’hommes, 46 % de femmes). Le jeu vidéo est ainsi devenu une pratique transgénérationnelle et une institution culturelle à part entière, bien loin de la vision marginalisée du début des années 2000.
Cette démocratisation progressive s’explique en grande partie par l’évolution des supports. Apparu sous forme de bornes d’arcade imposantes, le jeu vidéo s’est progressivement miniaturisé avec l’émergence des consoles de salon et des ordinateurs personnels, avant de conquérir le téléphone mobile. C’est en réduisant continuellement les frictions à l’entrée qu’il a su s’inviter dans tous les foyers. Aujourd’hui, le secteur se structure autour de trois marchés distincts : les consoles (45 % du marché français), le PC (27 %) et le mobile (28 %).
Il convient toutefois de ne pas confondre le jeu vidéo en tant qu’objet et l’industrie qui le sous-tend. Cette dernière regroupe l’ensemble des éléments indispensables à l’élaboration, à la distribution et à l’amélioration de l’expérience utilisateur. Pour en saisir la logique économique, il est nécessaire de distinguer deux grandes catégories : les hardwares et les softwares.
Les éléments hardwares désignent l’ensemble des biens physiques requis pour jouer — ordinateurs spécialisés, écrans, manettes et consoles. Ils représentent 68 % des revenus de la branche PC et 40 % de ceux du marché console. L’un des avantages structurels du marché mobile réside précisément dans sa capacité à s’affranchir de ce poste de dépense : en utilisant le smartphone déjà en possession de l’utilisateur comme terminal de jeu, il supprime la quasi-totalité des barrières matérielles à l’entrée et réduit ainsi considérablement la friction à l’adoption.
Les softwares ou logiciels, désignent quant à eux les jeux eux-mêmes, ainsi que les contenus additionnels qui leur sont associés. La vente d’un jeu donne accès à une version de base, mais deux catégories de contenus complémentaires constituent des sources de revenus supplémentaires pour les éditeurs.
Les DLC (Downloadable Content) sont des extensions du contenu principal, conçues pour capitaliser sur le succès d’un titre sans engager une production entièrement nouvelle. En fidélisant la communauté et en entretenant l’attente des prochaines sorties, ils renforcent également le lien entre l’éditeur et ses joueurs. Leur prix oscille généralement entre 10 et 50 % du prix du jeu d’origine, et il est rare d’en commercialiser plus de deux ou trois par titre.
Les microtransactions poursuivent un objectif différent : elles monétisent des éléments de progression ou d’apparence au sein du jeu, à des montants unitaires faibles, généralement une dizaine d’euros, bien que certains achats puissent atteindre plusieurs centaines. Leur logique repose sur la capacité à transformer une fraction d’une large base de joueurs en consommateurs actifs, notamment dans les jeux en accès gratuit (free-to-play). Aujourd’hui, les softwares représentent 80 % des revenus de l’industrie dans son ensemble, et la vente de consoles demeure elle-même étroitement dépendante des nouvelles sorties. Comprendre la conception et le modèle économique des softwares constitue donc un prisme pertinent pour anticiper les tendances futures de l’ensemble du secteur.
La production d’un jeu vidéo s’étale généralement sur plusieurs années, au cours desquelles se succèdent différentes phases : de la création d’un prototype simplifié (« gray boxing ») jusqu’à la mise en circulation d’une version fonctionnelle et esthétique lors de la phase de playtesting. Ces étapes engagent d’importants coûts fixes irrécupérables (sunk costs). En revanche, une fois la première unité produite, la duplication n’engendre qu’un coût marginal quasi nul, ce qui confère au secteur des structures de coûts particulièrement asymétriques.
La maturation progressive de ce marché, entendue comme le passage d’une industrie émergente à un secteur consolidé, caractérisé par l’intensification de la concurrence et la standardisation des pratiques, a conduit les studios à se différencier de manière croissante. Les jeux sont devenus plus complexes, plus diversifiés et plus exigeants sur le plan qualitatif. Mais la qualité a un coût : là où les studios indépendants pouvaient autrefois assumer seuls l’intégralité du processus, de la production à la commercialisation, les grandes productions mobilisent désormais des budgets qui dépassent largement les capacités d’un acteur isolé. Pour rendre compte de ces écarts d’envergure, les acteurs de l’industrie ont établi une classification simplifiée :
Lorsque les sommes engagées atteignent de tels niveaux, la gestion des financements et la mise sur le marché ne peuvent plus être laissées aux seuls développeurs. C’est dans cette logique qu’ont émergé les éditeurs, dont la mission est de trouver des financements, d’organiser la communication et d’assurer la distribution des titres, en échange d’une commission sur les ventes. Leur objectif est clair : minimiser les risques et maximiser les profits.
Dans cette optique, la période de lancement revêt une importance capitale. Sur ce marché, l’essentiel des revenus se concentre autour de la date de sortie : de larges campagnes publicitaires visent à générer de l’engouement et à stimuler les ventes dès le premier jour de disponibilité. Cette dynamique s’explique notamment par les effets de réseau : à mesure que la base de joueurs s’élargit, la valeur perçue du jeu, en particulier pour les titres multijoueurs, augmente, ce qui accroît à son tour l’attractivité pour de nouveaux entrants et alimente un cercle vertueux de croissance.
Capitaliser sur cet engouement suppose également de définir une stratégie de monétisation adaptée. Plus un jeu est perçu comme onéreux, plus les frictions à l’entrée sont importantes ; mais s’il convainc malgré tout, l’investissement est rentabilisé d’autant plus rapidement. Face à ce dilemme, deux modèles dominent le secteur.
Le modèle « Pay-to-Play » (P2P) est encore aujourd’hui le plus répandu. Le jeu est vendu comme un bien fini : l’acheteur acquiert une version complète du titre, dont les éventuelles extensions prendront la forme de DLC distincts. Ce modèle facilite les projections de revenus, limite les coûts d’entretien post-lancement et convient particulièrement aux productions AAA à horizon temporel défini. Toutefois, le prix d’entrée constitue une barrière non négligeable. Dans le cas de jeux multijoueurs, ce tarif peut ralentir la constitution de la base de joueurs et retarder l’atteinte du seuil critique — c’est-à-dire le niveau de population à partir duquel les effets de réseau positifs s’enclenchent et attirent de nouveaux consommateurs de façon autonome, faisant ainsi entrer le jeu dans une dynamique plus stable.
Le modèle « Free-to-Play » (F2P) adopte la logique inverse. L’accès au jeu est gratuit, ce qui supprime toute barrière à l’entrée et permet d’atteindre le seuil critique aussi rapidement que possible. Des mises à jour régulières entretiennent l’engagement de la communauté, tandis que les microtransactions permettent de monétiser la fraction de joueurs qui se convertit en consommateurs actifs. Le jeu n’est plus ici un bien fini mais un service continu (« Game as a Service »), dont l’exemple le plus emblématique est Fortnite. En contrepartie, ce modèle implique des coûts d’entretien élevés (serveurs, mises à jour, équilibrage), une forte incertitude sur les revenus et une dépendance structurelle à une minorité de gros payeurs. Ces choix de modélisation économique font partie intégrante de la conception du jeu et conditionnent directement l’expérience utilisateur ainsi que la trajectoire commerciale du titre.
L’ensemble de ces paramètres, modèle de tarification, catégorie de production, stratégie de lancement, capacité de rétention, exercent une influence directe sur les performances économiques des titres. Si les succès se multiplient, éditeurs, développeurs et constructeurs en bénéficient ; si les échecs s’accumulent, c’est l’ensemble de la filière qui en subit les conséquences. Comprendre la structure des revenus et le poids relatif de chaque variable constitue donc une information stratégique majeure pour la pérennité des acteurs du secteur.
C’est dans cette perspective que s’inscrit ce travail. Par l’analyse d’un échantillon de titres ayant rencontré un fort succès commercial au cours des dernières années, nous chercherons à répondre à la question suivante : dans quelle mesure les caractéristiques d’un jeu vidéo, notamment son modèle économique, sa catégorie de production et ses indicateurs d’engagement, déterminent-elles le niveau de revenu qu’il est susceptible de générer ? Nous pourrons alors dégager les facteurs qui semblent indispensables à l’émergence d’un succès économique sur le marché du jeu vidéo sur PC.
Comme nous l’avons constaté, les revenus générés par un jeu vidéo sont impactés par de multiples variables :
L’obtention de données précises sur ces éléments s’avère particulièrement complexe, il est donc nécessaire, avant d’entrer dans une analyse détaillée, de définir la méthodologie adoptée pour étudier ce marché.
Ce travail exclut volontairement le marché des jeux mobiles, dont le fonctionnement repose sur des paramètres significativement différents, bien que les variables sous-jacentes soient similaires. Par ailleurs, nous posons l’hypothèse d’une forte similarité entre les marchés des consoles et des ordinateurs. Par conséquent, notre analyse se concentrera exclusivement sur les données relatives au secteur PC, considérant que ce dernier reflète par extension les tendances globales du marché des consoles.
Il est primordial de souligner que les données de ventes constituent des ressources hautement stratégiques pour les entreprises de ce secteur. Celles-ci ne communiquent que très rarement ces variables au grand public. De surcroît, les indicateurs d’engagement, tels que le nombre de joueurs, peuvent facilement faire l’objet de manipulations par les éditeurs dans le but de rassurer leurs investisseurs. La difficulté première de cette recherche réside donc dans l’accès à des données économiques qui soient à la fois exploitables et rigoureusement fiables.
La base de données Game Sales Data, gérée par Video Games Europe (l’association professionnelle européenne du secteur), offre des données actualisées en temps réel grâce à des partenariats avec de nombreux éditeurs, permettant ainsi des analyses de marché très poussées. En Europe, il s’agit de l’unique base de données fournissant des chiffres exacts (revenus, volumes de ventes, quantité de transactions) sans recourir à des approximations. Néanmoins, son accès est strictement réservé aux acteurs majeurs de l’industrie.
Face à cette restriction, notre choix méthodologique s’est tourné vers la plateforme Gamalytic. Bien qu’elle ne dispose pas d’un accès direct aux données confidentielles, les équipes de Gamalytic ont développé des algorithmes et des modèles robustes permettant d’approximer un grand nombre de données. Leurs données brutes sont extraites de « Steam », la plateforme de téléchargement leader sur PC, qui répertorie plus de 100 000 références accessibles.
La fiabilité de ces approximations a pu être validée empiriquement, d’une part grâce à une fuite de données interne à Steam survenue en 2018, et d’autre part par la confrontation avec plusieurs annonces officielles communiquées ex post par des éditeurs concernant leurs fourchettes de ventes réelles. Le modèle méthodologique complet d’approximation des quantités vendues est détaillé sur leur site internet (voir annexe). En substance, l’algorithme s’appuie sur la prise en compte du nombre de commentaires et sur l’estimation d’un ratio ventes/commentaires. Cette méthode permet d’aboutir à une estimation fiable du nombre de copies écoulées sur le marché. L’intégration de paramètres supplémentaires permet d’affiner ce modèle et d’atteindre la fiabilité présentée dans ce tableau :
La précision globale de 99,73 % est une métrique trompeuse à première lecture : elle reflète la capacité du modèle à classer correctement les jeux dans de larges fourchettes de ventes, et non la finesse de l’estimation unitaire. C’est la précision moyenne de 80,46 % qui constitue l’indicateur le plus pertinent pour notre usage, elle signifie qu’en moyenne, l’estimation s’écarte de la valeur réelle d’environ 20 %.
La lecture par marge d’erreur est plus parlante encore : seulement 30,77 % des estimations tombent dans une fourchette d’erreur de ±10 %, ce qui confirme que le modèle ne prétend pas à une précision fine. En revanche, 76,92 % des estimations restent dans une marge de ±30 %, et ce chiffre monte à 99,15 % pour une tolérance de ±50 %. L’intégralité des jeux de l’échantillon est correctement estimée à ±70 % près.
Bien que ce système facilite grandement l’accès aux données pour l’ensemble du catalogue Steam, il présente des limites importantes qu’il faut souligner.
Tout d’abord, ce modèle d’estimation ne fonctionne pas pour les jeux vendus à moins de 20 000 exemplaires. À l’inverse, plus un jeu est vendu en grande quantité, plus les approximations deviennent fiables. De plus, ce modèle s’avère plus performant pour analyser les jeux payants que les free-to-play. Cependant, il ne serait pas pertinent d’analyser le marché en excluant totalement les jeux gratuits, étant donné la place majeure qu’ils occupent aujourd’hui dans l’industrie.
Pour faire face à ces contraintes, nous avons choisi de restreindre notre échantillon aux jeux sortis depuis octobre 2019. Cela permet de se concentrer sur une période où le système d’avis de Steam est plus homogène, car la modification de l’interface intervenue en 2019 a directement impacté la tendance des joueurs à publier des évaluations.
En outre, utiliser des données postérieures à 2018 permet de travailler sur des estimations plus stables et moins sensibles aux valeurs extrêmes (avec des queues de distribution plus courtes). Ce choix méthodologique vise à améliorer la comparabilité de nos observations et la solidité de nos résultats. Au final, cela nous permet d’isoler un échantillon de 522 jeux à observer.
Pour finir, certaines variables très utiles apparaissent directement dans les données publiques. La réussite du lancement d’un jeu est en partie influencée par le nombre d’abonnés (followers) qu’il possède sur Steam, ainsi que par le nombre de personnes l’ayant ajouté à leur liste de souhaits (wishlists). Ces deux éléments permettent aux joueurs de recevoir des alertes lors de la sortie du jeu ou lors de l’ajout de contenus additionnels. De plus, l’algorithme de Steam met naturellement davantage en avant les jeux accumulant beaucoup de followers et de wishlists, ce qui favorise leur visibilité et donc leurs ventes.
Par ailleurs, la capacité de rétention des joueurs est approximée par le temps de jeu moyen. De son côté, l’aptitude à monétiser des produits liés (particulièrement pour les jeux gratuits) peut être estimée en rapportant les revenus générés au nombre de copies distribuées. Enfin, la popularité du titre auprès des consommateurs est évaluée à travers la note moyenne des avis publiés sur Steam.
Une fois l’ensemble de ces données rassemblées, l’enjeu sera de vérifier statistiquement l’existence de ces relations et de quantifier le poids explicatif de chaque variable au sein de notre modèle.
Notre base de données étant désormais constituée, il convient d’en analyser le contenu. Nous débuterons logiquement par une analyse descriptive, afin d’observer simplement les principales caractéristiques de nos variables.
Ce tableau nous présente les statistiques descriptives des sept variables principales de notre échantillon de 522 jeux. Pour chaque variable, on dispose d’informations sur la tendance centrale, la dispersion et la forme de la distribution.
La première chose qui saute aux yeux est la forte disparité des variables liées aux performances commerciales. Le revenue moyen s’élève à 61,5 millions de dollars, mais la médiane n’est que de 24,2 millions, cet écart important nous indique qu’une poignée de jeux très performants tire la moyenne vers le haut, ce qui n’est pas représentatif du jeu typique de l’échantillon. On retrouve le même phénomène pour les copies vendues, les followers et les wishlists, dont les moyennes sont systématiquement bien au-dessus de leurs médianes respectives.
En regardant les colonnes skew et kurtosis, on constate que ces mêmes variables présentent des distributions très asymétriques avec de nombreuses valeurs extrêmes, le revenue atteint par exemple un kurtosis de 60,60, ce qui est considérable.
Cette valeur confirme ce que l’on observe dans la base de données : le marché du jeu vidéo est très inégal, quelques titres concentrent l’essentiel des revenus pendant que la majorité reste à des niveaux relativement modestes.
À l’inverse, le reviewScore (score critique) et le price (prix) se comportent de manière beaucoup plus stable, avec des distributions proches de la normale et des erreurs standards faibles. Ces deux variables sont donc plus fiables à utiliser directement dans nos modèles sans transformation préalable.
L’axe des abscisses affiche des valeurs en dollars et non en
logarithme. Cela s’explique par l’utilisation de
scale_x_continuous() dans R qui permet de repositionner des
repères lisibles en dollars à leurs positions exactes sur l’échelle
logarithmique, l’échelle reste bien logarithmique mais la lecture est
facilitée pour le lecteur.
À noter que les définitions détaillées des indicateurs statistiques (Skewness, Kurtosis et erreur standard) sont consultables en Annexe 3.
Lors de l’explication des modes de commercialisation, nous avons mis en opposition deux modèles qui se retrouvent dans les données, le free to play et le pay to play. On cherche alors à visualiser la répartition de ces deux groupes.
Figure 1 : Distribution du revenue — Free-to-Play vs Payants
Ce graphique illustre la distribution des revenus estimés selon les deux modèles économiques étudiés : les jeux free-to-play et les jeux payants.
Pour une meilleure lisibilité, l’axe des abscisses utilise une échelle logarithmique, dont les valeurs sont affichées en dollars pour faciliter l’interprétation. Ce choix s’explique par la très forte asymétrie des revenus observée dans nos statistiques descriptives (avec un skewness de 6,47 et un kurtosis de 60,60). La transformation logarithmique permet ainsi de compresser les valeurs extrêmes pour rendre la distribution visible, sans en altérer le sens. Enfin, l’axe vertical mesure la densité de probabilité, ce qui correspond tout simplement à la concentration des jeux pour chaque niveau de revenu.
L’observation de ce graphique permet de tirer plusieurs enseignements majeurs. Tout d’abord, on constate visuellement que la distribution des jeux payants est nettement plus concentrée, avec un pic situé entre 20 et 50 millions de dollars. Cette concentration traduit une certaine homogénéité des performances commerciales pour ce modèle économique. Elle suggère également que le prix d’achat initial garantit un revenu minimum, d’autant plus que notre échantillon ne retient que des titres ayant dépassé le million d’exemplaires vendus.
À l’inverse, la courbe des jeux free-to-play est beaucoup plus étalée. Malgré des volumes de téléchargements (assimilés ici à des ventes) conséquents, les revenus générés y sont bien plus incertains. Si l’on observe un pic autour de 20 millions de dollars, la dispersion des revenus reste extrême, s’étirant de quelques milliers à plus d’un milliard de dollars. Cela illustre parfaitement le fossé qui sépare les titres réussissant à monétiser efficacement leur base de joueurs de ceux qui y échouent.
Enfin, l’analyse de cette représentation met en lumière la présence de données atypiques. En effet, la forte concentration observée tout à gauche du graphique correspond à des éléments gratuits ne générant absolument aucun revenu. Il s’agit en réalité de contenus complémentaires (démos gratuites, extensions ou DLC) qui ont été comptabilisés par la base de données comme des jeux à part entière. Ces 45 valeurs aberrantes se retrouveront logiquement dans d’autres graphiques. Bien qu’elles augmentent mécaniquement la marge d’erreur de notre modèle, leur faible proportion (45 individus sur l’ensemble de l’échantillon) n’empêchera pas la réalisation de la régression linéaire, ni ne compromettra la pertinence de nos conclusions. Nous désignerons par la suite ces observations sous le terme d’« erreur statistique ».
Après le modèle économique, c’est l’envergure du projet qui permet de discriminer nos résultats. On s’intéresse donc à la répartition en unité et en revenu des jeux selon leur classification simplifiée.
Figure 2 : Poids des segments d’éditeur — en volume vs en revenus
Le graphique ci-dessus nous montre que l’échantillon est dominé par trois segments principaux : les studios Indie représentent la part la plus importante avec 36,8% des jeux, suivis de près par les AA (31%) et les AAA (29,7%). Les Hobbyist, quant à eux, ne représentent que 2,5% de l’échantillon, ce qui en fait une catégorie marginale.
Toutefois, l’analyse de la répartition en volume prend tout son sens lorsqu’on la met en perspective avec la part que chaque catégorie d’éditeur occupe dans les revenus globaux.
En effet, les jeux AAA captent à eux seuls 62 % des revenus totaux, alors qu’ils ne représentent que 29,7 % de notre échantillon. Les productions AA affichent, quant à elles, une contribution proportionnelle à leur poids, générant 30 % des revenus. À l’inverse, les jeux indépendants (Indie) ne s’accaparent que 8 % de la valeur créée, malgré leur position majoritaire en nombre de jeux. Enfin, la part de revenus générée par les projets hobbyistes s’avère totalement négligeable.
Si cette concentration financière au profit des AAA est impressionnante, il ne faut pas oublier que leurs budgets de développement peuvent être plus de dix fois supérieurs à ceux d’un jeu AA ou indépendant. Le segment des AA se révèle donc particulièrement stratégique : malgré des coûts de production plus modérés, ces studios parviennent à capitaliser fortement sur leurs ventes et à générer des revenus très solides. C’est une dynamique structurante que nous retrouverons tout au long de notre analyse.
Logiquement, nous nous attendons à observer des niveaux de revenus nettement supérieurs pour les catégories AAA et AA par rapport au reste du marché. Pour le vérifier, nous avons modélisé deux nouveaux graphiques : le premier illustre la densité des revenus en fonction de la catégorie de production, tandis que le second détaille la distribution de ces revenus selon ce même critère.
Figure 3 : Hiérarchie du revenue (boxplot) et distribution du revenue par type de jeu
Pour cette étape de l’analyse, nous ferons abstraction des données aberrantes. L’examen du diagramme en boîtes à moustaches met en évidence une tendance claire : le niveau des revenus générés semble croître avec l’importance du budget de production. Ainsi, le revenu médian s’élève à 41 millions de dollars pour les jeux AA, contre 61 millions de dollars pour les jeux AAA.
Toutefois, la densité de distribution des revenus vient éclairer la lecture de la distribution en boite à moustache. On observe que les courbes des jeux Indie, AA et AAA se concentrent dans la partie droite du graphique, entre 5M$ et 84M$, avec des pics clairement identifiés. À l’inverse, la courbe des jeux Hobbyist s’étale principalement autour de zéro et demeure plate sur toute l’échelle, confirmant la difficulté de ces jeux à générer un revenu significatif.
Un point particulièrement intéressant est le fort chevauchement des courbes AA et AAA entre 20M$ et 84M$. Ici on remarque qu’une forte quantité de jeux double A réussissent à talonner les revenus générés par les AAA.
L’impact de la taille de production sur le revenu semble plus que probable.
Toutefois, il est naturel de se demander si ce sont uniquement les ressources investies par l’éditeur qui expliquent ces écarts, ou si la qualité intrinsèque du jeu, mesurée ici par l’engagement qu’il suscite chez les joueurs, joue également un rôle déterminant.
Au-delà de la structure du marché et du poids des catégories de production, il convient d’examiner une dimension complémentaire jusqu’ici laissée de côté : celle de la qualité perçue. Si les analyses précédentes ont mis en évidence le rôle du budget de production et du modèle de tarification dans la génération de revenue.
Toutefois, lorsque l’on se place sur la qualité perçue on se tourne en premier lieu vers le score critique, il est un indicateur de qualité. Surprenant, ce dernier n’a en réalité aucun impact significatif sur les revenus générés. (Voir annexe 4)
Figure 4 : Temps de jeu moyen en heures par type de jeu (AAA, AA, Indé, hobbyist)
Avant d’explorer la relation entre temps de jeu et revenue, il est intéressant de noter que le temps de jeu moyen varie selon le type de production. Le graphique ci-dessus montre que les studios AA et AAA retiennent plus longuement les joueurs. Respectivement 31h et 38,76h. Tandis que les studios Indie et Hobbyists se situent tous deux autour de 19h. Cette différence n’est pas anodine, et deux solutions semblent pouvoir majoritairement l’expliquer. Premièrement, le temps de jeu peut être un marqueur de différenciation verticale (par la qualité). On suggère que les grands studios investissent davantage dans la profondeur et le contenu de leurs jeux. Ils seront donc plus longs à explorer. De plus, pour les jeux possédant des micro transactions et DLC, la rétention va permettre une exposition continue à des propositions de paiement. À terme, cela contribue à expliquer une partie des écarts de revenus observés précédemment.
Une question primordiale émerge : est-ce le type de production qui génère plus de revenus, ou est-ce la durée de vie du jeu qu’il produit ? Le graphique suivant nous permet d’explorer directement cette relation.
Figure 5 : Distribution du revenue selon le temps de jeu moyen
La première observation qui se dégage est une tendance assez claire : plus le temps de jeu moyen est élevé, plus le revenu médian est important. Les productions dont le temps de jeu est inférieur à 10 h affichent une médiane autour de 5 M$, contre environ 25 M$ pour celles comprises entre 10 h et 30 h. En outre, les jeux dépassant 60 h de rétention moyenne semblent se démarquer nettement avec une médiane proche de 50 M$ et une boîte resserrée. La performance semble donc plus homogène au sein de ce groupe.
On note cependant que la dispersion est très importante dans la tranche inférieure à 10 h, avec des moustaches plus étendues et de nombreux points isolés en bas du graphique. Ces derniers correspondent en partie au bruit statistique identifié précédemment. Toutefois, même sans ce dernier, la variabilité des revenus correspondant à ce temps de jeu reste supérieure. Certains jeux courts génèrent un revenu très faible, tandis que d’autres atteignent des niveaux élevés. Ces derniers sont possiblement portés par une notoriété très forte, un modèle P2P efficace ou un gameplay intense et court.
À l’inverse, les groupes 30-60 h et >60 h sont nettement plus concentrés, suggérant qu’un fort engagement des joueurs est un signal plus fiable de bonne performance commerciale.
Ces premières observations restent descriptives et ne permettent pas encore d’établir un lien de causalité. La matrice de corrélation permettra de vérifier plus précisément cette relation. Cependant, avant d’analyser les liens entre les différentes variables, nous devons nous intéresser à un dernier élément qui impacte fortement notre base de données : les valeurs extrêmes.
Certains jeux affichent des revenus tellement élevés par rapport au reste de l’échantillon qu’ils constituent des cas à part entière. Il apparaît donc nécessaire d’identifier ces outliers, c’est-à-dire les valeurs extrêmes de notre distribution, et de les visualiser, afin de mieux comprendre leur poids dans l’ensemble avant de poursuivre l’analyse.
Figure 6 : Part des revenus du top 50 et du top 10 dans les 522 jeux
Le tableau ci-dessus recense les 10 productions générant le revenue le plus élevé de notre échantillon. Plusieurs observations ressortent immédiatement.
Toutes ces productions appartiennent sans exception à la catégorie AAA, ce qui confirme la concentration du revenue au sommet de la hiérarchie déjà observée précédemment.
Apex Legends domine largement avec 1,676 milliards de dollars de revenus, suivi de Destiny 2 avec 909 millions et Baldur’s Gate 3 avec 794 millions. On note également que ces productions affichent des scores de critique très variables, allant de 59 pour Call of Duty à 97 pour Baldur’s Gate 3 et Black Myth : Wukong, ce qui suggère que le revenue généré ne dépend pas significativement de la qualité perçue par les joueurs mais d’un ensemble de facteurs plus larges.
Les deux graphiques en camembert viennent quantifier précisément le poids de ces outliers dans la structure globale du revenu de l’échantillon. Le top 10 des productions, qui ne représente que 1,9% des 522 observations, concentre à lui seul 24% du revenu total généré. La concentration s’accentue légèrement en élargissant le spectre : les 50 premières productions captent 52% du revenu total, laissant les 472 productions restantes se partager l’autre moitié. Ce déséquilibre extrême confirme ce que le kurtosis élevé du revenu laissait entrevoir dans le tableau descriptif : le marché du jeu vidéo suit une logique de concentration particulièrement marquée où une infime minorité de productions à gros budget absorbe l’essentiel de la valeur créée.
Pour compléter l’analyse de la concentration des revenus, la courbe de Pareto disponible en annexe offre une lecture dynamique de cette observation.
L’ensemble de cette analyse descriptive a permis de dresser un premier portrait structuré du marché du jeu vidéo à travers un échantillon de 522 productions. Plusieurs enseignements majeurs se dégagent de cette lecture.
En premier lieu, les variables liées au revenu, aux copies vendues, aux followers et aux wishlists présentent toutes des distributions fortement asymétriques, confirmées par des skewness et kurtosis élevés. Ces caractéristiques ont justifié le recours à la transformation logarithmique pour ces variables dans la suite de l’analyse. Le revenu constitue à cet égard le cas le plus marquant : avec un kurtosis de 60,60 et un écart considérable entre sa moyenne et sa médiane, il illustre à lui seul la logique de concentration extrême qui structure ce marché.
En second lieu, cette concentration ne s’explique pas uniquement par des valeurs extrêmes isolées. Elle reflète des inégalités structurelles profondes entre les catégories de productions. Les AAA captent 62% du revenu total pour moins de 30% des observations, tandis que les productions Indie, majoritaires en volume, ne représentent que 8% du revenu agrégé.
Le modèle de tarification ajoute une dimension supplémentaire à cette segmentation : les productions payantes affichent une distribution plus homogène et concentrée, quand les F2P se divisent en deux sous-populations aux trajectoires radicalement opposées.
En troisième lieu, le temps de jeu moyen semble être fortement lié au revenu, contrairement au score critique qui d’apparence n’a aucun impact.
L’analyse descriptive atteint ici ses limites : elle permet d’observer des tendances et des associations, mais ne permet pas de quantifier l’effet propre de chaque variable sur le revenu ni d’établir des relations causales. C’est précisément l’objet de la section suivante.
Figure 7 : Matrice de corrélation - variables du modèle
La matrice de corrélation constitue une première étape. En examinant les liens linéaires entre les variables continues retenues pour la modélisation, avant d’entrer dans la construction des modèles de régression qui forment le cœur de ce travail.
Ce graphique nous présente la matrice de corrélation entre les variables retenues pour nos modèles de régression. Chaque cercle représente le coefficient de corrélation entre deux variables — plus le cercle est grand et foncé, plus la relation entre les deux variables est forte. Une couleur verte indique une corrélation positive, c’est-à-dire que les deux variables évoluent dans le même sens. Le coefficient varie entre -1 et 1, où 1 signifie une relation parfaite et 0 l’absence totale de lien.
Dans un premier temps on peut observer les relations entre Log_revenue (logarithme du revenu) et les autres variables.
À partir de cette observation, on constate que les Wishlists (0,65) et les followers (0,56) sont les deux variables les plus fortement corrélées au revenu. On peut supposer que la visibilité et l’anticipation générées autour d’un jeu avant et après sa sortie ont un rôle important dans ses performances commerciales.
De plus, le prix (0,45) et le temps de jeu (0,29) ont une corrélation modérée avec le revenu. Ces éléments viennent confirmer les tendances observées dans les graphiques précédents.
De même le reviewScore (score critique), affiche une corrélation quasi nulle (-0,02) avec le revenu. Ce résultat indique que la note des joueurs n’est absolument pas corrélée avec les revenus qu’il formera. Cet aspect serait peut-être différent pour des jeux avec moins de ventes. La note constituant alors une sorte de publicité. En outre, le score sur Steam n’est pas beaucoup mis en avant ainsi son impact est sûrement réduit.
Un second point mérite notre attention : la corrélation entre log_wishlists (la quantité de gens ayant mis en liste de souhait le jeu) et log_followers (le nombre de followers du jeu sur Steam). Cette dernière atteint 0,71, ce qui représente la plus haute valeur de toute la matrice.
Cette relation peut s’expliquer par la forte probabilité qu’une personne qui suit les communications sur Steam d’un studio soit grandement intéressée par son travail. Il mettra donc beaucoup de ses jeux dans sa liste de souhaits.
Cette proximité entre ces deux variables devra être surveillée dans les modèles de régression car elle peut introduire un problème de multicolinéarité.
Figure 8 : log(Wishlists) -> log(Revenu), par modèle de tarification
En séparant les deux sous-groupes, la relation entre wishlists et revenue se confirme mais avec des intensités différentes selon le modèle de tarification. Du côté des jeux payants, le R² de 0.539 indique que les wishlists expliquent plus de la moitié de la variation du revenue. Les jeux F2P présentent quant à eux un R² de 0.239, nettement plus faible. La relation reste positive mais la dispersion est beaucoup plus importante. Les points à revenu nul visibles en bas du graphique ne reflètent pas une réalité commerciale particulière.
Si l’impact des wishlists semble plus important pour les jeux payants que ceux gratuits, c’est lié au fonctionnement des deux modèles. En effet la liste de souhait témoigne de l’attente du joueur vis-à-vis du jeu. Cependant dans le modèle P2P pour tester, le joueur va acheter, ainsi que le jeu lui convienne ou non le studio aura quand même gagné son revenu. Toutefois, pour le modèle gratuit, le téléchargement ne représente que la première étape et pas une garantie de revenu. Il aura tout de même un impact positif mais moindre.
Figure 9 : log(Temps de jeu) -> log(Revenu), par modèle de tarification
Le graphique ci-dessus examine la relation entre le temps de jeu moyen et le revenu, une variable dont l’analyse descriptive avait déjà suggéré un lien positif avec la performance commerciale.
Pour les jeux payants, le R² de 0.314 indique une relation modérée mais cohérente. Un joueur qui passe plus de temps sur un jeu payant reflète un engagement réel qui se traduit mécaniquement par une meilleure visibilité et des recommandations accrues sur la plateforme. De plus, il sera plus enclin à payer des DLC.
Le résultat le plus notable vient du côté F2P avec un R² de 0.41, supérieur à celui des jeux payants. Cela s’explique par la nature même du modèle gratuit : le temps de jeu est le principal levier de monétisation pour ces productions, un joueur qui joue longtemps est un joueur exposé aux mécaniques d’achat intégrées. La dispersion reste toutefois importante et les points à revenu nul en bas du graphique correspondent aux mêmes bruits statistiques identifiés précédemment.
En s’appuyant sur les résultats du modèle estimé sur les 364 jeux payants, plusieurs observations se dégagent. Le R² ajusté de 0.758 indique que les variables retenues expliquent conjointement 75,8% de la variation du revenu. Ce résultat élevé est en partie lié au fait que le modèle porte sur un sous-échantillon plus homogène que l’échantillon complet ce qui facilite mécaniquement l’ajustement sans remettre en cause la validité des estimations.
Les wishlists et le temps de jeu s’imposent comme les deux déterminants les plus robustes. Une hausse de 1% des wishlists est associée à une hausse de 0.79% du revenu, et une hausse de 1% du temps de jeu à une hausse de 0.34% confirmant que l’engagement des joueurs avant et pendant le jeu est un levier commercial central. Le prix exerce également un effet positif significatif : chaque dollar supplémentaire est associé à une hausse de 1.2% du revenu. Le score critique reste non significatif une fois les autres variables contrôlées, confirmant l’observation faite dans la matrice de corrélation.
Concernant les dummies de segment, dont l’utilisation se justifie par l’impact structurel du type de production sur le revenu observé en partie descriptive, les coefficients s’interprètent par rapport à la catégorie AAA qui constitue notre référence c’est-à-dire la catégorie omise du modèle. Après correction de l’effet logarithmique, un jeu Indie génère 34% de revenu en moins qu’une production AAA de caractéristiques comparables, et un jeu AA 18% de moins. Ces deux effets sont significatifs à *** et ** respectivement, ce qui confirme et quantifie la hiérarchie observée dans la partie descriptive. Une explication méthodique de ce système de lecture est fournie en annexe (voir annexe 4).
En s’appuyant sur les résultats du modèle estimé sur les 157 jeux F2P, plusieurs observations se dégagent. Le R² ajusté de 0.661 indique que les variables retenues expliquent conjointement 66,1% de la variation du revenu. Ce résultat, bien que satisfaisant, est inférieur à celui du modèle payant ce qui est cohérent avec la nature même du marché gratuit où des facteurs non observables comme la qualité des mécaniques de monétisation ou la fidélisation des joueurs jouent un rôle important que notre base de données ne capture pas directement.
Le temps de jeu s’impose comme le déterminant dominant avec un coefficient de 2.57 significatif à *** une hausse de 1% du temps de jeu est associée à une hausse de 2.57% du revenu. Ce résultat est particulièrement parlant dans le contexte F2P : un joueur qui passe plus de temps sur un jeu gratuit est davantage exposé aux mécaniques d’achat intégré, ce qui se traduit directement en revenu. Les wishlists exercent également un effet positif significatif à *** avec un coefficient de 1.34. Le score critique reste non significatif, confirmant l’observation faite dans les deux modèles.
Concernant les dummies de segment, seule la dummy Hobbyist est significative à *** avec un coefficient de -8.31 après correction de l’effet logarithmique, un jeu Hobbyist génère un revenu drastiquement inférieur à une production AAA comparable. Les dummies Indie et AA en revanche perdent leur significativité dans ce modèle, suggérant que dans le marché F2P la distinction entre ces deux catégories et les AAA s’estompe une fois les autres facteurs contrôlés c’est le temps de jeu et les wishlists qui structurent réellement la performance, indépendamment du niveau de production.
Ces résultats appellent toutefois une vérification formelle avant toute conclusion définitive. Les hypothèses classiques du modèle de régression linéaire — homoscédasticité des résidus et normalité doivent être testées pour s’assurer de la robustesse des estimations présentées.
Le test de Breusch-Pagan rejette l’hypothèse d’homoscédasticité dans les deux modèles — avec des p-values de 1.77e-03 pour le modèle payant et 7.70e-05 pour le modèle F2P, toutes deux inférieures au seuil de 5%. Ce résultat n’est pas surprenant au regard de la forte dispersion des revenus documentée en partie descriptive, où le kurtosis de 60,60 et la concentration extrême des revenus identifiée via la courbe de Pareto signalait déjà une variance très hétérogène entre les observations.
Le test de Shapiro-Wilk rejette quant à lui la normalité des résidus dans les deux modèles. Face à ces deux violations simultanées, la correction de White appliquée sur les erreurs standard constitue la réponse méthodologique appropriée, elle garantit la validité des tests de significativité en présence d’hétéroscédasticité et limite l’impact de la non-normalité sur les inférences, rendant ainsi les conclusions des deux modèles robustes et interprétables.
Face à la détection d’hétéroscédasticité dans les deux modèles, la correction de White a été appliquée. Cette correction ne modifie pas les coefficients estimés mais recalcule les erreurs standard de manière robuste, garantissant ainsi la validité des tests de significativité malgré la dispersion inégale des résidus. Les conclusions tirées sur la significativité des variables restent donc inchangées — les wishlists et le temps de jeu demeurent les déterminants les plus robustes dans les deux modèles, et la hiérarchie des dummies de segment se confirme. Seule la dummy AA dans le modèle F2P voit sa significativité légèrement évoluer, passant de non significative à significative à * après correction ce qui renforce l’idée que les productions AA génèrent un revenu supérieur aux AAA dans ce sous-marché, toutes choses égales par ailleurs.
En conclusion, les revenus et par extension le succès commercial des jeux vidéo dépendent d’éléments similaires selon leur modèle économique. Néanmoins, le poids de chaque variable s’avère être altéré. Pour les jeux payants l’attente créée autour du lancement est primordiale. De plus, le temps de jeu semble impacter le revenu bien que plus faiblement que dans le modèle free to play. Ainsi les éditeurs ont intérêt à investir dans les campagnes de publicité de sorte à assurer le lancement des titres. Par ailleurs, le temps de jeu semble être encore aujourd’hui un argument de vente.
Le free to play quant à lui est bien plus réactif au temps de jeu moyen. La tendance actuelle des jeux qui visent à augmenter au maximum la rétention de joueurs semble pleinement axée sur cet élément. De même, la liste de souhaits impactera la réussite de ces jeux mais plus faiblement.
Pour finir, les jeux doubles A semblent devenir de plus en plus présents notamment via le modèle free to play. Leur coût de production étant plus faible, le seuil de rentabilité à atteindre est plus accessible. De plus, la flexibilité de ces projets intermédiaires est pleinement adaptée à la réactivité que demande un free to play.
Bien que notre modèle fonctionne, il aurait pu être bien meilleur avec quelques améliorations. La première serait en supprimant les données constituant l’erreur statistique.
La seconde vient de la base de données elle-même. Bien que qualitative, cette dernière est constituée d’approximations. En ayant accès aux données de GSD les régressions et les approximations auraient pu être faites sur un pan de l’industrie bien plus important. La limitation de vente et de date n’étant alors plus un problème.
Enfin il aurait pu être intéressant pour les jeux gratuits d’inclure une variable permettant d’estimer la quantité d’euros que rapporte chaque copie vendue.
Annexe 2 — Courbe de concentration du revenue (Pareto)
Pour compléter l’analyse de la concentration des revenus, la courbe de Pareto offre une lecture dynamique de cette observation. Là où ces derniers montraient une photographie statique de la répartition, cette courbe retrace la progression cumulative¹ de la revenue à mesure que l’on intègre les productions une par une, du rang 1 (la plus rentable) jusqu’au rang 522 (la moins rentable). La logique de lecture est simple : si la courbe monte très vite au début puis s’aplatit rapidement, cela signifie qu’un petit nombre de productions concentre l’essentiel du revenu, et que le reste de l’échantillon n’y contribue que très peu.
La courbe ci-dessus illustre parfaitement ce phénomène. On constate qu’environ 80% du revenu total est généré par moins d’un tiers des productions, soit environ 150 observations sur 522. Passé ce seuil, la courbe s’aplatit progressivement : les 370 productions restantes ne font qu’ajouter marginalement au cumul, confirmant que leur poids individuel dans la création de revenue est extrêmement faible.
La part des revenus occupée par les outliers explique la montée quasi verticale de la courbe dans ses premiers rangs. Leur présence dans l’échantillon n’est donc pas négligeable : ce sont elles qui donnent au revenue sa distribution si asymétrique, avec un kurtosis de 60,60. Plutôt que de les exclure, le recours à la transformation logarithmique permet de limiter leur influence disproportionnée sur les modèles de régression tout en conservant l’intégralité de l’information disponible.
[¹ Une progression cumulative consiste à additionner les valeurs les unes après les autres dans un ordre défini. Ici on additionne le revenue de chaque production en partant de la plus rentable, ce qui permet de voir à quel rythme le total s’accumule et à partir de quel rang les productions cessent de contribuer significativement.]
Skewness (asymétrie) — mesure le degré d’asymétrie d’une distribution par rapport à sa moyenne. Une valeur nulle indique une distribution parfaitement symétrique. Une valeur positive signale une queue étalée vers les valeurs élevées (asymétrie droite), tandis qu’une valeur négative indique une queue étalée vers les valeurs faibles (asymétrie gauche). Au-delà de |1|, l’asymétrie est considérée comme substantielle sur le plan statistique.
Kurtosis (aplatissement) — mesure la concentration des observations dans les queues de distribution relativement à une loi normale (kurtosis de référence = 3). Un kurtosis supérieur à 3 (leptokurtique) signale une distribution à queues épaisses avec une forte présence de valeurs extrêmes. Un kurtosis inférieur à 3 (platykurtique) indique au contraire des queues fines et une distribution aplatie.
Standard Error — SE (erreur standard) — mesure la précision de l’estimation de la moyenne dans l’échantillon. Elle est définie comme le rapport de l’écart-type à la racine carrée de l’effectif (σ/√n). Un SE élevé traduit une forte incertitude autour de la moyenne estimée, généralement imputable à une variance importante ou à la présence de valeurs aberrantes.
Dans les deux modèles de régression estimés dans ce travail, les variables dummy de segment — Indie et AA — sont construites en omettant volontairement la catégorie AAA. Cette dernière devient ainsi la catégorie de référence implicite, ce qui signifie que tous les coefficients associés aux dummies s’interprètent comme un écart de revenu par rapport à une production AAA, toutes choses égales par ailleurs.
Ce choix n’est pas arbitraire. Il découle directement des observations faites en partie descriptive : les productions AAA concentrent 62% du revenu total de l’échantillon malgré seulement 29,7% des observations, et affichent la médiane de revenu la plus élevée à 61M$. Retenir AAA comme référence permet donc de mesurer l’écart entre chaque catégorie et le sommet de la hiérarchie du marché — ce qui est analytiquement plus riche que de comparer à une base arbitraire comme les Hobbyist.
Sur le plan technique, introduire simultanément les quatre dummies — Hobbyist, Indie, AA et AAA — dans un même modèle créerait une multicolinéarité parfaite : la somme des quatre vaudrait toujours 1, rendant le système d’équations indéterminé. R détecte ce problème automatiquement et supprime une dummy — c’est ce qu’indique le message “1 not defined because of singularities” visible dans les sorties brutes. En omettant explicitement DUMY_AAA, nous contrôlons ce choix plutôt que de le laisser à R.
L’interprétation exacte des coefficients dummy dans un modèle log-linéaire nécessite une correction : l’écart en pourcentage se calcule comme (e^β - 1) × 100 et non directement β × 100. C’est cette correction qui donne les écarts de 34% pour les Indie et 18% pour les AA présentés dans le corps du texte.
Annexe 5 — Distribution du revenue selon le score de critique
Le code source R utilisé pour la réalisation de ces graphiques est disponible via le lien suivant : https://rpubs.com/Tonme/Annexe
Cette section regroupe les publications issues de revues de presse spécialisées ou de portails de recherche.
Cette section comprend les rapports, les bases de données et les guides techniques consultés en ligne.