| 1 | 0 | 0 | 0 | 0 | 10.8 | 8.1 | 6.1 | 7.9 | weight |
| 1 | 0 | 0 | 0 | 0 | 10.8 | 9.8 | 6.4 | 7.5 | dannon |
| 1 | 0 | 0 | 0 | 0 | 10.8 | 9.8 | 6.1 | 8.6 | dannon |
| 1 | 0 | 0 | 0 | 0 | 10.8 | 9.8 | 6.1 | 8.6 | dannon |
| 1 | 0 | 0 | 0 | 0 | 12.5 | 9.8 | 4.9 | 7.9 | dannon |
| 1 | 0 | 0 | 0 | 0 | 10.8 | 9.2 | 5.0 | 7.9 | dannon |
| 1 | 0 | 0 | 0 | 0 | 10.3 | 8.1 | 4.9 | 7.9 | dannon |
| 1 | 0 | 0 | 0 | 0 | 10.8 | 8.6 | 5.4 | 7.9 | weight |
| 2 | 0 | 0 | 0 | 0 | 10.8 | 9.8 | 5.0 | 7.9 | yoplait |
| 2 | 0 | 0 | 0 | 0 | 10.8 | 9.8 | 5.0 | 7.9 | yoplait |
Projet II - Modélisation des données Yogurts
Élaboration du tableau représentatif des 10 premières lignes de données brutes de Yogurt
Tableau représentatif des dix premières lignes du tableau de données brutes Yogurt.
Élaboration graphique des histogrammes de prix des yaourts par marque
Histogrammes des prix par marque ( histogrammes “facettés”)
Reproduction du tableau n°1 de l’article support de l’étude
Le tableau I de l’article : statistique descriptive ( parts de marché, existence ou non de publicité, prix moyens des achats et écarts types associés)
| Variable | Marque | Moyenne | Ecart_type |
|---|---|---|---|
| Parts de marché | Yoplait | 0.33914 | 0.47351 |
| (Proportions) | Dannon | 0.40216 | 0.49043 |
| Weight | 0.22927 | 0.42045 | |
| Hiland | 0.02944 | 0.16906 | |
| Feature | Yoplait | 0.05597 | 0.22991 |
| (Proportions) | Dannon | 0.03773 | 0.19058 |
| Weight | 0.03773 | 0.19058 | |
| Hiland | 0.03690 | 0.18855 | |
| Prix | Yoplait | 10.68213 | 1.90626 |
| ($ per Oz) | Dannon | 8.16347 | 1.06289 |
| Weight | 7.94909 | 0.77350 | |
| Hiland | 5.36294 | 0.80539 | |
| Nombre d'observations | 2412 | ||
| Nombre de ménages | 100 |
Représentation du diagramme circulaire représentatif de la répartition des parts de marché du marché du Yaourt
Affichage d’un diagramme circulaire représentant les parts de marché sur les 2412 achats de yaourts du paquetage “Yogurt”.
Reproduction du tableau n°2 de l’article support de l’étude
Le tableau suivant est inspiré du tableau II de l’article : détermination des coefficients de la fonction d’utilité du yaourt modélisée par une fonction dépendant linéairement des prix ( en $ ) et d’une variable promotionnelle ( modélisée par une fonction binaire ) pour chaque marque.
Le tableau II - la représentation du modèle de régression logit multinomial
Call:
mlogit(formula = choice ~ price + feat, data = mlogit_data, reflevel = "hiland",
method = "nr")
Frequencies of alternatives:choice
hiland dannon weight yoplait
0.029436 0.402156 0.229270 0.339138
nr method
6 iterations, 0h:0m:0s
g'(-H)^-1g = 0.000763
successive function values within tolerance limits
Coefficients :
Estimate Std. Error z-value Pr(>|z|)
(Intercept):dannon 3.71560 0.14542 25.5510 < 2.2e-16 ***
(Intercept):weight 3.07441 0.14538 21.1468 < 2.2e-16 ***
(Intercept):yoplait 4.45017 0.18712 23.7827 < 2.2e-16 ***
price -36.65845 2.43661 -15.0449 < 2.2e-16 ***
feat 0.49143 0.12006 4.0931 4.256e-05 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Log-Likelihood: -2656.9
McFadden R^2: 0.062142
Likelihood ratio test : chisq = 352.09 (p.value = < 2.22e-16)
Explication du modèle
Ce modèle est un modèle de régression logistique multinomiale qui cherche à expliquer les choix des consommateurs parmis quatres marques de yaourts à savoir : “Hiland”, “Dannon”, “Weight” et “Yoplait”.
Afin de mettre en exergue les facteurs explicatifs de choix des consommateurs, le modèle inclut deux variables explicatives, à savoir le prix (price) et la présence d’une promotion (feat) du produit.
Dans le cadre de cette étude, la marque de référence du modèle est “hiland”.
Explications détaillées
Les fréquences alternatives
Les fréquences alternatives montrent la proportion des choix des consommateurs suivant chaque marque de yaourt dans le cas de l’étude. Par exemple, “dannon” est choisie dans 40.22% des cas, tandis que “hiland” n’est choisie que dans 2.94% des cas.
Les méthodes de convergence
Le modèle a été estimé à l’aide de la méthode de Newton-Raphson (nr method). Il a donc convergé en 6 itérations, en 0h:0m:0s. Le critère de convergence est g’(-H)^-1g = 0.000763 qui indique que la solution est stable et que les valeurs successives de la fonction sont dans les limites de tolérance.
Les coefficients
En ce qui concerne les coefficients ces derniers indiquent l’effet des variables explicatives sur le log des cotes de chaque marque par rapport à la marque de référence “hiland”.
Dans le contexte des modèles logistiques, comme le modèle logit multinomial utilisé ici, les “cotes” (ou “odds” en anglais) représentent le rapport de la probabilité d’un événement à la probabilité de son complément.
Par exemple, pour une marque de yaourt donnée, les cotes sont définies comme :
\[Cote = \frac{P(choisir\ cette\ marque)}{P( ne\ pas\ choisir\ cette\ marque)}\] Le “log des cotes” est donc simplement le logarithme naturel de ces cotes.
Le log des cotes pour choisir “dannon” par rapport à “hiland” augmente de 3.716
Les coefficients du modèle logit multinomial sont interprétés en termes de log des cotes ce qui signifie que chaque coefficient représente le changement dans le log des cotes associé à une unité de changement dans la variable explicative correspondante.
Intercept
Cas n°1: (Intercept) : dannon 3.71560 signifie que par rapport à la marque de référence “hiland”, le log des cotes de choisir “dannon” est augmenté de 3.716 lorsque toutes les autres variables explicatives sont égales à zéro.
Cas n°2 : (Intercept) : weight 3.07441 signifie que par rapport à “hiland”, le log des cotes de choisir “weight” est augmenté de 3.074 lorsque toutes les autres variables explicatives sont égales à zéro.
Cas n3 : (Intecept) : yoplait 4.45017 signifie que par rapport “hiland”, le log des cotes de choisir “yoplait” est augmenté de 4.450 lorsque toutes les autres variables explicatives sont égales à zéro.
Price
Price : -36.65845 signifie que l’augmentation d’une unité du prix est associée à une diminution de 36.658 du log des cotes de choisir une marque par rapport à la référence.
feat
Feat : 0.49143 signifie la présence d’une promotion (feat) est associée à une augmentation de 0.491 du log des cotes de choisir une marque par rapport à la référence.
Les statistiques de test
Estimate : désigne les coefficients estimés pour chaque variable.
Std. Error : désigne les erreurs standards des coefficients.
z-value : désigne les statistiques de test (coefficient divisé par l’erreur standard).
Pr(>|z|): désigne les p-valeurs associées aux z-values, indiquant la significativité statistique des coefficients. Toutes les p-valeurs sont très petites (< 2.2e-16) et indiquent que tous les coefficients sont hautement significatifs (*** p < 0.001).
Log-Likelihood et Pseudo R²
Log-Likelihood : -2656.9 est une mesure de l’ajustement du modèle aux données. Plus le log-vraisemblance est élevé (moins négatif), meilleur est l’ajustement.
McFadden R² : 0.062142 est un pseudo R² pour les modèles logistiques qui indique que le modèle explique environ 6.21% de la variation dans les choix de marque.
Likelihood Ratio Test
chisq = 352.09 (p < 2.22e-16) : est un test qui évaluel’hypothèse nulle que tous les coefficients de régression sont égaux à zéro. Une p-value très faible indique que le modèl avec les prédicteurs est significativement meilleur qu’un modèle sans prédicteurs.
Résumé
D’une part, les coefficients pour les marques (dannon, weight, yoplait) par rapport à la marque de référence (hiland) indiquent que ces dernières tendent à être préférées par les consommateurs lorsque l’ensemble des autres variables sont égales.
D’autre part, un coefficient de prix négatif très élevé indique que les consommateurs sont très sensibles aux variations de ce dernier que son augmentation réduit fortement la probabilité qu’une marque soit choisie.
Enfin, un coefficient positif pour les promotions montre que celles-ci augmentent la probabilité qu’une marque soit choisie.
Affichage Tableau de Coefficients du Modèle logit multinomial avec ‘hiland’ comme référence” - généré par un kable -
[1] 4
| Estimate | Std. Error | z-value | Pr(>|z|) | |
|---|---|---|---|---|
| (Intercept):dannon | 3.7156 | 0.14542 | 25.55096 | 0.000000e+00 |
| (Intercept):weight | 3.07441 | 0.14538 | 21.14682 | 0.000000e+00 |
| (Intercept):yoplait | 4.45017 | 0.18712 | 23.78271 | 0.000000e+00 |
| price | -36.65845 | 2.43661 | -15.04488 | 0.000000e+00 |
| feat | 0.49143 | 0.12006 | 4.09313 | 4.255907e-05 |
Voici une version plus esthétique du tableau du modèle logit multinomial avec ‘hiland’ comme référence.
Par ailleurs ce tableau ne comporte pas totalement les mêmes datas que celui dans la version générée par la fonction summuarise. Cela s’explique notamment par le fait que le modèle ait des valeurs qui soient trop complexe pour être affichées par un kable, ce qui implique une simplification conséquente des datas.
Affichage Tableau de Coefficients du Modèle logit multinomial avec ‘hiland’ comme référence” - généré par Stargazer -
===============================================
Dependent variable:
---------------------------
choice
-----------------------------------------------
(Intercept):dannon 3.716***
(0.145)
(Intercept):weight 3.074***
(0.145)
(Intercept):yoplait 4.450***
(0.187)
price -36.658***
(2.437)
feat 0.491***
(0.120)
-----------------------------------------------
Observations 2,412
R2 0.062
Log Likelihood -2,656.888
LR Test 352.089*** (df = 5)
===============================================
Note: *p<0.1; **p<0.05; ***p<0.01
Cette version du tableau avec stargazer est un affichage simplifié du modèle de régression logit multinomial affiché précedemment, qui explique l’ensemble des variables ici présentes.