Projet II - Modélisation des données Yogurts

Author

Alexandra, Faye , Pierre

Élaboration du tableau représentatif des 10 premières lignes de données brutes de Yogurt

Tableau représentatif des dix premières lignes du tableau de données brutes Yogurt.

id	Feature				Price				Choice
	Yoplait	Dannon	weight	hiland	Yoplait	Dannon	weight	hiland

1	0	0	0	0	10.8	8.1	6.1	7.9	weight
1	0	0	0	0	10.8	9.8	6.4	7.5	dannon
1	0	0	0	0	10.8	9.8	6.1	8.6	dannon
1	0	0	0	0	10.8	9.8	6.1	8.6	dannon
1	0	0	0	0	12.5	9.8	4.9	7.9	dannon
1	0	0	0	0	10.8	9.2	5.0	7.9	dannon
1	0	0	0	0	10.3	8.1	4.9	7.9	dannon
1	0	0	0	0	10.8	8.6	5.4	7.9	weight
2	0	0	0	0	10.8	9.8	5.0	7.9	yoplait
2	0	0	0	0	10.8	9.8	5.0	7.9	yoplait

Élaboration graphique des histogrammes de prix des yaourts par marque

Histogrammes des prix par marque ( histogrammes “facettés”)

Reproduction du tableau n°1 de l’article support de l’étude

Le tableau I de l’article : statistique descriptive ( parts de marché, existence ou non de publicité, prix moyens des achats et écarts types associés)

Variable	Marque	Moyenne	Ecart_type
Parts de marché	Yoplait	0.33914	0.47351
(Proportions)	Dannon	0.40216	0.49043
	Weight	0.22927	0.42045
	Hiland	0.02944	0.16906
Feature	Yoplait	0.05597	0.22991
(Proportions)	Dannon	0.03773	0.19058
	Weight	0.03773	0.19058
	Hiland	0.03690	0.18855
Prix	Yoplait	10.68213	1.90626
($ per Oz)	Dannon	8.16347	1.06289
	Weight	7.94909	0.77350
	Hiland	5.36294	0.80539
Nombre d'observations	2412
Nombre de ménages	100

Représentation du diagramme circulaire représentatif de la répartition des parts de marché du marché du Yaourt

Affichage d’un diagramme circulaire représentant les parts de marché sur les 2412 achats de yaourts du paquetage “Yogurt”.

Reproduction du tableau n°2 de l’article support de l’étude

Le tableau suivant est inspiré du tableau II de l’article : détermination des coefficients de la fonction d’utilité du yaourt modélisée par une fonction dépendant linéairement des prix ( en $ ) et d’une variable promotionnelle ( modélisée par une fonction binaire ) pour chaque marque.

Le tableau II - la représentation du modèle de régression logit multinomial


Call:
mlogit(formula = choice ~ price + feat, data = mlogit_data, reflevel = "hiland", 
    method = "nr")

Frequencies of alternatives:choice
  hiland   dannon   weight  yoplait 
0.029436 0.402156 0.229270 0.339138 

nr method
6 iterations, 0h:0m:0s 
g'(-H)^-1g = 0.000763 
successive function values within tolerance limits 

Coefficients :
                     Estimate Std. Error  z-value  Pr(>|z|)    
(Intercept):dannon    3.71560    0.14542  25.5510 < 2.2e-16 ***
(Intercept):weight    3.07441    0.14538  21.1468 < 2.2e-16 ***
(Intercept):yoplait   4.45017    0.18712  23.7827 < 2.2e-16 ***
price               -36.65845    2.43661 -15.0449 < 2.2e-16 ***
feat                  0.49143    0.12006   4.0931 4.256e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Log-Likelihood: -2656.9
McFadden R^2:  0.062142 
Likelihood ratio test : chisq = 352.09 (p.value = < 2.22e-16)

Explication du modèle

Ce modèle est un modèle de régression logistique multinomiale qui cherche à expliquer les choix des consommateurs parmis quatres marques de yaourts à savoir : “Hiland”, “Dannon”, “Weight” et “Yoplait”.

Afin de mettre en exergue les facteurs explicatifs de choix des consommateurs, le modèle inclut deux variables explicatives, à savoir le prix (price) et la présence d’une promotion (feat) du produit.

Dans le cadre de cette étude, la marque de référence du modèle est “hiland”.

Explications détaillées

Les fréquences alternatives

Les fréquences alternatives montrent la proportion des choix des consommateurs suivant chaque marque de yaourt dans le cas de l’étude. Par exemple, “dannon” est choisie dans 40.22% des cas, tandis que “hiland” n’est choisie que dans 2.94% des cas.

Les méthodes de convergence

Le modèle a été estimé à l’aide de la méthode de Newton-Raphson (nr method). Il a donc convergé en 6 itérations, en 0h:0m:0s. Le critère de convergence est g’(-H)^-1g = 0.000763 qui indique que la solution est stable et que les valeurs successives de la fonction sont dans les limites de tolérance.

Les coefficients

En ce qui concerne les coefficients ces derniers indiquent l’effet des variables explicatives sur le log des cotes de chaque marque par rapport à la marque de référence “hiland”.

Dans le contexte des modèles logistiques, comme le modèle logit multinomial utilisé ici, les “cotes” (ou “odds” en anglais) représentent le rapport de la probabilité d’un événement à la probabilité de son complément.

Par exemple, pour une marque de yaourt donnée, les cotes sont définies comme :

\[Cote = \frac{P(choisir\ cette\ marque)}{P( ne\ pas\ choisir\ cette\ marque)}\] Le “log des cotes” est donc simplement le logarithme naturel de ces cotes.

Le log des cotes pour choisir “dannon” par rapport à “hiland” augmente de 3.716

Les coefficients du modèle logit multinomial sont interprétés en termes de log des cotes ce qui signifie que chaque coefficient représente le changement dans le log des cotes associé à une unité de changement dans la variable explicative correspondante.

Intercept

Cas n°1: (Intercept) : dannon 3.71560 signifie que par rapport à la marque de référence “hiland”, le log des cotes de choisir “dannon” est augmenté de 3.716 lorsque toutes les autres variables explicatives sont égales à zéro.

Cas n°2 : (Intercept) : weight 3.07441 signifie que par rapport à “hiland”, le log des cotes de choisir “weight” est augmenté de 3.074 lorsque toutes les autres variables explicatives sont égales à zéro.

Cas n3 : (Intecept) : yoplait 4.45017 signifie que par rapport “hiland”, le log des cotes de choisir “yoplait” est augmenté de 4.450 lorsque toutes les autres variables explicatives sont égales à zéro.

Price

Price : -36.65845 signifie que l’augmentation d’une unité du prix est associée à une diminution de 36.658 du log des cotes de choisir une marque par rapport à la référence.

feat

Feat : 0.49143 signifie la présence d’une promotion (feat) est associée à une augmentation de 0.491 du log des cotes de choisir une marque par rapport à la référence.

Les statistiques de test

Estimate : désigne les coefficients estimés pour chaque variable.

Std. Error : désigne les erreurs standards des coefficients.

z-value : désigne les statistiques de test (coefficient divisé par l’erreur standard).

Pr(>|z|): désigne les p-valeurs associées aux z-values, indiquant la significativité statistique des coefficients. Toutes les p-valeurs sont très petites (< 2.2e-16) et indiquent que tous les coefficients sont hautement significatifs (*** p < 0.001).

Log-Likelihood et Pseudo R²

Log-Likelihood : -2656.9 est une mesure de l’ajustement du modèle aux données. Plus le log-vraisemblance est élevé (moins négatif), meilleur est l’ajustement.

McFadden R² : 0.062142 est un pseudo R² pour les modèles logistiques qui indique que le modèle explique environ 6.21% de la variation dans les choix de marque.

Likelihood Ratio Test

chisq = 352.09 (p < 2.22e-16) : est un test qui évaluel’hypothèse nulle que tous les coefficients de régression sont égaux à zéro. Une p-value très faible indique que le modèl avec les prédicteurs est significativement meilleur qu’un modèle sans prédicteurs.

Résumé

D’une part, les coefficients pour les marques (dannon, weight, yoplait) par rapport à la marque de référence (hiland) indiquent que ces dernières tendent à être préférées par les consommateurs lorsque l’ensemble des autres variables sont égales.

D’autre part, un coefficient de prix négatif très élevé indique que les consommateurs sont très sensibles aux variations de ce dernier que son augmentation réduit fortement la probabilité qu’une marque soit choisie.

Enfin, un coefficient positif pour les promotions montre que celles-ci augmentent la probabilité qu’une marque soit choisie.

Affichage Tableau de Coefficients du Modèle logit multinomial avec ‘hiland’ comme référence” - généré par un kable -

[1] 4

Tableau de Coefficients du Modèle
	Estimate	Std. Error	z-value	Pr(>\|z\|)
(Intercept):dannon	3.7156	0.14542	25.55096	0.000000e+00
(Intercept):weight	3.07441	0.14538	21.14682	0.000000e+00
(Intercept):yoplait	4.45017	0.18712	23.78271	0.000000e+00
price	-36.65845	2.43661	-15.04488	0.000000e+00
feat	0.49143	0.12006	4.09313	4.255907e-05

Voici une version plus esthétique du tableau du modèle logit multinomial avec ‘hiland’ comme référence.

Par ailleurs ce tableau ne comporte pas totalement les mêmes datas que celui dans la version générée par la fonction summuarise. Cela s’explique notamment par le fait que le modèle ait des valeurs qui soient trop complexe pour être affichées par un kable, ce qui implique une simplification conséquente des datas.

Affichage Tableau de Coefficients du Modèle logit multinomial avec ‘hiland’ comme référence” - généré par Stargazer -


===============================================
                        Dependent variable:    
                    ---------------------------
                              choice           
-----------------------------------------------
(Intercept):dannon           3.716***          
                              (0.145)          
                                               
(Intercept):weight           3.074***          
                              (0.145)          
                                               
(Intercept):yoplait          4.450***          
                              (0.187)          
                                               
price                       -36.658***         
                              (2.437)          
                                               
feat                         0.491***          
                              (0.120)          
                                               
-----------------------------------------------
Observations                   2,412           
R2                             0.062           
Log Likelihood              -2,656.888         
LR Test                 352.089*** (df = 5)    
===============================================
Note:               *p<0.1; **p<0.05; ***p<0.01

Cette version du tableau avec stargazer est un affichage simplifié du modèle de régression logit multinomial affiché précedemment, qui explique l’ensemble des variables ici présentes.