Portfolio — Thomas Hammaoui — BUT Science des Données

Portfolio Académique · BUT Science des Données · IUT d'Avignon

Thomas
Hammaoui

Étudiant en 2e année de Science des Données, parcours EMS — Exploration et Modélisation Statistique. Dans ce portfolio réalisé en html, je retrace mon parcours, mes compétences et les projets concrets menés sur deux années de formation, jusqu'à mon stage chez Vinci Autoroutes.

IUT Avignon — Parcours EMS Analyse & modélisation statistique Stage Vinci Autoroutes Alternance CPAM du Var (3ᵉ année) Master MIAGE
Photo de profil — Thomas Hammaoui

Thomas Hammaoui

Formation : BUT SD — 2ᵉ année
Parcours : EMS — Modélisation Stat.
Stage : Vinci Autoroutes
Prochain : Alternance CPAM du Var
Objectif : Master MIAGE
Contact : thomashammaoui@gmail.com
Outils : R / RStudio SAS Python SQL / pgAdmin Power BI Business Objects Excel HTML / CSS

Biographie Professionnelle et Académique

Mise à jour 2026

Un aperçu de mon parcours, de mes centres d'intérêt et de mon projet professionnel.

Parcours académique

Depuis le collège, j'ai développé une réelle passion pour les mathématiques. Cette curiosité m'a conduit vers un lycée général avec les spécialités Mathématiques et NSI (Numérique et Sciences Informatiques), où j'ai découvert l'algorithmique, la programmation et les premières analyses de données.

Aujourd'hui en 2ᵉ année de BUT Science des Données à l'IUT d'Avignon, parcours EMS — Exploration et Modélisation Statistique, je retrouve l'équilibre que je cherchais : rigueur mathématique, programmation et problèmes concrets tirés du monde réel. Ce parcours spécialisé m'a particulièrement orienté vers la modélisation statistique avancée (séries temporelles, régressions, analyses multivariées) et les outils de reporting professionnel.

Centres d'intérêt

Des passions variées qui renforcent la discipline, la créativité et la capacité à s'adapter.

  • Mathématiques et statistiques — Analyser, modéliser et vérifier des hypothèses : c'est ce qui me motive au quotidien, et ce que la data science me permet d'exercer concrètement.
  • Tennis de table — Pratiqué depuis 4 ans au niveau régional (2ᵉ division, club de Villeneuve-lès-Avignon). Ce sport m'a enseigné la discipline, la concentration sous pression et l'esprit d'équipe — des qualités transférables dans tout projet collaboratif.
  • Voyages et ouverture culturelle — Kenya, Indonésie, États-Unis, Thaïlande, Grèce, Suède, Roumanie, Espagne… Ces expériences m'ont appris à m'adapter à des contextes très différents, à communiquer dans un environnement multiculturel, et à cultiver une curiosité ouverte sur le monde.
  • Jeux d'échecs — Stratégie, anticipation et résolution de problèmes, des aptitudes qui se retrouvent dans l'approche analytique des données.

Projet professionnel

Mon objectif à court terme est de finaliser ma 3ᵉ année en alternance Data Analyst à la CPAM du Var, où je mettrai mes compétences en analyse de données au service d'un acteur majeur de la santé publique. À plus long terme, mon ambition est d'intégrer un Master MIAGE (Méthodes Informatiques Appliquées à la Gestion des Entreprises) pour me spécialiser à l'intersection entre data science, systèmes d'information et management.

Je cherche à travailler dans des environnements où la donnée sert à prendre de meilleures décisions : performance d'entreprise, santé, industrie, politiques publiques. Savoir trouver un résultat est important ; savoir l'expliquer clairement à un non-spécialiste l'est tout autant.

Tennis de table — Régionale 2ᵉ division, Villeneuve-lès-Avignon
🏓 Tennis de table — Régionale 2ᵉ division, club de Villeneuve-lès-Avignon
Voyages en indonésie, ouverture culturelle et curiosité
🌍 Voyages — curiosité, adaptation, découverte de cultures différentes

Le BUT Science des Données

Formation 3 ans · IUT Avignon

Le BUT Science des Données est une formation professionnalisante de trois ans qui enseigne à travailler avec des données à chaque étape du processus : collecte, nettoyage, structuration, analyse statistique, modélisation et communication des résultats à des décideurs.

Ce qui distingue cette formation, c'est son ancrage dans des situations réelles. Les SAÉ (Situations d'Apprentissage et d'Évaluation) sont des projets qui simulent des missions professionnelles : données imparfaites, cahier des charges précis, rendu final soigné. Elles forcent à développer autant des compétences techniques qu'une capacité à communiquer des résultats à un public non expert.

🔧 TRAITER

Structurer, nettoyer et organiser les données pour qu'elles soient exploitables.

  • Bases de données relationnelles (SQL)
  • Nettoyage, détection de valeurs aberrantes
  • Modélisation conceptuelle et logique

📐 ANALYSER

Mobiliser les méthodes statistiques pour répondre à des questions précises.

  • Statistiques descriptives et inférentielles
  • Régression, séries temporelles, ANOVA
  • Analyses multivariées (ACP, CAH, ACM)

📊 VALORISER

Transformer des résultats techniques en informations claires et actionnables pour des décideurs ou des clients.

  • Dataviz : choix du bon graphique, message lisible, storytelling
  • Tableaux de bord interactifs (Power BI, Tableau)
  • Rapports écrits, restitution orale, reporting BI

Débouchés : Data Analyst, Chargé d'études statistiques, Consultant BI, Assistant Data Scientist — et poursuite en Master (Data Science, MIAGE, IA, Statistiques).

Compétences Techniques

2 années de formation

Les compétences se construisent progressivement : des fondamentaux de 1ʳᵉ année (statistiques descriptives, SQL, R) vers les méthodes avancées de 2ᵉ année (modélisation prédictive, SAS, Power BI, Business Objects).

Langages & environnements

R / RStudio
Analyses, modèles, dataviz
SAS
Stat. avancées, classification
SQL / pgAdmin
Bases de données relationnelles
Python
Traitement, automatisation
Power BI
Tableaux de bord, reporting
Business Objects
Reporting d'entreprise
Excel
Analyse, tableaux croisés dynamiques
HTML / CSS
Mise en page web

Méthodes statistiques

Statistiques descriptives
Indicateurs, distributions
Régression multiple
Explication & prédiction
Séries temporelles
Décomposition, ARMA
ANOVA
Comparaisons multi-groupes
ACP
Réduction de dimension
CAH & K-means
Segmentation, classification
AFC / ACM
Variables qualitatives
Sélection de variables
AIC, BIC, backward

Mon Parcours — Chronologie

Collège
Découverte des mathématiques
Développement d'une passion pour la logique et le raisonnement quantitatif.
2021 – 2024
Baccalauréat Général — Lycée Jean Vilar (Villeneuve-lès-Avignon)
Spécialités Mathématiques et NSI. Premiers pas en algorithmique, programmation Python et analyse de données.
2024 – 2025
BUT SD — 1ʳᵉ année · IUT d'Avignon
Enquête statistique, indicateurs de performance, conception de base de données SQL. Maîtrise de R et des fondamentaux de l'analyse de données.
2025 – 2026
BUT SD — 2ᵉ année · Parcours EMS
Modélisation statistique avancée : régression multiple, ANOVA, séries temporelles, analyses multivariées (R + SAS). Stage de fin d'année à Vinci Autoroutes (Power BI, Business Objects).
2026 – 2027
BUT SD — 3ᵉ année · Alternance Data Analyst · CPAM du Var
Application des méthodes acquises dans un environnement professionnel de la santé publique. Mise en pratique des compétences en reporting, analyse et valorisation de données.
Objectif post-BUT
Master MIAGE
Méthodes Informatiques Appliquées à la Gestion des Entreprises — approfondir l'intersection entre data science, systèmes d'information et management.

SAÉ de 1ʳᵉ année (2024 – 2025)

Trois projets fondateurs : concevoir une enquête, construire des indicateurs, implémenter une base de données. Pour chaque SAÉ, la contrepartie de 2ᵉ année montre comment les compétences ont évolué.

1ʳᵉ année
● 1ʳᵉ année ANALYSER

SAÉ 1 — Mise en œuvre d'une enquête statistique

Accès à l'éducation au Bangladesh pendant la pandémie de Covid-19

Contexte socio-éducatif du Bangladesh
Illustration — contexte socio-économique de l'enquête : Bangladesh, fracture numérique, pandémie.
🎯 Contexte et enjeux

Ce projet portait sur une problématique socio-économique réelle : comprendre dans quelle mesure la pandémie de Covid-19 a aggravé les inégalités d'accès à l'éducation pour les étudiants bangladais, en raison de la fracture numérique (accès aux appareils, connexion internet, ressources pédagogiques). L'enjeu était double : académique — maîtriser la méthodologie d'enquête de bout en bout — et humain — analyser une problématique d'inclusion dans un pays en développement.

⚙️ Actions menées
Cadrage de l'enquête — Présentation du système éducatif bangladais, identification des problématiques liées à la précarité numérique et définition de la problématique.
Conception du questionnaire — Définition des objectifs, choix des types de questions (fermées, ouvertes, Likert), formulation neutre pour éviter les biais, choix du mode d'administration numérique.
Collecte et préparation des données — Définition de l'échantillon, collecte des réponses, nettoyage sous R (valeurs manquantes, incohérences) et préparation du fichier d'analyse.
Analyse descriptive et exploratoire — Calcul d'indicateurs statistiques, visualisation des résultats (graphiques R, tableaux), identification des grandes tendances.
Restitution et propositions — Rédaction d'un rapport structuré comprenant méthodologie, résultats et recommandations concrètes (prêt d'appareils, amélioration du réseau internet pour les zones défavorisées).
🛠️ Outils mobilisés
R Excel Tableau Questionnaire numérique
Contexte socio-éducatif du Bangladesh
questionnaire — enquête réalisé sur la situation des étudiants.
Contexte socio-éducatif du Bangladesh
graphique — vitesse de connexion des étudiants.
🧠 Analyse réflexive — Compétences développées

Cette SAÉ m'a appris à structurer une démarche scientifique complète : de la question de recherche à la recommandation concrète. J'ai compris qu'une donnée sans contexte ne veut rien dire — il faut la situer pour lui donner du sens. J'ai également pris conscience des limites d'un questionnaire (biais de formulation, représentativité de l'échantillon), ce qui m'a rendu plus rigoureux dans toutes mes analyses suivantes. Compétence clé : passer d'un besoin formulé à une analyse exploitable, en respectant une méthodologie rigoureuse à chaque étape.

📈

Évolution en 2ᵉ année : de l'analyse descriptive simple (indicateurs, tendances) vers des méthodes d'explication et de prédiction statistique avancées — régression multiple, ANOVA, sélection de variables. Voir SAÉ 4 — Pollution à Pékin.

● 1ʳᵉ année VALORISER

SAÉ 2 — Construction et Présentation d'Indicateurs de Performance

Analyse financière de Genoyer (2010–2015) face aux crises économiques et géopolitiques

Genoyer — industrie pétrolière et gazière
Genoyer — entreprise spécialisée dans la distribution de tuyauterie pour l'industrie pétrolière et gazière.
🎯 Contexte et enjeux

Genoyer est une société française qui distribue des équipements de tuyauterie pour les secteurs pétrolier, gazier et énergétique. Cette SAÉ consistait à analyser comment des événements extérieurs à l'entreprise — la chute des prix du pétrole en 2014, la catastrophe nucléaire de Fukushima en 2011, les sanctions contre la Russie — ont eu un impact direct sur ses résultats financiers. C'est exactement le travail qu'effectue un analyste dans une direction financière ou un cabinet de conseil : relier des chiffres à une réalité économique et en tirer des conclusions stratégiques.

⚙️ Actions menées
Structuration des données — Organisation des données financières de Genoyer par année (2010–2015) et par zone géographique (Europe, Asie, Moyen-Orient, etc.).
Calcul des indicateurs — Évolution du chiffre d'affaires (167 M€ en 2010 → 180 M€ en 2015), du résultat net (chute à −20 M€ en 2014), écarts entre prévisions et réalisations par zone géographique.
Visualisation sous R — Création de graphiques lisibles pour rendre les tendances compréhensibles : courbes d'évolution du CA et du résultat net par année.
Interprétation contextualisée — Mise en relation des variations de performance avec les événements géopolitiques (sources : Le Monde, La Tribune, Les Échos).
Graphiques R — évolution CA et résultat net Genoyer (2010–2015)
Graphiques réalisés sous R : évolution du chiffre d'affaires et du résultat net de Genoyer et par secteur(2010–2015).
🧠 Analyse réflexive — Compétences développées

Ce projet m'a appris qu'une donnée isolée a peu de valeur : c'est sa mise en contexte qui révèle l'information utile. Croiser des chiffres financiers avec des événements géopolitiques demande rigueur analytique et culture économique. J'ai développé ma capacité à choisir le bon graphique pour le bon message et à rédiger un commentaire qui guide la lecture, plutôt que de simplement décrire ce que l'on voit. Compétence clé : produire des indicateurs pertinents, les visualiser clairement et les interpréter dans leur contexte.

📈

Évolution en 2ᵉ année : de la construction d'indicateurs statiques vers la prévision — modélisation de séries temporelles pour anticiper des valeurs futures avec intervalles de confiance. Voir SAÉ 5 — Séries Temporelles.

● 1ʳᵉ année TRAITER

SAÉ 3 — Conception et Implémentation d'une Base de Données

Modélisation relationnelle d'un système de gestion locative en SQL

Base de données relationnelle — modélisation SQL
Illustration — conception et implémentation d'une base de données relationnelle.
🎯 Contexte et enjeux

L'objectif était de concevoir une base de données relationnelle pour gérer des informations immobilières : locataires, logements et contrats de location. L'enjeu est concret dans n'importe quelle organisation : si les données sont mal structurées, elles deviennent inexploitables. La qualité de la modélisation en amont conditionne directement la fiabilité de toutes les analyses qui en découlent — c'est une leçon fondamentale pour tout futur Data Analyst.

⚙️ Actions menées
Modélisation — Définition de trois tables (locataires, logements, locations), de leurs attributs et de leurs relations via des clés primaires et étrangères pour garantir la cohérence des données.
Implémentation SQL — Création du schéma locg, des tables avec leurs contraintes sous pgAdmin. Insertion de 28 enregistrements par table via des scripts R.
Requêtes d'interrogation — Comptage des locations par logement, filtres sur les loyers (< 800 €), jointures multi-tables pour croiser les informations.
Vérification et correction — Relecture rigoureuse du code SQL, correction des erreurs de syntaxe, validation des résultats avec les enseignants.
🧠 Analyse réflexive — Compétences développées

Cette SAÉ m'a enseigné que la rigueur syntaxique est indissociable de la rigueur analytique. Une simple faute de frappe dans un nom de table peut rendre toute une base inutilisable. J'ai appris à penser la structure des données avant de les manipuler, et à concevoir un modèle suffisamment clair pour qu'une autre personne puisse s'en emparer sans erreur. Compétence clé : conception de bases de données relationnelles propres et robustes, et maîtrise de SQL pour les interroger efficacement.

📈

Évolution en 2ᵉ année : des structures de données simples (SQL, tables) vers l'analyse multivariée — méthodes qui permettent de découvrir des profils et structures cachées dans des jeux de données complexes à plusieurs dizaines de variables. Voir SAÉ 6.

SAÉ de 2ᵉ année (2025 – 2026)

La 2ᵉ année marque une montée en complexité significative : méthodes statistiques avancées, modèles prédictifs, outils professionnels (SAS, Power BI, Business Objects). Ces projets témoignent d'une capacité à traiter des problèmes réels avec des techniques adaptées, et à en communiquer les résultats de façon rigoureuse.

2ᵉ année
● 2ᵉ année ANALYSER ↑ Progression depuis la SAÉ Enquête

SAÉ 4 — Régression Multiple et ANOVA sur la Pollution à Pékin

Modélisation et prédiction des concentrations de particules fines (PM2.5) à partir de données météorologiques — Pékin, 2010–2015

la Pollution à Pékin
Illustration — La pollution à pékin.
🎯 Contexte et enjeux

La pollution aux particules fines (PM2.5) est un enjeu de santé publique critique dans les grandes métropoles asiatiques. À Pékin, les pics de pollution peuvent atteindre des niveaux alarmants, avec des impacts directs sur la santé des populations. Cette SAÉ visait à construire un modèle statistique capable d'expliquer les concentrations de polluants à la station Nongzhanguan, puis de les prédire sur de nouvelles observations.

Ce type de modèle est directement utilisé par les autorités environnementales pour déclencher des alertes pollution, anticiper des épisodes critiques et planifier des mesures préventives. Données : 1 500 observations horaires issues de plusieurs stations de Pékin (2010–2015), incluant température, humidité, pression, vitesse du vent, précipitations et mesures des stations voisines.

⚙️ Méthodes appliquées (sous R)
Régression multiple — Modèle initial — Modèle à 11 variables. R² = 0,966 : le modèle explique 96,6 % des variations de pollution. Les mesures des stations voisines (PM_Dongsi, PM_US.Post) sont les variables les plus explicatives, ce qui est cohérent géographiquement : un épisode de pollution touche toute la zone simultanément.
Nettoyage et amélioration du modèle — Suppression des points influents (distance de Cook) et des valeurs aberrantes (résidus standardisés > 3). Le modèle épuré atteint R² = 0,983 avec une erreur résiduelle standard de 9,66 — une précision nettement améliorée.
ANOVA — Effet de la direction du vent — Test de l'hypothèse : la direction du vent a-t-elle un effet sur la pollution ? Réponse : oui, très significatif (F = 40,8 ; p < 10⁻²⁵). Les vents du nord-ouest (NW) sont associés à une pollution nettement plus faible. Explication : ils apportent de l'air pur depuis les steppes de Mongolie-Intérieure, tandis que les vents du sud-est véhiculent les émissions des zones industrielles côtières.
Sélection de variables — Méthode backward (critère AIC) et recherche exhaustive (critère BIC). Résultat : un modèle simplifié à 6 variables — saison, humidité, température + 3 stations voisines — atteint les mêmes performances que le modèle complet (R² ajusté = 0,983). Gain de simplicité sans perte de précision.
Prévisions sur 10 nouvelles observations — RMSE = 11,48 µg/m³. 100 % des valeurs réelles contenues dans les intervalles de prévision, ce qui valide la robustesse du modèle hors échantillon.
la Pollution à Pékin
graphique — Distribution des concentrations de PM₂.₅ selon la direction du vent à Pékin.
🧠 Analyse réflexive — Compétences développées

Cette SAÉ m'a fait passer de la statistique descriptive (décrire ce qu'on observe) à la statistique explicative (comprendre pourquoi) et prédictive (anticiper). Un bon R² ne suffit pas : la validation des hypothèses du modèle (normalité des résidus, homoscédasticité, points influents) est indispensable pour que les conclusions soient valides et crédibles. J'ai également appris à ne pas garder systématiquement plus de variables : un modèle simple et interprétable vaut souvent mieux qu'un modèle complexe et opaque. Compétence clé : construire, valider, simplifier et communiquer un modèle de régression en contexte réel, en expliquant ses limites à un interlocuteur non statisticien.

● 2ᵉ année ANALYSER · VALORISER ↑ Progression depuis la SAÉ Genoyer

SAÉ 5 — Description et Prévision de Données Temporelles

Modélisation et prévision de la production électrique mensuelle sur 20 ans (1985–2004)

production électrique
Illustration — la production électrique mensuelle sur 20 ans.
🎯 Contexte et enjeux

Anticiper la production ou la consommation d'énergie est un enjeu industriel et économique de premier plan. Les opérateurs énergétiques, les gestionnaires de réseau, les décideurs publics : tous ont besoin de prévisions fiables pour planifier leurs investissements et leurs opérations. Cette SAÉ portait sur 240 observations mensuelles de production électrique (en MWh) sur 20 ans, avec pour objectif de modéliser les dynamiques passées pour prévoir les 12 mois de l'année 2005, accompagnées d'intervalles de confiance quantifiant l'incertitude.

⚙️ Méthodologie — Approche hybride (déterministe + stochastique)

L'idée centrale : une série temporelle se décompose en plusieurs couches superposées. Identifier et modéliser chaque couche séparément permet de reconstruire un modèle global plus précis.

Analyse descriptive et ACF — Identification visuelle d'une tendance haussière (croissance structurelle de la demande) et d'une saisonnalité annuelle très marquée (pics hivernaux). La fonction d'autocorrélation (ACF) confirme le caractère non-stationnaire de la série brute.
Estimation de la tendance — Méthode des moyennes mobiles centrées d'ordre 12, puis ajustement par régression linéaire. Pente estimée : +0,1537 MWh par mois — la production croît de façon quasi linéaire sur la période.
Modélisation saisonnière — Calcul des coefficients saisonniers pour chaque mois de l'année. Résultat : pic systématique en janvier (demande hivernale), creux en mai (basse saison). Le modèle additif est validé car l'amplitude des fluctuations reste stable malgré la hausse de la tendance.
Série CVS (Corrigée des Variations Saisonnières) — Suppression de la composante saisonnière pour isoler la tendance "pure" et préparer l'analyse des résidus.
Modèle ARMA(1,3) sur les résidus — Les résidus ne sont pas un bruit blanc : ils possèdent une structure de dépendance temporelle. Un modèle ARMA(1,3) capte cette dynamique résiduelle. Résultat : le MSE (erreur quadratique moyenne) passe de 4,81 à 3,26, soit une réduction de 32 % de l'erreur.
Prévisions 2005 — Le modèle hybride (tendance + saisonnalité + ARMA) produit des prévisions cohérentes avec les cycles historiques, avec intervalles de confiance à 80 % et 95 % pour quantifier l'incertitude.
Graphiques R — production électrique mensuelle
Graphiques réalisés sous R : évolution de la production électrique mensuelle(1985 - 2005).
Analyse réflexive — Compétences développées

Cette SAÉ m'a confronté à une difficulté propre aux données temporelles : les observations ne sont pas indépendantes. Les erreurs d'un mois influencent celles du mois suivant — ignorer cela conduit à des prévisions moins fiables. L'intégration du modèle ARMA l'a démontré concrètement : la prise en compte de la "mémoire" des erreurs passées améliore significativement la précision. J'ai aussi développé ma capacité à interpréter des graphiques techniques (ACF, PACF, éboulis) et à les rendre accessibles dans un rapport destiné à un non-spécialiste. Compétence clé : modélisation prédictive avancée sur données temporelles, avec validation rigoureuse et communication claire des résultats et de leurs limites.

● 2ᵉ année ANALYSER ↑ Progression depuis la SAÉ Base de données

SAÉ 6 — Reporting d'une Analyse Multivariée

Segmentation et profilage de clients d'une enseigne de grande distribution — ACP, AFC, CAH, K-means, ACM (R & SAS)

Analyse Multivariée
Illustration — profilage de clients d'une enseigne de grande distribution.
🎯 Contexte et enjeux

Une enseigne de grande distribution souhaitait mieux comprendre les comportements d'achat de ses 2 209 clients pour adapter sa stratégie marketing. La question centrale était simple : tous les clients se ressemblent-ils, ou existe-t-il des profils bien distincts ? Ce type d'analyse — appelée segmentation client — est au cœur des métiers de la data dans le secteur retail, la banque, les assurances et bien d'autres domaines. L'intérêt pour l'entreprise : ne pas communiquer de la même façon à un client qui dépense 500 € en vins par an et à un client qui consulte le site sans jamais acheter.

Données : 14 variables sur 2 209 clients — dépenses par catégorie (vins, viandes, fruits…), canaux d'achat (internet, catalogue, magasin), niveau d'éducation, statut civil, groupe d'âge et réponse à la dernière campagne marketing.

⚙️ Méthodes appliquées (R + SAS)

Sous R — Exploration et relations entre variables :

  • ACP (Analyse en Composantes Principales) — Réduction des 10 variables quantitatives à 3 axes synthétiques. L'axe 1 (54 % de la variance) oppose clairement les clients à forte dépense aux acheteurs passifs. Résultat notable : les seniors dépensent davantage et préfèrent les achats en magasin ou par catalogue, tandis que les adultes visitent le site web sans conclure d'achats.
  • AFC (Analyse Factorielle des Correspondances) — Croisement entre niveau d'éducation et dépenses en vins. Association significative (chi² p < 0,001) : les clients au niveau d'éducation le plus élevé tendent à dépenser davantage en vins.
  • Graphiques R — afc sur la consommation de vins selon le niveau d'études
    Graphiques réalisés sous R : consommation de vins selon le niveau d'études.

Sous SAS — Segmentation et profilage :

  • CAH (Classification Ascendante Hiérarchique) — Méthode de Ward, 4 classes retenues. Profils identifiés : Classe 2 = "meilleurs clients" (dépenses élevées, taux de réponse aux campagnes de 24 %) ; Classe 3 = clients passifs (les plus nombreux, mais les moins dépensiers) ; Classe 4 = profil "amateurs de vins" (dépenses très élevées en vins spécifiquement).
  • K-means — Consolidation en 4 clusters (pseudo-F = 788,9 : partition très nette). Concordance élevée avec la CAH, ce qui valide la robustesse de la segmentation.
  • ACM (Analyse des Correspondances Multiples) — Analyse des variables qualitatives (éducation, statut civil, âge, réponse campagne) pour valider et enrichir les profils obtenus.
Graphiques sas — acm sur le niveau d'études selon le statut social
Graphiques sas — acm sur le niveau d'études selon le statut social.
🧠 Analyse réflexive — Compétences développées

Cette SAÉ est celle qui m'a le plus mis en situation de "data analyst en entreprise". Partir de 2 209 clients et en ressortir avec 4 profils actionnables — avec leurs caractéristiques, leurs comportements d'achat, leur réceptivité aux campagnes — demande de maîtriser plusieurs méthodes et de savoir les articuler de manière cohérente pour répondre à une vraie question business. Travailler simultanément sous R et SAS m'a également appris à naviguer entre différents environnements logiciels, compétence directement valorisable dans n'importe quelle organisation. Compétence clé : combiner plusieurs méthodes multivariées pour construire une réponse complète à une question stratégique, et en présenter les résultats clairement.

● 2ᵉ année VALORISER ↑ Lien direct avec le stage Vinci Autoroutes

SAÉ 7 — Tableau de Bord Interactif sous Power BI

Analyse du marché immobilier à New York pour une agence immobilière

dashboard
dashboard — récapitulatif des indicateurs principaux.
🎯 Contexte et enjeux

Une agence immobilière souhaitait donner à ses conseillers un outil simple pour explorer le marché new-yorkais et orienter leurs clients selon leur budget, leur localisation préférée et leurs besoins en surface. L'enjeu : transformer un jeu de données brut (prix, surfaces, localisations, dates de vente) en un tableau de bord interactif, filtrable et visuellement clair, utilisable sans formation technique préalable. C'est précisément le type de mission confiée à un Data Analyst ou un spécialiste BI dans une entreprise.

⚙️ Actions menées
Vue globale du marché — KPI clés (prix moyen, nombre de ventes, prix au m²), diagramme en anneau de la répartition des ventes par zone (Manhattan concentre environ 33 % des transactions), courbe d'évolution des prix avec variations saisonnières (pics en mars et décembre).
Analyse des caractéristiques des biens — Nuage de points corrélant surface et prix, répartition par type de bien (dominance des maisons individuelles et bifamiliales), filtres dynamiques par budget et superficie.
Analyse géographique — Carte interactive des transactions avec localisation des biens, filtrages par zone et période pour que les conseillers puissent identifier rapidement les opportunités correspondant aux critères du client.
dashboard
cartographie— Carte interactive des transactions avec localisation des biens.
🧠 Analyse réflexive — Compétences développées

Power BI m'a confronté à une contrainte différente de R ou SAS : le tableau de bord doit être compris et utilisé par quelqu'un d'autre, souvent sans expertise technique. L'ergonomie, la clarté des visuels et la logique de navigation deviennent aussi importants que la justesse des calculs. J'ai appris à concevoir pour l'utilisateur final plutôt que pour l'analyste. Compétence clé : passer de la donnée brute au tableau de bord opérationnel, en prenant en compte les besoins concrets des utilisateurs. Cette compétence est directement mobilisée dans mon stage à Vinci Autoroutes.

Stage · 2026 Fin d'année BUT SD

Stage de Fin d'Année — Vinci Autoroutes

Première immersion longue en entreprise — données opérationnelles, reporting, tableaux de bord

🏗️
Vinci Autoroutes est l'un des premiers opérateurs d'infrastructures autoroutières en Europe, avec plusieurs milliers de kilomètres de réseau gérés. La donnée y joue un rôle central dans les décisions opérationnelles — trafic, maintenance, sécurité — et dans les orientations stratégiques.
🛠️ Outils et environnement de travail
Power BI Business Objects Excel
🎯 Mission principale — Tableau de bord GEP

Ma mission principale portait sur la Gestion des Événements du Péage (GEP) : le suivi des infractions et impayés sur le réseau autoroutier. Concrètement, il s'agit de tous les cas où un véhicule passe un péage sans payer — dossiers ouverts, montants dus, frais de gestion, statuts de traitement. Ces données sont réparties sur plusieurs sociétés du groupe (codes 04, 05, 06, 21, 14) et alimentent le reporting quotidien des équipes.

L'objectif : construire et fiabiliser des outils de pilotage clairs pour que les responsables puissent suivre l'état des dossiers en un coup d'œil, identifier les anomalies et piloter l'activité de recouvrement.

⚙️ Ce que j'ai fait concrètement
Requêtes Business Objects — Univers GEP — J'ai travaillé dans l'éditeur de requêtes de BO sur l'univers GEP - Gestion des Événements du Péage. J'ai sélectionné et structuré les objets utiles à l'analyse : identifiants de dossiers (DOS), événements (EVT), paiements (PAI), montants de frais de gestion (MAP), société concernée (SOC). Les filtres intègrent une plage de dates dynamique, une liste de sociétés, et une sous-requête sur les identifiants d'externalisation pour isoler les dossiers transmis à des prestataires externes.
Rapport BO multi-onglets — BDD en cours GEP — Le rapport final compte 146 éléments et est organisé en plusieurs vues : dossiers avec avance de paiement (AVEC AP), sans avance (SANS AP), classement par type de pièce courrier, par pf avéré, et deux rapports de synthèse (Rapport 5 et 6). Chaque onglet répond à un besoin de pilotage spécifique des équipes.
Export et structuration sous Excel — Les données BO sont exportées et structurées en tableaux Excel multi-onglets pour permettre des analyses transversales : par type d'événement, par classe IF, par statut (annulé ou réglé en voie), par montant de frais de gestion. Ces fichiers servent de base de travail aux équipes opérationnelles.
Tableau de bord Power BI — TDB_GEP.pbix — En parallèle des rapports BO, j'ai construit un tableau de bord Power BI dédié à la GEP. Il centralise les KPI clés (volume de dossiers, montants en attente, taux de clôture, répartition par société et par type d'événement) et permet un filtrage interactif par période et par périmètre.
🛠️ Environnement technique

Les outils utilisés en stage correspondent exactement à ce qui est déployé dans les grandes organisations : Business Objects (SAP) pour le reporting d'entreprise structuré, Power BI pour la dataviz interactive, Excel pour les analyses ad hoc.

Business Objects (SAP BO) Power BI Excel Univers GEP · ASF
🧠 Ce que ce stage m'apprend

En entreprise, les données ne sont jamais propres et immédiatement exploitables. Il faut comprendre la logique métier derrière chaque champ — qu'est-ce qu'un "pf avéré" ? pourquoi distinguer AVEC et SANS avance de paiement ? — avant même de commencer à construire un rapport. Ce stage m'a appris à poser les bonnes questions aux personnes qui connaissent le métier, et à traduire leurs besoins en indicateurs actionnables dans BO ou Power BI. Compétence clé : naviguer entre différents outils de reporting (BO, Power BI, Excel) et comprendre suffisamment le métier pour construire des livrables vraiment utiles aux équipes.

Lien avec la formation

La SAÉ Power BI (SAÉ 7) m'a directement préparé à construire le tableau de bord GEP : même logique de filtres dynamiques, même réflexion sur ce que l'utilisateur final a besoin de voir. Et la SAÉ Analyse Multivariée m'a habitué à manipuler des données avec de nombreuses dimensions simultanées — ce qui se retrouve ici avec les multiples angles d'analyse du rapport BO. Business Objects était au programme cette année, mais c'est en stage qu'on mesure vraiment la complexité d'un univers de données en production.

🎯

Prochaine étape — Alternance Data Analyst · CPAM du Var (2026–2027)

En 3ᵉ année de BUT SD, j'intègrerai la Caisse Primaire d'Assurance Maladie du Var en alternance en tant que Data Analyst. Une opportunité de contribuer à l'amélioration des services de santé publique par l'analyse de données, dans un environnement à fort impact social. À l'issue de cette alternance, mon objectif est d'intégrer un Master MIAGE pour approfondir l'articulation entre data science, systèmes d'information et management des organisations.

Annexe — Curriculum Vitæ

Synthèse des formations, expériences et mes ccompétences acquises.

Contexte socio-éducatif du Bangladesh
questionnaire — enquête réalisé sur la situation des étudiants.