Récemment j’ai eu à identifier les valeurs aberrantes d’un jeu de données afin de les exclure de mon analyse. Pour réaliser cela j’ai utilisé un graphique en histogramme introduit dans Excel 2016.
L’avantage d’utiliser un histogramme est qu’il fournit un moyen rapide pour étudier la répartition d’une variable.
Dans cet article je vous montre comment créer un histogramme dans Excel 2016 avec un exemple.
Qu’est-ce qu’un histogramme ?
Un histogramme est un type de graphique à barres qui regroupe des valeurs continues dans des plages d’intervalles (les barres verticales), et la hauteur des barres représente le nombre de valeurs appartenant à chaque intervalle.
Pour construire un histogramme, la première étape consiste à regrouper les valeurs dans des plages, c’est-à-dire diviser toutes les valeurs en une série d’intervalles continus. Puis on compte combien de valeurs tombent dans chaque intervalle.
Comment créer un histogramme dans Excel
Dans Excel 2016, Microsoft a introduit de nouveaux graphiques comprenant les histogrammes et les diagrammes de Pareto. En utilisant ces derniers, on peut rapidement créer un histogramme et comprendre la distribution de variables et identifier des valeurs aberrantes.
Par exemple, disons que vous avez des données comme ci-dessous et que vous voulez comprendre la distribution des délais de facturation de votre entreprise auprès de vos clients. Un histogramme permet de visualiser rapidement la distribution des valeurs.
- Sélectionnez la colonne Délai total
- Allez dans Insérer -> Insérer un graphique statistique -> Histogramme
- Vous obtiendrez l’histogramme des délais de facturation avec une répartition des valeurs par défaut.
,
Personnaliser l’affichage de l’histogramme
Pour personnaliser l’histogramme, faîtes un clic droit sur l’axe horizontal -> Mise en forme de l’axe.
- Par catégorie : utilisez cette option si vous souhaitez regrouper les données par catégorie. Pour utiliser cette option, vous devez définir pour l’axe des catégories des étiquettes. Par exemple, vous pouvez explorer les délais de facturation par secteur d’activité de cette façon.
- Automatique : C’est l’option par défaut. Elle classe les données en les divisant en classes de largeur h, où h = (3.5 * écart-type de l’échantillon) / (n^1 / 3) avec n = le nombre de valeurs.
- Largeur de l’emplacement : Si vous en savez plus sur vos données, vous pouvez définir une largeur de classe personnalisée pour analyser la fréquence.
Nombre d’emplacements : Vous pouvez spécifier le nombre de classes et laisser Excel décider de la largeur. - Emplacements de dépassement de capacité : Utilisez ces options pour définir les limites aux extrémités hautes et basses de vos données à regrouper.
Comment utiliser un histogramme pour repérer les “outliers” dans un jeu de données
Vos données peuvent contenir des valeurs aberrantes qui peuvent fausser une analyse. Dans l’exemple de cet article, certains délais de facturation sont beaucoup plus importants que la majorité, et empêcherait par exemple de calculer un délai moyen de facturation représentatif du processus dans son ensemble.
En traçant un histogramme avec les options d’affichage de l’axe horizontal réglées par défaut, on peut immédiatement les identifier car ces valeurs tombent dans des catégories éloignées de la majorité (ici tout à droite). Il est ensuite aisé de les écarter de l’analyse à l’aide de filtres sur les valeurs (ici on pourrait retirer toutes les valeurs supérieures à 290 jours par exemple).
Créer un histogramme dynamique
Vous pouvez combiner des histogrammes avec des filtres interactifs comme des segments pour créer des histogrammes dynamiques. Découvrez ci-dessous un exemple :
Référez-vous à cet article pour savoir comment filtrer des données dans une table avec un segment.
Suite de l’article (Diagrammes de Pareto)
La suite de l’article explique la création et l’utilisation des diagrammes de Pareto.
📥TELECHARGER LE FICHIER D’EXEMPLE
Télécharger le classeur Excel pour ce tutoriel. Seuls votre adresse e-mail et nom vous seront demandés dans la prochaine étape. Vous recevrez le lien de téléchargement par e-mail.
Synthèse de données à l’aide d’histogrammes + Pareto
Envoyer le lien de téléchargement à :