Dans ce laboratoire, l’objectif est de représenter la répartition de femmes pima vivant en Arizona selon leur indice de masse corporelle, ainsi que la répartition de femmes pima vivant en Arizona par présence de diabète, en fonction de l’indice de masse corporelle. Il s’agit donc de présenter les étapes de l’étude d’une variable quantitative continue, ainsi que celles de l’étude simultanée d’une variable quantitative continue avec une variable qualitative.
On introduit la notion de filtrage de données aberrantes, la création de classes pour des variables quantitatives continues, la création d’un histogramme et d’un polygone de fréquences, la mise en forme appropriée pour ces deux graphiques, ainsi que le calcul de mesures descriptives pour des variables quantitatives.
Sous-section3.2.1L’étude d’une variable quantitative continue
Les étapes de l’analyse d’une variable quantitative continue sont les suivantes : filtrage de données aberrantes, création de classes pour les valeurs de la variable, groupement des données lors de la création du tableau croisé dynamique, mise en forme de ce tableau croisé dynamique, création d’un graphique approprié, tel qu’un histogramme ou un polygone de fréquences, calcul de mesures descriptives, et enfin, interprétation des résultats. Les étapes qui suivent mènent à l’analyse de l’indice de masse corporelle.
Sous sous-section3.2.1.1Filtrer les valeurs aberrantes du tableau principal
Avant de générer un tableau croisé dynamique impliquant une variable quantitative, il est important d’effectuer une enquête préliminaire des données dans le but de filtrer, si nécessaire, des données aberrantes.
En appliquant un filtre à la variable IMC, on constate que certaines femmes ont enregistré un indice de masse corporelle de 0. Cette valeur étant impossible, il s’agit donc d’une valeur aberrante. On choisit de filtrer ces valeurs et de les exclure lors de la création du tableau de fréquences, de l’histogramme, ainsi que des calculs des mesures statistiques, car ces dernières pourraient fausser les interprétations. Les étapes suivantes mènent au filtrage du tableau principal Échantillon.
Malheureusement, ce filtrage ne s’applique que sur les données du tableau principal Échantillon et non sur les tableaux croisés dynamiques. Toutefois, il est pratique de filtrer les données brutes lors de la réalisation d’une partie d’une étude afin de pouvoir comparer les résultats obtenus et leur conformité avec les données.
Pour réaliser l’étude d’une variable quantitative continue, il est nécessaire de construire un tableau de fréquences en regroupant les valeurs en classes, car il y a trop de valeurs différentes pour permettre une synthèse efficace. Le tableau croisé dynamique généré par Excel n’est pas adéquat, puisqu’il ne regroupe pas les valeurs des variables par défaut. On commence par rappeler les étapes de création d’un tableau croisé dynamique, soit celui de la répartition d’un échantillon de femmes d’origine pima vivant en Arizona selon l’indice de masse corporelle.
Dans le classeur Excel, ajouter une nouvelle feuille de calcul intitulé Étude IMC. Déplacer cette feuille en dernière position si Excel ne le fait pas automatiquement.
Dans la zone de saisie Valeurs, cliquer sur la flèche du menu déroulant du premier onglet (Nombre de IMC), puis sélectionner l’option Paramètres des champs de valeurs pour modifier le calcul. On veut le nombre de femmes pour la deuxième colonne (et non la somme comme Excel fait par défaut). Pour Nombre de IMC 2, on veut le pourcentage de femmes (voir la Sous sous-section 1.2.6.2 pour référence).
Figure3.2.5.Les trois colonnes du tableau croisé dynamique final de la répartition de l’échantillon de femmes d’origine pima selon l’indice de masse corporelle
La première ligne du tableau croisé dynamique révèle que onze femmes ont enregistré un indice de masse corporelle de 0. Il est possible de constater que le tableau croisé dynamique n’a pas filtré les données contenant une valeur nulle comme le tableau principal Échantillon l’a fait. Il faudra refaire le filtrage pour le tableau croisé dynamique.
Même si l’on a filtré les valeurs aberrantes nulles du tableau principal, ces dernières apparaissent tout de même dans le tableau croisé dynamique. Il existe plusieurs façons de les exclure. On choisit de le faire avant de regrouper les valeurs en classes.
Dans une cellule de la première colonne du tableau croisé dynamique généré à la Sous sous-section 3.2.1.2, cliquer avec le bouton de droite de la souris. Un menu contextuel s’affiche (voir la Figure 3.2.6).
Une boite de dialogue s’affiche à l’écran. Il faut choisir d’afficher les éléments pour lesquels l’étiquette est différente de \(0\text{.}\) Ainsi, dans la zone de saisie à droite de l’option est différent de, il faut taper la valeur 0 (voir la Figure 3.2.8) et cliquer sur OK.
Comme présenté, le tableau croisé dynamique de la Figure 3.2.5 n’est pas optimal pour l’analyse de la répartition des femmes selon l’indice de masse corporelle. Un regroupement des données en classes est nécessaire. Avant de procéder, il est important de déterminer le nombre optimal de classes et l’amplitude de ces dernières. Les choix par défaut d’Excel ne sont pas toujours adéquats. Il est donc recommandé de documenter clairement les décisions prises dans la feuille de calcul afin d’en conserver une trace. Les étapes suivantes mènent au groupement des données de la variable IMC.
Taper Nombre de classes dans la cellule G5, Étendue de l’IMC dans la cellule G6, Valeur minimale de l’IMC en G7, Amplitude théorique en G8, et finalement, Amplitude choisie dans la cellule G9 (voir la Figure 3.2.9).
On souhaite calculer le nombre théorique de classes à l’aide de la formule de Sturges, soit \(1+\dfrac{10}{3}\log{n}\text{,}\) où \(n\) est le nombre de données.
Dans Excel, on peut insérer des fonctions en saisissant directement le symbole = dans une cellule, puis en tapant manuellement la fonction. ATTENTION : il ne faut jamais oublier le symboler = avant d’insérer une fonction.
Il est également possible d’insérer une fonction à partir de l’onglet Formules (voir la Figure 3.2.10), puis en cliquant sur l’icône Insérer une fonction.
En cliquant sur l’icône Insérer une fonction, il est possible d’explorer les différentes fonctions disponibles comme les fonctions statistiques (voir la Figure 3.2.11).
Dans Excel, plusieurs fonctions de base existent pour faire des calculs. Celles-ci incluent la fonction MIN (renvoie la valeur minimale), la fonction MAX (renvoie la valeur maximale), la fonction NB (renvoie le nombre de données), etc. Malheureusement, lorsque l’on applique un filtre à une variable, comme le filtre appliqué à la variable IMC, on ne peut pas utiliser les fonctions de base d’Excel. Excel pallie ce problème avec la fonction SOUS.TOTAL.
La fonction SOUS.TOTAL d’Excel permet de calculer certaines mesures statistiques (pas toutes) sur un sous-ensemble de données lorsqu’un filtre a été appliqué sur une variable (comme fait à la Sous sous-section 1.2.4.1). Cela signifie qu’Excel peut faire certains calculs sur les données filtrées.
La formule Excel LOG renvoie le logarithme de l’argument qui se trouve dans les parenthèses. Dans des formules Excel, on peut faire référence à des adresses de cellules ou au nom d’une plage de données. Il ne faut pas oublier le symbole * pour le produit.
Dans la fonction SOUS.TOTAL, le chiffre \(2\) fait référence au calcul du nombre de données. Les nombres \(1\) à \(11\) spécifie la fonction à utiliser pour calculer le sous-total. Le deuxième paramètre, soit IMC, fait référence au nom de la plage de données dont on souhaite calculer le sous-total. La fonction Excel NB renvoie le nombre de données de la plage de cellules sélectionnées. Si l’on mettait tout simplement =NB(IMC), ceci renverrait la valeur 768, soit le nombre total de cellules non vides de la variable IMC. Cependant, on veut exclure les femmes qui ont eu une valeur erronée de 0 comme indice de masse corporelle. La fonction SOUS.TOTAL permet d’exclure ces valeurs.
Dans la cellule H6, on souhaite déterminer l’étendue de l’indice de masse corporelle (valeur maximale moins la valeur minimale). Taper la formule =SOUS.TOTAL(4;IMC)-SOUS.TOTAL(5;IMC) (voir la Figure 3.2.14) suivie de la touche Enter.
La formule Excel SOUS.TOTAL(4;IMC) renvoie la plus grande valeur parmi la liste de valeurs (le maximum). La fonction Excel SOUS.TOTAL(5;IMC) renvoie la plus petite valeur parmi une liste de valeurs (le minimum).
Si l’on inscrit la formule =MIN(IMC), ceci nous renvoie la valeur 0, le minimum de la série statistique non filtrée de l’indice de masse corporelle. Cependant, on veut exclure les femmes qui ont eu une valeur erronée de 0 comme indice de masse corporelle. On recherche plutôt la deuxième plus petite valeur.
Si l’on inscrit la formule =MAX(IMC), on obtient la même valeur que =SOUS.TOTAL(4;IMC) puisqu’aucune valeur dans l’extrémité supérieure n’a été exclue.
Dans la cellule H7, taper la formule =SOUS.TOTAL(5;IMC) suivie de la touche Enter (voir la Figure 3.2.15) pour déterminer la valeur minimale des données filtrées de l’indice de masse corporelle. Il est essentiel de connaître la valeur minimale pour s’assurer de l’inclure lorsque l’on regroupe les valeurs.
On veut déterminer l’amplitude théorique de chaque classe, soit l’étendue divisée par le nombre théorique de classes. Dans la cellule H8, taper la formule =H6/H5 suivie de la touche Enter (voir la Figure 3.2.16). Dans des formules Excel, on peut faire référence à des cellules. La cellule H6 correspond à l’étendue et la cellule H5 correspond au nombre théorique de classes.
On obtient une amplitude théorique d’environ \(4,6\text{.}\) Ceci n’est pas un nombre entier. On choisit \(5\text{.}\) On écrit donc \(5\) dans la cellule H9 (voir la Figure 3.2.17).
Remarque3.2.19.Afficher les éléments sans données.
Lorsque l’on groupe les valeurs d’un tableau croisé dynamique, il est bien de s’assurer d’afficher les éléments sans données, car sinon, il se peut qu’un intervalle vide soit manquant sans qu’on s’en aperçoive.
Dans une cellule de la première colonne du tableau croisé dynamique de l’indice de masse corporelle, cliquer sur le bouton de droite de la souris (voir la Figure 3.2.20). Un menu déroulant s’affiche.
Une boite de dialogue s’affiche (voir la Figure 3.2.21). Cliquer sur l’onglet Disposition et impression. Cocher ensuite l’option Afficher les éléments sans données.
En cochant cette option, on s’assure que lorsque l’on groupera les valeurs de l’indice de masse corporelle en classes, Excel va afficher les classes qui ne contiennent aucun élément.
Dans une cellule de la première colonne du tableau croisé dynamique, cliquer à nouveau sur le bouton de droite de la souris (voir la Figure 3.2.22). Un menu déroulant s’affiche.
Une boite de dialogue s’affiche permettant à l’utilisateur de choisir un groupement approprié pour les données (voir la Figure 3.2.23). Excel propose une borne inférieure (soit \(0\text{,}\) la valeur minimale de la variable IMC, une borne supérieure (soit \(67,1\text{,}\) la valeur maximale de l’IMC) et une amplitude pour les classes (soit \(10\)).
Figure3.2.23.La boite de dialogue pour grouper les données d’un tableau croisé dynamique, ainsi que le choix de 15 comme valeur minimale et 5 comme amplitude des classes
En choisissant \(15\) comme valeur minimale de la première classe, on s’assure d’inclure la valeur minimale de \(18,2\text{.}\) La valeur \(15\) est un choix logique puisque c’est un multiple de \(5\text{.}\)
Cliquer sur OK. Le tableau croisé dynamique résultant groupe les valeurs de la variable IMC en classe d’amplitude valant \(5\) (voir la Figure 3.2.24). Puisque l’on a appliqué un filtre excluant les femmes une valeur nulle, le tableau commence à \(15\text{.}\)
On remarque que les trois dernières classes (excluant la classe \(>70\)), celles de \(55\) à \(60\text{,}\)\(60\) à \(65\) et \(65\) à \(70\text{,}\) contiennent un très faible pourcentage de données. Dans ce cas, il est conseillé de créer une classe ouverte lorsque les premières ou les dernières classes ont peu de données (moins de \(1\%\) chacune) afin de faciliter l’interprétation des données.
Dans une cellule de la première colonne du tableau croisé dynamique, cliquer sur le bouton de droite de la souris. Sélectionner l’option Grouper à nouveau. Taper \(50\) comme valeur de fin, soit la limite inférieure de la première classe ouverte (voir la Figure 3.2.25).
Lorsque vient le temps de construire l’histogramme correspondant à ce tableau, on ne peut pas avoir une classe ouverte. Ainsi, on ferme la dernière classe en lui donnant la même amplitude que les autres classes. Ceci évite d’avoir beaucoup de bandes avec peu de données. Il ne faut cependant pas oublier d’écrire une note pour informer le lecteur de ce choix.
Dans un espace sous le tableau croisé dynamique, faire la mise en forme du tableau de fréquences correspondant à la répartition des femmes selon l’indice de masse corporelle. La version finale du tableau de fréquences est présentée à la Figure 3.2.27 (voir la Sous sous-section 2.2.2.3).
Pour représenter la répartition d’un échantillon de femmes en fonction de l’indice de masse corporelle, soit une variable quantitative continue, l’histogramme est un choix de graphique approprié lorsque le nombre d’unités statistiques est important.
Dans le tableau de fréquences de la Figure 3.2.27, la dernière classe est désormais fermée de 50 à 55. Cependant, trois données se situent entre 55 et 60, et une autre entre 65 et 70. Cela réduit légèrement le nombre de classes par rapport aux prévisions faites à la Sous sous-section 3.2.1.4. Afin d’éviter un histogramme avec plusieurs bandes aux extrémités contenant peu de données, le graphique à construire devrait respecter les choix effectués lors de la création du tableau de fréquences correspondant.
Les étapes qui suivent mènent à la construction de l’histogramme représentant la répartition de l’échantillon de femmes d’origine pima selon leur indice de masse corporelle.
Sélectionner la plage de données représentant les fréquences relatives de l’indice de masse corporelle, soit la plage de cellules D5:D12 (voir la Figure 3.2.28). Ne pas sélectionner les classes de l’indice de masse corporelle, ni les titres des colonnes, ni les données de la ligne Total.
Ajouter une classe fictive nulle avant la première valeur et après la dernière valeur (\(0\%\) dans les cellules H18 et H27) (voir la Figure 3.2.29). Cette étape vise à faciliter la mise en forme de l’histogramme et à améliorer son apparence.
Il faut écrire les bornes inférieures des classes l’une à la suite de l’autre, commençant par la borne inférieure de la première classe et finissant par la borne supérieure de la dernière. Dans la cellule G19, écrire la borne inférieure de la première classe, soit \(15\text{.}\) Dans la cellule G20, écrire la borne inférieure de la deuxième classe, soit \(20\text{.}\) Dans la cellule G21, écrire \(25\) (voir la Figure 3.2.29).
Sélectionner la plage de cellules G19:G21 (voir la Figure 3.2.29). La plage est encadré d’une bordure verte et un petit carré vert apparaît dans le coin inférieur droit. Approcher le curseur au-dessus du carré vert. Dès qu’une croix noire apparaît, double-cliquer (voir la Figure 3.2.29 et la Sous sous-section G.2).
Sélectionner les valeurs des fréquences relatives de la colonne de droite incluant les \(0\%\) avant et après, soit la plage de cellules G18:H27 (voir la Figure 3.2.30).
Cliquer sur l’onglet Insertion. Dans le groupe Graphiques, cliquer sur l’icône Insérer un histogramme ou un graphique à barres (voir la Figure 3.2.31).
Dans la section Histogramme 2D, sélectionner la première option (voir la Figure 3.2.31). Le graphique ci-dessous s’affiche dans la feuille de calcul (voir la Figure 3.2.32)
Les bandes d’un histogramme doivent être collées. Sur une des bandes, cliquer avec le bouton de droite de la souris et sélectionner l’option Mettre en forme une série de données (voir la Figure 3.2.34).
À l’option Largeur des intervalles, Excel met \(219\%\) par défaut. Pour un histogramme, on veut que la largeur entre les bandes soit de \(0\%\text{.}\) Effacer \(219\) et taper \(0\) (voir la Figure 3.2.35).
Cliquer avec le bouton de droite sur une des bandes et sélectionner à nouveau l’option Mettre en forme une série de données. Sélectionner la première icône Remplissage et couleur qui ressemble à un pot de peinture (voir la Figure 3.2.37). Dans le menu Bordure, il est possible de modifier la couleur des bordures des bandes de l’histogramme. Choisir la couleur noire en trait plein (voir la Figure 3.2.38 pour le résultat).
Il faut ajuster les valeurs de l’axe horizontal pour les faire correspondre aux bornes des classes de l’indice de masse corporelle. Cliquer sur une des bandes de l’histogramme avec le bouton de droite de la souris et sélectionner l’option Sélectionner des données... (voir la Figure 3.2.39).
Une boite de dialogue s’affiche. Sous l’option Étiquettes de l’axe horizontal (abscisse) (menu droit de la boite), cliquer l’icône Modifier (voir la Figure 3.2.40).
Les valeurs des étiquettes des abscisses ne sont pas bien alignées. Il faut les aligner à droite. Cliquer sur une des valeurs de l’abscisse jusqu’à ce que l’entièreté des valeurs soit comprise dans un encadré. Cliquer sur l’onglet Accueil. Dans le groupe Alignement, cliquer sur l’icône Aligner à droite (voir la Figure 3.2.44). Il faut noter que cette option n’existe pas pour les Mac. Il vaut mieux de procéder avec un zone de texte.
Il est possible d’ajouter les étiquettes des fréquences relatives au-dessus des bandes. Cliquer avec le bouton de droite sur une des bandes de l’histogramme et sélectionner l’option Ajouter des étiquettes de donnéesFigure 3.2.46.
Avec Excel, il est possible de calculer les mesures descriptives d’une variable comme les mesures de tendance centrale (moyenne, médiane et mode), les mesures de dispersion (écart type et coefficient de variation) et les mesures de position (quantiles). Pour approfondir l’étude de l’indice de masse corporelle de l’échantillon de femmes d’origine pima, on calculera et interprétera plusieurs mesures. De plus, on a jugé bon de comparer les valeurs des mesures descriptives avec et sans le filtrage des valeurs nulles de l’indice de masse corporelle.
Dans la cellule K2 de la feuille de calcul Étude IMC, taper le titre Mesures descriptives de l’indice de masse corporelle d’un échantillon de femmes d’origine pima, Arizona (voir la Figure 3.2.49).
Cliquer sur l’onglet Accueil. Cliquer sur l’icône Alignement et sélectionner l’option Fusionner et centrer ainsi que l’option Renvoyer à la ligne automatiquement (voir la Figure 3.2.51).
Pour les fonctions statistiques, les formules sont assez intuitives. Pour le nombre de données, la formule est NB. Dans la cellule L4, taper =NB(IMC) et appuyer sur la touche Enter (voir la Figure 3.2.54).
On voit maintenant l’avantage d’avoir nommé la variable IMC dans le laboratoire \(1\text{.}\) Il n’est pas nécessaire de retourner à la feuille de calcul Données et de sélectionner la plage de données avec les valeurs de l’IMC.
Dans la cellule L9, taper =MODE.SIMPLE(IMC) et appuyer sur la touche Enter (voir la Figure 3.2.54). Noter que la fonction MODE.SIMPLE ne renvoie le mode que pour des variables quantitatives.
Dans la cellule L10, taper =ECARTYPE.STANDARD(IMC) et appuyer sur la touche Enter (voir la Figure 3.2.54). La formule ECARTYPE.PEARSON calcule l’écart type de données issues d’une population. La formule ECARTYPE.STANDARD renvoie l’écart type corrigé de données provenant d’un échantillon.
Pour le calcul du coefficient de variation, Excel ne dispose pas d’une formule intégrée dans son logiciel. Cependant, comme le calcul repose sur la moyenne et l’écart type, il peut être facilement effectué manuellement. Dans la cellule L11, taper =L10/L7 et appuyer sur la touche Enter. Il est possible de sélectionner les cellules L10 et L7 au lieu de les taper (voir la Figure 3.2.54).
Afficher le coefficient de variation en pourcentage. Sélectionner la cellule L11. Cliquer sur l’onglet Accueil. Dans le menu de l’icône Nombre, cliquer sur l’option Style de pourcentage (%) (voir la Figure 3.2.55).
Dans la cellule L12, taper =CENTILE.INCLURE(IMC;0,25) et appuyer sur la touche Enter (voir la Figure 3.2.56). Le centile recherché est le \(25^{\text{e}}\text{.}\) Le deuxième paramètre à inscrire dans la formule Excel est le centile recherché en notation décimale. Pour les quartiles, Excel a une formule leur étant dédiée, soit QUARTILE.INCLURE.
Centrer chaque mesure descriptive dans sa cellule et l’afficher avec une décimale (sauf pour le nombre de données) à l’aide des fonctionnalités disponibles dans l’onglet Accueil (voir la Figure 3.2.58).
Coller cette plage de cellules dans les cellules N2:O12. Supprimer les valeurs des mesures statistiques des cellules O4:O12 en sélectionnant la plage et en cliquant sur la touche suppr du clavier. Modifier le titre pour qu’on lise Mesures descriptives de l’indice de masse corporelle d’un échantillon filtré de femmes d’origine pima, Arizona
Le chiffre \(2\) fait référence au calcul du nombre de données. Les nombres \(1\) à \(11\) spécifie la fonction à utiliser pour calculer le sous-total. Le deuxième paramètre, soit IMC, fait référence à la plage de données dont on souhaite calculer le sous-total.
Malheureusement, Excel n’est pas en mesure de calculer la médiane du sous-total d’une plage de données. Il est donc nécessaire d’utiliser la fonction Excel SI, fonction qui permet d’appliquer des conditions lors de l’emploi d’une formule. Dans la cellule O8, taper =MEDIANE(SI(IMC <> 0 ;IMC)) et appuyer sur la touche Enter (voir la Figure 3.2.61).
Remarque3.2.60.Mesures descriptives de l’IMC utilisant un filtre.
Si l’on souhaite calculer la médiane de l’IMC en ne tenant compte que des valeurs comprises entre 20 et 40, deux approches sont possibles. On peut utiliser la formule =MEDIANE(FILTRE(IMC;(IMC>20)*(IMC < 40))) ou encore =MEDIANE(SI((IMC>20)*(IMC < 40);IMC)). Dans ce contexte, le symbole * ne représente pas une multiplication au sens arithmétique, mais une opération logique appliquée cellule par cellule. Il joue le rôle de l’opérateur logique ET. Excel calcule ainsi la médiane uniquement à partir des valeurs d’IMC comprises entre 20 et 40. De façon analogue, le symbole + agit comme un opérateur logique OU.
Malheureusement, Excel n’est pas en mesure de calculer le mode du sous-total d’une plage de données. Il faut donc utiliser la fonction Excel SI encore une fois. Dans la cellule O9, taper =MODE.SIMPLE(SI(IMC <> 0 ;IMC)) (voir la Figure 3.2.61).
La fonction SOUS.TOTAL ne permet pas de calculer des centiles. Il faut utiliser la fonction SI. Dans la cellule O12, taper =CENTILE.INCLURE(SI(IMC<> 0;IMC);0,25) et appuyer sur la touche Enter (voir la Figure 3.2.61).
Pour une étude préliminaire d’un échantillon, le troisième quartile est une mesure pertinente pour examiner l’allure globale d’une distribution et l’étalement des données. Combiné avec le premier quartile, il permet de détecter une éventuelle asymétrie dans la distribution des données. Un tableau final des mesures descriptives d’une étude préliminaire de la variable IMC filtrée se retrouve à la Figure 3.2.62.
Le diagramme à quartiles, communément appelé la «boite à moustaches», si le diagramme est placé horizontalement, illustre le premier quartile, la médiane, le troisième quartile, une valeur minimale qui est située à une distance d’une fois et demie l’écart interquartile en dessous du premier quartile, ainsi qu’une valeur maximale située à une distance d’une fois et demie l’écart interquartile au-dessus du troisième quartile. Ce graphique permet également de détecter d’un coup d’œil les asymétries possibles à l’aide de la longueur des moustaches, les deux lignes qui s’étendent des quartiles aux valeurs minimale et maximale.
Avec Excel, les détails pour tracer un diagramme à quartiles de la variable IMC sont présentés ci-dessous. Ces étapes ne sont pas à faire pour ce laboratoire. Elles sont simplement présentées pour démontrer la pertinence de ce type de graphique.
Dans la feuille Données, sélectionner la plage de données de la variable dont on souhaite tracer le diagramme à quartiles. Ici, c’est la variable IMC. S’assurer que les données de cette variable sont filtrées pour enlever les valeurs nulles. La sélection devrait être H6:H773, ou H17:H773 (quand les valeurs sont ordonnées en ordre croissant et n’incluent pas les valeurs nulles).
Faire la mise en forme du graphique. Il devrait ressembler au graphique de la Figure 3.2.65. À noter que les valeurs numériques ont été ajoutées manuellement pour montrer l’utilité de ce type de graphique.
Cliquer, en maintenant enfoncé le bouton de gauche de la souris, un endroit sous le tableau des mesures statistiques de l’IMC filtrée. Glisser le curseur vers la droite pour créer la zone de texte de taille désirée.
Sous-section3.2.2L’étude simultanée de deux variables dont l’une quantitative continue
Pour réaliser l’étude simultanée d’une variable quantitative continue et d’une variable qualitative, il est nécessaire de construire un tableau de fréquences à double entrée. Dans cette section, on va approfondir l’étude de l’indice de masse corporelle de l’échantillon de femmes d’origine pima, cette fois-ci par atteinte du diabète ou non.
Dans le classeur Excel, ajouter une nouvelle feuille de calcul intitulé Étude IMC_Atteinte. Déplacer cette feuille en dernière position si Excel ne le fait pas automatiquement.
Pour créer un tableau à double entrée, il faut placer une variable en ligne et une variable en colonne. Glisser et déposer la variable IMC dans la zone de saisie Lignes. Glisser et déposer la variable Atteinte dans la zone de saisie Colonnes (voir la Figure 3.2.67).
Les classes de la variable IMC sont désormais en ligne, et les deux modalités de la variable Atteinte sont en colonnes. Il est possible de constater que l’indice de masse corporelle, variable quantitative continue, a été regroupé en classes avec le même groupement que fait à la Sous sous-section 3.2.1.4 (voir la Figure 3.2.68).
Dans la zone de saisie Valeurs, cliquer sur la flèche du menu déroulant de la variable, puis sélectionner l’option Paramètres des champs de valeurs pour modifier le calcul.
Dans l’onglet Synthèse des valeurs par, s’assurer que le type de calcul sélectionné est Nombre puisque l’on veut compter le nombre de femmes dans chaque catégorie. Ensuite, cliquer sur l’onglet Afficher les valeurs, suivi de la flèche du menu déroulant et sélectionner l’option % du total de la colonne (voir la Figure 3.2.70).
Le choix d’afficher les valeurs en pourcentage du total de la colonne est déterminé en fonction de l’analyse souhaitée. L’objectif est de mettre en évidence la répartition des femmes d’origine pima, PAR présence de diabète, selon l’indice de masse corporelle. On obtient le tableau croisé dynamique de la Figure 3.2.71
Figure3.2.71.Les trois colonnes du tableau croisé dynamique final de la répartition des femmes selon l’indice de masse corporelle par présence de diabète
Il faut filtrer les valeurs nulles encore une fois et créer une classe ouverte regroupant les trois dernières classes puisque celles-ci contiennent peu de données (revoir les étapes de la Sous sous-section 3.2.1.3 et de la Sous sous-section 3.2.1.4). L’allure du tableau croisé dynamique final est présentée à la Figure 3.2.72.
Copier et coller les classes et les pourcentages de chaque catégorie du tableau croisé dynamique dans l’endroit souhaité de la feuille de calcul et faire le formatage du tableau à double entrée. L’allure du tableau croisé dynamique final est présentée à la Figure 3.2.72.
Pour représenter simultanément deux variables, l’une quantitative et l’autre qualitative, le polygone de fréquences est l’option à privilégier. Sur l’axe des abscisses, on place la variable quantitative continue, chaque courbe représente ensuite les différentes modalités de la variable qualitative.
Les étapes qui suivent mènent à la construction du polygone de fréquences de la répartition de l’échantillon de femmes d’origine pima, par présence de diabète, selon l’indice de masse corporelle.
Sélectionner la plage de données représentant les fréquences relatives de l’indice de masse corporelle par présence de diabète, soit la plage de cellules C5:D12. Ne pas sélectionner les classes de l’indice de masse corporelle, ni les titres des colonnes, ni les données de la ligne et de la colonne Total général.
Ajouter une classe fictive nulle avant et après les fréquences relatives (\(0\%\) avant les premiers pourcentages dans les cellules H21 et I21 et \(0\%\) après les derniers pourcentages dans les cellules H30 et I30) (voir la Figure 3.2.75). Cette étape facilite la mise en forme du polygone de fréquences et améliore son apparence.
Dans les cellules H20 et I20, ajouter des titres aux colonnes pour chaque modalité, soit Non pour la colonne H et Oui pour la colonne I (voir la Figure 3.2.75).
Dans un polygone de fréquences, chaque fréquence relative est associée au point milieu de sa classe. Il faut ainsi trouver les points milieux. Dans la cellule G22, écrire la valeur du point milieu de la première classe, soit \(17,5\text{.}\) Dans la cellule G23, écrire la valeur du point milieu de la deuxième classe, soit \(22,5\) (voir la Figure 3.2.75).
Sélectionner la plage de cellules G22:G23 (voir la Figure 3.2.75). La plage est encadré d’une bordure verte et un petit carré vert apparaît dans le coin inférieur droit. Approcher le curseur au-dessus du carré vert. Dès qu’une croix noire apparaît, double-cliquer (voir la Figure 3.2.75).
Dans la section Courbe 2D, sélectionner la quatrième option, soit Courbes avec marques (voir la Figure 3.2.77). Le graphique ci-dessous s’affiche (voir la Figure 3.2.78)
Il est possible de déplacer la légende des modalités de la variable qualitative. Cliquer avec le bouton de droite de la souris sur une des modalités de la légende et sélectionner le dernier onglet Format de la légende (voir la Figure 3.2.79)
Une boite de dialogue s’affiche à droite de la feuille de calcul. Changer l’option de l’emplacement bas pour droite afin que la légende s’affiche à droite du polygone de fréquences (voir la Figure 3.2.80).
Il est possible d’enlever les lignes horizontales grisées pour avoir un fond purement blanc (voir la Figure 3.2.83). Cliquer sur une des lignes horizontales. L’ensemble des lignes est désormais sélectionné. Appuyer sur la touche suppr du clavier.
Il est possible de lisser le polygone, c’est-à-dire ne pas avoir une courbe avec marques. Cliquer avec le bouton de droite de la souris sur le fond blanc du graphique. Sélection l’option Modifier le type de graphique (voir la Figure 3.2.84).
Une boite de dialogue s’affiche (voir la Figure 3.2.85). Sélectionner la première option parmi les sept options de courbes 2D, soit Courbe, et cliquer sur OK.
Malheureusement, le logiciel Excel n’a pas de formule qui calcule les mesures descriptives du croisement de deux variables. Cependant, les tableaux croisés dynamiques permettent de faire certains calculs comme la moyenne et l’écart type.
Dans la zone de saisie Valeurs, cliquer sur la flèche du menu déroulant de la variable IMC, puis sélectionner l’option Paramètres des champs de valeurs pour modifier le calcul (voir la Figure 3.2.87).
Dans la zone de saisie Valeurs, cliquer sur la flèche du menu déroulant de la variable IMC nouvellement ajoutée, puis sélectionner l’option Paramètres des champs de valeurs pour modifier le calcul. Dans l’onglet Synthèse des valeurs par, sélectionner l’option de calcul Ecartype.
Remarque3.2.91.Mesures descriptives de l’IMC par présence de diabète.
Il faut rappeler que dans un tableau croisé dynamique, les calculs sont effectués sur des données non filtrées. Un filtrage est nécessaire pour obtenir les moyennes et les écarts types corrigés sans tenir compte des valeurs nulles de l’indice de masse corporelle.
Cliquer sur l’option Filtres et l’option Segments (voir la Figure 3.2.92). Un segment est un outil de filtrage qui permet de filtrer, entre autres, les données d’un tableau croisé dynamique.
Toutes les classes sont en bleues. Cela signifie que toutes les valeurs sont incluses dans les calculs du tableau croisé dynamique. Puisque l’on veut exclure les valeurs inférieures à 15 (soit les valeurs nulles), décliquer l’option < 15 (voir la Figure 3.2.95).
Ajouter une colonne à droite de l’écart type corrigé pour le calcul du coefficient de variation. Dans la cellule L10, taper =K11/J11 (voir la Figure 3.2.97).
Copier la formule de la cellule L11 dans les cellules L12 et L13 en faisant un remplissage automatique (voir la Sous sous-section G.1 et Figure 3.2.98 pour le résultat).