Dans ce laboratoire, on cherche à représenter la répartition du nombre de femmes d’origine pima vivant en Arizona qui sont atteintes du diabète, ainsi que leur répartition selon leur niveau d’obésité, tel que qualifié par Santé Canada en fonction de l’indice de masse corporelle.
Pour cela, on utilise les variables Atteint et Obésité, dont les tableaux croisés dynamiques ont été construits respectivement au Laboratoire 1 et à l’exercice préparatoire. On rappelle que, pour la variable Atteint, le code \(0\) signifie l’absence de diabète et le code \(1\) signifie que la femme est atteinte du diabète. Pour la variable Obésité, l’échelle de \(1\) à \(6\) se traduit par:
Dans ce laboratoire, on introduit la notion de mise en forme d’un tableau à des fins de publication, la création d’un diagramme circulaire et d’un diagramme à bandes, ainsi que la mise en forme appropriée pour ces deux éléments graphiques.
Avant chaque laboratoire, on cherche à consolider les notions abordées dans les laboratoires précédents et à préparer les fichiers de travail. Pour préparer ce laboratoire, on poursuit l’étude des données diagnostiques de 768 femmes d’origine pima de l’Arizona à partir de la base de données du laboratoire d’introduction 1.
Dans le fichier Excel du laboratoire 1 (Données_Diabète.xlsx), créer une nouvelle feuille de calcul intitulée Étude Obésité. Dans celle-ci, générer le tableau croisé dynamique de la répartition des femmes selon la variable Obésité.
Sous-section2.2.2Tableau d’une variable qualitative
Les étapes de l’analyse d’une variable qualitative sont les suivantes : filtrage de données aberrantes, création du tableau croisé dynamique, mise en forme de ce tableau croisé dynamique, création d’un graphique approprié, tel qu’un diagramme circulaire ou un diagramme à bandes verticales ou horizontales, calcul de quelques mesures descriptives comme le mode, et enfin, interprétation des résultats. Les étapes qui suivent mènent à l’analyse de la présence de diabète chez les 768 femmes d’origine pima de l’échantillon.
La première étape de l’étude d’une variable qualitative est la création d’un tableau croisé dynamique. Les étapes menant à la construction du tableau de la répartition des femmes selon la présence de diabète ont été présentées à la fin du laboratoire 1 (voir la Sous-section 1.2.6).
Le tableau croisé dynamique construit par Excel à la fin du laboratoire 1 n’est pas adéquat si l’on souhaite le publier comme source d’information. Par exemple, il est nécessaire de préciser le nom des catégories, d’ajouter un titre significatif et la source des données. Les étapes suivantes mènent à la construction d’un tableau plus propice au partage des informations.
Il est possible qu’il faille changer le format de la cellule pour Pourcentage (voir Format de cellule en pourcentage). On s’assure de garder deux chiffres significatifs après la virgule. L’animation ci-dessous permet de voir à quoi ressemble la progression de ces étapes.
Il est possible qu’il faille changer le format de la cellule pour Pourcentage (voir Format de cellule en pourcentage). On s’assure de garder deux chiffres significatifs après la virgule. L’animation ci-dessous permet de voir à quoi ressemble la progression de ces étapes.
Une fois les données extraites du tableau croisé dynamique, on ajoute les étiquettes de colonnes et de lignes, le titre du tableau et la source des données. Pour le moment, on ne se soucie pas de la mise en forme de ces éléments. Dans un premier temps, pour le tableau concernant la variable Atteint du diabète, les étapes qui suivent devraient mener à un tableau de quatre lignes et trois colonnes.
Liste2.2.3.Mise en forme du tableau pour publication
Dans la cellule F3, on ajoute une colonne appelée «Présence du diabète» dont les lignes sont, du haut vers le bas : «Non»,«Oui»,«Total». La colonne «Présence du diabète» se trouve donc dans la colonne F de la feuille de calcul.
On ajoute le titre des autres colonnes, de gauche à droite : «Nombre de femmes» (cellule G3) et «Pourcentage de femmes» (cellule H3). On élargit les colonnes de manière à ce que le tout soit lisible.
Dans la dernière ligne, soit la ligne \(6\text{,}\) on a le total du nombre de femmes sous chaque colonne. Sous la colonne Pourcentage de femmes à la ligne Total, on s’assure qu’il est toujours écrit \(100\%\text{,}\) même si l’addition des nombres dans la colonne pourrait ne pas donner \(100\%\) en raison d’erreur d’arrondi. Dans de tels cas, on l’indiquera sous le tableau à l’aide de la note : «En raison de l’arrondissement des pourcentages, le total pourrait ne pas être exactement de \(100,00\%\text{.}\)»
Sous le tableau, on inscrit la source des données. Dans le cas de cette étude, la source est donnée dans la Section 1.1. La mention «Source : National Institute of Diabetes and Digestive and Kidney Diseases (USA)» doit apparaitre sous chacun des tableaux et des graphiques créés pour publication.
On titre le tableau. Le titre aura généralement la forme Répartition d’un échantillon (ou d’une population) de [unités statistiques] selon [la variable], [le lieu], [période ou date]. Écrire ce titre dans la cellule F1.
Cliquer sur l’onglet Accueil Dans le groupe Alignement, sélectionner l’option Fusionner et centrer (voir la Figure 2.2.4). Les cellules F1:H2 sont maintenant considérées comme une seule cellule.
Le titre est cependant sur une ligne. On aimerait qu’il soit sur plus d’une ligne pour qu’il soit lisible. Dans le groupe Alignement, sélectionner l’option Renvoyer à la ligne automatiquement (voir la Figure 2.2.4). On peut mettre le titre en gras et augmenter la police si l’on veut.
Ces tableaux sont appelés tableau de fréquences de la variable étudiée. S’il n’y a que la colonne du nombre d’individus, on parle alors de tableau de fréquences absolues et, s’il n’y a que la colonne des pourcentages, on dit tableau de fréquences relatives.
Sous-section2.2.3Graphiques d’une variable qualitative
Un tableau est une excellente manière de rassembler l’information d’une variable qualitative. Cela dit, illustrer la répartition des unités de manière graphique peut être aussi, et même davantage, utile. Pour une variable qualitative, il existe deux types de graphiques principaux: le diagramme circulaire et le diagramme à bandes. Dans le second cas, les bandes peuvent être horizontales ou verticales, mais, si la variable est ordinale, on préfère le diagramme à bandes verticales.
On construit le diagramme circulaire associé à la variable Atteint. On choisit de faire la répartition en pourcentage des effectifs.
Dans le tableau de fréquences de la feuille Étude Atteint, sélectionner les modalités de la variable aux cellules F4:F5 et, en maintenant la touche Ctrl enfoncée, les effectifs relatifs aux cellules H4:H5.
Sous Secteur 2D, cliquer sur le premier type de graphique à gauche, appelé Secteur (voir la Figure 2.2.5). Le graphique créé sera inséré dans la feuille. Déplacer le graphique au besoin.
On peut sélectionner un style prédéfini sous l’onglet création de graphique (apparaissant lorsque le graphique est sélectionné, voir la figure Figure 2.2.6) ou encore peaufiner les éléments graphiques selon ce qui est attendu. Toutefois, en sciences, l’allure esthétique du graphique ne devrait pas prendre le dessus sur l’information transmise. On préfèrera un style relativement neutre sans trop de fioritures. Le graphique circulaire doit contenir les éléments suivants:
Un titre représentatif, typiquement de la forme Répartition d’un échantillon (ou d’une population) de [unités statistiques] selon [la variable], [le lieu], [période ou date];
Si l’un ou plusieurs de ces éléments est manquant, on peut, lorsque le graphique est sélectionné, cliquer sur l’onglet Création de graphique et cliquer sur le bouton Ajouter un élément graphique situé dans la partie gauche du ruban. Il est aussi possible de cliquer sur le petit symbole de croix en haut à droite du graphique. La figure Figure 2.2.7 illustre ces deux options.
On construit maintenant le diagramme à bandes pour la variable Obésité. Comme la variable est qualitative et a une échelle ordinale, on choisit les bandes verticales. On choisit d’utiliser les effectifs relatifs.
Dans le tableau de fréquences de la feuille Étude Obésité, sélectionner les modalités de la variable et, en maintenant la touche Ctrl enfoncée, les effectifs relatifs.
On peut sélectionner un style prédéfini ou encore peaufiner les éléments graphiques selon ce qui est attendu. Toutefois, en sciences, l’allure esthétique du graphique ne devrait pas prendre le dessus sur l’information transmise. On préfèrera un style relativement neutre sans trop de fioritures. Le diagramme à bandes doit contenir les éléments suivants:
Un titre représentatif, typiquement de la forme Répartition d’un échantillon (ou d’une population) de [unités statistiques] selon [la variable], [le lieu], [période ou date];
Le nom des modalités identifié clairement, sous l’axe (pour un graphique à bandes verticales), à la gauche (pour un graphique à bandes horizontales) ou encore dans une légende (pour les deux types de graphiques).
Si l’un ou plusieurs de ces éléments sont manquants, on peut, lorsque le graphique est sélectionné, cliquer sur l’onglet Création de graphique et cliquer sur le bouton Ajouter un élément graphique. Il est aussi possible de cliquer sur le petit symbole de croix en haut à droite du graphique. La figure Figure 2.2.7 illustre ces deux options.