Section 3.3 Réflexions
Compte tenu du nombre de variables quantitatives dans la base de données, le travail réalisé lors du laboratoire 3 n’est que le point de départ de l’analyse. Il est essentiel de poursuivre l’étude des mesures diagnostiques des femmes d’origine pima vivant en Arizona afin d’extraire un maximum d’informations concernant leur situation médicale.
Feuille d'activités Travail à faire après le laboratoire
Objectifs
Approfondir l’étude de la variable IMC.
Examiner les autres variables quantitatives continues (Glucose, Pression artérielle diastolique, Épaisseur de la peau, Insuline, Fonction pedigree du diabète).
Examiner une variable quantitative continue et une variable qualitative.
Formuler des conclusions.
Poser un regard critique sur les données.
Formuler des hypothèses de recherche.
1.
En deux courtes phrases, résumer la situation du diabète et de l’indice de masse corporelle chez la population de femmes pimas.
2.
Quelles sont les limites des deux études réalisées dans le laboratoire 3? Quelles variables semblent reliées entre elles?
3.
À la
Sous sous-section 3.2.1.6, on a calculé des mesures descriptives avec et sans filtrage des valeurs nulles de l’indice de masse corporelle. Expliquer les effets de ne pas exclure les valeurs nulles lors des calculs. Quel impact cela a-t-il sur les mesures descriptives? Cet impact serait-il le même si la base de données contenait 20 unités statistiques au lieu de 768?
4.
Calculer la moyenne de l’indice de masse corporelle à partir du tableau de fréquences des données groupées en classe avec les techniques vues en classe (voir la
Figure 3.2.24). La valeur obtenue est-elle la même que celle obtenue avec la formule Excel (la moyenne avec filtrage)? Sinon, expliquer la différence. Quelle valeur doit être privilégiée?
5.
Une donnée aberrante est une donnée située anormalement loin des autres observations. Une donnée est considérée comme aberrante si elle se situe à 1,5 fois l’écart interquartile
\(\left(1,5\times (Q_{3}-Q_{1})\right)\) en dessous du premier quartile ou à 1,5 fois l’écart interquartile au-dessus du troisième quartile. Dans la feuille de calcul
Étude IMC, déterminer toutes les valeurs aberrantes de l’indice de masse corporelle en effectuant les calculs nécessaires dans des cellules vides. À la
Sous sous-section 3.2.1.1, quelles valeurs auraient dû être exclues en plus des valeurs nulles? Quel graphique permet de visualiser (d’identifier d’un coup d’œil) les données aberrantes d’une variable?
6.
Devrait-on toujours exclure les valeurs aberrantes lors du traitement des données (graphiques et calculs de mesures)? Donner des exemples où l’exclusion est justifiée et des exemples où elle pourrait masquer la réalité d’un phénomène.
7.
Le choix de l’amplitude et du nombre de classes d’un histogramme peut influencer l’interprétation du graphique. Dans une nouvelle feuille de calcul intitulée
Étude IMC 2, reproduire l’histogramme de la répartition de l’échantillon des femmes d’origine pima selon l’indice de masse corporelle en regroupant les données en cinq classes. Il est préférable de refaire le tableau croisé dynamique. Il se peut que ceci affecte le regroupement fait à la
Sous sous-section 3.2.1.4. Interpréter l’allure du graphique. Comparer l’histogramme reproduit à l’histogramme fait à la
Sous sous-section 3.2.1.5.
8.
Choisir une variable quantitative continue (autre que l’IMC) à étudier. Ajouter une feuille de calcul dans le fichier Excel avec un nom approprié reflétant le contenu. Construire le tableau de fréquences ainsi que l’histogramme de la répartition de l’échantillon de femmes d’origine pima selon la variable choisie. Ne pas oublier de filtrer les données aberrantes, d’indiquer le choix de l’amplitude des classes et de regrouper les données. Interpréter le résultat.
9.
Calculer les mesures de tendance centrales, les mesures de dispersion et le troisième quintile de la variable choisie à la question précédente.
10.
Choisir une variable quantitative continue (autre que l’IMC) à étudier simultanément avec la variable qualitative Atteint. Ajouter une feuille de calcul dans le fichier Excel avec un nom approprié reflétant le contenu. Construire le tableau de fréquences à double entrée ainsi que le polygone de fréquences de la répartition de l’échantillon de femmes d’origine pima, par présence de diabète, selon la variable quantitative continue choisie. Ne pas oublier de filtrer les données aberrantes, d’indiquer le choix de l’amplitude des classes et de regrouper les données. Interpréter le résultat.
11.
Calculer et interpréter la moyenne, l’écart type corrigé et le coefficient de variation de la variable quantitative continue choisie à la question précédente par présence de diabète. Il faut faire ces calculs à l’aide d’un tableau croisé dynamique tel que présenté à la
Sous sous-section 3.2.2.3.
12.
Après avoir étudié certaines variables quantitatives, formuler quelques hypothèses de recherche en lien avec ces variables et les autres de la base de données.