Dans ce laboratoire, on poursuit le travail des deux laboratoires précédents à propos de la recherche d’un lien entre deux variables. En particulier, lorsque les deux variables sont quantitatives continues, on peut s’intéresser au type de lien qu’il peut y avoir entre deux variables. Ce lien peut être linéaire, polynomiale, exponentielle, logarithmique et ainsi de suite. Par simplicité, on commence par considérer uniquement les variables dont le lien semble être linéaire. Afin de tirer les bonnes conclusions, il est primordial que cette linéarité soit présente. La principale manière de constater ce type de lien est en illustrant les variables sur un nuage de points, aussi appelé diagramme de dispersion.
Dans le laboratore, on utilise une base de données portant sur les céphéides. Une céphéide est une étoile variable, c’est-à-dire dont la luminosité change dû à un mouvement périodique de dilatation et de contraction. La première à avoir été découverte, par l’astronome amateur John Goodricke en 1784, fait partie de la constellation Céphée, qui a par la suite prêté son nom à cette nouvelle catégorie d’étoile. Les données datent de \(1997\) et proviennent de l’Observatoire-David-Dunlap à Richmond Hill, en Ontario. Cet observatoire a été désigné comme un lieu historique national en 2019. Les variables présentes dans le fichier sont
Par deux points il ne peut passer qu’une seule droite. Étant donnés un ensemble de points, il est impossible de penser qu’une relation de la forme \(y=ax+b\) pourra passer par tous les points. Il existe plusieurs manières de définir « la meilleure droite » \(y=ax+b\) représentant un ensemble de points. La plus commune est celle obtenue en appliquant la méthode des moindres carrées.
Cette méthode consiste à calculer la différence entre chacune des valeurs dépendantes des données et la valeur dépendante de l’équation d’une droite de paramètres \(a,b\) et d’additionner le carré de toutes ces différences. On cherche les valeurs de \(a\) et \(b\) qui minimise cette somme.
Dans un cours de calcul différentiel à plusieurs variables, on apprend que pour optimiser une fonction multivariée, il faut que les dérivées par rapport à chacune de ses variables soient égales à \(0\text{.}\) Dans le cas des moindres carrés, ce sont les variables \(a\) et \(b\) que l’on cherche à déterminer. En traitant à tour de rôle l’une variable comme étant constante, calculer la dérivée de la somme obtenue à la partie précédente par rapport à l’autre variable pour obtenir deux équations linéaires en \(a,b\text{.}\)
Télécharger le fichier Données_Cepheides.xlsx disponible à l’adresse suivante. Ce fichier contient différentes données de \(421\) étoiles de type « céphéides ». Dans le prochain laboratoire, on cherche à déterminer s’il existe des liens linéaires entre certaines de ces variables.
En suivant les étapes présentées à la Sous sous-section 1.2.3.1, attribuer au tableau le nom « Échantillon » et en suivant les étapes présentées à la Sous sous-section 1.2.3.3, attribuer des noms aux colonnes du tableau Échantillon.
Insérer le nuage de points représentant le rayon des étoiles en fonction de leur période de pulsation en suivant la procédure ci-dessous. La figure Figure 8.1.5 illustre ces étapes.
Retourner à la feuille Données et cliquer sur PÉRIODE dans la zone nom.
Ajouter une feuille de calcul appelée «MappP », tracer le nuage de points représentant la magnitude apparente des étoiles en fonction de leur période de pulsation en suivant la procédure ci-dessus.
Ajouter une feuille de calcul appelée «MabsP », tracer le nuage de points représentant la magnitude absolue des étoiles en fonction de leur période de pulsation en suivant la procédure ci-dessus.
Sur chacune des trois feuilles, faire un tableau de l’étude descriptive des variables de l’échantillon telle que décrite dans la Sous sous-section 3.2.1.6 pour les variables impliquées. Débuter le tableau à la cellule I3 de chaque feuille.