Dans ce laboratoire, on poursuit le travail des deux laboratoires précédents à propos de la recherche d’un lien entre deux variables. En particulier, lorsque les deux variables sont quantitatives continues, on peut s’intéresser au type de lien qu’il peut y avoir entre deux variables. Ce lien peut être linéaire, polynomiale, exponentielle, logarithmique et ainsi de suite. Par simplicité, on commence par considérer uniquement les variables dont le lien semble être linéaire. Afin de tirer les bonnes conclusions, il est primordial que cette linéarité soit présente. La principale manière de constater ce type de lien est en illustrant les variables sur un nuage de points, aussi appelé diagramme de dispersion.
Dans le laboratore, on utilise une base de données portant sur les céphéides. Une céphéide est une étoile variable, c’est-à-dire dont la luminosité change dû à un mouvement périodique de dilatation et de contraction. La première à avoir été découverte, par l’astronome amateur John Goodricke en 1784, fait partie de la constellation Céphée, qui a par la suite prêté son nom à cette nouvelle catégorie d’étoile. Les données datent de \(1997\) et proviennent de l’Observatoire-David-Dunlap 1
Déterminer visuellement si la nature du lien entre deux variables est linéaire.
Introduire le calcul de la droite de régression.
Préparer le fichier de base de données pour le laboratoire.
1.
Parmi les images suivantes, déterminer celle ou celles qui ont le plus l’allure d’un lien linéaire.
Figure8.1.1.Un premier lien entre deux variables
Figure8.1.2.Un deuxième lien entre deux variables
Figure8.1.3.Un troisième lien entre deux variables
Figure8.1.4.Un quatrième lien entre deux variables
2.
Par deux points il ne peut passer qu’une seule droite. Étant donnés un ensemble de points, il est impossible de penser qu’une relation de la forme \(y=ax+b\) pourra passer par tous les points. Il existe plusieurs manières de définir « la meilleure droite » \(y=ax+b\) représentant un ensemble de points. La plus commune est celle obtenue en appliquant la méthode des moindres carrées.
Cette méthode consiste à calculer la différence entre chacune des valeurs dépendantes des données et la valeur dépendante de l’équation d’une droite de paramètres \(a,b\) et d’additionner le carré de toutes ces différences. On cherche les valeurs de \(a\) et \(b\) qui minimise cette somme.
(a)
On considère les points \(A(1;1),B(2;3)\) et \(C(4;4)\text{.}\) Écrire les trois termes de la somme des moindres carrés pour ces trois points.
(b)
Dans un cours de calcul différentiel à plusieurs variables, on apprend que pour optimiser une fonction multivariée, il faut que les dérivées par rapport à chacune de ses variables soient égales à \(0\text{.}\) Dans le cas des moindres carrés, ce sont les variables \(a\) et \(b\) que l’on cherche à déterminer. En traitant à tour de rôle l’une variable comme étant constante, calculer la dérivée de la somme obtenue à la partie précédente par rapport à l’autre variable pour obtenir deux équations linéaires en \(a,b\text{.}\)
(c)
En posant chacune de ces équations égales à 0, montrer que la droite des moindres carrés de ce problème est
. Ce fichier contient différentes données de \(421\) étoiles de type « céphéides ». Dans le prochain laboratoire, on cherche à déterminer s’il existe des liens linéaires entre certaines de ces variables.
(a)
En suivant les étapes présentées à la Sous sous-section 1.2.3.1, attribuer au tableau le nom « Échantillon » et en suivant les étapes présentées à la Sous sous-section 1.2.3.3, attribuer des noms aux colonnes du tableau Échantillon.
(b)
Ajouter une feuille de calcul appelée « RP ».
(c)
Insérer le nuage de points représentant le rayon des étoiles en fonction de leur période de pulsation en suivant la procédure ci-dessous. La figure Figure 8.1.5 illustre ces étapes.
Retourner à la feuille Données et cliquer sur PÉRIODE dans la zone nom.
Appuyer et maintenir la touche CTRL enfoncée et cliquer sur RAYON dans la zone nom. Relâcher la touche CTRL.
Cliquer sur l’onglet Insertion, puis sur l’icone pour ajouter un nuage de points. Sélectionner la première option.
Effectuer un clic avec le bouton droit de la souris et appuyer sur «Déplacer le graphique ».
Dans la boite qui s’ouvre, sélectionner la feuille RP et appuyer sur «OK». Le graphique est maintenant dans la feuille RP.
Effectuer la mise en forme appropriée.
Figure8.1.5.Insertion d’un nuage de points
(d)
Ajouter une feuille de calcul appelée «MappP », tracer le nuage de points représentant la magnitude apparente des étoiles en fonction de leur période de pulsation en suivant la procédure ci-dessus.
(e)
Ajouter une feuille de calcul appelée «MabsP », tracer le nuage de points représentant la magnitude absolue des étoiles en fonction de leur période de pulsation en suivant la procédure ci-dessus.
(f)
Sur chacune des trois feuilles, faire l’étude descriptive des variables de l’échantillon telle que décrite dans la Sous sous-section 3.2.1.6 pour les variables impliquées.