Sauter au contenu
Logo image

Section 8.1 Prélab

Dans ce laboratoire, on poursuit le travail des deux laboratoires précédents à propos de la recherche d’un lien entre deux variables. En particulier, lorsque les deux variables sont quantitatives continues, on peut s’intéresser au type de lien qu’il peut y avoir entre deux variables. Ce lien peut être linéaire, polynomiale, exponentielle, logarithmique et ainsi de suite. Par simplicité, on commence par considérer uniquement les variables dont le lien semble être linéaire. Afin de tirer les bonnes conclusions, il est primordial que cette linéarité soit présente. La principale manière de constater ce type de lien est en illustrant les variables sur un nuage de points, aussi appelé diagramme de dispersion.

Feuille d'activités Travail à faire avant le cours

1.

Parmi les images suivantes, déterminer celle ou celles qui ont le plus l’allure d’un lien linéaire.
Figure 8.1.1. Un premier lien entre deux variables
Figure 8.1.2. Un deuxième lien entre deux variables
Figure 8.1.3. Un troisième lien entre deux variables
Figure 8.1.4. Un quatrième lien entre deux variables

2.

Par deux points il ne peut passer qu’une seule droite. Étant donnés un ensemble de points, il est impossible de penser qu’une relation de la forme \(y=ax+b\) pourra passer par tous les points. Il existe plusieurs manières de définir « la meilleure droite » \(y=ax+b\) représentant un ensemble de points. La plus commune est celle obtenue en appliquant la méthode des moindres carrées.
Cette méthode consiste à calculer la différence entre chacune des valeurs dépendantes des données et la valeur dépendante de l’équation d’une droite de paramètres \(a,b\) et d’additionner le carré de toutes ces différences. On cherche les valeurs de \(a\) et \(b\) qui minimise cette somme.
(a)
On considère les points \(A(1;1),B(2;3)\) et \(C(4;4)\text{.}\) Écrire les trois termes de la somme des moindres carrés pour ces trois points.
(b)
Dans un cours de calcul différentiel à plusieurs variables, on apprend que pour optimiser une fonction multivariée, il faut que les dérivées par rapport à chacune de ses variables soient égales à \(0\text{.}\) Dans le cas des moindres carrés, deux variables sont présentes. En traitant à tour de rôle l’une variable comme étant constante, calculer la dérivée de la somme obtenue à la partie précédente par rapport à l’autre variable pour obtenir deux équations linéaires en \(a,b\text{.}\)
(c)
En posant chacune de ces équations égales à 0, montrer que la droite des moindres carrés de ce problème est
\begin{equation*} y=\frac{13}{14}x+\frac{1}{2}\text{.} \end{equation*}

3.

Le fichier 13jeux_de_donnees.xlsx disponible à l’adresse adresse
 1 
github.com/JeanSebastienTurcotte/LabosStats/blob/main/assets/Base%20de%20donn%C3%A9es/13jeux_de_donnees.xlsx?raw=true
contient 13 ensembles de couples de données ayant été créés artificiellement afin de produire le résultat des exercices ci-dessous. Le but de cet exercice est de comprendre l’importance d’observer les données avant d’en tirer quelconque conclusion.
(a)
Dans une nouvelle feuille de calculs, créer un tableau croisé dynamique contenant dans la zone de saisie Colonne les entrées Valeurs_X et Valeurs_Y. Ajouter aussi un filtre avec l’entrée Jeu x
(b)
Positionner le filtre en haut du tableau sur Jeu 1.
(c)
À l’aide de fonctions Excel, calculer la moyenne des valeurs X, la moyenne des valeurs Y, l’écart type des valeurs X, l’écart type des valeurs Y ainsi que le coefficient de corrélation entre les valeurs X et Y.
(d)
Insérer un nuage de points avec les valeurs du tableau croisé dynamique.
(e)
Observer l’effet qu’a le changement du jeu de données dans le filtre sur les mesures statistiques calculées et sur l’allure du nuage de points. Commenter brièvement.

4.

Télécharger le fichier Données_Cepheides.xlsx disponible à l’adresse adresse
 2 
github.com/JeanSebastienTurcotte/LabosStats/blob/main/assets/Base%20de%20donn%C3%A9es/Donn%C3%A9es_Cepheides.xlsx?raw=true
. Ce fichier contient différentes données de \(421\) étoiles de type « céphéides ». Dans le prochain laboratoire, on cherche à déterminer s’il existe des liens linéaires entre certaines de ces variables.
(a)
Dans une feuille appelée « RP », tracer le nuage de points représentant le rayon des étoiles en fonction de leur période de pulsation. Effectuer la mise en forme appropriée.
(b)
Dans une feuille appelée «MappP », tracer le nuage de points représentant la magnitude apparente des étoiles en fonction de leur période de pulsation. Effectuer la mise en forme appropriée.
(c)
Dans une feuille appelée «MabsP », tracer le nuage de points représentant la magnitude absolue des étoiles en fonction de leur période de pulsation. Effectuer la mise en forme appropriée.
(d)
Sur chacune des trois feuilles, faire l’étude descriptive de la population telle que décrite dans la Sous sous-section 3.2.1.6 pour les variables impliquées.