Section 8.3 Réflexions
Ce laboratoire a montré comment déterminer la présence d’un lien linéaire entre deux variables, par le biais de l’observation (qualitativement) du nuage de points et par le calcul des coefficients de corrélation et de détermination (quantitativement). Ensemble, ces informations permettent de conclure à la présence ou non d’une relation linéaire ainsi que d’en quantifier la force.
De plus, on a vu qu’il est possible d’être en présence d’une relation qui n’est pas linéaire, mais qui peut être tout de même intéressante et très forte.
Feuille d'activités Travail à faire après le laboratoire
Objectifs
Calculer des informations manquantes à l’aide de la régression linéaire.
Poser un regard critique sur les données.
Effectuer un test d’hypothèse paramétrique pour vérifier une hypothèse.
Interpréter adéquatement la conclusion d’un test.
Construire des intervalles de confiance pour estimer une variable à l’aide d’une régression.
1.
Dans le tableau des données, on remarque que plusieurs étoiles n’ont pas de valeurs pour le rayon. On peut utiliser l’équation de la droite de régression
(8.2.2) pour approximer ces données manquantes.
(a)
Dans le tableau des données, filtrer la colonne Rayon afin d’afficher uniquement les étoiles dont la valeur du rayon est absente.
(b)
Dans une nouvelle feuille de calcul, copier, le nom et la période de ces étoiles.
(c)
À l’aide de l’équation
(8.2.2), déterminer les rayons manquants dans cette feuille de calculs.
(d)
Vérifier la précision de l’approximation en cherchant les véritables valeurs des rayons des étoiles AX_Cir
(ID 207), R_Cru
(ID 209), SU_Cyg
(ID 225) et S_Sgr
(ID 397). Citer les sources utilisées.
2.
Puisque le coefficient de corrélation \(r\) est une approximation du véritable facteur de corrélation (\(\rho\)) entre les variables et qu’il dépend du hasard de l’échantillon, ainsi que de sa taille, il est possible de faire un test d’hypothèse pour évaluer si le lien est significatif. L’hypothèse nulle est \(H_0: \rho = 0\text{,}\) où \(\rho\) est la vraie valeur du facteur de corrélation entre les variables, et l’hypothèse alternative est \(H_1: \rho\neq 0\text{.}\) La règle de décision stipule de rejeter \(H_0\) lorsque \(|{T_{obs}}|>t_{n-2;\alpha/2}\) où \(t_{obs}=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}\text{.}\) Si l’on préfère utiliser la valeur \(P\text{,}\) qui dans ce cas vaut \(2P(T_{n-2}>|{t_{obs}}|)\text{,}\) on rejette \(H_0\) si celle-ci est inférieure à \(\alpha\text{.}\)
(a)
Faire le test d’hypothèse au seuil de \(5\%\) en utilisant la première méthode.
(b)
Faire le test d’hypothèse au seuil de \(1\%\) en utilisant la valeur \(P\text{.}\)
(c)
Interpréter adéquatement ce test d’hypothèses.
3.
Lorsque l’on utilise l’équation de la droite de régression pour estimer une variable à l’aide d’une autre, ce que l’on fait est en réalité un calcul de moyenne conditionnelle, à savoir si les variables \(X,Y\) sont linéairement corrélées, alors l’équation \(y=ax+b\) signifie aussi qu’en moyenne lorsque \(X=x\text{,}\) la variable \(Y\) sera égale à \(y\text{.}\) On peut utiliser ces informations pour construire un intervalle de confiance pour estimer une valeur de \(Y\) pour une valeur de \(X\) donnée, offrant ainsi plus de contrôle sur l’estimation. L’intervalle pour un niveau de confiance de \((a-\alpha)\%\) est de la forme
\begin{equation*}
[ax+b-E;ax+b+E]\text{,}
\end{equation*}
où la marge d’erreur \(E\) vaut, si \(s_x,s_y\) sont les écarts types estimés des variables \(X,Y\text{,}\)
\begin{equation*}
E=t_{n-2;\alpha/2}s_y\sqrt{\frac{1}{n}+\frac{(x-\bar{x})^2}{(n-1)s_x^2}}\text{.}
\end{equation*}
(a)
Dans une nouvelle feuille de calculs appelée IntervalleR, faire une copie des couples de données période-rayon pour les couples dont le rayon n’est pas vide.
(b)
Ajouter des colonnes Estimation, E, Binf, Bsup et P dans intervalle.(c)
À côté de ce tableau, calculer la moyenne des rayons, les écarts type pour les rayons et la période et le nombre de données dans le tableau. Inscrire aussi la valeur \(\alpha=0,05\) et calculer la cote \(t\) nécessaire.
(d)
Dans le tableau, calculer les entrées de la colonne Estimation à l’aide de l’équation de la droite de régression obtenue pendant le laboratoire.
(e)
Remplir la colonne E en calculant les marges d’erreur.
(f)
Calculer les bornes inférieures et supérieures pour les intervalles de confiance dans les colonnes suivantes.
(g)
Dans la colonne P dans intervalle, vérifier si la véritable période de chacune des étoiles se trouve dans l’intervalle de confiance construit.
(h)
Quelle est la proportion d’intervalles qui contiennent leur période? Commenter brièvement.