Vous êtes invités à annoter le contenu de ce cours. Les annotations peuvent être des corrections typographiques, des propositions ou des questions. Pour ajouter des annotations, choisissez le text que vous voulez commenter et cliquez sur . Pour accéder aux annotations crées par d'autres personnes, cliquez sur le coin supérieur de la page .

TP

Reprenons l’exercice 4.4 où on s’est proposé d’étudier le poids des poulpes femelles. On va appliquer avec quelques tests d’hypothèses à l’aide du fichier de données poulpe.csv .

  1. Récupérer le fichier poulpe.csv et charger le dans votre session .

  2. Avec la fonction str() décrire la structure des données importées.

Nous souhaitons tester l’égalité des moyennes théoriques inconnues des poids des poulpes femelles (\(\mu_1\)) et mâles (\(\mu_2\)), avec une erreur de première espèce fixée à \(5\%\).

  1. Comparer graphiquement les deux sous-populations. (On pourra afficher deux boîtes à moustaches correspondantes aux poids en fonction du sexe des poulpes)

  2. Estimer les statistiques de base (moyenne, écart-type, etc..) par sous-population.

  3. Effectuer un test d’hypothèse de comparaison de deux moyennes avec la fonction t.test().

\(p\)-value

En pratique, plutôt que de calculer la région critique en fonction de \(\alpha\), on préfère donner un seuil critique qu’on appelle \(p\)-value, qui est la plus grande valeur de \(\alpha\) conduisant à ne pas rejeter \(H_0\). Cette information permet au lecteur de conclure à l’acceptation de \(H_0\) pour tout risque de première espèce \(\alpha \leq p\text{-value}\), et à son rejet pour tout \(\alpha > p\text{-value}\).

  1. Que concluez vous?

  2. Avez vous remarqué que c’est écrit Welch Two Sample t-test dans les résultats du test effectué? C’est parce que pour comparer les moyennes des deux sous-populations il y a deux types de tests, l’un quand les variances inconnues sont différentes et l’autre quand elles sont égales. Tester l’égalité des deux variances en utilisant la fonction var.test().

Quand on utilise la fonction t.test() pour comparer les moyennes de deux sous-populations, un test d’égalité de variances est effectué. Si les variances sont différentes, c’est le test de Welch qui est appliqué. On peut préciser si les variances sont égales ou différentes avec l’argument var.equal. Nous pourrons aussi changer l’hypothèse alternative avec l’argument alternative. Ou aussi modifier le niveau de confiance du test.

  1. Pour construire le test de comparaison de moyennes, nous faisons l’hypothèse que l’estimateur de la moyenne, dans chaque sous-population, suit une loi normale. Ceci est vrai si la distribution des données suit une loi normale ou si la taille de l’échantillon est suffisamment grande (en pratique \(n > 30\)) grâce au théorème central limite. Ici les effectifs sont inférieurs à \(30\): il faut tester la normalité des données pour chaque sous-population. On pourra utiliser le test de Shapiro-Wilk avec la fonction shapiro.test(). Tester la normalité de chaque sous-population avec le test de Shapiro-Wilk.

Quand l’hypothèse de normalité est rejetée, le test d’égalité des moyennes peut être effectué à l’aide de tests non-paramétriques tels que celui de Wilcoxon (wilcox.test()) ou celui de Kruskal-Wallis (kruskal.test()).