Exercices

Exercice 6.1 La directrice d’une entreprise de mise en boîtes de jus d’orange désire comparer la performance de deux chaînes de mise en boîte de son usine. Comme la chaîne \(1\) est relativement récente, elle pense qu’elle produit en moyenne un plus grand nombre de caisses par jour que la chaîne \(2\), plus ancienne. On considère que la loi normale est un bon modèle pour cette variable. Dix jours de production sont sélectionnés au hasard pour chaque chaîne. Selon ces données, \(\overline{x}_1=824.9\) caisses par jour et \(\overline{x}_2=818.6\) caisses par jour. On sait par expérience d’exploitation de ce type d’équipement que \(\sigma_1^2=40\) et que \(\sigma_2^2=50\). Est-ce que la directrice peut favoriser la chaîne \(1\) au seuil d’erreur \(\alpha = 5\%\)?

Exercice 6.2 Une société de production d’électricité éolienne, cherche à comparer l’efficacité de deux types d’éoliennes: une éolienne à deux pales (E2p) et une éolienne à trois pales (E3p). Pour ce faire, elle a installé sur un même parc éolien une éolienne de chaque type, et a relevé les puissances de chaque éolienne (en kW) toutes les 10 minutes.

Afin de comparer les productions des éoliennes, l’ingénieur statisticien a prélevé aléatoirement dans la base de données, et ce de façon indépendante pour chaque éolienne, les \(9\) puissances (en kW) suivantes:

E2p 5 18 19 11 6 19 20 22 17
1. Définir 2. Donner 3. Donner 4. Donner 5. Peut-on 6. Peut-on 7. Pouvez- les une une un i sup aff vous deux estim estim nterv poser irmer , ave vari ation ation alle que , ave c cet ables ponc ponc de co les p c un te ét alé tuel tuel nfia uiss risq ude, atoir le de le de nce à ances ue d’ cons es ét la p la v $95
des erreu eille
udiée uissa ariab %$ à deux r de r à l s. nce moyenne de chaque éolienne. ilité de la puissance de chaque éolienne. la puissance moyenne de chaque éolienne. éoliennes ont la même variabilité? \(1\%\), que la puissance moyenne de l’éolienne à 3 pales est supérieure à la puissance moyenne de l’éolienne à 2 pales? a société un type particulier d’éolienne ?
Après six rBlo mois ck{ex d’ut ercis ilisa e}<di tion, v cl il ass=” const exerc ate q ise”> ue su Exercice 6.3 Pour sa fabrication, un industriel utilise des machines de deux constructeurs différents. r les \(80\) machines du type \(A\), \(50\) ne sont jamais tombées en panne, alors que pour le type \(B\) la proportion est de \(40\) sur \(60\). Peut-on considérer que ces deux types de machines sont équivalents au seuil d’erreur \(\alpha = 5\%\)?
<!–chapte r:en d:tes t-hyp 2_td. Rmd- ->
# TP {-}
Reprenons l’ex ercic e @r ef(po ulpe s) où on s ’est proposé d’étudier le poids des poulpes femelles. On va appliquer avec quelques tests d’hypothèses à l’aide du fichier de données poulpe.csv .
1. Récupér er l e fic hier [poul pe.c sv `< svg a ria-h idden=“true” role=“img” viewBox=“0 0 512 512” style=“height:1em;width:1em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;”>{=html}](datasets/poulpe.csv) et charger le dans votre session`{=html}.
2. Avec la fon ction `str ()` d écri re la stru cture des données importées.
Nous souha iton s tes ter l ’égal ité des m oyenn es th éoriques inconnues des poids des poulpes femelles (\(\mu_1\)) et mâles (\(\mu_2\)), avec une erreur de première espèce fixée à \(5\%\).
3. Compare r gr aphiq uemen t les deu x sou s-pop ulati ons. (On pourra afficher deux boîtes à moustaches correspondantes aux poids en fonction du sexe des poulpes)
4. Estimer les stat istiq ues d e ba se (m oyenn e, éc art-type, etc..) par sous-population.
5. Effectu er u n tes t d’h ypoth èse de co mpara ison de deux moyennes avec la fonction t.test().
:::rmdinsi **\(p\)-valu ght e**
En pratiqu lecteur de ::: e, p con lutôt clure que à l’ de ca accep lcul tati er la on de régi $H_0 on cr $ pou itique en fonction de \(\alpha\), on préfère donner un seuil critique qu’on appelle \(p\)-value, qui est la plus grande valeur de \(\alpha\) conduisant à ne pas rejeter \(H_0\). Cette information permet au r tout risque de première espèce \(\alpha \leq p\text{-value}\), et à son rejet pour tout \(\alpha > p\text{-value}\).
6. Que con clue z vou s?
7. Avez vo us r emarq ué qu e c’e st é crit `Welc h Two Sample t-testdans les résultats du test effectué? C'est parce que pour comparer les moyennes des deux sous-populations il y a deux types de tests, l'un quand les variances inconnues sont différentes et l'autre quand elles sont égales. Tester l'égalité des deux variances en utilisant la fonctionvar.test()`.
:::rmdinsi Quand on u ::: ght tili se la fonc tion `t.t est() ` pou r com parer les moyennes de deux sous-populations, un test d’égalité de variances est effectué. Si les variances sont différentes, c’est le test de Welch qui est appliqué. On peut préciser si les variances sont égales ou différentes avec l’argument var.equal. Nous pourrons aussi changer l’hypothèse alternative avec l’argument alternative. Ou aussi modifier le niveau de confiance du test.
8. Pour co nstr uire le te st de com parai son d e moy ennes, nous faisons l’hypothèse que l’estimateur de la moyenne, dans chaque sous-population, suit une loi normale. Ceci est vrai si la distribution des données suit une loi normale ou si la taille de l’échantillon est suffisamment grande (en pratique \(n > 30\)) grâce au théorème central limite. Ici les effectifs sont inférieurs à \(30\): il faut tester la normalité des données pour chaque sous-population. On pourra utiliser le test de Shapiro-Wilk avec la fonction shapiro.test(). Tester la normalité de chaque sous-population avec le test de Shapiro-Wilk.
:::rmdinsi Quand l’hy ::: ght poth èse d e nor malit é es t rej etée, le t est d’égalité des moyennes peut être effectué à l’aide de tests non-paramétriques tels que celui de Wilcoxon (wilcox.test()) ou celui de Kruskal-Wallis (kruskal.test()).
<!–chapte r:en d:tes t-hyp 2_tp. Rmd- ->
# (PART* ) Sé ance 9 {-}
# Tests de Khi -deux $ i^2$ {#te sts-d e-khi -deux }
Nous termi nons ce m odule par une prése ntati on du plus célèbre des tests d’hypothèses, le test du \(\chi^2\). Il y a en fait plusieurs variantes de ce test.
## Test d’ ajus temen t de $ ^2$
Les procéd problèmes les hypoth connaisse désire tes tester l’h ures dont èses pas ter ypot de t on c port la di l’hyp hèse ests onnaî ent s strib othès que $ d’hyp t la ur le ution e que X$ su othè form s pa de \(X\) it l ses d e de ramèt proba suit a loi iscut la fo res d bilit une norm ées d nctio e la é de loi d ale. ans les chapitres précédents conviennent pour les n de densité de la variable aléatoire, et dont distribution. Par contre, il peut arriver qu’on ne la variable aléatoire étudiée, disons \(X\), et qu’on e probabilité particulière. On veut, par exemple, Un graphique quantile-quantile (qqplot) peut nous donner une première idée de la réponse à cette question. Dans cette section, on décrira une procédure formelle de test d’ajustement basée sur la loi du \(\chi^2\).
**La procé dure du t est**
La procédu \(X\), dont \(i\)-ième c espérée da nécessaire d’espéranc re d la f lass ns l ment es). u tes oncti e. A a \(i\) des t req on de l’aid -ième nombr uiert dens e de clas es en un ité la d se $ tier échan de pr istri E_{i} s, et tillo obabi butio $. (N qu’e n alé lité n hyp otons lles atoire de taille \(n\) de la variable aléatoire est inconnue. Ces \(n\) observations sont disposées dans un tableau de fréquences ayant \(k\) classes. Soit \(O_{i}\) la fréquence observée dans la othétique de probabilité, on calcule la fréquence que les fréquences espérées ne sont pas n’ont pas à être arrondies puisqu’il s’agit
Pour teste \[ \begin{ali {H}_{0} &: {H}_{1} &: \end{align \] r le s hyp othès es
La statist ique du t est e st
\[ U_{0}= n \ \] sum_ {i=1} ^{k} { ft(O_ {i}-E _{i}
right)^{2}}{E_{i}} = _{i=1}^{k}
Cette stat quantités avec $k-p- isti obse 1$ d que p rvées egrés eut ê . On de l tre c peut ibert onsi démo é, o dérée ntrer ù \(p\) comm que repr e une $U_{0 ésent distance entre le modèle proposé et les }$ suit approximativement la loi du \(\chi^2\) e le nombre de paramètres de la distribution hypothétique estimée à partir de l’échantillon. Cette approximation s’améliore lorsque \(n\) augmente.
:::rmdinsi **Critère ght de r ejet de $H _0$ d u te st d’ ajust ement du \(\chi^2\)**
On rejette ::: l’h ypoth èse q ue $X $ su it la dist ribut ion hypothétique si \(u_0 > \chi^2_{1-\alpha,k-p-1}\)
## Test d’ indé penda nce d e $ hi^2 $
Les tests bien sûr, d’hy s’il pothè exis ses p te un ermet e int tent erac égal tion ement entre de v deux érifier, avec une certaine probabilité d’erreur, variables catégoriques (e.g. discrètes, qualitatives), ou si plusieurs populations présentent les mêmes proportions dans les diverses catégories d’une variable. Nous discutons dans cette section le test d’indépendance de deux variables qualitatives.
**La procé dure du t est**
On peut so considérer indépendan uven la t de t cla popul la d sser ation iscip les $ des line n$ é ingé étud lémen nieur iée. ts d’ s du un éc pays hantillon suivant deux critères différents, c’est-à-dire selon les valeurs de deux variables aléatoires discrètes ou qualitatives. Il est alors intéressant de savoir si les deux variables sont statistiquement indépendantes. On peut, par exemple, et vouloir déterminer si le salaire de départ est
On considè re d ans c e par agrap he d eux v ariab les q ualitatives observées simultanément sur \(n\) individus. On suppose que la première, notée \(X,\) possède \(r\) modalités notées \(x_{1}, \ldots, x_{\ell}, \ldots, x_{r},\) et que la seconde, notée \(Y,\) possède \(c\) modalités notées \(y_{1}, \ldots, y_{h}, \ldots, y_{c}\).
Ces donnée de conting de \(Y\) en générique \(y_{h}\) de s so ence colo le n \(Y\) nt pr **, d nnes. ombre ; les ésent ans l Ce t $n_{ quan ées d equel ablea tités ans on u es h}$ $n_ un ta dispo t don d’obs { bleau se le c de ervat h}$ à do s mod dimen ions sont uble entrée, appelé **tables alités de \(X\) en lignes et celles sion \(r \times c\) et a pour élément conjointes des modalités \(x_{\ell}\) de \(X\) et appelées les effectifs conjoints.
Une table de c ontin gence se p rése nte d onc s ous l a forme suivante:
<table cla ss=” table tabl e-str iped ” sty le=“w idth: auto !important; margin-left: auto; margin-right: auto;“>
Les quanti effectifs et ils vér tés marg ifie $n_{
inaux nt $
ell
; ils sum_{
bulle sont = t}(
déf 1}^{
ell=1 inis r} n_ , par $ { ots, n_{ r)$ et \(n_{\bullet h}(h=1, \ldots, c)\) sont appelées les ll }={h=1}^{c} n{h}$ et \(n_{\bullet h}=\sum_{\ell=1}^{r} n_{\ell h}\) let}={h=1}^{c} n{h}=n$.
De façon a nalo gue, on pe ut dé fini r les noti ons d e fréquences conjointes et de fréquences marginales.
On désire test er l’ hypot hèse que les v ariab le $X $ et \(Y\) sont indépendantes:
\[ \begin{ali H_{0}&: X H_{1}&: X \end{align \] Si l’on re gned ed} } t { e t { e
**La stati stiq ue Kh i-deu x**
Il est cou d’effectif (et appelé rant con e st en s joint andar tatis géné d), d tique rique ’effe de $n_ ctif compa { conj rer u h},$ oint ne ta à un génér ble de contingence observée, e table de contingence donnée a priori ique \(s_{\ell h},\) en calculant la quantié
\[ \sum_{\ell \] =1}^ {r}
sum_{ h=1}^ {c} { t(n_{ h}-s_{h})^{2}}{s_{h}}
De façon n utilise do atur nc l elle, ’indi pour ce ap mesu pelé rer khi- la li deux aison (chi- sur squar une table de contingence, on e) et défini comme suit:
\[ U_0 = \chi \] ^{2} = _{ l=1}^ {r} _ {h=1} ^{c} =n^2_{(r-1)(c-1)}
Comme dans le cas d u tes t d’a just ement du $ ^ 2$ , on peut interpréter la statistique \(U_0\) comme une “distance” entre le modèle d’indépendance hypothétique et les fréquences observées. Si cette distance est trop grande, il faut rejeter le modèle.
:::rmdinsi **Critère ght de r ejet de $H _0$ d e l’ indép endan ce de deux variables qualitatives**
On rejette ::: l’h ypoth èse d ’indé pend ance si $u _0 > ^2_{1-,(r-1)(c-1)}$
<!–chapte r:en d:tes t-hyp 3.Rmd –>
# Exercice s {- }
<!– 325 a ppli quées –>
rBlo ck{ex ercis e}<di v cl ass=” exerc ise”> Exercice 6.4 Un informaticien a développé un algorithme pour générer des nombres entiers pseudo-aléatoires de manière uniforme sur l’intervalle \([0,9]\). Il code l’algorithme et génère \(1000\) nombres pseudo-aléatoires. Les données sur la fréquence d’apparition de chacun des chiffres de \(0\) à \(9\) sont indiquées dans le tableau suivant.
<table cla ss=” table tabl e-str iped tabl e-bor dered ” style=“width: auto !important; margin-left: auto; margin-right: auto;”>
Le générat eur de no mbres aléa toir es fo nctio nne-t -il correctement au seuil de \(5\%\)?
rBlo ck{ex ercis e}<di v cl ass=” exerc ise”> Exercice 6.5 On souhaite tester l’hypothèse selon laquelle le nombre de défauts sur des cartes de circuit imprimé suit une loi de Poisson. On collecte un échantillon aléatoire de \(n=60\) cartes de circuit imprimé et on observe le nombre de défauts. On obtient les données suivantes:
Nombre de défauts Effectif observé
0 32
     1                  15        

     2                  9         

     3                  4         
output: html_document editor_options: chunk_output_type: console