Exercices
Exercice 6.1 La directrice d’une entreprise de mise en boîtes de jus d’orange désire comparer la performance de deux chaînes de mise en boîte de son usine. Comme la chaîne \(1\) est relativement récente, elle pense qu’elle produit en moyenne un plus grand nombre de caisses par jour que la chaîne \(2\), plus ancienne. On considère que la loi normale est un bon modèle pour cette variable. Dix jours de production sont sélectionnés au hasard pour chaque chaîne. Selon ces données, \(\overline{x}_1=824.9\) caisses par jour et \(\overline{x}_2=818.6\) caisses par jour. On sait par expérience d’exploitation de ce type d’équipement que \(\sigma_1^2=40\) et que \(\sigma_2^2=50\). Est-ce que la directrice peut favoriser la chaîne \(1\) au seuil d’erreur \(\alpha = 5\%\)?
Exercice 6.2 Une société de production d’électricité éolienne, cherche à comparer l’efficacité de deux types d’éoliennes: une éolienne à deux pales (E2p) et une éolienne à trois pales (E3p). Pour ce faire, elle a installé sur un même parc éolien une éolienne de chaque type, et a relevé les puissances de chaque éolienne (en kW) toutes les 10 minutes.
Afin de comparer les productions des éoliennes, l’ingénieur statisticien a prélevé aléatoirement dans la base de données, et ce de façon indépendante pour chaque éolienne, les \(9\) puissances (en kW) suivantes:
E2p | 5 | 18 | 19 | 11 | 6 | 19 | 20 | 22 | 17 |
---|---|---|---|---|---|---|---|---|---|
1. Définir 2. Donner 3. Donner 4. Donner 5. Peut-on 6. Peut-on 7. Pouvez- | les une une un i sup aff vous | deux estim estim nterv poser irmer , ave | vari ation ation alle que , ave c cet | ables ponc ponc de co les p c un te ét | alé tuel tuel nfia uiss risq ude, | atoir le de le de nce à ances ue d’ cons | es ét
la p
la v
$95 des erreu eille |
udiée uissa ariab %$ à deux r de r à l | s. nce moyenne de chaque éolienne. ilité de la puissance de chaque éolienne. la puissance moyenne de chaque éolienne. éoliennes ont la même variabilité? \(1\%\), que la puissance moyenne de l’éolienne à 3 pales est supérieure à la puissance moyenne de l’éolienne à 2 pales? a société un type particulier d’éolienne ? |
Après six | rBlo mois | ck{ex d’ut | ercis ilisa | e}<di tion, | v cl il | ass=” const | exerc ate q | ise”> ue su | Exercice 6.3 Pour sa fabrication, un industriel utilise des machines de deux constructeurs différents. r les \(80\) machines du type \(A\), \(50\) ne sont jamais tombées en panne, alors que pour le type \(B\) la proportion est de \(40\) sur \(60\). Peut-on considérer que ces deux types de machines sont équivalents au seuil d’erreur \(\alpha = 5\%\)? |
<!–chapte | r:en | d:tes | t-hyp | 2_td. | Rmd- | -> | |||
# TP {-} | |||||||||
Reprenons | l’ex | ercic | e @r | ef(po | ulpe | s) où | on s | ’est | proposé d’étudier le poids des poulpes femelles. On va appliquer avec quelques tests d’hypothèses à l’aide du fichier de données poulpe.csv . |
1. Récupér | er l | e fic | hier | [poul | pe.c | sv `< | svg a | ria-h | idden=“true” role=“img” viewBox=“0 0 512 512” style=“height:1em;width:1em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;”>{=html}](datasets/poulpe.csv) et charger le dans votre session `{=html}. |
2. Avec la | fon | ction | `str | ()` d | écri | re la | stru | cture | des données importées. |
Nous souha | iton | s tes | ter l | ’égal | ité | des m | oyenn | es th | éoriques inconnues des poids des poulpes femelles (\(\mu_1\)) et mâles (\(\mu_2\)), avec une erreur de première espèce fixée à \(5\%\). |
3. Compare | r gr | aphiq | uemen | t les | deu | x sou | s-pop | ulati | ons. (On pourra afficher deux boîtes à moustaches correspondantes aux poids en fonction du sexe des poulpes) |
4. Estimer | les | stat | istiq | ues d | e ba | se (m | oyenn | e, éc | art-type, etc..) par sous-population. |
5. Effectu | er u | n tes | t d’h | ypoth | èse | de co | mpara | ison | de deux moyennes avec la fonction t.test() . |
:::rmdinsi **\(p\)-valu | ght e** | ||||||||
En pratiqu lecteur de ::: | e, p con | lutôt clure | que à l’ | de ca accep | lcul tati | er la on de | régi $H_0 | on cr $ pou | itique en fonction de \(\alpha\), on préfère donner un seuil critique qu’on appelle \(p\)-value, qui est la plus grande valeur de \(\alpha\) conduisant à ne pas rejeter \(H_0\). Cette information permet au r tout risque de première espèce \(\alpha \leq p\text{-value}\), et à son rejet pour tout \(\alpha > p\text{-value}\). |
6. Que con | clue | z vou | s? | ||||||
7. Avez vo | us r | emarq | ué qu | e c’e | st é | crit | `Welc | h Two | Sample t-testdans les résultats du test effectué? C'est parce que pour comparer les moyennes des deux sous-populations il y a deux types de tests, l'un quand les variances inconnues sont différentes et l'autre quand elles sont égales. Tester l'égalité des deux variances en utilisant la fonction var.test()`. |
:::rmdinsi Quand on u ::: | ght tili | se la | fonc | tion | `t.t | est() | ` pou | r com | parer les moyennes de deux sous-populations, un test d’égalité de variances est effectué. Si les variances sont différentes, c’est le test de Welch qui est appliqué. On peut préciser si les variances sont égales ou différentes avec l’argument var.equal . Nous pourrons aussi changer l’hypothèse alternative avec l’argument alternative . Ou aussi modifier le niveau de confiance du test. |
8. Pour co | nstr | uire | le te | st de | com | parai | son d | e moy | ennes, nous faisons l’hypothèse que l’estimateur de la moyenne, dans chaque sous-population, suit une loi normale. Ceci est vrai si la distribution des données suit une loi normale ou si la taille de l’échantillon est suffisamment grande (en pratique \(n > 30\)) grâce au théorème central limite. Ici les effectifs sont inférieurs à \(30\): il faut tester la normalité des données pour chaque sous-population. On pourra utiliser le test de Shapiro-Wilk avec la fonction shapiro.test() . Tester la normalité de chaque sous-population avec le test de Shapiro-Wilk. |
:::rmdinsi Quand l’hy ::: | ght poth | èse d | e nor | malit | é es | t rej | etée, | le t | est d’égalité des moyennes peut être effectué à l’aide de tests non-paramétriques tels que celui de Wilcoxon (wilcox.test() ) ou celui de Kruskal-Wallis (kruskal.test() ). |
<!–chapte | r:en | d:tes | t-hyp | 2_tp. | Rmd- | -> | |||
# (PART* | ) Sé | ance | 9 {-} | ||||||
# Tests de | Khi | -deux | $ | i^2$ | {#te | sts-d | e-khi | -deux | } |
Nous termi | nons | ce m | odule | par | une | prése | ntati | on du | plus célèbre des tests d’hypothèses, le test du \(\chi^2\). Il y a en fait plusieurs variantes de ce test. |
## Test d’ | ajus | temen | t de | $ | ^2$ | ||||
Les procéd problèmes les hypoth connaisse désire tes tester l’h | ures dont èses pas ter ypot | de t on c port la di l’hyp hèse | ests onnaî ent s strib othès que $ | d’hyp t la ur le ution e que X$ su | othè form s pa de \(X\) it l | ses d e de ramèt proba suit a loi | iscut la fo res d bilit une norm | ées d nctio e la é de loi d ale. | ans les chapitres précédents conviennent pour les n de densité de la variable aléatoire, et dont distribution. Par contre, il peut arriver qu’on ne la variable aléatoire étudiée, disons \(X\), et qu’on e probabilité particulière. On veut, par exemple, Un graphique quantile-quantile (qqplot) peut nous donner une première idée de la réponse à cette question. Dans cette section, on décrira une procédure formelle de test d’ajustement basée sur la loi du \(\chi^2\). |
**La procé | dure | du t | est** | ||||||
La procédu \(X\), dont \(i\)-ième c espérée da nécessaire d’espéranc | re d la f lass ns l ment es). | u tes oncti e. A a \(i\) des | t req on de l’aid -ième nombr | uiert dens e de clas es en | un ité la d se $ tier | échan de pr istri E_{i} s, et | tillo obabi butio $. (N qu’e | n alé lité n hyp otons lles | atoire de taille \(n\) de la variable aléatoire est inconnue. Ces \(n\) observations sont disposées dans un tableau de fréquences ayant \(k\) classes. Soit \(O_{i}\) la fréquence observée dans la othétique de probabilité, on calcule la fréquence que les fréquences espérées ne sont pas n’ont pas à être arrondies puisqu’il s’agit |
Pour teste \[ \begin{ali {H}_{0} &: {H}_{1} &: \end{align \] | r le | s hyp | othès | es | |||||
La statist | ique | du t | est e | st | |||||
\[ U_{0}= n \ \] | sum_ | {i=1} | ^{k} | { | ft(O_ | {i}-E | _{i} |
right)^{2}}{E_{i}} = _{i=1}^{k} | |
Cette stat quantités avec $k-p- | isti obse 1$ d | que p rvées egrés | eut ê . On de l | tre c peut ibert | onsi démo é, o | dérée ntrer ù \(p\) | comm que repr | e une $U_{0 ésent | distance entre le modèle proposé et les }$ suit approximativement la loi du \(\chi^2\) e le nombre de paramètres de la distribution hypothétique estimée à partir de l’échantillon. Cette approximation s’améliore lorsque \(n\) augmente. |
:::rmdinsi **Critère | ght de r | ejet | de $H | _0$ d | u te | st d’ | ajust | ement | du \(\chi^2\)** |
On rejette ::: | l’h | ypoth | èse q | ue $X | $ su | it la | dist | ribut | ion hypothétique si \(u_0 > \chi^2_{1-\alpha,k-p-1}\) |
## Test d’ | indé | penda | nce d | e $ | hi^2 | $ | |||
Les tests bien sûr, | d’hy s’il | pothè exis | ses p te un | ermet e int | tent erac | égal tion | ement entre | de v deux | érifier, avec une certaine probabilité d’erreur, variables catégoriques (e.g. discrètes, qualitatives), ou si plusieurs populations présentent les mêmes proportions dans les diverses catégories d’une variable. Nous discutons dans cette section le test d’indépendance de deux variables qualitatives. |
**La procé | dure | du t | est** | ||||||
On peut so considérer indépendan | uven la t de | t cla popul la d | sser ation iscip | les $ des line | n$ é ingé étud | lémen nieur iée. | ts d’ s du | un éc pays | hantillon suivant deux critères différents, c’est-à-dire selon les valeurs de deux variables aléatoires discrètes ou qualitatives. Il est alors intéressant de savoir si les deux variables sont statistiquement indépendantes. On peut, par exemple, et vouloir déterminer si le salaire de départ est |
On considè | re d | ans c | e par | agrap | he d | eux v | ariab | les q | ualitatives observées simultanément sur \(n\) individus. On suppose que la première, notée \(X,\) possède \(r\) modalités notées \(x_{1}, \ldots, x_{\ell}, \ldots, x_{r},\) et que la seconde, notée \(Y,\) possède \(c\) modalités notées \(y_{1}, \ldots, y_{h}, \ldots, y_{c}\). |
Ces donnée de conting de \(Y\) en générique \(y_{h}\) de | s so ence colo le n \(Y\) | nt pr **, d nnes. ombre ; les | ésent ans l Ce t $n_{ quan | ées d equel ablea tités | ans on u es h}$ $n_ | un ta dispo t don d’obs { | bleau se le c de ervat h}$ | à do s mod dimen ions sont | uble entrée, appelé **tables alités de \(X\) en lignes et celles sion \(r \times c\) et a pour élément conjointes des modalités \(x_{\ell}\) de \(X\) et appelées les effectifs conjoints. |
Une table | de c | ontin | gence | se p | rése | nte d | onc s | ous l | a forme suivante: |
<table cla | ss=” | table | tabl | e-str | iped | ” sty | le=“w | idth: | auto !important; margin-left: auto; margin-right: auto;“> |
Les quanti effectifs et ils vér | tés marg ifie | $n_{ inaux nt $ |
ell ; ils sum_{ |
bulle sont = | t}( déf 1}^{ |
ell=1 inis r} n_ | , par $ { | ots, n_{ | r)$ et \(n_{\bullet h}(h=1, \ldots, c)\) sont appelées les ll }={h=1}^{c} n{h}$ et \(n_{\bullet h}=\sum_{\ell=1}^{r} n_{\ell h}\) let}={h=1}^{c} n{h}=n$. |
De façon a | nalo | gue, | on pe | ut dé | fini | r les | noti | ons d | e fréquences conjointes et de fréquences marginales. |
On désire | test | er l’ | hypot | hèse | que | les v | ariab | le $X | $ et \(Y\) sont indépendantes: |
\[ \begin{ali H_{0}&: X H_{1}&: X \end{align \] Si l’on re | gned ed} | } t { e t { e | |||||||
**La stati | stiq | ue Kh | i-deu | x** | |||||
Il est cou d’effectif (et appelé | rant con e st | en s joint andar | tatis géné d), d | tique rique ’effe | de $n_ ctif | compa { conj | rer u h},$ oint | ne ta à un génér | ble de contingence observée, e table de contingence donnée a priori ique \(s_{\ell h},\) en calculant la quantié |
\[ \sum_{\ell \] | =1}^ | {r} |
sum_{ | h=1}^ | {c} | { | t(n_{ | h}-s_{h})^{2}}{s_{h}} | |
De façon n utilise do | atur nc l | elle, ’indi | pour ce ap | mesu pelé | rer khi- | la li deux | aison (chi- | sur squar | une table de contingence, on e) et défini comme suit: |
\[ U_0 = \chi \] | ^{2} | = | _{ | l=1}^ | {r} | _ | {h=1} | ^{c} | =n^2_{(r-1)(c-1)} |
Comme dans | le | cas d | u tes | t d’a | just | ement | du $ | ^ | 2$ , on peut interpréter la statistique \(U_0\) comme une “distance” entre le modèle d’indépendance hypothétique et les fréquences observées. Si cette distance est trop grande, il faut rejeter le modèle. |
:::rmdinsi **Critère | ght de r | ejet | de $H | _0$ d | e l’ | indép | endan | ce de | deux variables qualitatives** |
On rejette ::: | l’h | ypoth | èse d | ’indé | pend | ance | si $u | _0 > | ^2_{1-,(r-1)(c-1)}$ |
<!–chapte | r:en | d:tes | t-hyp | 3.Rmd | –> | ||||
# Exercice | s {- | } | |||||||
<!– 325 a | ppli | quées | –> | ||||||
rBlo | ck{ex | ercis | e}<di | v cl | ass=” | exerc | ise”> | Exercice 6.4 Un informaticien a développé un algorithme pour générer des nombres entiers pseudo-aléatoires de manière uniforme sur l’intervalle \([0,9]\). Il code l’algorithme et génère \(1000\) nombres pseudo-aléatoires. Les données sur la fréquence d’apparition de chacun des chiffres de \(0\) à \(9\) sont indiquées dans le tableau suivant. | |
<table cla | ss=” | table | tabl | e-str | iped | tabl | e-bor | dered | ” style=“width: auto !important; margin-left: auto; margin-right: auto;”> |
Le générat | eur | de no | mbres | aléa | toir | es fo | nctio | nne-t | -il correctement au seuil de \(5\%\)? |
rBlo | ck{ex | ercis | e}<di | v cl | ass=” | exerc | ise”> | Exercice 6.5 On souhaite tester l’hypothèse selon laquelle le nombre de défauts sur des cartes de circuit imprimé suit une loi de Poisson. On collecte un échantillon aléatoire de \(n=60\) cartes de circuit imprimé et on observe le nombre de défauts. On obtient les données suivantes: | |
Nombre de défauts | Effectif observé |
---|---|
0 | 32 |
1 15
2 9
3 4
output: html_document editor_options: chunk_output_type: console |