Vous êtes invités à annoter le contenu de ce cours. Les annotations peuvent être des corrections typographiques, des propositions ou des questions. Pour ajouter des annotations, choisissez le text que vous voulez commenter et cliquez sur . Pour accéder aux annotations crées par d'autres personnes, cliquez sur le coin supérieur de la page .

Chapitre 7 Tests de Khi-deux \(\chi^2\)

Nous terminons ce module par une présentation du plus célèbre des tests d’hypothèses, le test du \(\chi^2\). Il y a en fait plusieurs variantes de ce test.

7.1 Test d’ajustement de \(\chi^2\)

Les procédures de tests d’hypothèses discutées dans les chapitres précédents conviennent pour les problèmes dont on connaît la forme de la fonction de densité de la variable aléatoire, et dont les hypothèses portent sur les paramètres de la distribution. Par contre, il peut arriver qu’on ne connaisse pas la distribution de probabilité de la variable aléatoire étudiée, disons \(X\), et qu’on désire tester l’hypothèse que \(X\) suit une loi de probabilité particulière. On veut, par exemple, tester l’hypothèse que \(X\) suit la loi normale. Un graphique quantile-quantile (qqplot) peut nous donner une première idée de la réponse à cette question. Dans cette section, on décrira une procédure formelle de test d’ajustement basée sur la loi du \(\chi^2\).

La procédure du test

La procédure du test requiert un échantillon aléatoire de taille \(n\) de la variable aléatoire \(X\), dont la fonction de densité de probabilité est inconnue. Ces \(n\) observations sont disposées dans un tableau de fréquences ayant \(k\) classes. Soit \(O_{i}\) la fréquence observée dans la \(i\)-ième classe. A l’aide de la distribution hypothétique de probabilité, on calcule la fréquence espérée dans la \(i\)-ième classe \(E_{i}\). (Notons que les fréquences espérées ne sont pas nécessairement des nombres entiers, et qu’elles n’ont pas à être arrondies puisqu’il s’agit d’espérances).

Pour tester les hypothèses \[ \begin{aligned} {H}_{0} &: \text { La loi proposée est un bon modèle pour cette variable; } \\ {H}_{1} &: \text { La loi proposée n'est pas un bon modèle pour cette variable,} \end{aligned} \]

La statistique du test est

\[ U_{0}= n \sum_{i=1}^{k} \frac{\left(O_{i}-E_{i}\right)^{2}}{E_{i}} = \sum_{i=1}^{k} \frac{\left(N_{i}-n p_{i}\right)^{2}}{np_{i}} \]

Cette statistique peut être considérée comme une distance entre le modèle proposé et les quantités observées. On peut démontrer que \(U_{0}\) suit approximativement la loi du \(\chi^2\) avec \(k-p-1\) degrés de liberté, où \(p\) représente le nombre de paramètres de la distribution hypothétique estimée à partir de l’échantillon. Cette approximation s’améliore lorsque \(n\) augmente.

Critère de rejet de \(H_0\) du test d’ajustement du \(\chi^2\)

On rejette l’hypothèse que \(X\) suit la distribution hypothétique si \(u_0 > \chi^2_{1-\alpha,k-p-1}\)

7.2 Test d’indépendance de \(\chi^2\)

Les tests d’hypothèses permettent également de vérifier, avec une certaine probabilité d’erreur, bien sûr, s’il existe une interaction entre deux variables catégoriques (e.g. discrètes, qualitatives), ou si plusieurs populations présentent les mêmes proportions dans les diverses catégories d’une variable. Nous discutons dans cette section le test d’indépendance de deux variables qualitatives.

La procédure du test

On peut souvent classer les \(n\) éléments d’un échantillon suivant deux critères différents, c’est-à-dire selon les valeurs de deux variables aléatoires discrètes ou qualitatives. Il est alors intéressant de savoir si les deux variables sont statistiquement indépendantes. On peut, par exemple, considérer la population des ingénieurs du pays et vouloir déterminer si le salaire de départ est indépendant de la discipline étudiée.

On considère dans ce paragraphe deux variables qualitatives observées simultanément sur \(n\) individus. On suppose que la première, notée \(X,\) possède \(r\) modalités notées \(x_{1}, \ldots, x_{\ell}, \ldots, x_{r},\) et que la seconde, notée \(Y,\) possède \(c\) modalités notées \(y_{1}, \ldots, y_{h}, \ldots, y_{c}\).

Ces données sont présentées dans un tableau à double entrée, appelé tables de contingence, dans lequel on dispose les modalités de \(X\) en lignes et celles de \(Y\) en colonnes. Ce tableau est donc de dimension \(r \times c\) et a pour élément générique le nombre \(n_{\ell h}\) d’observations conjointes des modalités \(x_{\ell}\) de \(X\) et \(y_{h}\) de \(Y\); les quantités \(n_{\ell h}\) sont appelées les effectifs conjoints.

Une table de contingence se présente donc sous la forme suivante:

\(y_1\) \(\ldots\) \(y_h\) \(\ldots\) \(y_c\) sommes
\(x_1\) \(n_{11}\) \(n_{1h}\) \(n_{1c}\) \(n_{1\bullet}\)
\(\vdots\)
\(x_{\ell}\) \(n_{\ell 1}\) \(n_{\ell h}\) \(n_{\ell c}\) \(n_{\ell \bullet}\)
\(\vdots\)
\(x_r\) \(n_{r 1}\) \(n_{r h}\) \(n_{rc}\) \(n_{r\bullet}\)
sommes \(n_{\bullet 1}\) \(n_{\bullet h}\) \(n_{\bullet c}\) \(n\)

Les quantités \(n_{\ell \bullet}(\ell=1, \ldots, r)\) et \(n_{\bullet h}(h=1, \ldots, c)\) sont appelées les effectifs marginaux; ils sont définis par \(n_{\ell \bullet}=\sum_{h=1}^{c} n_{\ell h}\) et \(n_{\bullet h}=\sum_{\ell=1}^{r} n_{\ell h}\) et ils vérifient \(\sum_{\ell=1}^{r} n_{\ell \bullet}=\sum_{h=1}^{c} n_{\bullet h}=n\).

De façon analogue, on peut définir les notions de fréquences conjointes et de fréquences marginales.

On désire tester l’hypothèse que les variable \(X\) et \(Y\) sont indépendantes:

\[ \begin{aligned} H_{0}&: X \text { et } Y \text { sont indépendantes; } \\ H_{1}&: X \text { et } Y \text { sont dépendantes. } \end{aligned} \] Si l’on rejette cette hypothèse nulle, on conclut qu’il existe une certaine interaction entre les deux critères de classement. Les procédures de test exactes sont difficiles à obtenir, mais on présente ici une statistique de test approximative qui est valide pour les grandes tailles d’échantillon.

La statistique Khi-deux

Il est courant en statistique de comparer une table de contingence observée, d’effectif conjoint générique \(n_{\ell h},\) à une table de contingence donnée a priori (et appelée standard), d’effectif conjoint générique \(s_{\ell h},\) en calculant la quantié

\[ \sum_{\ell=1}^{r} \sum_{h=1}^{c} \frac{\left(n_{\ell h}-s_{\ell h}\right)^{2}}{s_{\ell h}} \]

De façon naturelle, pour mesurer la liaison sur une table de contingence, on utilise donc l’indice appelé khi-deux (chi-square) et défini comme suit:

\[ U_0 = \chi^{2}=\sum_{\ell=1}^{r} \sum_{h=1}^{c} \frac{\left(n_{\ell h}-\frac{n_{\ell\bullet} n_{\bullet h}}{n}\right)^{2}}{\frac{n_{\ell\bullet} n_{\bullet h}}{n}}=n\left[\sum_{\ell=1}^{r} \sum_{h=1}^{c} \frac{n_{\ell h}^{2}}{n_{\ell\bullet} n_{\bullet h}}-1\right] \thicksim \chi^2_{(r-1)(c-1)} \]

Comme dans le cas du test d’ajustement du \(\chi^2\) , on peut interpréter la statistique \(U_0\) comme une “distance” entre le modèle d’indépendance hypothétique et les fréquences observées. Si cette distance est trop grande, il faut rejeter le modèle.

Critère de rejet de \(H_0\) de l’indépendance de deux variables qualitatives

On rejette l’hypothèse d’indépendance si \(u_0 > \chi^2_{1-\alpha,(r-1)(c-1)}\)