2 Couple de variables aléatoires discrètes
Considérons deux variables aléatoires discrètes \(X\) et \(Y\). Il nous faut pour modéliser le problème une fonction qui nous donne la probabilité que \((X = x_i )\) en même temps que \((Y = y_j )\). C’est la loi de probabilité conjointe.
Soit \(X\) et \(Y\) deux variables aléatoires réelles discrètes, définies sur un espace probabilisé \((\Omega,\mathcal{A},P)\) et que
\[\begin{aligned} X(\Omega) &= \{x_1,x_2,\ldots,x_l\} \\ Y(\Omega) &= \{y_1,y_2,\ldots,y_k\} \\ & \quad (l \text{ et } k \in \mathbb{N})\end{aligned}\]
La loi du couple \((X,Y)\), dite loi de probabilité conjointe ou simultanée, est entièrement définie par les probabilités:
\[p_{ij} = P(X=x_i;Y=y_j) = P(\{X=x_i\}\cap\{Y=y_j\})\]
On a
\[p_{ij} \geq 0 \quad \text{et} \quad \sum_{i=1}^{l} \sum_{j=1}^{k} p_{ij} = 1\]
Le couple \((X,Y)\) s’appelle variable aléatoire à deux dimensions et peut prendre \(l\times k\) valeurs.
Table de probabilité conjointe
Les probabilités \(p_{ij}\) peuvent être présentées dans un tableau à deux dimensions qu’on appelle table de probabilité conjointe:
\(X\)\\(Y\) | \(y_1\) | \(y_2\) | \(\ldots\) | \(y_j\) | \(\ldots\) | \(y_k\) |
---|---|---|---|---|---|---|
\(x_1\) | \(p_{11}\) | \(p_{12}\) | \(p_{1j}\) | \(p_{1k}\) | ||
\(x_2\) | \(p_{21}\) | \(p_{22}\) | \(p_{2j}\) | \(p_{2k}\) | ||
\(\vdots\) | ||||||
\(x_i\) | \(p_{i1}\) | \(p_{i2}\) | \(p_{ij}\) | \(p_{ik}\) | ||
\(\vdots\) | ||||||
\(x_l\) | \(p_{l1}\) | \(p_{l2}\) | \(p_{lj}\) | \(p_{lk}\) |
A la première ligne figure l’ensemble des valeurs de \(Y\) et à la première colonne figure l’ensemble des valeurs de \(X\). La probabilité \(p_{ij} = P(X=x_i;Y=y_j)\) est à l’intersection de la \(i^{e}\) et de la \(j^{e}\) colonne.
Lois marginales
Lorsqu’on connaît la loi conjointe des variables aléatoires \(X\) et \(Y\), on peut aussi s’intéresser à la loi de probabilité de \(X\) seule et de \(Y\) seule. Ce sont les lois de probabilité marginales.
Loi marginale de \(X\): \[p_{i.} = P(X=x_i) = P[\{X=x_i\}\cap \Omega] = \sum_{j=1}^k p_{ij} \quad \quad \forall \, i=1,2,\ldots,l\]
Loi marginale de \(Y\): \[p_{.j} = P(Y=y_j) = P[ \Omega \cap \{Y=y_j\}] = \sum_{i=1}^l p_{ij} \quad \quad \forall \, j=1,2,\ldots,k\]
On peut calculer les lois marginales directement depuis la table de la loi conjointe. La loi marginale de \(X\) est calculée en faisant les totaux par ligne, tandis que celle de \(Y\) l’est en faisant les totaux par colonne.
C’est le fait que les lois de \(X\) et \(Y\) individuellement puissent être lues dans les marges du tableau qui leur vaut leur nom de lois marginales.
\(X\)\\(Y\) | \(y_1\) | \(y_2\) | \(\ldots\) | \(y_j\) | \(\ldots\) | \(y_k\) | Marginale de \(X\) |
---|---|---|---|---|---|---|---|
\(x_1\) | \(p_{11}\) | \(p_{12}\) | \(p_{1j}\) | \(p_{1k}\) | \(p_{1.}\) | ||
\(x_2\) | \(p_{21}\) | \(p_{22}\) | \(p_{2j}\) | \(p_{2k}\) | \(p_{2.}\) | ||
\(\vdots\) | |||||||
\(x_i\) | \(p_{i1}\) | \(p_{i2}\) | \(p_{ij}\) | \(p_{ik}\) | \(p_{i.}\) | ||
\(\vdots\) | |||||||
\(x_l\) | \(p_{l1}\) | \(p_{l2}\) | \(p_{lj}\) | \(p_{lk}\) | \(p_{l.}\) | ||
Marginale de \(Y\) | \(p_{.1}\) | \(p_{.2}\) | \(p_{.l}\) | \(p_{.k}\) | 1 |
On tire au hasard 3 boules d’une urne contenant 3 boules rouges, 4 blanches et 5 noires. \(X\) et \(Y\) désignent respectivement le nombre de boules rouges et celui de boules blanches tirées. Déterminer la loi de probabilité conjointe du couple \((X,Y)\) ainsi que les lois marginales de \(X\) et de \(Y\).
Lois conditionnelles
Pour chaque valeur \(y_j\) de \(Y\) telle que \(p_{.j} = P(Y=y_j) \neq 0\) on peut définir la loi conditionnelle de \(X\) sachant \(Y=y_j\) par
\[p_{i/j} = P(X=x_i / Y=y_j) = \frac{P(X=x_i;Y=y_j)}{P(Y=y_j)} = \frac{p_{ij}}{p_{.j}} \quad \quad \forall i = 1,2,\ldots,l\]
De même on définit la loi de \(Y\) sachant \(X=x_i\) par
\[p_{j/i} = P(Y=y_j / X=x_i) = \frac{P(X=x_i;Y=y_j)}{P(X=x_i)} = \frac{p_{ij}}{p_{i.}} \quad \quad \forall j = 1,2,\ldots,k\]
Indépendance de variables aléatoires
Théorème 2.1 On dit que deux v.a.r.d sont indépendantes si et seulement si
\[P(X=x_i;Y=y_j) = P(X=x_i) P(Y=y_j) \quad \quad \forall \, i = 1,2,\ldots,l \text{ et } j = 1,2,\ldots,k\]On montre que
\[P(\{X\in A\} \cap \{Y \in B\}) = P(\{X\in A\}) P(\{Y \in B\}) \quad \quad \forall \,\, A \text{ et } B \in \mathcal{A}\]
Propriétés
Soit deux v.a.r.d. \(X\) et \(Y\),
\(E(X+Y)=E(X)+E(Y)\)
Si \(X\) et \(Y\) sont indépendantes alors \(E(XY)=E(X)E(Y)\). Mais la réciproque n’est pas toujours vraie.
Covariance
Soit \(X\) et \(Y\) deux v.a.r.d. On appelle covariance de \(X\) et de \(Y\) la valeur si elle existe de
\[Cov(X,Y) = E[(X-E(X))(Y-E(Y))] = \sum_i \sum_j (x_i-E(X))(y_j-E(Y)) p_{ij}\]
qu’on peut calculer en utilisant la formule suivante
\[Cov(X,Y) = E(XY) - E(X)E(Y)\]
Propriétés
\(Cov(X,Y)=Cov(Y,X)\)
\(Cov(aX_1+bX_2,Y) = a Cov(X_1,Y) + b Cov(X_2,Y)\)
\(V(X+Y)= V(X) + V(Y) + 2 Cov(X,Y)\)
Si \(X\) et \(Y\) sont indépendantes alors
\(Cov(X,Y) = 0\) (la réciproque n’est pas vraie)
\(V(X+Y) = V(X) + V(Y)\) (la réciproque n’est pas vraie)
Coefficient de corrélation linéaire
On appelle coefficient de corrélation linéaire de \(X\) et de \(Y\) la valeur définie par
\[\rho = \rho(X,Y) = \frac{Cov(X,Y)}{\sqrt{V(X)V(Y)}} = \frac{Cov(X,Y)}{\sigma_X \sigma_Y}\]
On peut montrer que \[-1 \leq \rho(X,Y) \leq 1\]
Pour le montrer on peut partir du fait que la variance est toujours positive ou nulle. Donc \(V(\frac{X}{\sigma_X} + \frac{Y}{\sigma_Y}) \geq 0\) et \(V(\frac{X}{\sigma_X} - \frac{Y}{\sigma_Y}) \geq 0\).
Interprétation de \(\rho\)
Le coefficient de corrélation est une mesure du degré de linéarité entre \(X\) et \(Y\).
Les valeurs de \(\rho\) proches de \(1\) ou \(-1\) indiquent une linéarité quasiment rigoureuse entre \(X\) et \(Y\).
Les valeurs de \(\rho\) proche de 0 indiquent une absence de toute relation linéaire.
Lorsque \(\rho(X,Y)\) est positif, \(Y\) a tendance à augmenter si \(X\) en fait autant.
Lorsque \(\rho(X,Y) < 0\), \(Y\) a tendance à diminuer si \(X\) augmente.
Si \(\rho(X,Y) =0\), on dit que ces deux statistiques sont non corrélées.