Chapitre 3 Estimation ponctuelle
3.1 Introduction
Dans ce chapitre, on suppose que les données \(x_1,\ldots,x_n\) sont \(n\) réalisations indépendantes d’une même variable aléatoire sous-jacente \(X\) (variable parente). Il est équivalent de supposer que \(x_1,\ldots,x_n\) sont les réalisations de variables aléatoires \(X_1,\ldots,X_n\) indépendantes et de même loi (i.i.d). Nous adopterons ici la seconde formulation, qui est plus pratique à manipuler.
Les techniques de statistique descriptive, comme l’histogramme ou le graphe de probabilités, permettent de faire des hypothèses sur la nature de la loi de probabilité des \(X_i\). Des techniques statistiques plus sophistiquées, les tests d’adéquation, permettent de valider ou pas ces hypothèses.
On supposera ici que ces techniques ont permis d’adopter une famille de lois de probabilité bien précise (par exemple, loi normale, loi de Poisson, etc.) pour la loi des \(X_i\), mais que la valeur du ou des paramètres de cette loi est inconnue.
On notera \(\theta\) le paramètre inconnu. Le problème traité dans ce chapitre est celui de l’estimation du paramètre \(\theta\). Comme on l’a déjà dit, il s’agit de donner, au vu des observations \(x_1,\ldots,x_n\), une approximation ou une évaluation de \(\theta\) que l’on espère la plus proche possible de la vraie valeur inconnue. On pourra proposer une unique valeur vraisemblable pour \(\theta\) (estimation ponctuelle, dans ce chapitre) ou un ensemble de valeurs vraisemblables (estimation ensembliste ou région (intervalle) de confiance, dans le chapitre suivant).
On notera \(F(x;\theta)\) la fonction de répartition des \(X_i\). Pour les variables aléatoires discrètes on notera \(P(X = x;\theta)\) les probabilités élémentaires, et pour les variables aléatoires continues on notera \(f(x;\theta)\) la densité. Par exemple, quand \(X\) est de loi exponentielle \(\mathcal{E}(\lambda)\), on aura \(F(x;\lambda) = 1 − e^{−\lambda x}\) et \(f(x;\lambda) = \lambda e^{−\lambda x}\).
L’estimation du paramètre \(\theta\) s’agit de donner, au vu des observations \(x_1,\ldots,x_n\), une approximation ou une évaluation de \(\theta\) que l’on espère la plus proche possible de la vraie valeur inconnue.
3.2 Méthodes d’estimation
Il existe de nombreuses méthodes pour estimer un paramètre \(\theta\). Dans cette section, nous ne nous intéressons qu’aux deux méthodes d’estimation les plus usuelles, la méthode des moments et la méthode du maximum de vraisemblance.
Mais il faut d’abord définir précisément ce que sont une estimation et surtout un estimateur.
Pour estimer \(\theta\) on ne dispose que des données \(x_1,\ldots,x_n\), donc une estimation de \(\theta\) sera une fonction de ces observations.
Définition 3.1 \iffalse (Définition d’une statistique) Une statistique \(t\) est une fonction des observations \(x_1,\ldots,x_n\) :
\[\begin{align} t: \, & \mathbb{R}^n \rightarrow \mathbb{R}^m \\ & (x_1,\ldots,x_n) \rightarrow t(x_1,\ldots,x_n) \end{align}\]Par exemple, \(\overline{x}_n = \frac{1}{n} \sum_{i=1}^n x_i, \,\, x_1^2 \,\, \text{ou} \,\, (x_1,x_3+x_4,2 \ln x_6)\) sont des statistiques.
Puisque les observations \(x_1,\ldots,x_n\) sont des réalisations des variables aléatoires \(X_1,\ldots,X_n\), la quantité calculable à partir des observations \(t(x_1,\ldots,x_n)\) est une réalisation de la variable aléatoire \(t(X_1,\ldots,X_n)\). Et on retrouve par exemple le fait que \(\overline{x}_n = \frac{1}{n} \sum_{i=1}^n x_i\) est une réalisation de \(\overline{X}_n = \frac{1}{n} \sum_{i=1}^n X_i\).
Pour simplifier les écritures, on note souvent \(t_n = t(x_1,\ldots,x_n)\) et \(T_n = t(X_1,\ldots,X_n)\).
Par abus, on donne le même nom de statistique aux deux quantités, mais dans une perspective d’estimation, on va nommer différemment \(t_n\) et \(T_n\).
Un estimateur est donc une variable aléatoire, alors qu’une estimation est une valeur déterministe. Dans l’exemple des ampoules dans l’introduction (ici), l’estimateur de \(\lambda\) est \(1/\overline{X}_n\) et l’estimation de \(\lambda\) est \(0.012\).3
Un estimateur est une variable aléatoire, alors qu’une estimation est une valeur déterministe.
3.3 La méthode des moments
3.3.1 L’estimateur des moments (EMM)
C’est la méthode la plus naturelle. L’idée de base est d’estimer une espérance mathématique par une moyenne empirique, une variance par une variance empirique, etc…
Si le paramètre à estimer est l’espérance de la loi des \(X_i\), alors on peut l’estimer par la moyenne empirique de l’échantillon. Autrement dit, si \(\theta = E(X)\), alors l’estimateur de \(\theta\) par la méthode des moments (EMM) est \(\hat{\theta}_n=\overline{X}_n = \frac{1}{n} \sum_{i=1}^n X_i\).
Plus généralement, pour \(\theta \in \mathbb{R}\), si \(E(X) = \phi(\theta)\), où \(\phi\) est une fonction inversible, alors l’estimateur de \(\theta\) par la méthode des moments est \(\hat{\theta}_n = \phi^{-1} (\overline{X}_n)\).
De la même manière, on estime la variance de la loi des \(X_i\) par la variance empirique de l’échantillon \(S_n^2= \frac{1}{n} \sum_{i=1}^n (X_i - \overline{X}_n)^2 = \frac{1}{n} \sum_{i=1}^n X_i^2 - \overline{X}_n^2\).
3.3.2 Exemples
3.3.2.1 Exemple 1: loi de Bernoulli
Si \(X_1,\ldots,X_n\) sont indépendantes et de même loi de Bernoulli \(\mathcal{B}(p)\), \(E(X) = p\). Donc l’estimateur de \(p\) par la méthode des moments est \(\hat{p}_n = \overline{X}_n\). Cet estimateur n’est autre que la proportion de 1 dans l’échantillon. On retrouve donc le principe d’estimation d’une probabilité par une proportion (voir 2.4 et 2.6).
3.3.2.2 Exemple 2: loi exponentielle
Si \(X_1,\ldots,X_n\) sont indépendantes et de même loi exponentielle \(\mathcal{E}(\lambda)\), \(E(X) = 1/\lambda\). Donc l’estimateur de \(\lambda\) par la méthode des moments est \(\hat{\lambda}_n = 1/\overline{X}_n\).
3.3.2.3 Exemple 3: loi normale
Si \(X_1,\ldots,X_n\) sont indépendantes et de même loi normale \(\mathcal{N}(m,\sigma^2 )\), \(E(X) = m\) et \(V(X) = \sigma^2\), donc les estimateurs de \(m\) et \(\sigma^2\) par la méthode des moments sont \(\hat{m} = \overline{X}_n\) et \(\hat{\sigma}^2=S_n^2\).4
3.3.2.4 Exemple 4: loi gamma
Si \(X_1,\ldots,X_n\) sont indépendantes et de même loi gamma \(\Gamma(a,\lambda)\), \(E(X) = a/\lambda\) et \(V(X) = a/\lambda^2\). On en déduit facilement que :
\[ \lambda = \frac{E(X)}{V(X)} \quad \text{et} \quad a = \frac{[E(X)]^2}{V(X)}\]
Donc les EMM de \(a\) et \(\lambda\) sont:
\[ \hat{\lambda} = \frac{\overline{X}_n}{S_n^2} \quad \text{et} \quad \hat{a} = \frac{\overline{X}_n^2}{S_n^2}\]
L’idée de base de l’estimateur par la méthode des moments est d’estimer une espérance mathématique par une moyenne empirique, une variance par une variance empirique, etc…
3.4 La méthode du maximum de vraisemblance
3.4.1 La fonction de vraisemblance
Définition 3.3 Quand les observations sont toutes discrètes ou toutes continues, on appelle fonction de vraisemblance (ou plus simplement vraisemblance) pour l’échantillon \(x_1,\ldots,x_n\), la fonction du paramètre \(\theta\) :
\[\begin{equation*} \mathcal{L}(\theta; x_1,\ldots,x_n) = \left\lbrace \begin{array}{ll} P(X_1=x_1,\ldots,X_n=x_n; \theta) & \text{si les} \, X_i \, \text{sont discrètes}\\ f_{X_1,\ldots,X_n}(x_1,\ldots,x_n;\theta) & \text{si les} \, X_i \, \text{sont continues} \end{array} \right. \end{equation*}\]Dans tous les exemples que nous traiterons ici, les \(X_i\) sont indépendantes et de même loi. Dans ce cas, la fonction de vraisemblance s’écrit:
\[\begin{equation*} \mathcal{L}(\theta; x_1,\ldots,x_n) = \left\lbrace \begin{array}{ll} \displaystyle \prod_{i=1}^n P(X_i=x_i; \theta) = \prod_{i=1}^n P(X=x_i; \theta) & \text{si les} \, X_i \, \text{sont discrètes}\\ \displaystyle \prod_{i=1}^n f_{X_i}(x_i;\theta) = \prod_{i=1}^n f(x_i;\theta) & \text{si les} \, X_i \, \text{sont continues} \end{array} \right. \end{equation*}\]
Remarque: La probabilité et la densité utilisées dans cette définition sont des fonctions des observations \(x_1,\ldots,x_n\), dépendant du paramètre \(\theta\). A l’inverse, la fonction de vraisemblance est considérée comme une fonction de \(\theta\) dépendant des observations \(x_1,\ldots,x_n\), ce qui permet, par exemple, de dériver cette fonction par rapport à \(\theta\).
3.4.1.1 Exemple introductif
Dans cet exemple, \(n = 1\). On considère que l’on sait que \(X_1\) est de loi binomiale \(\mathcal{B}(15,p)\), avec \(p\) inconnu. On observe \(x_1 = 5\) et on cherche à estimer \(p\). La fonction de vraisemblance est :
\[\mathcal{L}(p;5) = P(X_1 = 5;p) = C_{15}^5 p^5 (1-p)^{15-5}\]
C’est la probabilité d’avoir observé un 5 quand la valeur du paramètre est \(p\). Calculons-là pour quelques valeurs de \(p\).
\(p\) | \(0.1\) | \(0.2\) | \(0.3\) | \(0.4\) | \(0.5\) | \(0.6\) | \(0.7\) | \(0.8\) | \(0.9\) |
\(\mathcal{L}(p;5)\) | \(0.01\) | \(0.10\) | \(0.21\) | \(0.19\) | \(0.09\) | \(0.02\) | \(0.003\) | \(10^{−4}\) | \(210^{−7}\) |
On tire de cette table que quand \(p = 0.8\), c’est-à-dire quand \(X_1\) est de loi \(\mathcal{B}(15,0.8)\), il n’y a qu’une chance sur \(10000\) d’observer \(x_1 = 5\). En revanche, il y a \(21\%\) de chances d’observer un \(5\) quand \(p = 0.3\). Il est donc beaucoup plus vraisemblable que \(p\) soit égal à \(0.3\) plutôt qu’à \(0.8\). En suivant ce raisonnement, on aboutit à dire que la valeur la plus vraisemblable de \(p\) est celle pour laquelle la probabilité d’observer un \(5\) est maximale. C’est donc la valeur de \(p\) qui maximise la fonction de vraisemblance.
Pour la calculer, on peut annuler la dérivée de la vraisemblance (en fonction de \(p\)). Mais on remarque que la vraisemblance est un produit. Comme il est plus commode de maximiser (ou de dériver) une somme qu’un produit, on utilise le fait que la valeur qui rend maximale une fonction rend aussi maximal son logarithme. On va donc plutôt maximiser le logarithme de la fonction de vraisemblance, qu’on appelle la log-vraisemblance. Pour notre exemple, la log-vraisemblance vaut:
\[\ln \mathcal{L}(p;x_1)=\ln C_{15}^{x_1} + x_1 \ln p + (15-x_1) \ln (1-p)\] Sa dérivée est:
\[ \frac{\partial }{\partial p } \ln \mathcal{L}(p;x_1)= \frac{x_1}{p} - \frac{15-x_1}{1-p} = \frac{x_1 - 15 p}{p(1-p)} \] qui s’annule pour \(p = \frac{x_1}{15} = \frac{5}{15} = \frac{1}{3}\).
Donc la valeur la plus vraisemblable de \(p\) est \(\frac{1}{3}\). La vraisemblance maximale est \(\mathcal{L}(\frac{1}{3};5) = 21.4\%\).
La valeur qui rend maximale une fonction rend aussi maximal son logarithme.
3.4.2 L’estimateur de maximum de vraisemblance (EMV)
En suivant le raisonnement précédent, pour \(n\) quelconque, il est logique de dire que la valeur la plus vraisemblable de \(\theta\) est la valeur pour laquelle la probabilité d’observer \(x_1 ,\ldots,x_n\) est la plus forte possible. Cela revient à faire comme si c’était l’éventualité la plus probable qui s’était produite au cours de l’expérience.
Comme dans l’exemple, dans la plupart des cas, la fonction de vraisemblance s’exprime comme un produit. Donc \(\hat{\theta}_n\) sera en général calculé en maximisant la log-vraisemblance:
\[ \hat{\theta}_{n}=\arg \max _{\theta} \,\, \ln \mathcal{L}\left(\theta ; x_{1}, \ldots, x_{n}\right) \]
Quand \(\theta = (\theta_1 ,\ldots,\theta_d ) \in \mathbb{R}^d\) et que toutes les dérivées partielles ci-dessous existent, \(\hat{\theta}_{n}\) est solution du système d’équations appelées équations de vraisemblance:
\[ \forall j \in\{1, \ldots, d\}, \quad \frac{\partial}{\partial \theta_{j}} \ln \mathcal{L}\left(\theta ; x_{1}, \ldots, x_{n}\right)=0 \]
A priori, une solution de ce système d’équations pourrait être un minimum de la vraisemblance. Mais on peut montrer que la nature d’une fonction de vraisemblance fait que c’est bien un maximum que l’on obtient.
Il est fréquent que le système des équations de vraisemblance n’ait pas de solution
explicite. Dans ce cas, on le résoud par des méthodes numériques, comme la méthode de
Newton-Raphson (lien 1 , lien 2 ). En , la maximisation numérique peut se faire à l’aide de la commande optim()
.
3.4.2.1 Exemples
3.4.2.1.1 Exemple 1: loi de Bernoulli
Soit les \(X_i\), sont de loi \(\mathcal{B}(p)\), on a:
\[P\left(X_{i}=x_{i} ; p\right)=\left\{\begin{array}{cc}{p} & {\text { si } x_{i}=1} \\ {1-p} & {\text { si } x_{i}=0}\end{array}\quad \right\} = p^{x_{i}}(1-p)^{1-x_{i}}\] Donc la fonction de vraisemblance est:
\[\mathcal{L}\left(p ; x_{1}, \ldots, x_{n}\right)=\prod_{i=1}^{n} P\left(X_{i}=x_{i} ; p\right)=\prod_{i=1}^{n} p^{x_{i}}(1-p)^{1-x_{i}}=p^{\sum_{i=1}^{n} x_{i}}(1-p)^{\sum_{i=1}^{n}\left(1-x_{i}\right)}\]
D’où \(\ln \mathcal{L}\left(p ; x_{1}, \ldots, x_{n}\right)=\left(\sum_{i=1}^{n} x_{i}\right) \ln p+\left(n-\sum_{i=1}^{n} x_{i}\right) \ln (1-p)\).
Alors \[\frac{\partial}{\partial p} \ln \mathcal{L}\left(p ; x_{1}, \ldots, x_{n}\right)=\frac{\sum_{i=1}^{n} x_{i}}{p}-\frac{n-\sum_{i=1}^{n} x_{i}}{1-p}=\frac{\sum_{i=1}^{n} x_{i}-n p}{p(1-p)}\]
qui s’annule pour \(p=\frac{1}{n} \sum_{i=1}^{n} x_{i}=\overline{x}_{n}\). Par conséquent, l’EMV de \(p\) est \(\hat{p}_n= \overline{X}_n\).
L’EMV de \(p\) est \(\hat{p}_n= \overline{X}_n\). Le même que l’EMM de \(p\).
3.4.2.1.2 Exemple 2: loi exponentielle
Si les \(X_i\) sont de loi \(\mathcal{E}(\lambda)\), la fonction de vraisemblance est:
\[\mathcal{L}\left(\lambda ; x_{1}, \ldots, x_{n}\right)=\prod_{i=1}^{n} f_{X_{i}}\left(x_{i} ; \lambda\right)=\prod_{i=1}^{n} \lambda e^{-\lambda x_{i}}=\lambda^{n} e^{-\lambda \sum_{i=1}^{n} x_{i}}\] D’où \(\ln \mathcal{L}\left(\lambda ; x_{1}, \ldots, x_{n}\right)=n \ln \lambda-\lambda \sum_{i=1}^{n} x_{i}\).
Alors \(\frac{\partial}{\partial \lambda} \ln \mathcal{L}\left(\lambda ; x_{1}, \ldots, x_{n}\right)=\frac{n}{\lambda}-\sum_{i=1}^{n} x_{i}\), qui s’annule pour \(\lambda=\frac{n}{\sum_{i=1}^{n} x_{i}}=\frac{1}{\overline{x}_{n}}\).
Par conséquent, l’EMV de \(\lambda\) est \(\hat{\lambda}_n = \frac{1}{\overline{X}_n}\).
3.4.2.1.3 Exemple 3: loi normale
Si les \(X_i\) sont de loi \(\mathcal{N}(m,\sigma^2)\), la fonction de vraisemblance est:
\[\begin{aligned} \mathcal{L}\left(m, \sigma^{2} ; x_{1}, \ldots, x_{n}\right) &=\prod_{i=1}^{n} f_{X_{i}}\left(x_{i} ; m, \sigma^{2}\right)=\prod_{i=1}^{n} \frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{\left(x_{i}-m\right)^{2}}{2 \sigma^{2}}} \\ &=\frac{1}{(\sigma \sqrt{2 \pi})^{n}} e^{-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-m\right)^{2}} \end{aligned}\]
D’où \(\ln \mathcal{L}\left(m, \sigma^{2} ; x_{1}, \ldots, x_{n}\right)=-\frac{n}{2} \ln \sigma^{2}-\frac{n}{2} \ln 2 \pi-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-m\right)^{2}\).
On doit annuler les dérivées partielles de ce logarithme par rapport à \(m\) et \(\sigma^2\). On a:
- \(\frac{\partial}{\partial m} \ln \mathcal{L}\left(m, \sigma^{2} ; x_{1}, \ldots, x_{n}\right)=-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}-2\left(x_{i}-m\right)=\frac{1}{\sigma^{2}}\left(\sum_{i=1}^{n} x_{i}-n m\right)\), qui s’annule pour \(m=\frac{1}{n} \sum_{i=1}^{n} x_{i}=\overline{x}_{n}\).
- \(\frac{\partial}{\partial \sigma^{2}} \ln \mathcal{L}\left(m, \sigma^{2} ; x_{1}, \ldots, x_{n}\right)=-\frac{n}{2 \sigma^{2}}+\frac{1}{2 \sigma^{4}} \sum_{i=1}^{n}\left(x_{i}-m\right)^{2}\), qui s’annule pour \(\sigma^2=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-m\right)^{2}\).
\(\hat{m}_n\) et \(\hat{\sigma}_n^2\) sont les valeurs de \(m\) et \(\sigma^2\) qui vérifient les deux conditions en même temps. On a donc \(\hat{m}_{n}=\overline{X}_{n}\) et \(\hat{\sigma}_{n}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\overline{X}_{n}\right)^{2}=S_{n}^{2}\).
3.5 Qualité d’un estimateur
En toute généralité, \(\theta\) peut être un paramètre à plusieurs dimensions, mais on supposera dans toute cette section et dans la suivante que \(\theta\) est un réel. Cela signifie par exemple que, quand \(X\) est de loi normale \(\mathcal{N}(m,\sigma^2)\), on s’intéressera séparément à la qualité des estimateurs de \(m\) et de \(\sigma^2\). Les estimateurs \(T_n\) considérés ici seront donc des variables aléatoires réelles. Pour \(\theta \in \mathbb{R}^d, d \geq 2\), toutes les notions de ces sections sont généralisables, mais la complexité des résultats augmente notablement. Par exemple, la notion de variance est remplacée par celle de matrice de covariance.
3.5.1 Estimateur sans biais et de variance minimale (ESBVM)
Un estimateur \(T_n\) de \(\theta\) sera un bon estimateur s’il est suffisamment proche, en un certain sens, de \(\theta\). Il faut donc définir une mesure de l’écart entre \(\theta\) et \(T_n\). On appelle cette mesure le risque de l’estimateur. On a intérêt à ce que le risque d’un estimateur soit le plus petit possible.
Par exemple, les risques \(T_n - \theta,\,\, |T_n - \theta|\,\, \text{et} \,\, (T_n - \theta)^2\) expriment bien un écart entre \(T_n\) et \(\theta\). Mais comme il est plus facile d’utiliser des quantités déterministes que des quantités aléatoires, on s’intéresse en priorité aux espérances des quantités précédentes. En particulier:
Dans le cas du biais, le risque peut être nul:
Le biais mesure une erreur systématique d’estimation de \(\theta\) par \(T_n\). Par exemple, si \(E(T_n)-\theta < 0\), cela signifie que \(T_n\) aura tendance à sous-estimer \(\theta\).
D’autre part, l’erreur quadratique moyenne (nommée aussi risque quadratique) s’écrit:
\[\begin{aligned} E Q M\left(T_{n}\right) & = E\left[\left(T_{n}-\theta\right)^{2}\right]=E\left[\left(T_{n}-E\left(T_{n}\right)+E\left(T_{n}\right)-\theta\right)^{2}\right] \\ & = E\left[\left(T_{n}-E\left(T_{n}\right)\right)^{2}\right]+2 E\left[T_{n}-E\left(T_{n}\right)\right] E\left[E\left(T_{n}\right)-\theta\right]+E\left[\left(E\left(T_{n}\right)-\theta\right)^{2}\right] \\ & = \operatorname{Var}\left(T_{n}\right)+\left[E\left(T_{n}\right)-\theta\right]^{2} \\ & = \text { Variance de l'estimateur }+\text { carré de son biais } \end{aligned}\]
Si \(T_n\) est un estimateur sans biais, \(EQM(T_n ) = Var(T_n )\). On a donc intérêt à ce qu’un estimateur soit sans biais et de faible variance. Par ailleurs, on en déduit immédiatement que de deux estimateurs sans biais, le meilleur est celui qui a la plus petite variance.
On a intérêt à ce qu’un estimateur soit sans biais et de faible variance.
La variance d’un estimateur mesure sa variabilité. Si l’estimateur est sans biais, cette variabilité est autour de \(\theta\). Si on veut estimer correctement \(\theta\), il ne faut pas que cette variabilité soit trop forte.
En pratique, si on observe plusieurs jeux de données similaires, on obtient une estimation de \(\theta\) pour chacun d’entre eux. Alors si l’estimateur est de faible variance, ces estimations seront toutes proches les unes des autres, et s’il est sans biais leur moyenne sera très proche de \(\theta\).
Il est logique de s’attendre à ce que, plus la taille des données augmente, plus on a d’information sur le phénomène aléatoire observé, meilleure sera l’estimation. En théorie, avec une observation infinie, on devrait pouvoir estimer \(\theta\) sans aucune erreur. On peut traduire cette affirmation par le fait que le risque de l’estimateur \(T_n\) doit tendre vers \(0\) quand la taille \(n\) de l’échantillon tend vers l’infini. Cela revient à dire que l’estimateur \(T_n\) doit converger, en un certain sens, vers \(\theta\).
Il s’agit en fait d’étudier la convergence de la suite de variables aléatoires \(\{T_n\}_{n \geq 1}\) vers la constante \(\theta\). On sait qu’il existe plusieurs types de convergence de suites de variables aléatoires. On peut étudier la convergence presque sûre ou la convergence en probabilité, mais on s’intéresse en général à la convergence en moyenne quadratique (ou convergence dans \(L^2\)).
Définition 3.8 L’estimateur \(T_n\) converge en moyenne quadratique vers \(\theta\) si et seulement si son erreur quadratique moyenne tend vers \(0\) quand \(n\) tend vers l’infini:
\[T_{n} \stackrel{M Q}{\longrightarrow} \theta \Leftrightarrow \lim _{n \rightarrow \infty} E\left[\left(T_{n}-\theta\right)^{2}\right]=0\]Si \(T_n\) est sans biais, il sera convergent en moyenne quadratique si et seulement si sa variance tend vers \(0\) quand \(n\) tend vers l’infini.
Finalement, on considèrera que le meilleur estimateur possible de \(\theta\) est un estimateur sans biais et de variance minimale (ESBVM). Un tel estimateur n’existe pas forcément.
3.6 Propriétés des estimateurs des moments (EMM)
Propriétés de \(\overline{X}_n\)
Si \(\theta = E(X)\), alors l’EMM de \(\theta\) est \(\hat{\theta}_n = \overline{X}_n\). La justification de cette méthode est la loi des grands nombres, qui dit que \(\overline{X}_n\) converge presque sûrement vers \(E(X)\). Donc, si \(\theta = E(X)\), \(\overline{X}_n\) est un estimateur de \(\theta\) convergent presque sûrement. Autrement dit, si on a beaucoup d’observations, on peut estimer une espérance par une moyenne empirique.
On peut en fait montrer facilement que \(\overline{X}_n\) est un bon estimateur de \(\theta = E(X)\), sans utiliser la loi des grands nombres:
\[ E\left(\overline{X}_{n}\right)=E\big[\frac{1}{n} \sum_{i=1}^{n} X_{i}\big]=\frac{1}{n} \sum_{i=1}^{n} E\left(X_{i}\right)=\frac{1}{n} n \theta=\theta \]
Donc \(\overline{X}_{n}\) est un estimateur sans biais de \(\theta = E(X)\).
La variance de \(\overline{X}_{n}\) est:
\[ \operatorname{Var}\left(\overline{X}_{n}\right)=\operatorname{Var}\left[\frac{1}{n} \sum_{i=1}^{n} X_{i}\right]=\frac{1}{n^{2}} \sum_{i=1}^{n} \operatorname{Var}\left(X_{i}\right)=\frac{\operatorname{Var}(X)}{n} \] car les \(X_i\) sont indépendantes, donc la variance de leur somme est égale à la somme de leurs variances, qui sont toutes égales à \(Var(X)\). \(Var(\overline{X}_{n})\) tend vers \(0\) quand \(n\) tend vers l’infini. Par conséquent:
Propriété: La moyenne empirique \(\overline{X}_{n}\) est un estimateur sans biais et convergent en moyenne quadratique de \(E(X)\).
Propriétés de la variance empirique \(S_{n}^{2}\)
On considère maintenant l’estimation de la variance de la loi des \(X_i\) par la variance empirique de l’échantillon \(S_{n}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\overline{X}_{n}\right)^{2}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{2}-\overline{X}_{n}^{2}\).
Déterminons le biais de cet estimateur.
\[ \begin{aligned} E\left(S_{n}^{2}\right) &=E\left[\frac{1}{n} \sum_{i=1}^{n} X_{i}^{2}-\overline{X}_{n}^{2}\right]=\frac{1}{n} \sum_{i=1}^{n} E\left(X_{i}^{2}\right)-E\left(\overline{X}_{n}^{2}\right)=E\left(X^{2}\right)-E\left(\overline{X}_{n}^{2}\right) \\ &=\operatorname{Var}(X)+E(X)^{2}-\operatorname{Var}\left(\overline{X}_{n}\right)-E\left(\overline{X}_{n}\right)^{2} \\ &=\operatorname{Var}(X)+E(X)^{2}-\frac{\operatorname{Var}(X)}{n}-E(X)^{2}=\left(1-\frac{1}{n}\right) \operatorname{Var}(X) \\ &=\frac{n-1}{n} \operatorname{Var}(X) \neq \operatorname{Var}(X) \end{aligned} \]
Donc contrairement à ce qu’on pourrait croire, la variance empirique \(S_n^2\) n’est pas un estimateur sans biais de \(Var(X)\). Cet estimateur n’est qu’asymptotiquement sans biais.
En revanche, on voit que \(E\left(\frac{n}{n-1} S_{n}^{2}\right)=\frac{n}{n-1} E\left(S_{n}^{2}\right)=\operatorname{Var}(X)\).
On pose donc \({S_n^{*}}^2=\frac{n}{n-1} S_{n}^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\big(X_{i}-\overline{X}_{n}\big)^{2}\).
\({S_n^{*}}^2\) est appelée variance estimée de l’échantillon. Le résultat précédent montre que c’est un estimateur sans biais de \(\operatorname{Var}(X)\).
Par ailleurs, on montre que
\[ \operatorname{Var}\left({S_n^{*}}^2\right)=\frac{1}{n(n-1)}\left[(n-1) E\left[(X-E(X))^{4}\right]-(n-3) \operatorname{Var}(X)^{2}\right] \] qui tend vers \(0\) quand \(n\) tend vers l’infini. Par conséquent:
Propriété: La variance estimée \({S_n^{*}}^2=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\overline{X}_{n}\right)^{2}\) est un estimateur sans biais et convergent en moyenne quadratique de \(Var(X)\).
La commande var(x)
en donne la variance estimée, et non pas la variance empirique de l’échantillon x
.
On peut montrer également que \({S_n^{*}}^2\) et \(S_{n}^{2}\) convergent toutes les deux presque sûrement vers \(Var(X)\).
Remarque 1: On n’a pas de résultat général sur la qualité de \(S_{n}\) comme estimateur de l’écart-type de la loi, \(\sigma(X)=\sqrt{\operatorname{Var}(X)}\). A priori, ni \(S_{n}\) ni \(S_{n}^{*}\) ne sont des estimateurs sans biais de \(\sigma(X)\).
Remarque 2: Le simple exemple de la variance montre qu’un estimateur des moments n’est pas forcément sans biais. On peut montrer qu’un EMM est asymptotiquement sans biais et convergent presque sûrement.
3.7 Propriétés des estimateurs de maximum de vraisemblance (EMV)
Un estimateur de maximum de vraisemblance n’est pas forcément unique (la vraisemblance peut avoir plusieurs maxima), ni sans biais, ni de variance minimale, ni efficace. Mais il possède d’excellentes propriétés asymptotiques (non évoqués dans ce cours).
Le fait que l’EMV soit asymptotiquement sans biais et efficace fait que, si on a beaucoup de données, on est pratiquement certains que la méthode du maximum de vraisemblance est la meilleure méthode d’estimation possible. C’est pourquoi cette méthode est considérée comme globalement la meilleure et est utilisée de préference à toute autre méthode, y compris celle des moments.