Introduction
La statistique est la science dont l’objet est de recueillir, de traiter et d’analyser des données issues de l’observation de phénomènes aléatoires, c’est-à-dire dans lesquels le hasard intervient.
L’analyse des données est utilisée pour décrire les phénomènes étudiés, faire des prévisions et prendre des décisions à leur sujet. En cela, la statistique est un outil essentiel pour la compréhension et la gestion des phénomènes complexes.
Les données étudiées peuvent être de toute nature, ce qui rend la statistique utile dans tous les champs disciplinaires et explique pourquoi elle est enseignée dans toutes les filières universitaires, de l’économie à la biologie en passant par la psychologie, et bien sûr les sciences de l’ingénieur.
Le point fondamental est que les données sont entâchées d’incertitudes et présentent des variations pour plusieurs raisons :
- le déroulement des phénomènes observés n’est pas prévisible à l’avance avec certitude (par exemple on ne sait pas prévoir avec certitude les cours de la bourse ou les pannes des voitures)
- toute mesure est entâchée d’erreur
- etc…
Il y a donc intervention du hasard et des probabilités. L’objectif essentiel de la statistique est de maîtriser au mieux cette incertitude pour extraire des informations utiles des données, par l’intermédiaire de l’analyse des variations dans les observations.
Les méthodes statistiques se répartissent en deux classes :
- La statistique descriptive, statistique exploratoire ou analyse des données, a pour but de résumer l’information contenue dans les données de façon synthétique et efficace. Elle utilise pour cela des représentations de données sous forme de graphiques, de tableaux et d’indicateurs numériques (par exemple des moyennes). Elle permet de dégager les caractéristiques essentielles du phénomène étudié et de suggérer des hypothèses pour une étude ultérieure plus sophistiquée. Les probabilités n’ont ici qu’un rôle mineur.
- La statistique inférentielle va au delà de la simple description des données. Elle a pour but de faire des prévisions et de prendre des décisions au vu des observations. En général, il faut pour cela proposer des modèles probabilistes du phénomène aléatoire étudié et savoir gérer les risques d’erreurs. Les probabilités jouent ici un rôle fondamental.
Pour le grand public, les statistiques désignent les résumés de données fournis par la statistique descriptive. Par exemple, on parle des “statistiques du chômage” ou des “statistiques de l’économie américaine”. Mais on oublie en général les aspects les plus importants liés aux prévisions et à l’aide à la décision apportés par la statistique inférentielle.
L’informatique et la statistique sont deux éléments du traitement de l’information : l’informatique acquiert et traite l’information tandis que la statistique l’analyse. Les deux disciplines sont donc étroitement liées. En particulier, l’augmentation considérable de la puissance des ordinateurs et la facilité de transmission des données par internet ont rendu possible l’analyse de très grandes masses de données, ce qui nécessite l’utilisation de méthodes de plus en plus sophistiquées, connues sous le nom de data mining, fouille de données ou Big Data. Enfin, l’informatique décisionnelle ou business intelligence regroupe les outils d’aide à la décision devenus essentiels dans la gestion des entreprises. Ces outils nécessitent un recours important aux méthodes statistiques.
Plus généralement, tout ingénieur est amené à prendre des décisions au vu de certaines informations, dans des contextes où de nombreuses incertitudes demeurent. Il importe donc qu’un ingénieur soit formé aux techniques de gestion du risque et de traitement de données expérimentales.
Aujourd’hui, les statistiques sont partout. Les statistiques descriptives sont présentées dans tous les journaux et magazines. L’inférence statistique est devenue indispensable à la santé publique et la recherche médicale, à l’ingénierie et les études scientifiques, à la commercialisation et l’éducation, la comptabilité, l’économie, les prévisions météorologiques, les sondages, aux sports, à l’assurance, et à toutes les recherches scientifiques. Les statistiques sont en effet enracinées dans notre patrimoine intellectuel.
La démarche statistique
La statistique et les probabilités sont les deux aspects complémentaires de l’étude des phénomènes aléatoires. Ils sont cependant de natures bien différentes.
Les probabilités peuvent être envisagées comme une branche des mathématiques pures, basée sur la théorie de la mesure, abstraite et complètement déconnectée de la réalité.
Les probabilités appliquées proposent des modèles probabilistes du déroulement de phénomènes aléatoires concrets. On peut alors, préalablement à toute expérience, faire des prévisions sur ce qui va se produire.
Par exemple, il est usuel de modéliser la durée de bon fonctionnement ou durée de vie d’un système, mettons une ampoule électrique, par une variable aléatoire \(X\) de loi exponentielle de paramètre \(\lambda\). Ayant adopté ce modèle probabiliste, on peut effectuer tous les calculs que l’on veut. Par exemple :
- La probabilité que l’ampoule ne soit pas encore tombée en panne à la date \(t\) est \(P(X > t) = e^{−\lambda t}\) .
- La durée de vie moyenne est \(E(X) = 1/\lambda\).
- Si \(n\) ampoules identiques sont mises en fonctionnement en même temps, et qu’elles fonctionnent indépendamment les unes des autres, le nombre \(N_t\) d’ampoules qui tomberont en panne avant un instant \(t\) est une variable aléatoire de loi binomiale \(\mathcal{B}(n,P(X ≤ t)) = \mathcal{B}(n,1 − e^{-\lambda t})\). Donc on s’attend à ce que, en moyenne, \(E(N_t) = n(1 − e^{-\lambda t})\) ampoules tombent en panne entre 0 et \(t\)
Dans la pratique, l’utilisateur de ces ampoules est très intéressé par ces résultats. Il souhaite évidemment avoir une évaluation de leur durée de vie, de la probabilité qu’elles fonctionnent correctement pendant plus d’un mois, un an, etc… Mais si l’on veut utiliser les résultats théoriques énoncés plus haut, il faut d’une part pouvoir s’assurer qu’on a choisi un bon modèle, c’est-à-dire que la durée de vie de ces ampoules est bien une variable aléatoire de loi exponentielle, et, d’autre part, pouvoir calculer d’une manière ou d’une autre la valeur du paramètre \(\lambda\). C’est la statistique qui va permettre de résoudre ces problèmes. Pour cela, il faut faire une expérimentation, recueillir des données et les analyser.
On met donc en place ce qu’on appelle un essai ou une expérience. On fait fonctionner en parallèle et indépendamment les unes des autres \(n = 10\) ampoules identiques, dans les mêmes conditions expérimentales, et on relève leurs durées de vie. Admettons que l’on obtienne les durées de vie suivantes, exprimées en heures :
#ans> Error in knitr::kable(t(x)): cannot open file '/Users/mghassany/Dropbox/ESILV19-20/Statistique_inferentielle/Cours_statistique_inferentielle/Statistique_inferentielle_cache/html/unnamed-chunk-22_8e691d790449aa4dec2da31569702a49.rdb': No such file or directory
Notons \(x_1 ,\ldots,x_n\) ces observations. Il est bien évident que la durée de vie des ampoules n’est pas prévisible avec certitude à l’avance. On va donc considérer que \(x_1 ,\ldots,x_n\) sont les réalisations de variables aléatoires \(X_1 ,\ldots,X_n\). Cela signifie qu’avant l’expérience, la durée de vie de la \(i^{\text{ème}}\) ampoule est inconnue et que l’on traduit cette incertitude en modélisant cette durée par une variable aléatoire \(X_i\). Mais après l’expérience, la durée de vie a été observée. Il n’y a donc plus d’incertitude, cette durée est égale au réel \(x_i\). On dit que \(x_i\) est la réalisation de \(X_i\) sur l’essai effectué.
Puisque les ampoules sont identiques, il est naturel de supposer que les \(X_i\) sont de même loi. Cela signifie qu’on observe plusieurs fois le même phénomène aléatoire. Mais le hasard fait que les réalisations de ces variables aléatoires de même loi sont différentes, d’où la variabilité dans les données. Puisque les ampoules ont fonctionné indépendamment les unes des autres, on pourra également supposer que les \(X_i\) sont des variables aléatoires indépendantes. On peut alors se poser les questions suivantes :
- Au vu de ces observations, est-il raisonnable de supposer que la durée de vie d’une ampoule est une variable aléatoire de loi exponentielle? Si non, quelle autre loi serait plus appropriée? C’est un problème de choix de modèle ou de test d’adéquation.
- Si le modèle de loi exponentielle a été retenu, comment proposer une valeur (ou un ensemble de valeurs) vraisemblable pour le paramètre \(\lambda\)? C’est un problème d’estimation paramétrique.
- Dans ce cas, peut-on garantir que \(\lambda\) est inférieur à une valeur fixée \(\lambda_0\) ? Cela garantira alors que \(E(X) = 1/\lambda \geq 1/\lambda_0\), autrement dit que les ampoules seront suffisamment fiables. C’est un problème de test d’hypothèses paramétriques.
- Sur un parc de 100 ampoules, à combien de pannes peut-on s’attendre en moins de 50 h? C’est un problème de prévision.
Le premier problème central est celui de l’estimation : comment proposer, au vu des observations, une approximation des grandeurs inconnues du problème qui soit la plus proche possible de la réalité? La première question peut se traiter en estimant la fonction de répartition ou la densité de la loi de probabilité sous-jacente, la seconde revient à estimer un paramètre de cette loi, la troisième à estimer un nombre moyen de pannes sur une période donnée.
Le second problème central est celui des tests d’hypothèses : il s’agit de se prononcer sur la validité d’une hypothèse liée au problème : la loi est-elle exponentielle? \(\lambda\) est-il inférieur à \(\lambda_0\)? un objectif de fiabilité est-il atteint? En répondant oui ou non à ces questions, il est possible que l’on se trompe. Donc, à toute réponse statistique, il faudra associer le degré de confiance que l’on peut accorder à cette réponse. C’est une caractéristique importante de la statistique par rapport aux mathématiques classiques, pour lesquelles un résultat est soit juste, soit faux.
Pour résumer, la démarche probabiliste suppose que la nature du hasard est connue. Cela signifie que l’on adopte un modèle probabiliste particulier (ici la loi exponentielle), qui permettra d’effectuer des prévisions sur les observations futures. Dans la pratique, la nature du hasard est inconnue. La statistique va, au vu des observations, formuler des hypothèses sur la nature du phénomène aléatoire étudié. Maîtriser au mieux cette incertitude permettra de traiter les données disponibles. Probabilités et statistiques agissent donc en aller-retour dans le traitement mathématique des phénomènes aléatoires.
L’exemple des ampoules est une illustration du cas le plus fréquent où les données se présentent sous la forme d’une suite de nombres. C’est ce cas que nous traiterons dans ce cours, mais il faut savoir que les données peuvent être beaucoup plus complexes : des fonctions, des images, etc… Les principes et méthodes généraux que nous traiterons dans ce cours seront adaptables à tous les types de données.
Objectifs et plan du cours
Ce cours a pour but de présenter les principes de base d’une analyse statistique de données (description, estimation, tests), ainsi que les méthodes statistiques les plus usuelles. Ces méthodes seront toujours illustrées par des problèmes concrets. Le cours privilégie l’application à la théorie. Les méthodes présentées seront mises en œuvre à l’aide du logiciel (https://www.r-project.org).
Le premier chapitre présente les techniques de base en statistique descriptive, représentations graphiques et indicateurs statistiques. Le chapitre suivant introduit l’échantillonnage et les théorèmes limites avec une étude des statistiques \(\overline{X}_n\) et \(S^2\). Le chapitre 3 est consacré aux problèmes d’estima tion paramétrique ponctuelle, le chapitre 4 aux intervalles de confiance et le chapitre 5 aux tests d’hypothèses. Enfin, des annexes donnent quelques rappels de probabilités utiles en statistique et des tables des lois de probabilité usuelles.