En statistiques, une question fondamentale est : comment estimer la loi de probabilité d’un phénomène à partir d’un échantillon de données ? La fonction de répartition empirique est un outil clé pour répondre à cette question.
Si on dispose d’un échantillon $X_1, X_2, \dots, X_n$, la fonction de répartition empirique $F_n(x)$ est simplement la proportion d’observations qui sont inférieures ou égales à $x$ : $$ F_n(x) = \frac{1}{n} \sum_{i=1}^n \mathbf{1}_{X_i \le x} $$ C’est une fonction en escalier qui « approche » la vraie fonction de répartition $F(x)$ de la population. Le théorème de Glivenko-Cantelli nous garantit la qualité de cette approximation.
Soit $X_1, X_2, \dots$ une suite de variables aléatoires indépendantes et identiquement distribuées (i.i.d.) de fonction de répartition commune $F$.
Alors, la fonction de répartition empirique $F_n$ converge uniformément et presque sûrement vers $F$ lorsque la taille de l’échantillon $n$ tend vers l’infini.
Mathématiquement, cela s’écrit : $$ \sup_{x \in \mathbb{R}} |F_n(x) – F(x)| \xrightarrow[n \to \infty]{p.s.} 0 $$ où $\sup$ désigne la borne supérieure, c’est-à-dire le plus grand écart possible entre les deux fonctions sur l’ensemble des réels.
Interprétation et Signification
Ce théorème est parfois appelé le « théorème fondamental de la statistique ». Son importance réside dans la nature uniforme de la convergence.
- La Loi des Grands Nombres nous dit que pour un $x$ fixé, $F_n(x)$ converge vers $F(x)$.
- Glivenko-Cantelli est beaucoup plus fort : il nous assure que l’écart maximal entre le graphe de $F_n(x)$ (la fonction en escalier) et celui de $F(x)$ (la vraie fonction) tend vers zéro sur toute la droite réelle.
- Autrement dit, avec un échantillon suffisamment grand, la fonction empirique devient une excellente approximation de la vraie fonction de répartition, partout en même temps.
Applications et Importance
- Fondement de la statistique non-paramétrique : Il justifie l’utilisation de la distribution empirique comme un substitut fiable à la distribution réelle (inconnue), sans avoir à faire d’hypothèse sur la forme de cette dernière (par exemple, qu’elle est normale).
- Tests d’adéquation : C’est la base théorique du test de Kolmogorov-Smirnov, qui mesure justement l’écart maximal entre une distribution empirique et une distribution théorique pour décider si les données suivent cette loi.
- Méthodes de rééchantillonnage : Des techniques comme le bootstrap, qui consistent à tirer de nouveaux échantillons à partir de l’échantillon initial, sont justifiées par le fait que la distribution empirique est une bonne approximation de la vraie distribution.