En statistique inférentielle, l’objectif est d’estimer un paramètre inconnu $\theta$ d’une population à partir d’un échantillon. On peut souvent trouver un estimateur simple et non biaisé, mais est-ce le « meilleur » ? La notion de « meilleur » est généralement liée à la variance la plus faible, car un estimateur de faible variance est plus précis et plus stable.
Le théorème de Rao-Blackwell ne dit pas comment trouver un estimateur à partir de rien, mais il offre une méthode systématique et puissante pour prendre un estimateur existant (même médiocre) et le transformer en un nouvel estimateur qui est toujours meilleur ou au moins aussi bon.
Soit $\delta(X)$ un estimateur d’une quantité $g(\theta)$, dont l’espérance est finie. Soit $T(X)$ une statistique suffisante pour le paramètre $\theta$.
On définit un nouvel estimateur $\delta^*(X)$ par l’espérance conditionnelle de $\delta(X)$ sachant $T(X)$ : $$ \delta^*(X) = E[\delta(X) | T(X)] $$
Alors, cet nouvel estimateur $\delta^*$ vérifie les deux propriétés suivantes :
- Le biais est conservé : $\delta^*$ a la même espérance que $\delta$. En particulier, si $\delta$ est sans biais, $\delta^*$ l’est aussi. $$ E[\delta^*(X)] = E[\delta(X)] $$
- La variance est réduite (ou égale) : La variance de $\delta^*$ est inférieure ou égale à celle de $\delta$. $$ \text{Var}(\delta^*(X)) \le \text{Var}(\delta(X)) $$
Interprétation : « Raffiner » l’information
L’intuition derrière ce théorème est profonde et élégante :
- Une statistique suffisante $T(X)$ capture toute l’information pertinente sur le paramètre $\theta$ contenue dans l’échantillon $X$.
- Si notre estimateur initial $\delta(X)$ dépend d’autre chose que $T(X)$, cette dépendance supplémentaire est essentiellement du « bruit » statistique vis-à-vis de l’estimation de $\theta$.
- L’opération d’espérance conditionnelle $E[ . | T(X)]$ a pour effet de « moyenner » ce bruit, en ne conservant que la partie de l’information liée à la statistique suffisante. Ce processus de « lissage » réduit mathématiquement la variance.
Applications et Importance
- Construction d’estimateurs optimaux : C’est la principale application. En partant d’un estimateur très simple (parfois un seul point de donnée !) et en le « Rao-Blackwellisant » avec une statistique suffisante, on peut construire des estimateurs très performants.
- Recherche de l’EMVUE : Combiné avec le théorème de Lehmann-Scheffé, il devient l’outil principal pour trouver l’Estimateur sans Biais de Variance Uniformément Minimale (EMVUE ou UMVUE en anglais). Si une statistique suffisante est complète, alors l’estimateur « Rao-Blackwellisé » est unique et est l’EMVUE.
- Fondement théorique : Ce théorème établit un lien fondamental entre le concept d’exhaustivité (suffisance) et celui d’efficacité (variance minimale), qui sont deux piliers de la théorie de l’estimation.