Théorème de Gauss-Markov
Contexte : La Régression Linéaire

En statistique, on cherche souvent à modéliser une variable $Y$ en fonction d’autres variables $X$ à l’aide d’une relation linéaire. Le modèle s’écrit sous forme matricielle : $$ Y = X\beta + \varepsilon $$ où $Y$ est le vecteur des observations, $X$ la matrice des régresseurs, $\beta$ le vecteur des paramètres inconnus à estimer, et $\varepsilon$ un vecteur d’erreurs aléatoires.

La méthode la plus courante pour estimer $\beta$ est celle des Moindres Carrés Ordinaires (MCO). Elle consiste à trouver l’estimateur $\hat{\beta}$ qui minimise la somme des carrés des résidus. Mais pourquoi cette méthode est-elle si fondamentale ? Le théorème de Gauss-Markov fournit une réponse puissante.

Théorème de Gauss-Markov

Dans un modèle de régression linéaire, si les hypothèses suivantes sur les termes d’erreur $\varepsilon$ sont respectées :

  1. Espérance nulle : $E[\varepsilon] = 0$. (Les erreurs ne sont pas systématiquement positives ou négatives).
  2. Homoscédasticité : $Var(\varepsilon_i) = \sigma^2$ pour tout $i$. (La variance des erreurs est constante).
  3. Absence d’autocorrélation : $Cov(\varepsilon_i, \varepsilon_j) = 0$ pour $i \ne j$. (Les erreurs sont non corrélées entre elles).

Alors, l’estimateur des Moindres Carrés Ordinaires (MCO), $\hat{\beta} = (X’X)^{-1}X’Y$, est le meilleur estimateur linéaire non biaisé (en anglais : Best Linear Unbiased Estimator, ou BLUE).

Que signifie « BLUE » ?

L’acronyme BLUE décompose les propriétés optimales de l’estimateur MCO :

  • Best (Meilleur) : Signifie qu’il a la variance minimale parmi tous les autres estimateurs linéaires et non biaisés. C’est l’estimateur le plus « précis » ou le plus « efficace » de sa catégorie.
  • Linear (Linéaire) : L’estimateur $\hat{\beta}$ est une combinaison linéaire des observations $Y$. Cela le rend simple à calculer et à analyser.
  • Unbiased (Non biaisé) : En moyenne, l’estimateur MCO donne la vraie valeur du paramètre : $E[\hat{\beta}] = \beta$. Il ne surestime ni ne sous-estime systématiquement la vraie valeur.
  • Estimator (Estimateur) : C’est une méthode, une formule, pour estimer le paramètre inconnu $\beta$ à partir des données observées.

Importance et Implications

  • Justification des MCO : Ce théorème fournit la justification théorique principale à l’utilisation quasi-universelle de la régression par moindres carrés ordinaires.
  • Un benchmark : Il établit un « standard de qualité ». Si les hypothèses de Gauss-Markov sont violées (par exemple en cas d’hétéroscédasticité), on sait que l’estimateur MCO n’est plus « le meilleur » et qu’il faut se tourner vers d’autres méthodes (comme les Moindres Carrés Pondérés).
  • Pas d’hypothèse de normalité : Il est crucial de noter que le théorème n’exige pas que les erreurs suivent une loi normale. La normalité est une hypothèse supplémentaire, nécessaire pour les tests d’inférence statistique (tests de Student, de Fisher), mais pas pour que l’estimateur MCO soit BLUE.