La Matrice Hessienne : Définition, Calcul et Application en Optimisation

La Matrice Hessienne d’une Fonction

Tout comme le gradient rassemble les informations de premier ordre (les pentes), la matrice Hessienne rassemble toutes les informations de second ordre (les courbures) d’une fonction scalaire en un point. Elle est la généralisation de la dérivée seconde et constitue l’outil central pour l’étude des extrémums locaux en optimisation.

1. Définition

Définition : Matrice Hessienne

Soit $f: U \subset \mathbb{R}^p \to \mathbb{R}$ une fonction de classe C² sur un ouvert $U$.
La matrice Hessienne de $f$ en un point $a \in U$, notée $H_f(a)$ ou $\nabla^2 f(a)$, est la matrice carrée de taille $p \times p$ contenant toutes les dérivées partielles secondes de $f$ : $$ H_f(a) = \left( \frac{\partial^2 f}{\partial x_i \partial x_j}(a) \right)_{1 \le i,j \le p} = \begin{pmatrix} \frac{\partial^2 f}{\partial x_1^2}(a) & \frac{\partial^2 f}{\partial x_1 \partial x_2}(a) & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_p}(a) \\ \frac{\partial^2 f}{\partial x_2 \partial x_1}(a) & \frac{\partial^2 f}{\partial x_2^2}(a) & \cdots & \frac{\partial^2 f}{\partial x_2 \partial x_p}(a) \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2 f}{\partial x_p \partial x_1}(a) & \frac{\partial^2 f}{\partial x_p \partial x_2}(a) & \cdots & \frac{\partial^2 f}{\partial x_p^2}(a) \end{pmatrix} $$

Puisque $f$ est de classe C², le théorème de Schwarz garantit que la matrice Hessienne est symétrique.

Exemple de Calcul

Calculons la matrice Hessienne de $f(x,y) = x^3 – 3xy^2 + y^4$.

  1. Dérivées premières (gradient) : $$ \frac{\partial f}{\partial x} = 3x^2 – 3y^2 $$ $$ \frac{\partial f}{\partial y} = -6xy + 4y^3 $$
  2. Dérivées secondes : $$ \frac{\partial^2 f}{\partial x^2} = 6x $$ $$ \frac{\partial^2 f}{\partial y^2} = -6x + 12y^2 $$ $$ \frac{\partial^2 f}{\partial y \partial x} = -6y $$
  3. Matrice Hessienne : Par symétrie, $\frac{\partial^2 f}{\partial x \partial y} = -6y$. $$ H_f(x,y) = \begin{pmatrix} 6x & -6y \\ -6y & -6x + 12y^2 \end{pmatrix} $$

2. Rôle en Optimisation : Étude des Points Critiques

La matrice Hessienne est la généralisation de la dérivée seconde. En dimension 1, le signe de $g »(a)$ en un point critique (où $g'(a)=0$) détermine s’il s’agit d’un minimum ou d’un maximum local. De même, la « positivité » de la matrice Hessienne en un point critique (où $\nabla f(a) = \vec{0}$) détermine la nature de ce point.

Test de la Dérivée Seconde (Condition suffisante)

Soit $a$ un point critique d’une fonction $f$ de classe C² (c’est-à-dire $\nabla f(a) = \vec{0}$). On évalue la matrice Hessienne $H_f(a)$ en ce point.

  • Si toutes les valeurs propres de $H_f(a)$ sont strictement positives, alors $f$ présente un minimum local strict en $a$.
  • Si toutes les valeurs propres de $H_f(a)$ sont strictement négatives, alors $f$ présente un maximum local strict en $a$.
  • Si $H_f(a)$ admet des valeurs propres de signes opposés (certaines positives, d’autres négatives), alors $a$ est un point selle (ou point col). [Image d’une surface avec un point selle]
  • Si l’une des valeurs propres est nulle, on ne peut pas conclure avec ce test.

3. Lien avec la Formule de Taylor-Young

La matrice Hessienne apparaît naturellement dans le terme d’ordre 2 du développement de Taylor d’une fonction.

Formule de Taylor-Young à l’ordre 2

Pour une fonction $f$ de classe C² au voisinage d’un point $a$, on a : $$ f(a+h) = f(a) + \nabla f(a) \cdot h + \frac{1}{2} h^T H_f(a) h + o(\|h\|^2) $$ où $h$ est un vecteur colonne et $h^T$ est sa transposée (un vecteur ligne). Le terme $\frac{1}{2} h^T H_f(a) h$ est une forme quadratique. C’est l’étude du signe de cette forme quadratique qui permet de déterminer la nature d’un point critique.