Différentielles d’Ordre Supérieur
Tout comme on peut dériver une fonction plusieurs fois de suite, on peut « différentier » une fonction plusieurs fois. La différentielle première $df$ est une application qui à chaque point $a$ associe une application linéaire $df_a$. On peut à son tour différentier cette application pour obtenir la différentielle seconde, qui sera une application bilinéaire, et ainsi de suite. Ces objets sont plus abstraits mais leur représentation matricielle (la matrice Hessienne pour l’ordre 2) est très concrète et utile.
1. Définition de la Différentielle Seconde
Soit $f: U \subset \mathbb{R}^p \to \mathbb{R}^n$ une fonction différentiable sur un ouvert $U$. Sa différentielle est l’application : $$ df: U \to \mathcal{L}(\mathbb{R}^p, \mathbb{R}^n) $$ qui à un point $x \in U$ associe l’application linéaire $df_x$. L’espace d’arrivée $\mathcal{L}(\mathbb{R}^p, \mathbb{R}^n)$ est l’espace des applications linéaires de $\mathbb{R}^p$ dans $\mathbb{R}^n$, qui est lui-même un espace vectoriel normé. On peut donc chercher à différentier l’application $df$.
Si l’application $df$ est elle-même différentiable en un point $a \in U$, sa différentielle est appelée la différentielle seconde de $f$ en $a$. Elle est notée $d^2f_a$. $$ d^2f_a = d(df)_a $$ C’est une application linéaire de $\mathbb{R}^p$ dans $\mathcal{L}(\mathbb{R}^p, \mathbb{R}^n)$. Par un isomorphisme canonique, on l’identifie à une application bilinéaire de $\mathbb{R}^p \times \mathbb{R}^p$ dans $\mathbb{R}^n$. $$ d^2f_a : \mathbb{R}^p \times \mathbb{R}^p \to \mathbb{R}^n $$ Pour une fonction de classe C², cette application bilinéaire est de plus symétrique (d’après le théorème de Schwarz).
2. Lien avec la Matrice Hessienne (pour $f: \mathbb{R}^p \to \mathbb{R}$)
Pour une fonction scalaire, la différentielle seconde est une forme bilinéaire symétrique. Sa représentation matricielle dans la base canonique est précisément la matrice Hessienne.
Soit $f: U \subset \mathbb{R}^p \to \mathbb{R}$ une fonction de classe C². Pour deux vecteurs $h, k \in \mathbb{R}^p$, la valeur de la forme bilinéaire $d^2f_a(h, k)$ est donnée par : $$ d^2f_a(h, k) = \sum_{i=1}^p \sum_{j=1}^p \frac{\partial^2 f}{\partial x_i \partial x_j}(a) h_i k_j = k^T H_f(a) h $$ En particulier, le terme quadratique du développement de Taylor est : $$ d^2f_a(h, h) = h^T H_f(a) h $$
3. La Formule de Taylor-Young
La formule de Taylor-Young est la généralisation des développements limités aux fonctions de plusieurs variables. Elle permet d’approcher une fonction par un polynôme de plusieurs variables au voisinage d’un point.
Soit $f: U \subset \mathbb{R}^p \to \mathbb{R}$ une fonction de classe C² sur un ouvert $U$. Pour tout $a \in U$, on a le développement suivant au voisinage de $a$ : $$ f(a+h) = f(a) + df_a(h) + \frac{1}{2!} d^2f_a(h,h) + o(\|h\|^2) $$ En utilisant le gradient et la matrice Hessienne, cette formule s’écrit : $$ f(a+h) = f(a) + \nabla f(a) \cdot h + \frac{1}{2} h^T H_f(a) h + o(\|h\|^2) $$
Chaque terme a une signification précise :
- $f(a)$ : Approximation d’ordre 0 (constante).
- $f(a) + \nabla f(a) \cdot h$ : Approximation d’ordre 1 (affine). Son graphe est le plan tangent.
- $f(a) + \nabla f(a) \cdot h + \frac{1}{2} h^T H_f(a) h$ : Approximation d’ordre 2 (quadratique). Son graphe est un paraboloïde qui épouse au mieux la courbure de la surface. [Image d’une surface avec son paraboloïde tangent]
Application à l’étude des points critiques
La formule de Taylor-Young est la justification théorique du « test de la dérivée seconde ». En un point critique $a$, le gradient est nul, $\nabla f(a) = \vec{0}$. La formule se simplifie : $$ f(a+h) – f(a) = \frac{1}{2} h^T H_f(a) h + o(\|h\|^2) $$ Au voisinage très proche de $a$, le signe de la différence $f(a+h) – f(a)$ (qui détermine si $a$ est un extremum) est donc déterminé par le signe de la forme quadratique associée à la matrice Hessienne.