Extrema Liés et Fonctions Implicites
La méthode des multiplicateurs de Lagrange, avec sa condition de colinéarité des gradients $\nabla f = \lambda \nabla g$, peut sembler sortir d’un chapeau. En réalité, elle est une conséquence directe et élégante d’un théorème majeur du calcul différentiel : le théorème des fonctions implicites. Ce théorème justifie pourquoi la méthode de Lagrange fonctionne.
1. Rappel sur le Théorème des Fonctions Implicites
Le théorème des fonctions implicites nous dit quand une équation de contrainte $g(x_1, \dots, x_p) = k$ peut être résolue localement pour exprimer l’une des variables en fonction des autres.
Soit $g: U \subset \mathbb{R}^p \to \mathbb{R}$ une fonction de classe C¹. Soit $a \in U$ un point tel que $g(a)=k$.
Si la dérivée partielle de $g$ par rapport à l’une de ses variables, disons $x_p$, est non nulle en $a$ ($\frac{\partial g}{\partial x_p}(a) \neq 0$), alors il existe un voisinage de $(a_1, \dots, a_{p-1})$ et une fonction $\phi$ de classe C¹ telle que, localement autour de $a$, l’équation de contrainte $g(x)=k$ est équivalente à :
$$ x_p = \phi(x_1, \dots, x_{p-1}) $$
De plus, le théorème donne les dérivées de cette fonction implicite $\phi$ : $$ \frac{\partial \phi}{\partial x_j} = – \frac{\partial g / \partial x_j}{\partial g / \partial x_p} $$
L’hypothèse cruciale $\frac{\partial g}{\partial x_p}(a) \neq 0$ est une version de la condition plus générale $\nabla g(a) \neq \vec{0}$, qui est exactement la condition requise dans le théorème de Lagrange.
2. Justification de la Méthode de Lagrange
Considérons le problème : trouver les extrémums de $f(x_1, \dots, x_p)$ sous la contrainte $g(x_1, \dots, x_p) = k$.
- Soit $a$ un extremum local de $f$ sous la contrainte $g=k$. On suppose que $\nabla g(a) \neq \vec{0}$. On peut donc supposer, sans perte de généralité, que $\frac{\partial g}{\partial x_p}(a) \neq 0$.
- D’après le théorème des fonctions implicites, on peut localement « éliminer » la contrainte en exprimant $x_p$ en fonction des autres variables : $x_p = \phi(x_1, \dots, x_{p-1})$.
- Le problème d’optimisation contrainte se transforme en un problème d’optimisation sans contrainte pour la nouvelle fonction $h$ de $p-1$ variables : $$ h(x_1, \dots, x_{p-1}) = f(x_1, \dots, x_{p-1}, \phi(x_1, \dots, x_{p-1})) $$ Puisque $a$ est un extremum pour $f$ sous contrainte, le point $(a_1, \dots, a_{p-1})$ est un extremum libre pour $h$.
- La condition nécessaire du premier ordre pour $h$ est que son gradient soit nul. Pour chaque $j \in \{1, \dots, p-1\}$ : $$ \frac{\partial h}{\partial x_j} = 0 $$
- On calcule cette dérivée en utilisant la règle de la chaîne (dérivation de fonctions composées) : $$ \frac{\partial h}{\partial x_j} = \frac{\partial f}{\partial x_j} + \frac{\partial f}{\partial x_p} \cdot \frac{\partial \phi}{\partial x_j} = 0 $$
- On remplace la dérivée de la fonction implicite $\frac{\partial \phi}{\partial x_j}$ par son expression : $$ \frac{\partial f}{\partial x_j} + \frac{\partial f}{\partial x_p} \cdot \left( – \frac{\partial g / \partial x_j}{\partial g / \partial x_p} \right) = 0 $$
- On réarrange l’équation : $$ \frac{\partial f}{\partial x_j} = \frac{\partial f / \partial x_p}{\partial g / \partial x_p} \cdot \frac{\partial g}{\partial x_j} $$
- On voit que le rapport $\frac{\partial f / \partial x_j}{\partial g / \partial x_j}$ est constant pour tous les $j$. Posons ce rapport égal à $\lambda$: $$ \lambda = \frac{\partial f / \partial x_p}{\partial g / \partial x_p} $$ On a alors, pour chaque $j \in \{1, \dots, p\}$ : $$ \frac{\partial f}{\partial x_j} = \lambda \frac{\partial g}{\partial x_j} $$
Ceci est exactement la condition de colinéarité des gradients : $\nabla f(a) = \lambda \nabla g(a)$. La méthode de Lagrange est donc une procédure systématique qui nous permet de trouver cette relation sans avoir à expliciter la fonction implicite $\phi$, ce qui est souvent impossible en pratique.