L'algorithme des directions alternées (l'ADA ou l'algorithme des DA) est un algorithme de résolution de problèmes d'optimisation décomposables, qui cherche à adapter l'algorithme du lagrangien augmenté à ce contexte, alors que cet algorithme détruit cette décomposabilité. Il est typiquement utilisé pour minimiser la somme de deux fonctions (souvent convexes) dépendant de variables différentes couplées par une contrainte affine :
où f : R n → R ∪ { + ∞ } {\displaystyle f:\mathbb {R} ^{n}\to \mathbb {R} \cup \{+\infty \}} et g : R m → R ∪ { + ∞ } {\displaystyle g:\mathbb {R} ^{m}\to \mathbb {R} \cup \{+\infty \}} , A ∈ R p × n {\displaystyle A\in \mathbb {R} ^{p\times n}} , B ∈ R p × m {\displaystyle B\in \mathbb {R} ^{p\times m}} et c ∈ R p {\displaystyle c\in \mathbb {R} ^{p}} . L’algorithme suppose implicitement que minimiser f {\displaystyle f} ou g {\displaystyle g} seul est facile.
C'est un algorithme trouvant rapidement une solution avec peu de précision, mais qui demande beaucoup d'itérations pour déterminer une solution avec précision.
L'algorithme est utilisé dans des domaines très variés dans lesquels la précision de la solution importe peu : technique d'apprentissage statistique, machine à vecteurs de support, régularisation ℓ 1 {\displaystyle \ell _{1}} des problèmes de moindres-carrés, régression logistique creuse, etc.
On se place dans le contexte donné en introduction, à savoir celui où l'on cherche à minimiser la somme de deux fonctions dépendant de variables différentes couplées par une contrainte affine :
où f : R n → R ∪ { + ∞ } {\displaystyle f:\mathbb {R} ^{n}\to \mathbb {R} \cup \{+\infty \}} et g : R m → R ∪ { + ∞ } {\displaystyle g:\mathbb {R} ^{m}\to \mathbb {R} \cup \{+\infty \}} , A ∈ R p × n {\displaystyle A\in \mathbb {R} ^{p\times n}} , B ∈ R p × m {\displaystyle B\in \mathbb {R} ^{p\times m}} et c ∈ R p {\displaystyle c\in \mathbb {R} ^{p}} .
Exemple 1. On peut utiliser l'algorithme des DA pour minimiser la somme de deux fonctions convexes f + g : R n → R ∪ { + ∞ } {\displaystyle f+g:\mathbb {R} ^{n}\to \mathbb {R} \cup \{+\infty \}} par duplication des variables :
Exemple 2, qui tire parti du fait que les fonctions peuvent prendre des valeurs infinies. On cherche à minimiser une fonction f : R n → R {\displaystyle f:\mathbb {R} ^{n}\to \mathbb {R} } sur un ensemble X ⊂ R n {\displaystyle X\subset \mathbb {R} ^{n}} . Comme ce problème revient à minimiser f + I X {\displaystyle f+{\mathcal {I}}_{X}} , où I X {\displaystyle {\mathcal {I}}_{X}} est la fonction indicatrice de X {\displaystyle X} , on se ramène au problème de l'exemple 1, traitant de la minimisation d'une somme de deux fonctions.
L'algorithme se présente le mieux en le voyant comme une modification de l'algorithme du lagrangien augmenté, cherchant à préserver la décomposabilité supposée des fonctions f {\displaystyle f} et g {\displaystyle g} . Nous commençons donc par rappeler celui-ci.
Le lagrangien augmenté, associé au problème ( P ) {\displaystyle (P)} ci-dessus, est la fonction
dont la valeur en ( x , y , λ ) ∈ R n × R m × R p {\displaystyle (x,y,\lambda )\in \mathbb {R} ^{n}\times \mathbb {R} ^{m}\times \mathbb {R} ^{p}} s'écrit
où r ⩾ 0 {\displaystyle r\geqslant 0} est le paramètre d'augmentation. Si r = 0 {\displaystyle r=0} on retrouve le lagrangien du problème.
Une itération de l'algorithme du lagrangien augmenté fait passer d'une estimation λ k ∈ R p {\displaystyle \lambda _{k}\in \mathbb {R} ^{p}} d'un multiplicateur optimal à l'estimation suivante λ k + 1 ∈ R p {\displaystyle \lambda _{k+1}\in \mathbb {R} ^{p}} en deux étapes :
L'inconvénient de la première étape est de devoir minimiser le lagrangien augmenté simultanément en x {\displaystyle x} et y {\displaystyle y} , alors que le terme de pénalisation quadratique de la contrainte couple ces variables (il n'est pas possible de faire la minimisation séparément en x {\displaystyle x} et en y {\displaystyle y} ). C'est à cet inconvénient que remédie l'algorithme des DA.
Algorithme des directions alternées — Une itération passe d'un quadruplet ( x k , y k , λ k , r k ) ∈ R n × R m × R p × R {\displaystyle (x_{k},y_{k},\lambda _{k},r_{k})\in \mathbb {R} ^{n}\times \mathbb {R} ^{m}\times \mathbb {R} ^{p}\times \mathbb {R} } au suivant ( x k + 1 , y k + 1 , λ k + 1 , r k + 1 ) {\displaystyle (x_{k+1},y_{k+1},\lambda _{k+1},r_{k+1})} comme suit.
Remarques.
L'algorithme peut se voir comme une méthode de Gauss-Seidel par bloc, tronquée à une seule passe, pour minimiser le lagrangien augmenté, avant de modifier le multiplicateur[1]. Cependant aucun résultat de convergence n'utilise cette interprétation, si bien qu'elle est contestée par certains[2].
L'algorithme peut être vu comme réalisant une composition d'opérateurs contractants[3].
L'algorithme peut aussi être vu comme un cas particulier de l'algorithme de Douglas-Rachford[4], qui est lui-même un cas particulier de l'algorithme proximal[5].