Skip to content
Snippets Groups Projects
Commit 411a3925 authored by orestis.malaspin's avatar orestis.malaspin
Browse files

ajout multivarié

parent 42f7c793
Branches
No related tags found
No related merge requests found
......@@ -26,6 +26,7 @@ urlcolor: blue
\newcommand{\remarque}{\textbf{Remarque }}
\newcommand{\proprietes}{\textbf{Propriétés }}
\newcommand{\propriete}{\textbf{Propriété }}
\newcommand{\grad}{\mathrm{grad}}
# Rappel
......@@ -1421,7 +1422,7 @@ L'idée de ce type de méthodes est, contrairement aux méthodes de la section p
connaissances *locales* que nous pouvons avoir sur la fonction. Cette connsaissance loale
a en général comme effet une *convergence* plus rapide de l'algorithme de recherche de zéros.
### Méthode de Newton (ou *Newton-Raphson")
### Méthode de Newton (ou *Newton-Raphson*)
La méthode de Newton est également une méthode itérative, qui nécessite que la fonction $g(x)$ soit non seulement continue mais également dérivable.
Revenons sur la méthode de la sécante. Il s'agissait de choisir deux points, $a < b$, et de déterminer la droite, $y(x)$, passant par $g(a)$ et $g(b)$,
......@@ -1457,7 +1458,7 @@ En revanche les contraintes pour sa convergence sont plus strictes que pour les
---
Remarques (non-convergence ou convergence lente) +.#
Remarque (non-convergence ou convergence lente) +.#
Il y a un certain nombre de cas où la méthode de Newton ne converge pas.
......@@ -1498,6 +1499,9 @@ Exercice +.#
## En plusieurs dimensions
Quand notre fonction de coût dépend de plusieurs arguments, on dit que c'est une fonction *multivariée*, $f(\vec x)$, avec $\vec x\in\real^n$.
![La fonction $f(x,y)=x^2-y^2$ est une fonction à plusieurs variable.](figs/saddle.svg){#fig:selle width="50%"}
On peut également l'écrire de façon plus explicite (et aussi plus longue) comme
\begin{equation}
f(\vec x)=f(x_1, x_2, ..., x_n).
......@@ -1509,10 +1513,10 @@ f:\real^n\rightarrow \real.
---
Exemple +.# (Régression linéaire)
Exemple (Régression linéaire) +.#
Dans le cas de la régression linéaire, si la droite ne passe pas par l'origine, nous avons que
la fonction de coût dépent de la pente de la droite, ainsi que de son ordonnée l'origine
la fonction de coût qui dépend de deux variables, $a$, et $b$ (et plus uniquement de $a$)
\begin{equation}
f(a,b)=\frac{1}{N}\sum_{i=1}^N \left(a\cdot x_i+b - y_i\right)^2.
......@@ -1520,7 +1524,259 @@ f(a,b)=\frac{1}{N}\sum_{i=1}^N \left(a\cdot x_i+b - y_i\right)^2.
---
### Les drivées en plusieurs dimensions
### Les dérivées en plusieurs dimensions
La dérivé d'une fonction à une seule variable peut se représenter comme
\begin{equation}
f'(a)=\frac{\dd f}{\dd x}(a)=\lim_{\dd x\rightarrow 0}\frac{f(a+\dd x)-f(a)}{\dd x}.
\end{equation}
La notation ici n'est pas tout à fait usuelle. L'idée est de se rappeler que ce $\dd x$ est une toute petite variation
de $x$, et $\dd f$, une toute petite variation de $f$ en $a$. On voit immédiatement que cette quantité est la pente
de $f$ en $a$. Lorsque nous étudions une fonction à plusieurs variables, nous pouvons faire le même raisonnement pour chaque variable indépendemment.
Ainsi, nous calculons sa dérivée dans chacune des directions $x$, $y$, ...
Cette vision de la dérivée comme une variation de $f$, $\dd f$, divisée par une petite variation de $x$, $\dd x$, permet
d'avoir une interprétation sur la variation locale de $f(x)$. En effet, la variation de $f(a)$ est donnée par
$$
\dd f=f'(a)\dd x,
$$
ou encore
$$
f(a+\dd x)=f(a)+f'(a)\dd x.
$$
#### Les dérivées partielles
Pour une fonction à deux variable, $f(x,y)$, dont le domaine de définition est
\begin{equation}
f:\real^2\rightarrow \real,
\end{equation}
on définit la **dérivée partielle** de $f$ par rapport à $x$ ou à $y$
\begin{align}
\frac{\partial f}{\partial x}(x,y)&=\lim_{h\rightarrow 0}\frac{f(x+h,y)-f(x,y)}{h},\\
\frac{\partial f}{\partial y}(x,y)&=\lim_{h\rightarrow 0}\frac{f(x,y+h)-f(x,y)}{h}.
\end{align}
Comme on le voit ici, pour chaque dérivée partielle, on ne fait varier qu'une seule variable, les autres sont considérées comme des constantes.
---
Exemple (Dérivée partielle) +.#
Les dérivée partielles de la fonction
$$
f(x,y)=x^2\cdot y+3,
$$
sont données par
\begin{align}
\frac{\partial f}{\partial x}(x,y)&=2xy,\\
\frac{\partial f}{\partial y}(x,y)&=x^2.
\end{align}
---
Pour une fonction $f$ dépendant d'un nombre $n$ de variables, la notation est la suivante.
Soit $f(\vec x)$ avec $\vec x=\{x_i\}_{i=1}^n$, ou $\vec x\in\real^n$, on définit la dérivée
par rapport à la $i$-ème composante de $\vec x$ comme
$$
\frac{\partial f}{\partial x_i}(x_1,x_2,...,x_i,...,x_n)=\lim_{h\rightarrow 0}\frac{f(x_1,x_2,...,x_i+h,...,x_n)-f(x_1,x_2,...,x_i,...,x_n)}{h}.
$$
---
Remarque +.#
Pour une fonction à une seule variable, $f(x)$, on a que
$$
f'(x)=\frac{\dd f}{\dd x}(x)=\frac{\partial f}{\partial x}(x).
$$
---
De façon similaire à ce qui se passe pour les fonction à une seule variables, nous pouvons définir les dérivées secondes
pour les façon à une seule variable. Pour une fonction à deux variables, on a en fait quatre dérivées secondes
\begin{align}
&\frac{\partial}{\partial x}\frac{\partial f}{\partial x}(x,y)=\frac{\partial^2 f}{\partial x^2}(x,y),\\
&\frac{\partial}{\partial x}\frac{\partial f}{\partial y}(x,y)=\frac{\partial^2 f}{\partial x\partial y}(x,y),\\
&\frac{\partial}{\partial y}\frac{\partial f}{\partial x}(x,y)=\frac{\partial^2 f}{\partial y\partial x}(x,y),\\
&\frac{\partial}{\partial y}\frac{\partial f}{\partial y}(x,y)=\frac{\partial^2 f}{\partial y^2}(x,y).
\end{align}
---
Remarque +.#
Si $f$ est dérivable en $x$ et $y$, on a que
$$
\frac{\partial^2 f}{\partial x\partial y}(x,y)=\frac{\partial^2 f}{\partial y\partial x}(x,y).
$$
---
---
Exemple (Dérivées partielles deuxièmes) +.#
Pour la fonction $f(x,y)=x^2-y^2$, on a
\begin{align}
\frac{\partial^2 f}{\partial x^2}(x,y)=\frac{\partial (2\cdot x)}{\partial x}(x,y)=2,\\
\frac{\partial^2 f}{\partial x\partial y}(x,y)=\frac{\partial (-2\cdot y)}{\partial x}(x,y)=0,\\
\frac{\partial^2 f}{\partial y\partial x}(x,y)=\frac{\partial (2\cdot x)}{\partial y}(x,y)=0,\\
\frac{\partial^2 f}{\partial y^2}(x,y)=\frac{\partial (-2\cdot y)}{\partial y}(x,y)=-2.
\end{align}
---
On peut également généraliser pour des fonction à $n$ variables où la deuxième dérivée partielle
par rapport aux variables $x_i$, $x_j$ s'écrit
$$
\frac{\partial^2 f}{\partial x_i\partial x_j}(x,y).
$$
#### Le gradient
Pour une fonction à deux variables, $f(x,y)$, on a vu qu'on peut calculer ses dérivées partielles par rapport à $x$ et $y$
$$
\frac{\partial f}{\partial x}, \quad \frac{\partial f}{\partial y}.
$$
Une construction mathématique possible est d'écrire un vecteur avec ces deux quantités
$$
\grad f(x,y)=\vec \nabla f(x,y)=\left(\frac{\partial f}{\partial x}(x,y), \frac{\partial f}{\partial y}(x,y)\right)^\mathrm{T}.
$$
Le symbole *nabla*, $\vec \nabla$, est une notation un peu étrange. Il représente un vecteur contenant toutes les
dérivées partielles
$$
\vec \nabla = \left(\frac{\partial}{\partial x}, \frac{\partial}{\partial y}\right)^\mathrm{T}.
$$
Cette notation est très utile pour se souvenir de ce qu'est un gradient, car on peut l'écrire un peu comme le "produit" entre
l'opérateur $\vec \nabla$ et $f$
$$
\vec \nabla f= \left(\frac{\partial}{\partial x}, \frac{\partial}{\partial y}\right)^\mathrm{T}f=\left(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}\right)^\mathrm{T}.
$$
On peut généraliser cette notation pour $n$ variables à
$$
\vec \nabla=\left(\frac{\partial}{\partial x_1}, \frac{\partial}{\partial x_2}, ..., \frac{\partial}{\partial x_n}\right)^\mathrm{T}.
$$
et
$$
\vec \nabla f=\left(\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, ..., \frac{\partial f}{\partial x_n}\right)^\mathrm{T}.
$$
---
Exemple (Gradient d'une fonction à deux variables) +.#
Pour la fonction $f(x,y)=x^2-y^2$, le gradient est donné par
$$
\vec \nabla f=\left(2x, -2y\right)^\mathrm{T}.
$$
Graphiquement, ceci est un *champds de vecteur* est peut se représenter comme
![Le champs de vecteur $\vec \nabla f(x,y)=(2x,-2y)^\mathrm{T}$.](figs/gradient_vec.svg){width="50%"}
---
Revenons à nos fonctions à deux variables. Le gradient d'une fonction a une très grande utilité pratique. En effet, il nous donne la variation de $f$
dans chacun des direction de l'espace. On peut donc (un peu comme on avait fait pour les fonctions à une dimensions)
se poser la question de la variation de $f$ dans une direction particulière, $\vec v$. Comme nous connaissons le taux de variation
de $f$ dans chacune des directions, nous pouvons définir la **dérivée directionnelle** de $f$ en un point $(a,b)$, comme
$$
(\vec \nabla_{\vec v} f)(a,b)=(\vec \nabla f)(a,b)\cdot \vec v,
$$
où $\vec v=(v_1,v_2)^\mathrm{T}$.
Cette grandeur représente la variation de $f(a,b)$ dans une direction particulière, $\vec v$. Comme pour les fonctions à une variable on peut écrire
que
$$
f(a + v_1, b + v_2)=f(a,b)+\vec v\cdot (\vec \nabla f(a,b)).
$$
Cette dérivée directionnelle va nous permettre d'interpréter ce que représente le gradient d'une fonction.
En fait, le gradient a une interprétation très intéressante. Ce n'est rien d'autre que la direction de la pente la plus élevée
sur chaque point de la fonction. C'est la direction, si vous faites de la randonnée en montagne,
qui vous permettra de monter le long de la pente la plus raide en chaque point.
A l'inverse, imaginez que vous êtes un skieur et que votre montagne est décrite par la fonction $f(\vec x)$. Le vecteur $-\vec \nabla f$
est la direction dans laquelle vous descendez si vous suivez tout droit la pente la plus raide.
Pour s'en convaincre essayons de prendre le problème à l'envers. On cherche la dérivée directionnelle $\vec \nabla_{\vec v} f$, telle que celle ci-soit maximale,
pour tous les vecteur $\vec v$ de longueur $1$. En d'autres termes
$$
\max_{||\vec v||=1} \vec v\cdot \vec \nabla f.
$$
Il faut à présent se rappeler que le produit scalaire de deux vecteurs peut s'écrire
$$
\vec a\cdot\vec b=||a||\cdot ||b||\cdot \cos\theta,
$$
avec $\theta$ l'angle entre $\vec a$ et $\vec b$. De ceci, on déduit que
la valeur maximale de $\vec v\cdot \vec \nabla f$ est atteinte quand $\vec v$ est aligné avec
$\nabla f$, ce qui ne se produit que quand $\vec v$ a la valeur
$$
\vec v^\ast=\frac{\nabla f}{||\nabla f||}.
$$
La variation maximale est donc atteinte quand on suit le vecteur pointé par
$\nabla f$. Par ailleurs, la dérivée directionnelle dans la direction
de $\vec v^\ast$, on a
\begin{align}
\vec\nabla_{\vec v^\ast}\cdot (\vec \nabla f)=\frac{\nabla f \cdot f}{||\vec \nabla f||}=||\vec\nabla f||.
\end{align}
Le taux de variation maximal est donc la longueur du vecteur $\vec \nabla f$.
---
Remarque (Généralisation) +.#
Tout ce que nous venons d'écrire ici se généralise à un nombre arbitraire de dimensions.
---
#### Le lien avec les problème d'optimisation
Un cas qui nous intéresse particulièrement ici, est lorsque que le gradient d'une fonction est nul
$$
\nabla f(x,y)=\vec 0.
$$
Cela veut dire que si nous trouvons un tel point $(x,y)$ la variation de la fonction localement (sa "pente") sera nulle.
Exactement comme pour le cas à une seule variable cela ne suffit pas pour déterminer si nous avons à faire à
un minimum, un maximum, ou un point d'inflexion. Un exemple typique est la fonction
$$
f(x,y)=x^2-y^2.
$$
Bien que $\nabla f(0,0)=\vec 0$, nous voyons sur la @fig:selle que bien que nous ayons un minimum
dans la direction $x$, nous avons un maximum dans la direction $y$. On se retrouve dans un cas où nous avons un point
d'inflexion.
Pour pouvoir en dire plus il nous faut étudier les deuxièmes dérivées de $f(x,y)$ comme pour
le cas unidimensionnel.
### La descente de gradient
Revenons à présent à l'optimisation d'une fonction de coût $f(\vec x)$. Pour simplifier considérons
la fonction
$$
f(x,y)=x^2+y^2.
$$
Nous pouvons facilement nous convaincre que cette fonction possède un minimum en $(0,0)$ en la dessinant.
On peut aussi aisément vérifier que $\nabla f(0,0)=\vec 0$. En effet,
$$
\nabla f(x,y)=(2x, 2y),
$$
et donc
$$
\nabla f(0,0)=(0, 0).
$$
Même si cela ne suffit pas à prouver mathématique que $\vec 0$ est le minimum de cette fonction nous nous en satisferons.
---
Question +.#
Avec ce qui précède, voyez-vous une façon de trouver le minimum de la fonction $f(x,y)$?
---
Une méthode pour trouver le minimum de $f(x,y)$ est la méthode de la *descente de gradient*.
......@@ -2098,6 +2354,8 @@ $$z'(x)+(1-n)a(x)\cdot z(x)+(1-n)b(x)=0.$$ On a donc ramené l’équation
de Bernouilli à une équation linéaire que nous savons résoudre à l’aide
de la méthode de la section @sec:eq_lin.
---
Exemple +.#
Résoudre l’équation de Bernouilli suivante $$y'-y-x\cdot y^6=0.$$
......@@ -2115,6 +2373,8 @@ la forme $z_p=x+B$ (avec $B$ une constante) on obtient $$\begin{aligned}
$$z=z_h+z_p=Ae^{5x}+x+\frac{1}{5}.$$ Il nous reste à présent à calculer
$y=z^{1/5}$ et on a $$y=\left(Ae^{5x}+x+\frac{1}{5}\right)^{1/5}.$$
---
### Équation de Riccati
L’équation de Riccati qui est de la forme
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment