Accéder au contenu principal

Perceptron et descente de gradient

La descente de gradient permet d'ajuster les paramètres W et b pour minimiser les erreurs, en calculant la dérivé ou gradient de la fonction coût.
  • Descente de gradient
    Wt+1=Wt-αLWt
  • Décomposition du gradient en dérivées partielles
    Lw1=La×az×zw1
    Lw2=La×az×zw2
    Lb=La×az×zb
  • Rappel des fonctions de classification, activation et coût
    z=w1x1+w2x2+b
    a=11+e-z
    L=-1mi=1myilog(ai)+(1-yi)log(1-ai)
    avec ai=a(zi)
  • Dérivée de L par rapport à a
    La=-1mi=1myiai-1-yi1-ai
    =-1mi=1myi(1-ai)-(1-yi)aiai(1-ai)
    =-1mi=1myi-aiai(1-ai)
  • Dérivée de a par rapport à z
    az=-e-z-(1+e-z)2
    =e-z(1+e-z)2
    =11+e-z×e-z1+e-z
    =a×1-1+e-z1+e-z
    =a×(1+e-z1+e-z-11+e-z)
    =a(1-a)
  • Dérivée de z par rapport à w1, w2 et b
    zw1=x1
    zw2=x2
    zb=1
  • Calcul du gradient par rapport à w1
    Lw1=-1mi=1myi-aiai(1-ai)×ai(1-ai)×x1
    =-1mi=1m(yi-ai)x1
    =1mi=1m(ai-yi)x1
    on obtient le gradient par rapport à w2 et b en remplaçant x1 par x2 et 1
  • Gradients
    Lw1=1mi=1m(ai-yi)x1
    Lw2=1mi=1m(ai-yi)x2
    Lb=1mi=1m(ai-yi)

Machine Learnia. Le perceptron - Deep Learning (02), 06/2021.

Commentaires