Künstliches Neuronalen Netzwerk, warum größtenteils sigmoid?

2 Antworten

Neuronale Netzwerke sind im Grunde Optimierungsprobleme. Und für solche Probleme ist es vorteilhaft, wenn die Funktion differenzierbar ist, damit du im Lernprozess besser rausfinden kannst, wie du die Parameter anpassen musst. Außerdem ist Stetigkeit nützliche, da du dann weißt, dass kleine änderungen der Parameter nur dazu führen, dass der Output sich nur ein wenig ändert.

Die Stufenfunktion ist weder Stetig noch differenzierbar, die sigmoidfunktion jedoch schon.

So weit ich weiß, sind aber andere Funktionen beliebter, z.b die ReLU Funktion, da diese z.b schneller berechenbar ist (mehr dazu steht hier: https://stats.stackexchange.com/questions/126238/what-are-the-advantages-of-relu-over-sigmoid-function-in-deep-neural-networks)

Woher ich das weiß:Studium / Ausbildung – Mache derzeit meinen Mathematik Master

FXG36  20.10.2022, 22:32

Es immer auf die Aufgabe des ML Algorithmus und auch auf den Layer im Netz an. ReLU ist z. B. im Ausgabelayer für Klassifizierer eher nicht geeignet. Hier ist oftmals Softmax besser.

ReLU oder Leaky ReLU wird aber generell in Hidden Layers oft und gerne verwendet.

Das stimmt, ich denke das kommt daher, da bei vorallem kleinen neuronalennetzwerken im Vergleich zum Gehirn, es bei alles oder nichts zu wenig komplexität gebe und für kleine Systeme die Sigmoidfunktion besser ist