Sigmoidfunktion
Eine Sigmoidfunktion, Schwanenhalsfunktion oder S-Funktion ist eine mathematische Funktion mit einem S-förmigen Graphen. Oft wird der Begriff Sigmoidfunktion auf den Spezialfall logistische Funktion bezogen, die durch die Gleichung
- $ \operatorname {sig} (t)={\frac {1}{1+e^{-t}}}={\frac {1}{2}}\cdot \left(1+\tanh {\frac {t}{2}}\right) $
beschrieben wird. Dabei ist $ e $ die eulersche Zahl. Diese spezielle Sigmoidfunktion ist also im Wesentlichen eine skalierte und verschobene Tangens-hyperbolicus-Funktion und hat entsprechende Symmetrien.
Die Umkehrfunktion dieser Funktion ist:
- $ {\rm {{sig}^{-1}(y)=-{\rm {{ln}\left({\frac {1}{y}}-1\right)=2\cdot \operatorname {artanh} (2\cdot y-1)}}}} $
Sigmoidfunktionen im Allgemeinen
Im Allgemeinen ist eine Sigmoidfunktion eine beschränkte und differenzierbare reelle Funktion mit einer durchweg positiven oder durchweg negativen ersten Ableitung und genau einem Wendepunkt.
Außer der logistischen Funktion enthält die Menge der Sigmoidfunktionen den Arkustangens, den Tangens Hyperbolicus und die Fehlerfunktion, die sämtlich transzendent sind, aber auch einfache algebraische Funktionen wie $ f(x)={\tfrac {x}{\sqrt {1+x^{2}}}} $. Das Integral jeder stetigen, positiven Funktion mit einem "Berg" (genauer: mit genau einem lokalen Maximum und keinem lokalen Minimum, z. B. die gaußsche Glockenkurve) ist ebenfalls eine Sigmoidfunktion. Daher sind viele kumulierte Verteilungsfunktionen sigmoidal.
Sigmoidfunktionen in neuronalen Netzwerken
Sigmoidfunktionen werden oft in künstlichen neuronalen Netzen als Aktivierungsfunktion verwendet, da der Einsatz von differenzierbaren Funktionen die Verwendung von Lernmechanismen, wie zum Beispiel dem Backpropagation-Algorithmus, ermöglicht. Als Aktivierungsfunktion eines künstlichen Neurons wird die Sigmoidfunktion auf die Summe der gewichteten Eingabewerte angewendet, um die Ausgabe des Neurons zu erhalten.
Die Sigmoidfunktion wird vor allem aufgrund ihrer einfachen Differenzierbarkeit als Aktivierungsfunktion bevorzugt verwendet. Denn es gilt für die Logistische Funktion:
- $ {\rm {sig^{\prime }(t)={\rm {sig}}(t)\left(1-{\rm {sig}}(t)\right)}} $
Für die Ableitung der Sigmoidfunktion Tangens Hyperbolicus gilt:
- $ {\rm {tanh^{\prime }(t)=(1+{\rm {tanh}}(t)\left)(1-{\rm {tanh}}(t)\right)}} $
Siehe auch
- Logistische Verteilung
- Künstliches neuronales Netz
- Fermi-Dirac-Statistik
Weblinks
- Eric W. Weisstein: Sigmoid Function. In: MathWorld. (englisch)