Articles

Sigmoidifunktio

mikä on Sigmoidifunktio?

sigmoidifunktio on matemaattinen funktio, jolla on tunnusomainen S: n muotoinen käyrä. On olemassa useita yleisiä sigmoidifunktioita, kuten logistinen funktio, hyperbolinen tangentti ja arctangentti

. Koneoppimisessa termiä

sigmoidifunktio käytetään yleensä tarkoittamaan nimenomaan logistista funktiota, jota kutsutaan myös logistiseksi sigmoidifunktioksi.

kaikilla sigmoidifunktioilla on se ominaisuus, että ne kartoittavat koko lukujonon pienelle alueelle, kuten välille 0 ja 1, tai -1 ja 1, joten yksi sigmoidifunktion käyttötarkoitus on muuntaa reaaliarvo sellaiseksi, joka voidaan tulkita todennäköisyydeksi.

yksi yleisimmin käytetyistä sigmoidifunktioista on logistinen funktio, joka kartoittaa alueen (0, 1) reaaliarvon. Huomaa ominaisuus S-muoto, joka antoi sigmoid funktiot niiden nimi (Kreikan kirjain sigma).

Sigmoidifunktioista on tullut suosittuja syväoppimisessa, koska niitä voidaan käyttää aktivointifunktiona keinotekoisessa hermoverkossa. Ne saivat innoituksensa aktivointipotentiaalista biologisissa hermoverkoissa.

sigmoidifunktiot ovat hyödyllisiä myös monissa koneoppimisen sovelluksissa, joissa reaaliluku on muunnettava todennäköisyydeksi. Koneoppimismallin viimeiseksi kerrokseksi sijoitettu sigmoidifunktio voi muuntaa mallin tuotoksen todennäköisyyspisteeksi, jota on helpompi työstää ja tulkita.

Sigmoidifunktiot ovat tärkeä osa logistista regressiomallia. Logistinen regressio on lineaarisen regression muunnos kahden luokan luokittelussa, ja muuntaa yhden tai useamman reaaliarvoisen panoksen todennäköisyydeksi, kuten todennäköisyydeksi, että asiakas ostaa tuotteen. Logistisen regressiomallin viimeinen vaihe asetetaan usein logistiseen funktioon, jonka avulla malli voi tuottaa todennäköisyyden.

Sigmoidifunktio formula_2 / h2>

kaikki sigmoidifunktiot ovat monotonisia ja niillä on kellomainen ensimmäinen derivaatta. On olemassa useita sigmoid funktioita ja joitakin tunnetuimpia on esitetty alla.

kolme yleisintä sigmoidifunktiota: logistinen funktio, hyperbolinen tangentti ja arctangentti. Kaikilla on sama s-perusmuoto.

logistinen Sigmoidifunktio Formula_3>

yksi yleisimmistä sigmoidifunktioista on logistinen sigmoidifunktio. Tätä kutsutaan koneoppimisen alalla usein sigmoidifunktioksi. Logistinen sigmoidifunktio määritellään seuraavasti:

logistisen sigmoidifunktion matemaattinen määritelmä, yhteinen sigmoidifunktio

logistinen funktio ottaa minkä tahansa reaaliarvoisen tulon ja tuottaa arvon nollan ja Ykkösen välillä.

hyperbolinen Tangenttifunktio Formula_3>

toinen yleinen sigmoidifunktio on hyperbolinen funktio. Tämä kartoittaa kaikki reaaliarvoiset panokset välillä -1 ja 1.

hyperbolisen tangentin matemaattinen määritelmä

Arctangenttifunktion kaava

kolmas vaihtoehtoinen sigmoidifunktio on arctangentti, joka on tangenttifunktion käänteisfunktio.

arctangenttifunktio

arctangenttifunktio kartoittaa kaikki reaaliarvoiset tuloarvot alueelle π/2-π / 2.

alla olevissa kuvioissa voidaan nähdä sekä tangenttikäyrä, tunnettu trigonometrinen funktio, että arctangentti, sen käänteisluku:

laskettaessa sigmoidifunktiota

esimerkki laskettaessa logistista sigmoidifunktiota

käyttämällä logistista sigmoidifunktiota voimme arvioida funktion arvoa useissa keskeisissä kohdissa ymmärtääksemme funktion muodon.

kohdassa x = 0 logistinen sigmoidifunktio arvioi:

Tämä on hyödyllinen tulkittaessa sigmoidia todennäköisyydeksi logistisessa regressiomallissa, koska se osoittaa, että nollatulolla saadaan lähtö 0,5, mikä osoittaa molempien luokkien yhtäläiset todennäköisyydet.

At x = 1, löydämme hieman suuremman arvon:

ja x = 5, sigmoidifunktion arvo tulee hyvin lähelle 1.

itse asiassa X: n äärettömyyttä kohti suuntautuvassa rajassa sigmoidifunktio suppenee arvoon 1 ja negatiivisen äärettömyyttä kohti kohti -1, mutta funktion derivaatta ei koskaan saavuta Nollaa. Nämä ovat erittäin hyödyllisiä sigmoidifunktion ominaisuuksia, sillä se pyrkii kohti rajaa, mutta sillä on aina ei-Zero-gradientti.

esimerkkilaskelma Hyperbolisesta Tangenttifunktiosta

vastaavasti voidaan laskea tanh-funktion arvo näissä avainpisteissä. Sen sijaan, että tanhin funktio olisi keskitetty 0,5: n ympärille, se keskitetään arvoon 0.

1: ssä tanhin funktio on kasvanut suhteellisesti paljon nopeammin kuin logistinen funktio:

ja lopuksi 5: llä tanhin funktio on lähentynyt huomattavasti tiiviimmin 1: een, 5 desimaalin tarkkuudella:

itse asiassa sekä hyperbolinen tangentti että arctangenttifunktio yhtyvät paljon nopeammin kuin logistinen sigmoidifunktio.

esimerkkilaskelma Arctangentin funktiosta

voimme arvioida arctangentin funktiota samoissa pisteissä nähdäksemme, missä se konvergoituu:

huomaa, että toisin kuin kaksi muuta yllä esitettyä sigmoidifunktiota, arctangentti konvergoituu 1: n sijasta π/2: een. Lisäksi arctangentti konvergoituu hitaammin, sillä pisteessä x = 5 se ei ole edes lähellä lopullista arvoaan. Vain melko suurilla luvuilla, kuten x = 5000, arctangentti pääsee hyvin lähelle π / 2: ta.

yhteenveto kolmesta sigmoidifunktiosta

voimme verrata edellä esitettyjen kolmen sigmoidifunktion keskeisiä ominaisuuksia taulukossa:

Sigmoid function Logistic function tanh arctan
Value in the limit x →-∞ 0 -1 -π/2
Value at x = 0 0.5 0 0
Value in the limit x →∞ 1 1 π/2
Converges Fast Very fast Very slow

Sigmoid Function vs. ReLU

nykyaikaisissa keinotekoisissa hermoverkoissa on tavallista, että sigmoidifunktion sijasta aktivointifunktiona käytetään tasasuuntaajaa, joka tunnetaan myös nimellä oikaistu lineaarinen yksikkö eli ReLU. ReLU määritellään seuraavasti:

tasasuuntaajan aktivointifunktion määritelmä

Relufunktion kuvaaja

Relufunktiolla on useita keskeisiä etuja sigmoidifunktioon verrattuna neuroverkossa. Tärkein etu on se, että Relufunktio on hyvin nopea laskea. Lisäksi aktivaatiopotentiaali biologisessa neuroverkossa ei jatkuvasti muutu negatiivisiksi panoksiksi, joten ReLU tuntuu olevan lähempänä biologista todellisuutta, Jos tavoitteena on matkia biologisia järjestelmiä.

lisäksi positiivisella x: llä

Relufunktiolla on vakiogradientti 1, kun taas sigmoidifunktiolla on gradientti, joka konvergoituu nopeasti kohti 0: ta. Tämä ominaisuus tekee neuroverkkojen kanssa sigmoid aktivointi toiminnot hidas kouluttaa. Tätä ilmiötä kutsutaan katoavan gradientin ongelmaksi. Relun valinta aktivointifunktioksi helpottaa tätä ongelmaa, koska Relun gradientti on aina 1 positiiviselle

x, joten gradientin pieneneminen ei hidasta oppimisprosessia.

negatiivisen x: n nollagradientti voi kuitenkin aiheuttaa samanlaisen ongelman, jota kutsutaan nollagradienttiongelmaksi, mutta tätä on mahdollista kompensoida lisäämällä X: ään pieni lineaarinen termi, joka antaa Relufunktiolle ei-Zero-kaltevuuden kaikissa pisteissä.

Sigmoidifunktion

logistisen sigmoidifunktion Sovellukset logistisessa regressiossa

koneoppimisen avainalue, jossa sigmoidifunktio on välttämätön, on logistinen regressiomalli. Logistista regressiomallia käytetään binääritapahtuman todennäköisyyden arvioimiseen, kuten dead vs alive, sick vs well, vilpillinen vs rehellinen tapahtuma jne. Se tuottaa todennäköisyysarvon välillä 0 ja 1.

logistisessa regressiossa logistinen sigmoidifunktio sopii datajoukkoon, jossa riippumaton muuttuja(t) voi ottaa minkä tahansa reaaliarvon, ja riippuvainen muuttuja on joko 0 tai 1.

kuvitellaanpa esimerkiksi aineisto kasvaimen mittauksista ja diagnooseista. Tavoitteenamme on ennustaa kasvaimen leviämistodennäköisyys, kun otetaan huomioon sen koko senttimetreinä.

joitakin kasvaimen mittoja ja tuloksia

piirtämällä koko aineisto, meillä on yleinen suuntaus, että mitä suurempi kasvain, sitä todennäköisemmin se on levinnyt, vaikka molempien luokkien välillä on selvä päällekkäisyys välillä 2, 5 cm-3, 5 cm:

kuvaaja kasvaimen tuloksista vs. kasvaimen mitat

käyttämällä logistista regressiota, voimme mallintaa kasvaimen tilan y (0 tai 1) kasvaimen koon x funktiona käyttäen logistista sigmoidikaavaa:

missä meidän on löydettävä optimaaliset arvot m ja b, joiden avulla voimme siirtää ja venyttää sigmoidikäyrää vastaamaan dataa.

tällöin sigmoidikäyrän sovittaminen antaa meille seuraavat arvot:

voidaan nämä arvot palauttaa sigmoidikaavaan ja piirtää käyrä:

tämä tarkoittaa, että esimerkiksi 3cm, logistinen Regressiomallimme ennustaisi tämän kasvaimen leviämistodennäköisyyden:

intuitiivisesti tämä on järkevää. Alkuperäisessä aineistossa, voimme nähdä, että kasvaimet noin 3cm ovat enemmän tai vähemmän tasaisesti molempien luokkien välillä.

Tarkastellaanpa kasvainta, jonka koko on 6 cm. Kaikki alkuperäisen aineiston kasvaimet, joiden koko on 4 cm tai suurempi, olivat levinneet, joten odotamme mallimme palauttavan suuren todennäköisyyden kasvaimen leviämiselle:

malli on palauttanut todennäköisyyden hyvin lähelle 1, mikä osoittaa lähes varmuutta siitä, että y = 1.

Tämä osoittaa, miten sigmoidifunktiot, ja erityisesti logistinen funktio, ovat todennäköisyysmallinnuksessa äärimmäisen tehokkaita.

miksi logistisessa regressiossa käytetään logistista funktiota eikä toista sigmoidifunktiota?

syy siihen, että logistista funktiota käytetään logistisessa regressiossa, eikä yhtäkään muuta sigmoidivarianttia, ei johdu vain siitä, että se palauttaa sopivasti arvot väliltä 0 ja 1. Logistinen regressio johdetaan olettamuksesta, että tiedot jakautuvat normaalisti molempiin luokkiin.

kuvitellaanpa, että ei-leviävät kasvaimet ja leviävät kasvaimet noudattavat kukin normaalijakaumaa. Ei-leviävät kasvaimet jakautuvat normaalisti keskiarvolla 1,84 cm ja keskihajonta 1 cm, ja leviävät kasvaimet jakautuvat normaalisti keskiarvolla 4,3 cm, myös keskihajonta 1 cm. Voimme piirtää molempien normaalijakaumien todennäköisyystiheysfunktion:

kussakin pisteessä voidaan laskea kahden jakauman kerroinsuhde, joka on leviämiskasvainten todennäköisyystiheysfunktio jaettuna molempien todennäköisyystiheysfunktioiden summalla (ei-leviävät + leviämiskasvaimet):

piirtämällä kerroinsuhde funktiona x, voimme nähdä, että tulos on alkuperäinen logistinen sigmoid käyrä.

syy siihen, että logistinen funktio valitaan logistiseen regressioon, johtuu oletuksesta, että mallinnamme kahta luokkaa, jotka molemmat ovat normaalisti jakautuneita, ja logistinen funktio syntyy luonnollisesti normaalien todennäköisyystiheysfunktioiden suhteesta.

sigmoidifunktio aktivointifunktiona keinotekoisissa neuroverkoissa

keinotekoinen neuroverkko koostuu useista funktiokerroksista, jotka on kerrostettu päällekkäin:

feedforward-hermoverkko, jossa on kaksi piilokerrosta

jokainen kerros sisältää tyypillisesti joitain painoja ja harhoja ja toimintoja, kuten pienen lineaarisen regression. Tärkeä osa kerroksia on myös aktivointifunktio.

ensimmäisen piilotetun hermoverkon kaava, jossa painot merkitään W: llä ja harhat B: llä ja aktivointifunktio g: llä.

kuitenkin, jos hermoverkon jokainen kerros sisältäisi vain painoja ja harhoja, mutta ei aktivointifunktiota, koko verkko vastaisi yhtä lineaarista painojen ja harhojen yhdistelmää. Toisin sanoen neuroverkon kaava voitaisiin factorisoida ja yksinkertaistaa yksinkertaiseksi lineaariseksi regressiomalliksi. Tällainen malli kykenisi poimimaan hyvin yksinkertaisia lineaarisia riippuvuuksia, mutta ei kykenisi suorittamaan niitä vaikuttavia tehtäviä, joista neuroverkot ovat tunnettuja, kuten kuvan-ja äänentunnistusta.

aktivointifunktiot otettiin käyttöön neuroverkkojen kerrosten välillä epälineaarisuuden aikaansaamiseksi. Alun perin käytettiin sigmoidifunktioita kuten logistinen funktio, arctangentti ja hyperbolinen tangentti, ja nykyään ReLU ja sen muunnokset ovat hyvin suosittuja. Kaikki aktivointitoiminnot palvelevat samaa tarkoitusta: epälineaarisuuden tuomista verkkoon. Sigmoidifunktiot valittiin eräiksi ensimmäisistä aktivointifunktioista, koska ne koettiin samankaltaisiksi biologisten neuroverkkojen aktivointipotentiaalin kanssa.

monikerroksisen neuroverkon eri pisteissä käytettävän sigmoidifunktion ansiosta neuroverkkoja voidaan rakentaa niin, että peräkkäiset kerrokset poimivat syöttöesimerkin yhä kehittyneempiä ominaisuuksia.

Sigmoidifunktiohistoria

vuonna 1798 englantilainen pappi ja taloustieteilijä Thomas Robert Malthus julkaisi salanimellä ”An Essay on the Principle of Population” kirjan, jossa hän väitti, että väestö kasvoi geometrisesti (kaksinkertaistui 25 vuoden välein) samalla kun ruokavarat kasvoivat aritmeettisesti, ja että ero näiden kahden välillä johtui laajalle levinneestä nälänhädästä.

belgialainen matemaatikko Pierre François Verhulst kokeili 1830-luvun lopulla erilaisia tapoja mallintaa väestönkasvua ja halusi selittää sen, että väestönkasvu on lopulta itsestään rajoittuvaa eikä kasva eksponentiaalisesti ikuisesti. Verhulst valitsi logistisen funktion loogisena mukautuksena yksinkertaiseen eksponentiaaliseen malliin mallintaakseen populaation kasvun hidastumisen, joka tapahtuu, kun populaatio alkaa kuluttaa resurssejaan loppuun.

seuraavan vuosisadan aikana biologit ja muut tutkijat alkoivat käyttää sigmoidifunktiota standardivälineenä väestönkasvun mallintamiseen bakteeriyhdyskunnista ihmisen sivilisaatioihin.

vuonna 1943 Warren McCulloch ja Walter Pitts kehittivät aktivointifunktiona keinotekoisen neuroverkkomallin, jossa neuroni tuottaa 1 tai 0 riippuen siitä, onko sen tulo kynnyksen yläpuolella vai alapuolella.

vuonna 1972 Chicagon yliopiston biologit Hugh Wilson ja Jack Cowan yrittivät mallintaa biologisia neuroneja laskennallisesti ja julkaisivat Wilson–Cowan-mallin, jossa neuroni lähettää signaalin toiselle neuronille, jos se vastaanottaa aktivaatiopotentiaalia suuremman signaalin. Wilson ja Cowan valitsivat logistisen sigmoidifunktion mallintamaan hermosolun aktivaatiota ärsykefunktiona.

1970-ja 1980-luvuilta lähtien joukko tutkijoita alkoi käyttää sigmoidifunktioita keinotekoisten neuroverkkojen muotoiluissa ottaen vaikutteita biologisista neuroverkoista. Vuonna 1998 Yann LeCun valitsi hyperbolisen tangentin aktivointifunktioksi uraauurtavassa neuroverkko Lenetissään, joka oli ensimmäinen, joka pystyi tunnistamaan käsin kirjoitetut numerot käytännön tarkkuudella.

viime vuosina keinotekoiset hermoverkot ovat siirtyneet pois Sigmoidifunktioista Relufunktion hyväksi, koska kaikki sigmoidifunktion muunnokset ovat laskennallisesti intensiivisiä laskea, ja ReLU tarjoaa tarvittavan epälineaarisuuden verkon syvyyden hyödyntämiseksi, samalla kun se on myös hyvin nopea laskea.