funkcja esicy
co to jest funkcja esicy?
funkcja esicy jest funkcją matematyczną, która ma charakterystyczną krzywą w kształcie litery S. Istnieje wiele typowych funkcji esicy, takich jak funkcja logistyczna, styczna hiperboliczna i arctangent
. W uczeniu maszynowym termin
funkcja esicy jest zwykle używany w odniesieniu do funkcji logistycznej, zwanej również funkcją esicy logistycznej.
wszystkie funkcje esicy mają tę właściwość, że mapują całą linię liczb w małym zakresie, takim jak od 0 do 1 lub -1 do 1, więc jednym z zastosowań funkcji esicy jest przekształcenie wartości rzeczywistej w taką, która może być interpretowana jako prawdopodobieństwo.
jedną z najczęściej używanych funkcji esicy jest funkcja logistyczna, która odwzorowuje dowolną wartość rzeczywistą do zakresu (0, 1). Zwróć uwagę na charakterystyczny kształt litery S, który nadał funkcjom esicy ich nazwę (od greckiej litery sigma).
funkcje esicy stały się popularne w uczeniu głębokim, ponieważ mogą być używane jako funkcja aktywacji w sztucznej sieci neuronowej. Zainspirował ich potencjał aktywacyjny w biologicznych sieciach neuronowych.
funkcje esicy są również przydatne w wielu aplikacjach uczenia maszynowego, w których liczba rzeczywista musi zostać przekonwertowana na prawdopodobieństwo. Funkcja esicy umieszczona jako ostatnia warstwa modelu uczenia maszynowego może służyć do konwersji wyników modelu na wynik prawdopodobieństwa, który może być łatwiejszy do pracy i interpretacji.
funkcje esicy są ważną częścią modelu regresji logistycznej. Regresja logistyczna jest modyfikacją regresji liniowej dla klasyfikacji dwuklasowej i konwertuje jeden lub więcej rzeczywistych danych wejściowych na prawdopodobieństwo, takie jak prawdopodobieństwo, że klient kupi produkt. Ostatni etap modelu regresji logistycznej jest często ustawiony na funkcję logistyczną, która pozwala modelowi na wyprowadzenie prawdopodobieństwa.
funkcja esicy wzór
wszystkie funkcje esicy są monotoniczne i mają pierwszą pochodną w kształcie dzwonka. Istnieje kilka funkcji esicy, a niektóre z najbardziej znanych są przedstawione poniżej.
trzy najczęstsze funkcje esicy: funkcja logistyczna, styczna hiperboliczna i arctangent. Wszystkie mają ten sam podstawowy kształt S.
funkcja esicy logistycznej wzór
jedną z najczęstszych funkcji esicy jest funkcja esicy logistycznej. Jest to często określane jako funkcja esicy w dziedzinie uczenia maszynowego. Funkcja esicy logistycznej jest zdefiniowana następująco:
matematyczna definicja esicy logistycznej, wspólna funkcja esicy
funkcja logistyczna pobiera dowolne dane wejściowe o rzeczywistej wartości i wyświetla wartość między zerem a jedynką.
funkcja hiperboliczna styczna wzór
inną wspólną funkcją esicy jest funkcja hiperboliczna. To odwzorowuje wszelkie dane wejściowe o rzeczywistej wartości w zakresie od -1 do 1.
matematyczna definicja stycznej hiperbolicznej
funkcja Arctangent wzór
trzecią alternatywną funkcją esicy jest arctangent, który jest odwrotnością funkcji stycznej.
funkcja arctangent
funkcja arctangent odwzorowuje dowolne dane wejściowe o rzeczywistej wartości w zakresie od π/2 do π / 2.
na poniższych wykresach możemy zobaczyć zarówno krzywą styczną, dobrze znaną funkcję trygonometryczną, jak i arctangent, jej odwrotność:
obliczanie funkcji esicy
przykładowe obliczanie funkcji esicy logistycznej
korzystając z funkcji esicy logistycznej, możemy obliczyć wartość funkcji w kilku kluczowych punktach, aby zrozumieć postać funkcji.
przy x = 0 funkcja esicy logistycznej oblicza się na:
jest to przydatne do interpretacji esicy jako prawdopodobieństwa w modelu regresji logistycznej, ponieważ pokazuje, że wejście zerowe daje wynik 0,5, co wskazuje na równe prawdopodobieństwo obu klas.
Przy x = 1 znajdujemy nieco większą wartość:
i przy X = 5 wartość funkcji esicy staje się bardzo bliska 1.
w rzeczywistości w granicy x zmierzającej do nieskończoności funkcja esicy zbiega się do 1, a w kierunku -1 W przypadku ujemnej nieskończoności, ale pochodna funkcji nigdy nie osiąga zera. Są to bardzo użyteczne właściwości funkcji esicy, ponieważ dąży do granicy, ale zawsze ma niezerowy gradient.
przykładowe obliczenie hiperbolicznej funkcji stycznej
Podobnie możemy obliczyć wartość funkcji tanh w tych kluczowych punktach. Zamiast skupiać się wokół 0,5, funkcja tanh jest skupiona na 0.
przy 1 funkcja tanh rośnie stosunkowo szybciej niż funkcja logistyczna:
i wreszcie, o 5, Funkcja tanh zbiegła się znacznie bliżej do 1, w obrębie 5 miejsc po przecinku:
w rzeczywistości zarówno styczna hiperboliczna, jak i arctangent zbiegają się znacznie szybciej niż esica logistyczna.
przykładowe obliczenie funkcji Arctangent
możemy obliczyć funkcję arctangent w tych samych punktach, aby zobaczyć, gdzie się zbiega:
zauważ, że w przeciwieństwie do pozostałych dwóch funkcji esicy przedstawionych powyżej, arctangent zbiega się do π/2 zamiast 1. Ponadto arctangent zbiegaĺ 'siÄ ™ wolniej, gdyĹź Przy x = 5 nie zbliĺźa siÄ ™ nawet do swojej koĹ „cowej wartoĹ” ci. Tylko przez dość duże liczby, takie jak x = 5000, arctangent jest bardzo bliski π/2.
podsumowanie trzech funkcji esicy
możemy porównać kluczowe właściwości trzech funkcji esicy pokazanych powyżej w tabeli:
Sigmoid function | Logistic function | tanh | arctan |
Value in the limit x →-∞ | 0 | -1 | -π/2 |
Value at x = 0 | 0.5 | 0 | 0 |
Value in the limit x →∞ | 1 | 1 | π/2 |
Converges | Fast | Very fast | Very slow |
Sigmoid Function vs. ReLU
w nowoczesnych sztucznych sieciach neuronowych często widzi się zamiast funkcji esicy prostownik, znany również jako prostowana jednostka liniowa lub ReLU, używany jako funkcja aktywacji. ReLU jest zdefiniowany jako:
Definicja funkcji aktywacji prostownika
wykres funkcji ReLU
funkcja ReLU ma kilka głównych zalet w stosunku do funkcji esicy w sieci neuronowej. Główną zaletą jest to, że funkcja ReLU jest bardzo szybka do obliczenia. Ponadto potencjał aktywacyjny w biologicznej sieci neuronowej nie zmienia się w przypadku negatywnych wejść, więc ReLU wydaje się bliższy rzeczywistości biologicznej, jeśli celem jest naśladowanie systemów biologicznych.
ponadto dla dodatniego x
funkcja ReLU ma stały gradient równy 1, podczas gdy funkcja esicy ma gradient szybko zbiegający się w kierunku 0. Ta właściwość powoduje, że sieci neuronowe z funkcjami aktywacji esicy są powolne do treningu. Zjawisko to znane jest jako problem znikającego gradientu. Wybór ReLU jako funkcji aktywacyjnej łagodzi ten problem, ponieważ gradient ReLU wynosi zawsze 1 dla dodatniego
x, więc proces uczenia się nie zostanie spowolniony przez mały gradient.
jednak gradient zerowy dla ujemnego x może stanowić podobny problem, znany jako problem gradientu zerowego, ale możliwe jest zrekompensowanie tego przez dodanie małego wyrażenia liniowego W x, aby dać funkcji ReLU niezerowe nachylenie we wszystkich punktach.
zastosowania funkcji esicy
funkcja esicy logistycznej w regresji logistycznej
kluczowym obszarem uczenia maszynowego, w którym funkcja esicy jest niezbędna, jest model regresji logistycznej. Model regresji logistycznej służy do oszacowania prawdopodobieństwa zdarzenia binarnego, takiego jak dead vs alive, sick vs well, frauding vs honest transaction itp. Wyświetla wartość prawdopodobieństwa między 0 a 1.
w regresji logistycznej funkcja esicy logistycznej jest dopasowana do zbioru danych, w którym zmienna niezależna może przyjmować dowolną wartość rzeczywistą, a zmienna zależna wynosi 0 LUB 1.
wyobraźmy sobie na przykład zbiór danych o pomiarach i diagnozach guza. Naszym celem jest przewidywanie prawdopodobieństwa rozprzestrzeniania się guza, biorąc pod uwagę jego rozmiar w centymetrach.
niektóre pomiary wymiarów i wyników guza
wykreślając cały zestaw danych, mamy ogólną tendencję, że im większy nowotwór, tym bardziej prawdopodobne jest jego rozprzestrzenianie się, chociaż istnieje wyraźne nakładanie się obu klas w zakresie od 2,5 cm do 3,5 cm:
wykres wyników guza w porównaniu z wymiarami guza
używając regresji logistycznej, możemy modelować stan guza y (0 LUB 1) jako funkcję rozmiaru guza x, korzystając ze wzoru esicy logistycznej:
gdzie musimy znaleźć optymalne wartości m I b, które pozwalają nam przesuwać i rozciągać krzywą esicy, aby dopasować dane.
w tym przypadku dopasowanie krzywej esicy daje nam następujące wartości:
możemy umieścić te wartości z powrotem we wzorze esicy i narysować krzywą:
oznacza to, że na przykład, biorąc pod uwagę guz o rozmiarze 3cm, nasz model regresji logistycznej przewidywałby prawdopodobieństwo rozprzestrzeniania się tego guza jako:
intuicyjnie ma to sens. W oryginalnych danych widzimy, że guzy około 3 cm są mniej więcej równomiernie rozmieszczone między obiema klasami.
rozważmy guza wielkości 6 cm. Wszystkie guzy w oryginalnym zbiorze danych o rozmiarze 4 cm lub większym rozprzestrzeniły się, więc spodziewamy się, że nasz model zwróci duże prawdopodobieństwo rozprzestrzeniania się guza:
model zwrócił prawdopodobieństwo bardzo bliskie 1, wskazując na prawie pewność, że y = 1.
To pokazuje, jak funkcje esicy, a w szczególności funkcja logistyczna, są niezwykle skuteczne w modelowaniu prawdopodobieństwa.
dlaczego w regresji logistycznej używana jest funkcja logistyczna, a nie inna funkcja esicy?
powód, że funkcja logistyczna jest używana w regresji logistycznej, a żaden z innych wariantów esicy, nie wynika tylko z faktu, że wygodnie zwraca wartości z zakresu od 0 do 1. Regresja logistyczna wywodzi się z założenia, że dane w obu klasach są normalnie dystrybuowane.
wyobraźmy sobie, że guzy nierozprzestrzeniające się i rozsiewające się postępują zgodnie z rozkładem normalnym. Guzy nierozpoślizgowe są zwykle rozmieszczone ze średnią 1,84 cm i odchyleniem standardowym 1 cm, a guzy nierozpoślizgowe są zwykle rozmieszczone ze średnią 4,3 cm, również z odchyleniem standardowym 1 cm. Możemy wykreślić zarówno funkcję gęstości prawdopodobieństwa obu tych rozkładów normalnych:
w każdym punkcie możemy obliczyć iloraz szans dla dwóch rozkładów, który jest funkcją gęstości prawdopodobieństwa dla guzów rozprzestrzeniających podzieloną przez sumę obu funkcji gęstości prawdopodobieństwa (nierozprzestrzeniających + guzów rozprzestrzeniających się):
kreślenie ilorazu szans jako funkcji rozkładu.X, możemy zobaczyć, że wynikiem jest oryginalna logistic esicy krzywej.
powód, dla którego funkcja logistyczna jest wybrana do regresji logistycznej, wynika z założenia, że modelujemy dwie klasy, które są obie normalnie rozłożone, a funkcja logistyczna naturalnie wynika ze stosunku normalnych funkcji gęstości prawdopodobieństwa.
funkcja esicy jako funkcja aktywacji w sztucznych sieciach neuronowych
sztuczna sieć neuronowa składa się z kilku warstw funkcji, ułożonych jedna na drugiej:
sieć neuronowa feedforward z dwiema ukrytymi warstwami
każda warstwa zazwyczaj zawiera pewne wagi i odchylenia i działa jak mała regresja liniowa. Istotną częścią warstw jest również funkcja aktywacji.
wzór na pierwszą ukrytą warstwę sieci neuronowej, z wagami oznaczonymi Przez W I B oraz funkcją aktywacji g.
jednak, gdyby każda warstwa w sieci neuronowej zawierała tylko wagi i uprzedzenia, ale bez funkcji aktywacji, cała sieć byłaby równoważna pojedynczej liniowej kombinacji wag i uprzedzeń. Innymi słowy, wzór na sieć neuronową można by zmaksymalizować i uprościć do prostego modelu regresji liniowej. Taki model byłby w stanie wychwycić bardzo proste zależności liniowe, ale nie byłby w stanie wykonać imponujących zadań, z których słyną sieci neuronowe, takich jak rozpoznawanie obrazu i głosu.
funkcje aktywacyjne zostały wprowadzone między warstwami w sieciach neuronowych w celu wprowadzenia nieliniowości. Pierwotnie używano funkcji esicy, takich jak funkcja logistyczna, arctangent i styczna hiperboliczna, a dziś ReLU i jego warianty są bardzo popularne. Wszystkie funkcje aktywacji służą temu samemu celowi: wprowadzeniu nieliniowości do sieci. Funkcje esicy zostały wybrane jako jedne z pierwszych funkcji aktywacyjnych ze względu na ich postrzegane podobieństwo do potencjału aktywacyjnego w biologicznych sieciach neuronowych.
dzięki wykorzystaniu funkcji esicy w różnych punktach wielowarstwowej sieci neuronowej, sieci neuronowe mogą być budowane tak, aby kolejne warstwy odbierały coraz bardziej wyrafinowane cechy przykładu wejściowego.
Historia funkcji esicy
w 1798 roku angielski duchowny i ekonomista Thomas Robert Malthus opublikował książkę pod pseudonimem An Essay on the Principle of Population, twierdząc, że populacja rośnie w postępie geometrycznym (podwajając się co 25 lat), podczas gdy zapasy żywności zwiększały się arytmetycznie, a różnica między nimi była spowodowana powszechnym głodem.
pod koniec lat trzydziestych XIX wieku belgijski matematyk Pierre François Verhulst eksperymentował z różnymi sposobami modelowania wzrostu populacji i chciał wyjaśnić fakt, że wzrost populacji jest ostatecznie samoograniczający się i nie rośnie wykładniczo w nieskończoność. Verhulst wybrał funkcję logistyczną jako logiczną korektę prostego modelu wykładniczego, aby modelować spowolnienie wzrostu populacji, które ma miejsce, gdy populacja zaczyna wyczerpywać swoje zasoby.
w następnym stuleciu biolodzy i inni naukowcy zaczęli używać funkcji esicy jako standardowego narzędzia do modelowania wzrostu populacji, od kolonii bakteryjnych po ludzkie cywilizacje.
w 1943 roku Warren McCulloch i Walter Pitts opracowali model sztucznej sieci neuronowej wykorzystujący twarde odcięcie jako funkcję aktywacji, w której neuron wysyła 1 lub 0 w zależności od tego, czy jego wejście jest powyżej, Czy poniżej progu.
w 1972 roku biolodzy Hugh Wilson i Jack Cowan z University of Chicago próbowali modelować neurony biologiczne obliczeniowo i opublikowali Model Wilsona–Cowana, w którym neuron wysyła sygnał do innego neuronu, jeśli otrzyma sygnał większy niż potencjał aktywacyjny. Wilson i Cowan wybrali funkcję esicy logistycznej do modelowania aktywacji neuronu jako funkcji bodźca.
od lat 70.i 80. XX wieku wielu badaczy zaczęło wykorzystywać funkcje esicy w formułowaniu sztucznych sieci neuronowych, czerpiąc inspirację z biologicznych sieci neuronowych. W 1998 roku Yann LeCun wybrał tangens hiperboliczny jako funkcję aktywacji w swojej przełomowej sieci neuronowej LeNet, która jako pierwsza była w stanie rozpoznać Odręczne cyfry z praktycznym poziomem dokładności.
w ostatnich latach sztuczne sieci neuronowe odeszły od funkcji esicy na rzecz funkcji ReLU, ponieważ wszystkie warianty funkcji esicy są obliczeniowo intensywne do obliczenia, a ReLU zapewnia niezbędną Nieliniowość, aby wykorzystać głębokość sieci, a jednocześnie jest bardzo szybki do obliczenia.
Leave a Reply