Transformator (model mašinskog učenja)

Transformator je arhitektura dubokog učenja koju je razvio Gugl i zasnovana na algoritmu mehanizma višestruke pažnje, predloženom u radu objavljenom 2017. godine, pod naslovom „Pažnja je sve što vam je potrebno“.[1] On nema rekurentne jedinice i stoga zahteva manje vremena za obuku od prethodnih rekurentnih neuronskih arhitektura, kao što je dugotrajna kratkoročna memorija (LSTM),[2] i njegova kasnija varijacija je pretežno usvojena za obuku velikih jezičkih modela (LLM) na velikim (jezičkim) skupovima podataka, kao što su korpus Vikipedije i Komon Krol.[3] Tekst se konvertuje u numeričke reprezentacije koje se nazivaju tokeni, a svaki token se konvertuje u vektor traženjem iz tabele ugrađinih reči.[1] Na svakom sloju, svaki token se zatim kontekstualizuje unutar okvira kontekstnog prozora sa drugim (nemaskiranim) tokenima preko paralelnog mehanizma pažnje sa više glava koji omogućava da se pojača signal za ključne tokene i umanji značaj manje važnih tokena. Publikacija o transformatoru, objavljena 2017. godine, zasnovana je na softmaks mehanizmu pažnje koji su predložili Bahdanau et. al. 2014. za mašinsko prevođenje,[4][5] i brzom kontroleru težine, sličnom transformatoru, predloženom 1992. godine.[6][7][8]

Ova arhitektura se sada koristi ne samo u obradi prirodnog jezika i kompjuterskoj viziji,[9] već i u audio[10] i multimodalnoj obradi. To je takođe dovelo do razvoja unapred obučenih sistema, kao što su generativni prethodno obučeni transformatori (GPT)[11] i BERT[12] (bidirekciona inkoderska reprezentacija za transformatore).

Reference

Literatura

– Discussion of the effect of a transformer layer as equivalent to a Hopfield update, bringing the input closer to one of the fixed points (representable patterns) of a continuous-valued Hopfield network