Transformator (model mašinskog učenja)

Transformator je arhitektura dubokog učenja koju je razvio Gugl i zasnovana na algoritmu mehanizma višestruke pažnje, predloženom u radu objavljenom 2017. godine, pod naslovom „Pažnja je sve što vam je potrebno“.^[1] On nema rekurentne jedinice i stoga zahteva manje vremena za obuku od prethodnih rekurentnih neuronskih arhitektura, kao što je dugotrajna kratkoročna memorija (LSTM),^[2] i njegova kasnija varijacija je pretežno usvojena za obuku velikih jezičkih modela (LLM) na velikim (jezičkim) skupovima podataka, kao što su korpus Vikipedije i Komon Krol.^[3] Tekst se konvertuje u numeričke reprezentacije koje se nazivaju tokeni, a svaki token se konvertuje u vektor traženjem iz tabele ugrađinih reči.^[1] Na svakom sloju, svaki token se zatim kontekstualizuje unutar okvira kontekstnog prozora sa drugim (nemaskiranim) tokenima preko paralelnog mehanizma pažnje sa više glava koji omogućava da se pojača signal za ključne tokene i umanji značaj manje važnih tokena. Publikacija o transformatoru, objavljena 2017. godine, zasnovana je na softmaks mehanizmu pažnje koji su predložili Bahdanau et. al. 2014. za mašinsko prevođenje,^[4]^[5] i brzom kontroleru težine, sličnom transformatoru, predloženom 1992. godine.^[6]^[7]^[8]

Ova arhitektura se sada koristi ne samo u obradi prirodnog jezika i kompjuterskoj viziji,^[9] već i u audio^[10] i multimodalnoj obradi. To je takođe dovelo do razvoja unapred obučenih sistema, kao što su generativni prethodno obučeni transformatori (GPT)^[11] i BERT^[12] (bidirekciona inkoderska reprezentacija za transformatore).

Reference

Literatura

Hubert Ramsauer et al. (2020), "Hopfield Networks is All You Need" Архивирано 2021-09-18 на сајту Wayback Machine, preprint submitted for ICLR 2021. arXiv:2008.02217; see also authors' blog Архивирано 2021-09-18 на сајту Wayback Machine

– Discussion of the effect of a transformer layer as equivalent to a Hopfield update, bringing the input closer to one of the fixed points (representable patterns) of a continuous-valued Hopfield network

Alexander Rush, The Annotated transformer Архивирано 2021-09-22 на сајту Wayback Machine, Harvard NLP group, 3 April 2018
Phuong, Mary; Hutter, Marcus (2022), Formal Algorithms for Transformers, arXiv:2207.09238

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]