Transformator (sztuczna inteligencja)

model uczenia głębokiego, opracowany przez Google Brain, analizuje dane sekwencyjnie globalnie (a nie iteracyjnie jak Rekurencyjne sieci neuronowe) dzięki kodowaniu pozycyjnemu i mechanizmowi auto-atencji

Transformator[1][2] (lub transformer[3]) – architektura uczenia głębokiego opracowana przez Google i oparta na wielowątkowym mechanizmie uwagi, zaproponowana w 2017 w artykule zatytułowanym „Attention Is All You Need” („Uwaga jest wszystkim, czego potrzebujesz”)[4]. Zastosowany w transformatorach mechanizm uwagi (ang. attention) wywodzi się z algorytmu softmax zaproponowanego przez Bahdanau i innych w 2014 do tłumaczenia maszynowego oraz mechanizmu Fast Weight Controller przedstawionego w 1992[5][6].

Przewagą transformatorów nad rekurencyjnymi sieciami neuronowymi, takimi jak długa pamięć krótkotrwała (LSTM), jest to, że nie mają jednostek rekurencyjnych, a zatem wymagają krótszego uczenia[7]. Jedna z odmian transformatorów została zastosowana do uczenia dużych modeli językowych (LLM).

Architektura ta jest obecnie wykorzystywana w przetwarzaniu języka naturalnego i rozpoznawaniu obrazów, a także w przetwarzaniu dźwięku i przetwarzaniu multimodalnym (łączącym rózne obszary, np. rozpoznawanie języka i obrazów). Doprowadziło to również do rozwoju wstępnie wytrenowanych systemów, takich jak wstępnie przeszkolone transformatory generatywne (GPT)[8] i BERT[9].

Przypisy