트랜스포머 (기계 학습)

트랜스포머(transformer)는 어텐션 메커니즘을 활용하는 딥 러닝 모형이다. 본래 자연어 처리에 활용되었으나, 비전 트랜스포머의 등장 이후 컴퓨터 비전 분야에도 활용되고 있다. 트랜스포머가 개발되어 순환 신경망(RNN)의 단점이 극복됨에 따라 자연어 처리 최고의 RNN 기법이었던 장단기 메모리(Long Short-Term Memory, LSTM)가 트랜스포머에 의해 대체되는 추세이다. OpenAI에서 만든 GPT 모델들도 트랜스포머를 사용한다.

트랜스포머는 딥 러닝 모델이다. 이는 입력(재귀 출력 포함) 데이터의 각 부분의 중요도에 차별적으로 가중치를 부여하는 셀프어텐션(self-attention)의 채택으로 구별된다. 주로 자연어 처리(NLP)^[1] 및 컴퓨터 비전(CV) 분야에서 사용된다.^[2]

순환 신경망(RNN)과 마찬가지로 트랜스포머는 번역 및 텍스트 요약과 같은 작업에 사용되며, 자연어와 같은 순차적 입력 데이터를 처리하도록 설계되었다. 그러나 RNN과 달리 트랜스포머는 전체 입력을 한 번에 처리한다. 어텐션 메커니즘은 입력 시퀀스의 모든 위치에 대한 컨텍스트를 만들어낸다. 예를 들어 입력 데이터가 자연어 문장인 경우 트랜스포머는 한 번에 한 단어씩 처리할 필요가 없다. 따라서 RNN보다 더 많은 병렬화가 가능해지므로 훈련 시간이 단축된다.^[1]

트랜스포머는 구글 브레인 팀에서 2017년에 도입했으며^[1] LSTM(Long Short-Term Memory)^[3]과 같은 RNN 모델을 대체하면서 점점 더 NLP 문제에 대한 선택 모델이 되고 있다.^[4] RNN 모델에 비해 트랜스포머는 병렬화에 더 적합하여 더 큰 데이터 세트에 대한 교육을 허용한다. 이로 인해 위키백과 코퍼스(Wikipedia Corpus) 및 커먼 크롤(Common Crawl)과 같은 대규모 언어 데이터 세트로 훈련된 BERT(Bidirectional Encoder Representations from Transformers) 및 최초형 GPT(Generative Pre-trained Transformer)와 같은 사전 훈련된 시스템이 개발되었다. 특정 작업에 맞게 미세 조정된다.^[5]^[6]

참고 문헌

Hubert Ramsauer et al. (2020), "Hopfield Networks is All You Need" 보관됨 2021-09-18 - 웨이백 머신, preprint submitted for ICLR 2021. arXiv:2008.02217; see also authors' blog 보관됨 2021-09-18 - 웨이백 머신

– Discussion of the effect of a transformer layer as equivalent to a Hopfield update, bringing the input closer to one of the fixed points (representable patterns) of a continuous-valued Hopfield network

Alexander Rush, The Annotated transformer 보관됨 2021-09-22 - 웨이백 머신, Harvard NLP group, 3 April 2018

각주

이 글은 컴퓨터 과학에 관한 토막글입니다. 여러분의 지식으로 알차게 문서를 완성해 갑시다.

[1]

[2]

[3]

[4]

[5]

[6]