어텐션 (기계 학습)

기계 학습 기법

어텐션(attention)은 인간의 주의집중을 모방하여 중요한 입력 부분을 다시 참고하는 기계 학습 기법이다. 트랜스포머 모델에 사용된다. 점곱 어텐션(dot-product attention)과 멀티헤드 어텐션(multi-head attention) 기법이 많이 사용된다.

어텐션 기법이 적용된 모델은 입력 데이터의 특정 부분에 큰 가중치를 두는 방식으로 주의를 집중한다. 네트워크가 이미지나 문장의 작은 부분일지라도 데이터의 중요한 부분에 더 집중해야 한다는 동기가 부여된다. 데이터의 어느 부분이 다른 부분보다 더 중요한지 학습하는 것은 상황에 따라 다르며 경사 하강법으로 학습된다.

어텐션 유사 메커니즘은 곱셈 모듈, 시그마 파이 단위, 하이퍼 네트워크와 같은 이름으로 1990년대에 도입되었다.[1] 이 메커니즘의 유연성은 런타임에 고정된 상태로 유지되어야 하는 표준 가중치와 달리 런타임 중에 변경될 수 있는 "소프트 가중치"로서의 역할에서 비롯된다. 주의집중의 용도에는 "내부 어텐션 스포트라이트"("선형화된 셀프 어텐션"이 있는 변환기라고도 함)를 학습할 수 있는 빠른 가중치 컨트롤러[2]의 메모리, 신경 튜링 기계, 차별화 가능한 신경 컴퓨터의 추론 작업, 변환기의 언어 처리 및 LSTM이 포함된다.[3][4][5][6]

각주

외부 링크