-
Transformer: Attention is All You Need _AIFFEL 교류회 최신 논문 리뷰학습기록 : AI 2024. 2. 19. 23:10
AIFFEL 교류회를 통해 최신 논문 리뷰를 들을 수 있는 시간을 가지게 되었습니다.
파이썬과 머신러닝, 딥러닝을 공부한지 몇 개월 되지 않아 모든 내용을 이해할 수는 없었지만 초심자의 수준에서 이해할 수 있었던 부분을 잘 정리해보고자 하였습니다. 리서치 과정의 동료들이 소개한 논문 중 AIFFEL 학습 과정에서 잠깐이나마 다뤄본 Transformer를 다뤄봅니다.논문 링크: Attention is All You Need
이 논문은 Transformer 아키텍처에서 attention mechanisms에만 의존하여, 순환 신경망이나 컨볼루션 신경망(CNN)이 필요하지 않다는 것이 주제입니다.
주요 인사이트와 교훈
- 주요한 시퀀스 변환 모델들은 복잡한 순환 또는 합성곱 신경망을 사용하여 인코더-디코더 구성에 기반을 두고 있습니다. 성능이 우수한 모델들은 인코더와 디코더를 어텐션 메커니즘을 통해 연결합니다.
- 이 모델은 순환(recurrence)과 합성곱(convolutions)을 완전히 배제하고 오로지 어텐션 메커니즘에만 기반을 둔 새로운 간단한 네트워크 구조인 트랜스포머를 제안합니다.
- 두 개의 기계 번역 작업 실험 결과, 이러한 모델들은 품질 면에서 우수하며 더 병렬화 가능하며 훈련에 필요한 시간이 훨씬 적습니다.
- 이 모델은 WMT 2014 영어-독일어 번역 작업에서 28.4 BLEU의 성능을 달성하여 기존 최상의 결과보다 2 BLEU 이상 개선되었습니다. WMT 2014 영어-프랑스어 번역 작업에서는, 8개의 GPU에서 3.5일간 훈련 후 41.8의 BLEU 점수를 기록하여 문헌에서 최상의 모델의 훈련 비용의 소수로서, 새로운 단일 모델의 최고 BLEU 점수를 세웠습니다. 트랜스포머가 다른 작업에도 잘 일반화됨을 보여주기 위해, 큰 규모와 제한된 훈련 데이터를 사용하여 영어 구성구문 분석에 성공적으로 적용하였습니다.
회고
전반적으로 논문 발표 내용을 바로 이해하기는 어려웠습니다. 아이펠톤 프로젝트를 마치면 기본 개념을 탄탄히 공부하며 논문을 읽고, 이후에는 구현까지 해보는 프로젝트를 최대한 많이, 다양하게 진행해 보아야겠습니다.
'학습기록 : AI' 카테고리의 다른 글
깃 이슈란? 장점, 만드는 방법, 기본 기능들 (1) 2024.06.13 AI 학습에서 주요 키워드 (2) 2024.06.02 [AIFFEL 7기] AI 공부를 시작하며 (3) 2023.11.03