BERT : Bidirectional Encoder Representations from Transformers 은 양방향 표현을 비지도 학습을 활용하여 사전훈련하는 방식이다.
이 방법으로 사전훈련된 모델은 단 하나의 출력층을 추가하는 것만으로도 질문 답변이나 언어 추론과 같은 다양한 NLP 작업에 미세조정이 가능합니다.
OpenAI의 ChatGPT는 단방향성 모델이다. → 각 토큰은 Transformer의 Self-Attention 레이어에서 앞쪽만 참고할 수 있다.
이와 같이 단방향성으로 문장을 해석하게 되면 문제가 발생한다.
BERT에서는 단방향 제약을 해결하기 위해서 마스크드 언어 모델이라는 사전 학습 목표를 사용한다.
Masked Language Model
입력에서 일부 토큰을 무작위로 마스킹한 후, 주어진 문맥 만을 활용하여 마스킹된 단어를 원래의 단어로 예측하는 방식이다.
마스크드 언어 모델 뿐만 아니라, 다음 문장 예측 작업을 수행하여 문장 쌍 간의 관계를 학습할 수 있도록 사전 훈련을 수행한다.
기존 NLP 작업에서는 각 작업마다 개별적으로 모델 아키텍처를 설계할 필요가 있었다.
하지만, BERT는 사전 학습된 후 간단한 미세 조정만으로 다양한 NLP 작업에서 최첨단 성능을 달성하였다.
초록과 개요 부분을 종합적으로 정리해보면,
자연어 처리 과정을 크게 두개로 나누어 보면 → 다운 스트림과 업 스트림으로 나눌 수 있다.