Abstract

BERT : Bidirectional Encoder Representations from Transformers 은 양방향 표현을 비지도 학습을 활용하여 사전훈련하는 방식이다.

이 방법으로 사전훈련된 모델은 단 하나의 출력층을 추가하는 것만으로도 질문 답변이나 언어 추론과 같은 다양한 NLP 작업에 미세조정이 가능합니다.

Introduction

OpenAI의 ChatGPT는 단방향성 모델이다. → 각 토큰은 Transformer의 Self-Attention 레이어에서 앞쪽만 참고할 수 있다.

이와 같이 단방향성으로 문장을 해석하게 되면 문제가 발생한다.

BERT에서는 단방향 제약을 해결하기 위해서 마스크드 언어 모델이라는 사전 학습 목표를 사용한다.

마스크드 언어 모델 뿐만 아니라, 다음 문장 예측 작업을 수행하여 문장 쌍 간의 관계를 학습할 수 있도록 사전 훈련을 수행한다.

기존 NLP 작업에서는 각 작업마다 개별적으로 모델 아키텍처를 설계할 필요가 있었다.

하지만, BERT는 사전 학습된 후 간단한 미세 조정만으로 다양한 NLP 작업에서 최첨단 성능을 달성하였다.

초록과 개요 부분을 종합적으로 정리해보면,

자연어 처리 과정을 크게 두개로 나누어 보면 → 다운 스트림과 업 스트림으로 나눌 수 있다.