Notice
Recent Posts
Recent Comments
Link
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
Archives
Today
Total
관리 메뉴

cb

[논문 리뷰] BERT 논문 리뷰 본문

ai - paper

[논문 리뷰] BERT 논문 리뷰

10011001101 2023. 8. 23. 21:20

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

https://arxiv.org/abs/1810.04805

 

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations from unla

arxiv.org

 

Abstract

 

본 연구에서는 Bidirection Encoder Represents from Transfer를 의미하는 BERT 모델을 제안한다. 최근의 언어 모델(Peters et al., 2018a; Radford et al., 2018)과 달리 BERT는 모든 layer에서 레이블이 없는 텍스트의 context를 깊게 양방향 학습한다. 결과적으로, 사전 훈련된 BERT는 단 하나의 output layer를 미세 조정(fine-tuning)하여 실질적인 아키텍처의 수정 없이 Question-answering, berbal inference 등에서 SOTA를 달성할 수 있었다.

 

BERT는 단순하고 강력하여 80.5%(7.7%향상)의 GLUE 점수, 86.7%(4.6%향상)의 MultiNLI 정확도, SQuAD v1.1의 Test F1 93.2(1.5향상), SQuAD v2.0 Test F1 83.1(5.1향상)을 포함한 11가지 자연어 처리 작업에서 SOTA를 달성했다.

 

 

1. Introduction

 

언어 모델 사전 훈련(Pre-training)은 자연어 처리 작업에서 효과적인 개선을 보였다. 이것은 문장 간의 관계를 전체적으로 분석하여 예측하는 것을 목표로 하는 자연어 추론 및 parapharasing과 같은 문장 수준의 작업뿐만 아니라, 토큰 수준의 세분화된 출력을 생성해야 하entity recognition과 질의응답 작업을 포함한다.

 

pre-trained된 언어 표현을 downstream 작업에 적용하기 위해서는 feature-based 전략과 fine-tuning 전략을 사용할 수 있다. ELMo와 같은 Feature-based approach는 pre-trained된 표현을 추가 feature로 사용하는 task-specific architectures를 사용한다. GPT(Generative Pre-trained Transformer)와 같은 fine-tuning approaches는 최소한의 매개변수를 도입하고, pre-trained된 매개변수를 간단히 미세 조정하여 downstream 작업에 훈련시킨다. 두 가지 전략 모두는 pre-training 중 단방향 언어 모델을 사용하는 동일한 목적 함수를 공유한다.

 

본 논문에서는 BERT 이전의 기술이 fine tuning이 pre-trained된 representations의 힘을 제한한다고 주장한다. 주요 제한 사항은 언어 모델이 단방향 모델이라는 것이고, 이로 인해 pre-training 중에 사용할 수 있는 아키텍처의 선택이 제한적이라는 것이다. 예를 들어, GPT의 self-attention 매커니즘에서 레이어의 모든 토큰이 자신의 이전 토큰에만 attention할 수 있다는 것이 있다. 이와 같은 제한은 문장 수준의 작업에는 적합하지 않으므로, 양방향으로 context를 통합하는 것이 중요하다.

 

따라서 본 논문에서는 BERT: Transformers의 양방향 인코더 표현을 제안하며 fine-tuning 접근 방식을 개선한다. BERT는 "Masked Language Model"인 MLM에서 영감을 받아 단방향성 제약을 완화한다. 마스킹된 언어 모델은 입력에서 일부 토큰을 무작위로 마스킹하고, 마스킹된 단어의 원래 ID를 에측한다. 왼쪽에서 오른쪽과 같은 단방향 언어 모델 pre-training과 달리 MLM은 왼쪽과 오른쪽 context를 융합할 수 있게 한다. 이를 통해 깊은 양방향 변환기의 pre-training을 가능하게 하며, 마스크된 언어 모델 외에도 텍스트 쌍 표현을 공동으로 pre-training하는 "next sentence prediction" 작업도 수행한다.

 

 

BERT의 pre-training, fine-tuning 과정

 

Contribution

  • 언어 표현에서 양방향 pre-training의 중요성을 입증
  • 문장 및 토큰 수준 작업의 대규모 task에서 SOTA를 달성한 최초의 fine-tuning 기반 representation model
  • 11개의 NLP tasks에서 SOTA를 달성

 

2. Related work

2.1 Unsupercised Feature-based Approaches

2.2 Unsupervised Fine-tunning Approaches

2.3 Transfer Learning from Supervised Data

 

3. BERT

 

이 섹션에서는 BERT의 세부 구현을 소개한다. 먼저, pre-training 중에 모델은 다양한 사전 학습 작업을 통해 레이블이 지정되지 않은 학습 데이터를 학습한다. BERT 모델은 먼저 사전 훈련된 매개변수로 초기화되고, 모든 매개변수를 downstream 작업의 labeled 데이터를 사용하여 fine-tuning된다. 이로 인해 BERT는 다양한 task에 걸친 통합 architecture를 갖고 있다.

 

3.1 Pre-training BERT

3.2 Fine-tuing BERT