[논문 리뷰] TRANS-BLSTM: Transformer with Bidirectional LSTM for LanguageUnderstanding

Deep Learning/NLP

[논문 리뷰] TRANS-BLSTM: Transformer with Bidirectional LSTM for LanguageUnderstanding

donghoon shin 2021. 8. 14. 20:32

저자 : Zhiheng Huang, Peng Xu, Davis Liang, Ajay Mishra, Bing Xiang
논문 : https://arxiv.org/abs/2003.07000

- 본 논문은 Amazon AWS AI 에서 Transformer의 Encoder에 Bidirectional LSTM을 적용한 새로운 아키텍쳐를 제안한 논문이다.

2020년 게재되고 인용 수는 적지만 기존 Encoder 구조에 다른 모델을 적용한 점이 흥미로워 논문리뷰와 코드구현&실습까지 진행해 보았다.

❒ Introduction

BERT 등장이전에는 BLSTM을 기반으로 한 machine translation과 speech recognition 모델이 sota를 기록해왔다.

또한 다양한 선행연구에서 BERT의 hidden layer size를 단순히 늘리는 것은 모델 성능에 도움을 주지 않는다는 한계점을 제시했다.

따라서 BERT에서 활용한 transformer encoder 구조와 BLSTM을 결합하면 성능을 더욱 높일 수 있을 것이라는 가정에서 이 두 모델을 결합하려는 시도를 하였다고 한다.

그 결과, 본 논문에서 BERT의 성능을 강화하기 위해 Transformer Encoder와 Bidirectional LSTM(BLSTM) 아키텍쳐를 결합하여 Trans-BLSTM 모델을 새로 제안하였다.

본 논문의 주요 기여점은 transformer와 BLSTM을 하나의 단일 모델로 결합하여 SQuAD, GLUE NLP 벤치마크 데이터셋에서 BERT baseline 성능을 높였다는 점을 들 수 있다.

❒ TRANS-BLSTM Architectures

TRANS-BLSTM은 BERT와 마찬가지로 Encoder만 활용하여 hidden representation을 추출하고 linear layer, softmax layer를 거치는 아키텍쳐를 기반으로 한다. 기존 실험 결과, transformer model의 단일 distillation BLSTM 모델은 굉장히 낮은 성능을 보였다. 따라서 BLSTM을 transformer와 결합하여 sequence modeling에서 상호 보완적 효과를 통해 다양한 downstream task에서 성능을 향상시키는지 실험을 진행하였다. 본 논문에서 제안한 2가지 아키텍쳐는 아래와 같다.

첫번째는 기존 feedforward layer를 BLSTM layer로 대체한 구조이며, 두번째는 동일한 encoder 방식에 BLSTM layer를 통해 추출된 representation을 포함하여 add&norm을 거치는 구조이다. BLSTM의 output은 embed dim *2 이기 때문에 두가지 아키텍쳐 모두 Linear layer를 통해 다시 embed dim으로 맞추어서 최종 add&norm에 활용된다는 공통점이 있다.

추가적으로 본 논문에서는, Decoder(Classifier) 부분 또한 Linear layer가 아닌 Bi-LSTM layer로 대체하여, downstream task fine tuning시 sequential prediction을 향상시킬 수 있다고 한다.
Encoder에 BLSTM을 결합함으로써 pre-training을 위한 maked language model, Next sentence prediction 학습에 도움을 준다고 논문에서 말하고 있다. Pre-training을 위한 loss function은 BERT와 동일하게 MLM, NSP를 활용하였다.

❒ Experiment

BERT와의 성능 비교를 위해 BERT에서 활용한 동일 데이터를 pre-training을 위해 활용하였고, tokenize와 학습 방식도 모두 동일하게 하였다. (memory consumption을 줄이기 위해 max length는 512 → 256으로 줄임)

SQuAD Dataset 실험 결과, ALBERT가 SOTA 성능을 보였으며 본 논문에서 제안한 TRANS-BLSTM 모델(decoder 부분 또한 BLSTM 적용)이 유사한 성능을 보이고 있음을 알 수 있다.

GLUE Benchmark 실험에서도 BERT보다 대부분 더 높은 스코어를 보이고 있음을 알 수 있다.

❒ Conclusion

LSTM 아케텍쳐를 transformer와 결합하여 self-attention에서 sequence 정보를 더 정확하게 학습을 할 수 있게되고 단순히 layer를 여러개 쌓아서 더 성능이 좋아지지 않는 BERT의 한계점을 보완한다는 점에서 흥미롭게 보았다.

하지만 transformer의 주요 기여점 중 하나인 병렬 연산을 통한 학습 시간 단축의 장점을 소실했다는 점을 한계로 들 수 있을 것 같다.

추가적으로, TRANS-BLSTM 모델을 직접 구현해보기 위해 김성훈 교수님이 대표로 있는 AI 스타트업 업스테이지에서 공개한 KLUE 데이터를 기반으로 자체적인 text classfication 코드 구현을 해보았다. Pre-training 없이 바로 supervised-learning을 통해 vanilla transformer encoder 아키텍쳐와 TRANS-BLSTM뿐만이 아닌 cnn을 적용한 transformer encoder 아키텍쳐를 구현해보고 성능 비교를 한 내용을 별도로 정리하였다. (https://hoonsnote.tistory.com/13)