1. Abstract
- ChatGPT는 경이롭지만 이러한 거대한 모델을 훈련하고 정제하는 데는 엄청난 비용이 든다. 다행히도 sLM이 번성하고 있으며 점점 더 유능해지고 있다.
- 이 논문에서는 이를 "Mini giants"이라고 부른다.
- kaggle과 Mini giants과 같은 오픈 소스 커뮤니티가 기술적, 윤리적, 사회적으로 여러 면에서 Win-Win 할 것이라고 주장한다.
- 이 글에서는 짧지만 풍부한 배경을 제시하고, 소형 언어 모델을 달성하는 방법을 논의하며, 소형 언어 모델의 비교 연구와 평가 방법에 대한 간략한 논의를 제시하며, 실제 세계에서 소형 언어 모델이 가장 필요한 응용 시나리오를 설명한다.
2. Introduction
- ChatGPT 및 GPT-4와 같은 대형 언어 모델은 NLP 및 딥러닝에 혁명을 일으키고 있으며, 이는 과거의 기술의 발전 방향이다. 이러한 모델은 방대한 파라미터 크기(최대 560B)를 가지므로 소규모 기업이 활용하고 업데이트하는 데 비용이 많이 듭니다
- Open Source ML 커뮤니티와 민간 AI 기업들의 노력 덕분에 더 작은 언어 모델(~10B 파라미터)이 등장하여 더 큰 모델과 유사한 성능을 제공하여 적응력과 경제성을 향상시켰다.
- Ex) Kaggle competition은 도메인별 언어 모델 대회에서 다양한 데이터 소스를 통합하여 다양한 아키텍처를 시도할 수 있도록 한다.
- 더 작은 모델은 더 나은 적응력, 제어 가능성 및 경제성을 제공하여 더 쉬운 수정, local infra 사용 및 비용 효율성을 제공합니다 다양한 산업에서의 적응과 혁신은 이러한 소규모 모델이 제공하는 유연성에 의해 추진되며 도메별 데이터와 고유한 요구 사항의 통합을 주도한다.
3. A brief yet rich background
The Giants are fast
- GPT, BERT, Llama등 많은 LLM 모델이 나왔고 이는 많은 사용자에게 각광 받았다.
- 이 모델들의 성능이 좋았고 발전속도 또한 매우 빨랐다
4. How to make large foundation models
"small"
4-1. Foundation models with reduced parameters
4-2. Efficient fine-tuning strategies for
foundation models
- Adapter
- 모델을 fine-tuning하기 쉽게 만드는 것임.
- 사전 학습된 모델의 기존 layer 맨 뒤에 NN레이어를 추가한다. 이는 기존 레이어의 가중치를 변경하지 않고도 사용자가 작업하기 쉽게 만든다.
- 한 논문에서는 두개의 Linear 레이어와 그 사이에 비선형 activation function을 넣는 것을 제안하고 있음.
4-3. Prefix fine-tuning