사전 학습 말뭉치가 LLM의 인-컨텍스트 러닝에 미치는 영향

2023. 3. 22. 00:00Generative AI

대규모 언어 모델에 대한 최근의 많은 연구에서 문맥 내 제로 및 소수 샷 학습 능력이 성공적으로 보고되었습니다. 그러나 문맥 내 학습이 언제 발생하는지에 대한 심층적인 분석은 아직 부족합니다. 예를 들어, 훈련 코퍼스가 달라질 때 인컨텍스트 학습 성능이 어떻게 변하는지는 알려지지 않았습니다. 여기서는 한국어 중심의 GPT-3 모델인 HyperCLOVA에서 사전 학습 말뭉치의 출처와 크기가 문맥 내 학습에 미치는 영향을 조사합니다. 심층 조사를 통해 다음과 같은 관찰 결과를 소개합니다: (1) 문맥 내 학습 성능은 코퍼스 도메인 소스에 크게 좌우되며, 사전 학습 코퍼스의 크기가 반드시 문맥 내 학습의 출현을 결정하는 것은 아니다, (2) 언어 모델이 여러 코퍼스를 조합하여 학습할 때, 각 코퍼스 자체로는 문맥 내 학습이 발생하지 않더라도 문맥 내 학습 능력이 출현할 수 있다, (3) 다운스트림 작업과 관련된 말뭉치로 사전 학습을 한다고 해서 다운스트림 작업의 경쟁력 있는 문맥 내 학습 성능이 항상 보장되는 것은 아니며, 특히 소수의 샷 환경에서는 더욱 그러하며, (4) 언어 모델링(당혹감으로 측정)과 문맥 내 학습 간의 관계가 항상 상관관계가 있는 것은 아닙니다: e.g., 낮은 난해도가 항상 높은 맥락 내 소수 샷 학습 성과를 의미하는 것은 아닙니다.

 

- 문맥내 학습(인-컨텍스트 러닝)이 언제 발생하는지에 대한 심층적 분석 부족

- 코퍼스(말뭉치) 변화에 따른 인-컨텍스트 학습 성능 차이가 밝혀지지 않음

- 관찰결과

>> 도메인 소스에 따라 인-컨텍스트 러닝 성능이 크게 좌우됨

>> 코퍼스 크기가 반드시 인-컨텍스트 러닝의 창발을 결정 짓지 않음

>> 여러 코퍼스를 조합하면 인-컨텍스트 러닝이 창발할 수 있음

>> 다운스트림 작업과 관련된 코퍼스로 사전학습을 한다고 해서, 다운스트림 작업에서 인-컨텍스트 러닝 성능이 보장되지 않음

 

 

이 글은 다음 논문의 내용을 번역 & 요약했습니다.

https://arxiv.org/abs/2204.13509