2023. 3. 22. 00:00ㆍGenerative AI
대규모 언어 모델에 대한 최근의 많은 연구에서 문맥 내 제로 및 소수 샷 학습 능력이 성공적으로 보고되었습니다. 그러나 문맥 내 학습이 언제 발생하는지에 대한 심층적인 분석은 아직 부족합니다. 예를 들어, 훈련 코퍼스가 달라질 때 인컨텍스트 학습 성능이 어떻게 변하는지는 알려지지 않았습니다. 여기서는 한국어 중심의 GPT-3 모델인 HyperCLOVA에서 사전 학습 말뭉치의 출처와 크기가 문맥 내 학습에 미치는 영향을 조사합니다. 심층 조사를 통해 다음과 같은 관찰 결과를 소개합니다: (1) 문맥 내 학습 성능은 코퍼스 도메인 소스에 크게 좌우되며, 사전 학습 코퍼스의 크기가 반드시 문맥 내 학습의 출현을 결정하는 것은 아니다, (2) 언어 모델이 여러 코퍼스를 조합하여 학습할 때, 각 코퍼스 자체로는 문맥 내 학습이 발생하지 않더라도 문맥 내 학습 능력이 출현할 수 있다, (3) 다운스트림 작업과 관련된 말뭉치로 사전 학습을 한다고 해서 다운스트림 작업의 경쟁력 있는 문맥 내 학습 성능이 항상 보장되는 것은 아니며, 특히 소수의 샷 환경에서는 더욱 그러하며, (4) 언어 모델링(당혹감으로 측정)과 문맥 내 학습 간의 관계가 항상 상관관계가 있는 것은 아닙니다: e.g., 낮은 난해도가 항상 높은 맥락 내 소수 샷 학습 성과를 의미하는 것은 아닙니다.
- 문맥내 학습(인-컨텍스트 러닝)이 언제 발생하는지에 대한 심층적 분석 부족
- 코퍼스(말뭉치) 변화에 따른 인-컨텍스트 학습 성능 차이가 밝혀지지 않음
- 관찰결과
>> 도메인 소스에 따라 인-컨텍스트 러닝 성능이 크게 좌우됨
>> 코퍼스 크기가 반드시 인-컨텍스트 러닝의 창발을 결정 짓지 않음
>> 여러 코퍼스를 조합하면 인-컨텍스트 러닝이 창발할 수 있음
>> 다운스트림 작업과 관련된 코퍼스로 사전학습을 한다고 해서, 다운스트림 작업에서 인-컨텍스트 러닝 성능이 보장되지 않음
이 글은 다음 논문의 내용을 번역 & 요약했습니다.
https://arxiv.org/abs/2204.13509
'Generative AI' 카테고리의 다른 글
ChatGPT 플러그인 (0) | 2023.03.24 |
---|---|
[프롬프트] 자료를 테이블로 만드는 예제 (0) | 2023.03.23 |
언어 모델은 단기간에 배우는 학생입니다. (0) | 2023.03.22 |
[In Context Learning] 인-컨텍스트 러닝의 신비로움 (0) | 2023.03.21 |
BioGPT: 생물의학 텍스트 생성 및 마이닝을 위한 사전 학습된 생성 트랜스포머 (0) | 2023.03.21 |