2023. 3. 22. 00:00ㆍGenerative AI
2020년 OpenAI는 이전 언어 모델보다 10배 많은 1,750억 개의 파라미터를 갖춘 생성 언어 모델인 GPT-3를 발표하고 NLP 벤치마크에서 그 성능을 공개했습니다. 하지만 단순히 규모만 업그레이드한 것이 아닙니다. GPT-3는 텍스트 상호 작용만으로 작업을 처리할 수 있는 향상된 기능을 보여주었습니다. 이러한 작업에는 제로 샷, 원샷, 소수 샷 학습이 포함되며, 모델에 작업 정의 및/또는 몇 가지 예제가 주어지고 추가 교육 없이 작업을 수행해야 합니다. 즉, 파인 튜닝이 사용되지 않습니다. 마치 사람이 간단한 명령어의 몇 가지 예제만 보고 새로운 언어 작업을 수행하는 것과 같습니다. 하지만 어떤 경우에는 GPT-3의 성능이 SOTA(최첨단) 원튜닝 시스템의 성능과 거의 일치하기도 합니다.
최근의 연구에 따르면 대규모 텍스트 말뭉치에 대한 사전 학습 후 특정 작업에 대한 미세 조정을 통해 많은 NLP 작업과 벤치마크에서 상당한 이득이 입증되었습니다. 이 방법은 일반적으로 아키텍처에서 작업에 구애받지 않지만, 여전히 수천 또는 수만 개의 예제로 구성된 작업별 미세 조정 데이터 세트가 필요합니다. 반면, 인간은 일반적으로 몇 가지 예제나 간단한 명령어만으로 새로운 언어 작업을 수행할 수 있지만, 현재의 NLP 시스템에서는 여전히 많은 어려움을 겪고 있습니다. 여기서는 언어 모델을 확장하면 작업에 구애받지 않고 몇 번만 촬영해도 성능이 크게 향상되며, 때로는 이전의 최첨단 미세 조정 접근법을 통해 경쟁력에 도달할 수도 있음을 보여줍니다. 특히, 이전의 비희소 언어 모델보다 10배 더 많은 1,750억 개의 파라미터로 자동 회귀 언어 모델인 GPT-3를 학습하고 소수 샷 설정에서 성능을 테스트했습니다. 모든 작업에 대해 그라데이션 업데이트나 미세 조정 없이 GPT-3를 적용하고, 모델과의 텍스트 상호 작용을 통해서만 작업 및 소수 샷 데모를 지정합니다. GPT-3는 번역, 질의응답, 클로즈 작업은 물론 단어 스크램블링, 문장에서 새로운 단어 사용, 3자리 산술 수행 등 즉석 추론이나 도메인 적응이 필요한 여러 작업 등 많은 NLP 데이터 세트에서 강력한 성능을 발휘합니다. 동시에, GPT-3의 소수 샷 학습이 여전히 어려움을 겪고 있는 일부 데이터 세트와 대규모 웹 코퍼라 학습과 관련된 방법론적 문제에 직면한 일부 데이터 세트도 확인했습니다. 마지막으로, GPT-3가 사람이 작성한 기사와 구별하기 어려운 뉴스 기사 샘플을 생성할 수 있다는 사실을 발견했습니다. 이 연구 결과와 GPT-3가 일반적으로 미치는 광범위한 사회적 영향에 대해 논의합니다.
https://arxiv.org/abs/2005.14165
Language Models are Few-Shot Learners
Recent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fi
arxiv.org
'Generative AI' 카테고리의 다른 글
[프롬프트] 자료를 테이블로 만드는 예제 (0) | 2023.03.23 |
---|---|
사전 학습 말뭉치가 LLM의 인-컨텍스트 러닝에 미치는 영향 (1) | 2023.03.22 |
[In Context Learning] 인-컨텍스트 러닝의 신비로움 (0) | 2023.03.21 |
BioGPT: 생물의학 텍스트 생성 및 마이닝을 위한 사전 학습된 생성 트랜스포머 (0) | 2023.03.21 |
GPT-4 (0) | 2023.03.16 |