Generative AI

ChatGPT는 "텍스트 주석" 같은 작업에서 크라우드 워커를 능가합니다.

해피해커 2023. 4. 3. 00:00

ChatGPT 제로샷 텍스트 주석 성능, MTurk와 훈련된 어노테이터와 비교. ChatGPT의 정확도는 5개 작업 중 4개 작업에서 MTurk보다 뛰어납니다. ChatGPT의 인터코더 합의도는 모든 작업에서 MTurk와 훈련된 주석자 모두보다 우수합니다. 정확도는 훈련된 어노테이터와의 일치도를 의미합니다.

 

많은 NLP 애플리케이션은 다양한 작업을 위해 수동 데이터 주석을 필요로 합니다. 특히 분류기를 훈련하거나 비지도 모델의 성능을 평가하기 위해 수동 데이터 주석을 필요로 합니다. 복잡성의 규모와 정도에 따라 다음과 같은 방법으로 작업을 수행할 수 있습니다. MTurk와 같은 플랫폼의 크라우드 워커와 다음과 같은 숙련된 어노테이터가 수행할 수 있습니다. 연구 조교. 2,382개의 트윗 샘플을 사용해 ChatGPT가 관련성, 입장, 프레임 감지 등 여러 주석 작업에서 크라우드 워커보다 성능이 뛰어남을 보여줍니다. 토픽 및 프레임 감지, 특히, ChatGPT의 제로 샷 정확도의 제로 샷 정확도는 5개 작업 중 4개 작업에서 크라우드 워커의 정확도를 능가하며, ChatGPT의 인터코더 합의는 모든 작업에서 크라우드 워커와 숙련된 주석가 모두의 합의보다 높았습니다. 게다가 ChatGPT의 주석당 비용은 0.003달러 미만으로 MTurk보다 약 20배나 낮습니다. 이러한 결과는 대규모 언어의 잠재력을 보여줍니다. 모델이 텍스트 분류의 효율성을 획기적으로 높일 수 있다는 가능성을 보여줍니다.

 

참고: 인터코더 신뢰성 (inter-coder reliability)
질적 연구에서 코더 간 신뢰성이란 무엇인가요?
코더 간 신뢰도는 서로 다른 두 연구자가 동일한 콘텐츠를 코딩하는 방법에 대해 얼마나 동의하는지를 의미합니다.
이는 연구의 목표 중 하나가 일관성과 타당성을 목표로 하는 콘텐츠 분석에 자주 사용됩니다.
코더 간 신뢰도는 여러 연구자가 데이터 집합을 코딩할 때 동일한 결론에 도달할 수 있도록 보장합니다.

참고: 인트라코더 신뢰성 (intra-coder reliabiltiy)
코더 내 신뢰성이란?
코더 간 신뢰도와는 대조적으로, 코더 내 신뢰도는 한 연구자의 코딩 내에서 코딩의 일관성을 측정하는 경우입니다.
이 문서에서는 코더 간 신뢰도에 대해 설명합니다.

 

본 글은 다음 논문을 번역 & 요약했습니다.

논문링크: https://arxiv.org/pdf/2303.15056.pdf

 

 

참고: MTurk (AWS 크라우드 소싱 마켓 플레이스, https://www.mturk.com)

Amazon Mechanical Turk(MTurk)는 개인과 기업이 이러한 작업을 가상으로 수행할 수 있는 분산된 인력에게 프로세스와 작업을 쉽게 아웃소싱할 수 있도록 해주는 크라우드소싱 마켓플레이스입니다. 여기에는 간단한 데이터 검증 및 연구 수행부터 설문조사 참여, 콘텐츠 중재 등과 같은 보다 주관적인 작업까지 모든 것이 포함될 수 있습니다. MTurk를 통해 기업은 전 세계 인력의 집단 지성, 기술, 인사이트를 활용하여 비즈니스 프로세스를 간소화하고 데이터 수집 및 분석을 강화하며 머신 러닝 개발을 가속화할 수 있습니다.
기술이 계속 발전하고 있지만 콘텐츠 조정, 데이터 중복 제거, 연구 등 인간이 컴퓨터보다 훨씬 더 효과적으로 수행할 수 있는 작업은 여전히 많습니다. 전통적으로 이러한 작업은 대규모 임시 인력을 고용하여 수행해 왔는데, 이는 시간이 많이 걸리고 비용이 많이 들며 확장하기 어렵거나 실패로 끝났습니다. 크라우드소싱은 시간이 많이 걸리는 수작업 프로젝트를 인터넷을 통해 분산된 작업자가 완료할 수 있는 더 작고 관리하기 쉬운 작업('마이크로태스크'라고도 함)으로 세분화하는 좋은 방법입니다.