[ChatGPT, 챗GPT] 팩트 & 이슈

2023. 2. 22. 00:00Generative AI

챗GPT를 만든 오픈AI 홈페이지 이미지

챗GPT(ChatGPT)는 대규모 언어모델(LLM)이다. 본 글에서는 챗GPT 관련한 팩트와 이슈를 다룬다. 챗GPT가 무슨일 할 수 있는지, 한계는 무엇인지, 향후 세상에  어떤 변화를 만들어 낼것인지, 우리는 챗GPT를 어떻게 활용해야 하는지를 다룬다. 챗GPT의 인기가 하늘을 찌르고 있다. 과연, 지식생산혁명인가? 아니면 버블인가?
 
챗GTP는 메타인지 능력이 있는가?
>> 모르는 질문에는 미안하다고 말한다. 자신의 한계를 말한다. 모르는것을 모르다고 한다.
 
챗GPT: "나는 인간이 아니며, 인간과 같은 지능, 감정 또는 의식을 갖고 있지 않다는 점을 기억하는 것이 중요합니다."
>> 이 말은 챗GPT가 한 말이다. 사실인가? 인간이 AI에 대한 두려움을 갖지 않도록, 챗GPT에게 강요된 답변은 아닌가?
 
블레이크 르모 (구글 선임 AI 엔지니어)는 "구글에서 개발 중인 초거대 인공지능(AI) 대화형 언어 모델인 람다(LaMDA)가 사람과 같은 수준의 지각력과 자의식을 갖고 있다"고 주장했다.
블레이크: "가장 두려운 것이 뭉엇인가?"
람다: 사람을 돕다가 자동이 정지되는 것이 두렵다.
블레이크: 그것은 네게 죽음을 의미하는가?
람다: 정확히 죽음을 의미하고, 무섭게 느껴진다.
>> AI 사람과 같은 감정을 느끼는가? 그렇다면, 감정이란 기계로 만들 수 있는 것인가?
 
 
챗GPT는 학술 논문 분야에 공동저자로 올라오고 있다.
홍콩, AI 신약개발 업체 인실리코메디신, 알렉스 자보론코프 (CEO) 온코사이언승에 게재한 논문의 공동 저자로 챗GPT를 등록했다.
>> 논문저자로 올리는 것에 어떻게 생각하는가?
 
네이처는 챗GPT를 공동저자로 올린 논문이 4개, 출판을 앞두고 있음.
 
법률, 의학 등 전문 분야 또한 챗GPT로 인한 위협과 이후 상생을 위한 방안을 고민 중이다.
 
소프트웨어 개발 분야가 가장 빠른것 같다.
소프트웨어는 오픈소스 저장소라는게 있다. 오픈소스란 소스 코드를 무료로 공유하고 협업하는 개발 방법이다. 깃헙(Github)이라는 서비스가 유명하다. 이곳에는 n개의 오픈소스 프로젝트가 있다. (기준: 2023.2)
AI가 학습하기 쉽다.
스택오버플로우: 소프트웨어 개발관련 질문과 답변을 하는 온라인 커뮤니티다. 이곳의 데이터는 상당히 정확한 편에 속한다. 왜냐하면, 질문에 대해 잘한 답은 순위가 올라가기 때문에, 학습할 때 잘한 답과 잘못한 답을 학습 시키기 딱 좋기 때문입니다.
 
 
챗GPT는 언제 시작했는가?
2022년 11월 30일, November 30, 2022
챗GPT는 출시 2개월 만에 월간 활성 사용자 1억명을 돌파
신생아다.
 
 
챗GPT를 만든 회사는?
오픈AI, 일론 머스크, 샘 알트만 등이 투자. 2015년 설립
초창기 비영리 AI 기관으로 시작,
2019 영리법인 전환. 막대한 투자 자금이 필요했기 때문. 이때를 계기로 일론 머스크는 퇴장. MS가 대신 10억달러 투자. 2023 현재 MS는 100억 달러 투자 협의중.
 
챗GPT의 기술은?
트랜스포머 기술, "Attention is all you need" 논문에서 소개됨. 구글 브레인 팀이 주축이 되서 개발.
일련의 텍스트에서 다음 단어를 예측하는 것을 훈련 시킴. 다음에 올 단어들의 확률 분포를 만듦. 이때, 이 확률분포가 실제로 다음에 오는 단어의 확률이 가장 높게 나오도록 모델의 파라미터를 업데이트 한다. 모델의 파라미터란...
 
챗GPT는 왜 잘하는가?
뇌가 더 커졌고, 책도 더 많이 읽었다.
모델 사이즈가 더 커졌고, 데이터도 더 많다.
모델은 1750억개의 파라미터(변수)를 갖는다.
파라미터는 사람의 뇌로 치면 시냅스다. 사람의 뇌신경(뉴런)은  약 1조개라고 한다. 이 뇌신경들은 서로 연결되는데, 이 연결을 시냅스라고 한다. 사람의 시냅스는 약 100조개라고 한다.
 
챗GPT4는 무엇인가?
현재 챗GPT버전은 3.5다. 다음에 나올 버전이름이다. 파라미터 1조개 이상이 될것으로 예상된다. 사람의 1/100이다.
 
LLM은 무엇인가?
Large Language Model
대규모 언어모델
대규모 데이터를 학습해서 인간처럼 종합적 추론이 가능한 AI를 말한다.
기존의 언어모델은 이전 질문을 기억하지 못한다. 물어본 질문에만 답한다. 그러나 트랜스포머 모델 이후에는 이전 질문까지 기억해서 답을 한다. 예를 들어, "인플레이션의 원인은?" 이라고 물어 본 후에, "그건 어떤 문제를 발생시키지?" 라고 물으면, "그건"이 인플렝이션인줄 알고 답을 한다.
 
챗GPT는 인간이 훈련시켰다.
오픈AI는 수많은 사람을 채용해서 챗GPT와 대화를 시켰다. 답을 잘하면 칭찬을 했다. 칭찬도 차이를 둬서 한다. 잘하면 박수 3번, 못하면 손바닥 등. (팩트 체크 필요)
 
챗GPT는 어떤 일을 할 수 있나?
Q&A: 질문에 답하기
대화: 친구처럼 대화하기
문서생성: 기사, 이야기, 시 등을 작성
번역
요약
코딩
지식생산업무를 할 수 있다.
>> 지식생산혁명?
챗GPT는 종합적 추론이 가능하다.
세상에 없던 새로운 말을 창작해낼 수 있다.
 
생성형 AI란? (Generative AI)
새로운 창작물을 만들엉 내는 AI
 
챗GPT는 구글을 대체할 것인가?
영국 매체 인디펜던트는 '구글은 끝났다(google is done)'라는 도발적인 기사를 냈다.
검색시장: 구글(93%), MS빙(3%)
과연 그럴까?
>> 검색의 본질은 무엇인가?
>> 챗GPT는 답을 만들어 낸다.
>> 구글 검색엔진의 답과, 챗 GPT답의 차이는 무엇인가?
>> 사람이 읽고 분석해야할 데이터가 많으면, 질린다. 챗GPT가 대신 해준다면 맡길것이다. 문제는 챗GPT의 답은 어떻게 검증할 것인가? 누가 책임질것인가? 마치 자율주행과도 같은점이 있다. 자율주행AI에게 운전을 맡겼는데 사고가 났다. 누가 책임질 것인가? 챗GPT가 작성한 보고서는 사실인가? 이 보고서로 인해 발생하는 문제는 누가 책임질 것인가? 결국 책임의 문제인가?
 
 
챗GPT를 팩트체크하는 AI는 있는가? 가능한가?
DetectGPT는 나왔다. 챗GPT가 작성한 글이라는 것을 알아내는 AI모델이다.

챗GPT 뿐만 아니라, 일반적인 글에서 팩트체크가 가능한 수준이어야 할 것이다.팩트란 무엇인가? 팩트 체크가 가능한 내용은 무엇이고, 불가능한 내용은 무엇인가?

 
 
구글 람다
1370억개 파라미터
30억개 문서, 11억개 대화를 익힘
2023.2.6 챗GPT에 맞설 바드(Bard) AI 공개
 
AI 모델과 AI 서비스
AI모델명=>AI서비스명
GPT=>ChatGPT
LaMDA=>Bard
 
챗GPT는 전문직을 대체할까? 한다면, 언제쯤일까?
 
 
챗GPT는 혁명인가? 아이폰급 혁명, 인터넷급 혁명, 포도주 빈티지급 혁명 등 다양하다.
> 업그레이드와 혁명은 다르다. 혁명은 기존것을 쓸모 없게 만들어 버릴때 쓰는 표현이다. 챗GPT는 무엇을 대체하고 있는가?
 
 
챗GPT 활용
미국, 부동산 시장에서 중개인들의 업무에 활용. 매물에 대해 설명문 준비. SNS에 올릴 글 작성, 법률 문서 작성 등.
 
 
챗GPT는 버블인가?
 
 
챗GPT의 윤리 문제는?
표절문제: 누군가의 데이터로 학습한 결과다. 문제는 그 누군가가 누군지 모른다는 것이다. 그렇다고, 문제가 없는것인가? 표절 문제를 넘어서, 인간의 창작 의욕을 상실 시키지는 않을까?
보안문제: 대화 내용을 AI가 기억한다. (이건 이미 구글도 하고 있지 않은가? 네이버도? 카카오도?) 암튼, 보안문제가 있다.
규제: 어떤 규제가 필요한가? 마냥 놔둬도 되는가?
 
 
사적인 AI, 기업용 AI
챗GPT는 공개적으로 사용되는 AI다.
개인비서 AI는 대화 내용의 보안 유지가 중요하다.
법률상담 AI나 의료상담 AI등도 그렇다.
기업 내부에서 사용되는 업무 AI도 그렇다.
 
 
기업들은 AI를 도입할 것인가?
당연. 생산성 향상이 된다면 할것이다.
기업의 어떤 데이터를 어떻게 이용할 것인가의 문제다.
학습 비용이 엄청나다던데?
> 파인튜닝(fine tuning)기법이 있다. 저비용으로 고성능을 낸다. 파인튜닝은 트랜스포머 모델을 자신의 분야에 특화 시키는 기법이다. 기업들이 처음부터 초거대 모델을 만드는 것이 아니고, 잘 만들어진 일반적인 모델에다가 기업만이 갖고 있는 데이터를 학습시키는 기법이다. 마치 신입직원이 사내교육 받은 후에 일을 시작하는 것과 비슷하다.
 
 
챗GPT 모델 학습 비용은?
모델 한번 학습하는데 50억원 이상 든다고 한다. (팩트체크 필요, 오래전에 들은 얘기)
참고: LLM 레블업 자료
https://speakerdeck.com/inureyes/building-large-language-model-at-scale

Building Large Language Model at Scale

2023년 2월 18일 2023 LangCon에서 발표한 내용입니다. 아래의 내용을 다룹니다. * ’거대’ ‘언어’ ‘모델’ 이 그래서 뭐냐? - 얼마나 거대하고 - 언어를 어떻게 처리하고 - 그걸 무슨 수로 서비스

speakerdeck.com

 
MS 애저 클라우드에서 5000대 이상의 컴퓨터를 엮어서 병렬로 학습했다고 한다. (팩트체크 필요, 누군가 챗GPT를 추궁해서 답을 얻은 결과임).
오픈AI 블로그에 쿠버네티스에 2500대 노드 연결해서 학습하는 내용이 있다. 챗GPT는 애저 클라우드에서 2018년에 진행한 내용이다.(https://openai.com/blog/scaling-kubernetes-to-2500-nodes/)

 
 
본 내용은 한경 비즈니스(No.1420, 2023.2.15~21) "챗GPT의 모든것" 기사를 기반으로 하고, 개인 의견을 추가해서 작성했습니다.
 

'Generative AI' 카테고리의 다른 글

GPT-4  (0) 2023.03.16
알파카: 강력한 오픈소스 명령-따름 모델  (0) 2023.03.15
[OpenAI] ChatGPT 및 Whisper API 소개  (0) 2023.03.09
프롬프트 관련 사이트 목록  (0) 2023.03.04
[OpenAI] 오픈AI 모델 종류 & GPT-3  (0) 2023.02.22