[인공지능의 두 얼굴(11)] 하정우 네이버클라우드 AI Innovation센터장
초거대 AI ‘하이퍼클로바X’ 출시, “GPT4 수준으로 보여드릴 것”
독거노인과 대화하는 ‘클로바 케어콜’ “AI로 사회적 문제해결”"
초거대 AI 연구를 시작한 건 2020년 5월 (오픈 AI가 만든) GPT3 발표 시점부터다. 성낙호 현 하이퍼클로바 총괄과 당시 두 달 정도 GPT3를 써봤다. 앞으로 이 기술을 가진 회사와 이 기술을 쓰는 회사로 나뉘게 될 거라는 생각이 들더라. 바로 경영진에 이 기술을 확보하지 않으면 20년 후 검색 기반의 리더 포지션이 흔들리게 될 것 같다고 보고했다."
초거대(LLM·Large Language Model) 언어모델 하이퍼클로바X 공개를 앞둔 네이버의 하정우(46) 네이버클라우드 AI Innovation 센터장의 말이다.
▲'배우 하정우보다 더 바쁘다'는 하정우 소장을 지난 12일 경기 성남시 분당구 네이버 사옥에서 만났다. 사진=네이버
오픈
AI가 만든
GPT4가 지난 3월 출시되자 전 세계적으로 뜨거운 관심을 받고 있다. 앞서 오픈
AI는 2020년 초거대 인공지능
GPT3를 출시했고, 지난해 11월 채팅을 접목한 챗
GPT를 선보였다. 네이버는 후발주자로 시작해 적극적으로 인공지능 연구에 뛰어들어 성과를 내고 있다. 하정우 센터장은 "오는 7~8월 하이퍼클로바X를 공개할 즈음이면
GPT4에 버금가는 수준으로 준비해 보여드릴 것"이라고 했다.
하정우 센터장은 공개 발언 기회가 있을 때마다
'AI주권'을 강조했다. 이를 두고 '애국심 마케팅'이 아니냐는 지적도 있다. 하정우 센터장은 현재 챗
GPT의 한국어 버전이 영어 버전 대비 4.5배 더 비싼 점을 지적하며 "글로벌 사업자에 맞서는 초거대
AI를 만드는 국내기업이 중요하다고 말하는 게
AI 주권 때문"이라고 강조했다.
인공지능 시대 뉴스 가치에 대한 논쟁도 이어지고 있다. 네이버는 지난 3월 인공지능 학습을 위한 언론사 뉴스 정보를 무상으로 가져갈 수 있는 약관 개정을 추진했다가 논란이 되자 철회했다. 해외에선 오픈AI가 자사 뉴스를 무단으로 학습했다며 언론이 법적 대응에 나선 사례도 있다. 하정우 센터장은 "기사가 얼마나 기여하는지 정량적으로 평가하기 어렵다"며 "그래서 모여서 논의해야 하는 것이다. 정확하게 객관적으로 가치 평가하는 건 어렵다. 사회적인 담론이 필요하다"고 했다. 네이버는 현재 언론에 뉴스 데이터 제공 동의 절차를 진행하고 있다.
초거대 AI가 우리 삶을 위협할지도 모른다는 우려에 대해서는 "기술에는 명과 암이 있다"며 오히려 초거대 AI가 사회적 문제를 해결할 수도 있다고 강조했다. 하 센터장은 '클로바 케어콜' 서비스를 언급하며 "네이버는 2021년부터 독거노인들에게 전화하는 선보이고 있다. 명확한 명령어를 입력해야 답변이 돌아오는 챗봇과는 다르다. 어르신들이 했던 말들을 기억해 데이터를 쌓아두고 그에 기반해 매주 2~3회 연락을 드려, 독거노인 돌봄을 진행하고 있다"고 말했다.
하정우 센터장은 2004년 서울대 컴퓨터공학부를 졸업 후, 2006년 1월까지 삼성SDS 소프트웨어 프로그래머로 2년가량 일했다. 2015년 서울대 대학원 컴퓨터공학 박사로 졸업했다. 같은 해 네이버에 입사했다. 현재 네이버클라우드 AI Innovation센터장을 맡고 있다. 최근 인공지능 분야 행사에 적극적으로 발언하고 있다. '배우 하정우보다 더 바쁘다'는 하정우 소장을 지난 12일 경기 성남시 분당구 네이버 사옥에서 만났다.
▲'배우 하정우보다 더 바쁘다'는 하정우 소장이 지난 12일 경기 성남시 분당구 네이버 사옥에서 미디어오늘과 인터뷰하고 있다. 사진=네이버.
-네이버는 언제부터 초대규모 AI '하이퍼클로바' 연구를 시작했나.
"(오는 7~8월 시장에 공개될) 하이퍼클로바X는 공개된 영어와 한국어 데이터를 많이 태웠다. 한국어도 잘 쓰고 영어도 잘 쓰는 모델이다. 네이버 차원에서 AI 연구는 2013년 시작했다. 저는 2015년에 입사했다. 별도의 딥러닝 AI팀을 운영하면서. 연구하고 서비스 기술도 만들다가 2017년에 클로바를 만들었다. 당시엔 LINE과 같이 AI스피커를 만들어 규모를 키웠다. 초거대 AI 연구를 시작한 건 2020년 5월 GPT3 발표 시점부터다. 성낙호 하이퍼클로바 총괄과 두 달 정도 챗GPT를 써봤다. 앞으로 이 기술을 가진 회사와 쓰는 회사로 나뉘게 될 거라는 생각이 들더라. 바로 경영진에 이 기술을 확보하지 않으면 20년 후 검색 기반의 리더 포지션이 흔들리게 될 것 같다고 보고했다. 2020년 9월부터 달리기 시작했다. 반년 만에 만들어낸 게 하이퍼클로바다. 2021년 3월에 완성했고, 5월에 이벤트를 통해 공개했다. 세계 최고 권위 자연어처리학회에서 논문 발표한 게 11월이다."
-오픈AI(GPT-3, 2020년 6월), 화웨이(Pan-GU, 2021년 5월)에 이어, 2021년 11월 세계에서 세 번째로 초거대 AI 하이퍼클로바를 개발했다. 기술 수준이 어느 정도인가.
"구글이 가장 잘하고 있긴 하다. 가장 먼저 새로운 기술들을 보여주고, 앞서 있는 건 맞다. 그런데 AI 연구가 기술 수준을 넘어 지금은 비즈니스 서비스와 맞닿아 있다 보니까 어떤 비즈니스를 만들고, 어떤 서비스와 프로덕트를 성공적으로 잘 만드느냐도 중요하다. 챗GPT를 만든 오픈AI의 CEO 샘 알트만도 고민되는 포인트가 '킬러 어플리케이션'을 발견하지 못했다고 말했다. 한국어를 사용하는 분들, 한국어 기반의 어플리케이션을 사용하는 분들이 체감했을 때 올해 4~5월 기준으로 GPT3.5보다 지금 저희(네이버)가 보유하고 있는 게 잘한다. 저희가 오는 7~8월 하이퍼클로바를 공개할 즈음이면 GPT4에 버금가는 수준으로 준비해 보여드릴 거다."
- 네이버가 개발 중인 '하이퍼클로바X'는 어떤 기술인가.
"'하이퍼클로바'는 글을 잘 쓰는 AI다. 구글의 바드, GPT4가 글을 잘 쓰긴 해도 특정 전문 분야의 글을 쓰라고 하면 전문성이 떨어진다. 데이터의 문제라고 봐야 한다. 전문 분야의 데이터를 충분히 학습하지 못하는 부분에서 발생하는 문제인데, (우리는) 해당 분야(금융·건설 산업 등)의 파트너십을 통해 파트너들이 보유하고 있는 데이터를 학습시켜 전문성을 굉장히 높인 초거대 AI를 만들려고 한다. 내가 일하는 장소에서 나에게 바로 도움이 되는 생산성을 바로 올려주는 초거대 AI를 만들겠다는 게 '하이퍼클로바X'다. 그래서 전문성 특화 버전을 만드는 게 중요한 거다. 이 점에서 차이가 있다. 기술 투자도 투자지만 앱 서비스나 비즈니스로 이어지는 건 또 다른 문제다. 네이버는 2년 넘게 서비스를 계속 만들어 왔다. 그런 부분에서 강점이 있다."
▲클로바노트 설명 영상. 사진=네이버 클로바 유튜브채널 갈무리.
-기자들은 클로바노트(음성을 글로 전환해주는 서비스)를 많이 쓰는데, 대중적으로도 많이 쓰고 있는지, 사람들은 주로 어떤 용도로 주로 쓰는지 궁금하다."학생들이 노트 필기 안 하고 클로바노트를 켜놓고 수업을 듣는다. 사실 클로바노트를 만든 건 회의록 작성 때문이다. 보통 회의록을 회사 막내들이 정리하더라. 막내가 가장 창의력 뛰어나다. 그들이 이야기해야 신선한 아이디어가 나오는데, 그런 이야기를 못하고 회의록 쓰느라 바쁘다. 이런 문제를 해결하려고 한 거다. (정부) 디지털정보위원회에서도 클로바노트를 쓴다. 클로바노트를 만든 팀이 별도로 있다. 음성 인식 엔진도 중요하지만 프로덕트 서비스가 되게 중요하다. 음성 인식만으로 의미 있는 단독 앱이 뭐가 있을까 고민하다가 나온 게 클로바노트다."
-클로바노트에 기록된 정보는 네이버가 갖게 되나.
"아니다. 완전 암호화된 상태로 일정 기간만 저장하고 동의하지 않으면 학습에도 쓰지도 않는다. 기본은 비동의 상태다. 옵트인 방식이다. 내가 학습에 활용을 동의하겠다고 체크해야 학습에 쓸 수 있다. 봐서 얻을 수 있는 것보다 잃을 수 있는 게 훨씬 크다."
▲배우 손숙씨가 클로바 케어콜을 체험해보고 있다. 사진=네이버 클로바 유튜브채널 갈무리.
-최근 네이버는 지자체의 전화 돌봄을 AI로 대체한 '클로바 케어콜' 서비스를 시범 도입했다. 기존 케어콜과 비교해 어떤 강점이 있나."2021년 11월 부산 해운대구부터 시작해 1만5000명에게 서비스하고 있다. 비슷한 서비스들이 있었다. 문제는 초거대 언어 모델이 나오기 전엔 챗봇이 안 똑똑했다. 내가 원하는 답을 얻으려면 굉장히 정확하게 이야기해야 한다. 그러다 보니 쓰기 되게 불편했다. '건강이 괜찮으시면 예, 아니요로 대답해주세요' 이런 식으로 전화하더라. 독거노인 어르신들이 아무리 외롭다고 해도 이런 전화 받으면 짜증 난다. 챗
GPT 써봐서 알겠지만, 대충 말해도 적절한 대답을 할 수 있다. 초거대
AI를 어르신들과 더 잘 대화하도록 만든 게 '클로바케어콜' 서비스다. 어르신들이 어떤 형태로 말해도 적합한 답이 오가고 이전 대화도 기억하다 보니 대화하는 맛이 난다. 만족도가 올라갔다. 주 2~3회 전화를 건다."
"기존 케어콜은 지난번 대화에서 물었던 걸 또 묻는다. 그러다 보니 어르신들 입장에서는 '내가 틀림없이 이야기했는데, 무시하나?' 이런 생각을 하는 거다. 그 부분을 해소하기 위해 지난해 8월 지난번 대화했던 내용을 기반해서 물어보는 '대화 기억하기' 서비스를 출시했다. 지난해 10월 논문으로도 발표했다. 과거 많은 어르신들은 답변이 길지 않았는데, 기억해서 물어보니까 어른들이 훨씬 더 이야기를 많이 한다. 그 결과 지자체나 보건소가 이분들에 대해 더 많은 정보를 확보하고 정확하게 케어할 수 있게 된다. 대화 기반 서비스의 장점은 외로움을 달래주니 근본적으로 고독사를 방지할 수 있다. 초거대
AI를 써서 외로운 어르신들과 대화가 되면 이런 사회문제 해결은 가능해질 거다. '클로바 케어콜'을 필요로 하는 훨씬 더 많은 분이 전국에 계실 거다."
-'클로바 케어콜'은 어떻게 시작하게 됐나.
"독거노인 어른들을 돌볼 수 있는 게 가능한지 문의가 왔던 것 같다. 그때도 고민했던 게 2022년 2월 이루다 사건(챗봇 이루다가 실제 이용자들의 대화를 수집한 결과 개인정보로 볼 수 있는 정보가 노출된 사건)이었다. 당시 우리는 대화를 잘하는 AI라면 시나리오를 어떻게 잡느냐에 따라 사회문제 해결에도 가능성이 있어 보인다고 봤다. 사회 지속 가능성이나 비즈니스 확장 관점에서 봐도 안전하게 사회문제를 푸는 케이스를 많이 만드는 게 필요하겠다는 생각이 들었다. 이 기술을 해외에 있는 그룹들과도 이야기하며 영국 싱크탱크 그룹에도 소개했다. 초거대 AI의 문제들에 대해서는 아는데, 이런 (긍정적) 사례는 본 적이 없다고 한다. 사회문제 해결에도 도움이 될 수 있다. 선진국일수록 고령화 현상이 뚜렷한데, AI가 이런 부분의 솔루션도 될 수 있다는 생각을 하게 됐다."
-초거대 언어모델 기술 적용이 본격화되면 포털서비스는 어떻게 변화할까.
"검색팀에서 큐:를 준비 중이라 자세히 말하기 어렵다. 뭘 주목해야 하냐면 마이크로소프트 '빙(bing)서치'에 챗GPT가 탑재된 빙챗GPT가 있는데 4월달에 방문자 수가 줄었다. 검색과 글 쓰는 AI를 잘 붙이는 게 쉽지 않다. 마이크로소프트도 오픈AI도 탐색하는 단계다. 구글도 검색과 인공지능 바드를 별도로 분리했다. 검색과 글을 잘 쓰는 AI를 어떻게 연결시킬지 모든 회사가 고민하고 답을 찾고 있는 단계다. 네이버도 마찬가지다. 해외 사용자들이 쓰는 패턴과 국내 사용자가 기대하는 결과와 패턴이 또 다를 텐데, 이런 고민을 많이 하고 있다. 출시되는 시점에 어느 정도 형상들을 보여드릴 거고, 그 형상은 당분간은 자주 바뀌게 될 것 같다. 검색도 지금 검색의 모양은 갖추는 데 10년 이상 걸렸다. 그러나 그것보다는 짧게 걸릴 거다."
-언론사들이 네이버가 동의 없이 뉴스 데이터로 인공지능 개발에 활용할 수 있는 약관 개정을 해 반발했다. 언론사 저작물이 초거대 AI 개발에 유용한가.
"데이터는 다다익선이다. 기사가 양질의 데이터인 건 맞다. 양질의 한국어 데이터가 많지 않다 보니 그런 것 같다. 이 기사가 얼마나 기여하는지 정량적으로 평가하기 어렵다. 측정이 아예 안 된다. 그래서 모여서 논의해야 하는 거다. 항상 그렇다. 정확하게 객관적으로 가치 평가하는 건 정말 어렵다. 그래서 사회적 담론이 필요하다고 말하는 거다."
"AI를 글로벌스탠다드에 따라 쓰면 되는 거 아니냐고 말하는데 언 발에 오줌 누기다. 우리는 앱 생태계에서 당해봤다. 교수님들은 다른 걸로도 당해봤다. 구글 드라이브 서비스를 공짜로 뿌린 다음에 가격 정책을 (유료로) 바꿨다. 그때 데이터 빼느라 얼마나 힘들었나. 회사는 자선단체가 아니다. 긴 호흡으로 봤을 때 국가 경쟁력을 강화하는 방법이다. 네이버만을 위한 것도 아니고 국내기업을 바라보는 관점에서 판단해야 한다. 네이버·카카오, 다른 기업도 마찬가지인데, 독립전쟁하는 수준이다. 기업과 학계 등이 협업해서 잘 싸울 수 있게 응원하는 게 필요하다."
-공개 발언 기회가 있을 때마다 '글로벌 사업자에 맞선 국내기업 AI'의 중요성을 강조했다. 해외기업이 주도하는 게 문제이기만 할까.
"구글 안드로이드나 애플 IOS 운영체제로 전 세계가 양분돼있다. 많은 앱이 이 플랫폼 위에서 놀고 있다. 그런데 수수료를 올려도 막을 방법이 없다. 30% 수수료 올렸을 때 이를 막는 법안을 만들었다. 그런데 잘못하면 FTA 등에 걸려서 큰일 난다. (해외 기업이 독점하면) 모든 피해는 고스란히 사용자에게 돌아온다. 초거대 AI는 기본적으로 대화형 인터페이스를 잘 제공한다. 지금 사용자들이 스마트폰으로 직접 앱을 실행하지만 플러그인이라는 대화형 초거대 AI와 앱을 연결할 수 있기 때문에 대화만 해도 앱을 실행시킬 수 있게 된다. 자비스를 생각하면 된다. 암시적으로 이야기해도 앱을 실행할 수 있다. 예를 들면 '다음 주가 와이프 생일인데, 뭐하지?'라고 말하면 검색하고 쇼핑도 하고, 예약도 다 하는 날이 오는 거다. 그러면 사실상 대화와 앱을 실행시킨 앱 로그, 앱에 있는 핵심 정보 데이터가 글로벌 테크 기업으로 흘러가게 된다. 거기 클라우드에 다 쌓이는 거다. AI는 데이터의 싸움으로 이어지는 건데, 그 다음부터는 수습 불가다."
"문제는 영어 데이터를 학습한 양이 많다는 점이다. 어떤 걸 물었을 때 한국어로 쓰여 있지만, 기저에 깔린 건 서구 가치관이 되는 거다. 그걸 그대로 보고 정보를 접하는 미래 세대들은 자연스럽게 이 가치관에 노출될 거다. 겉은 한국어지만 완전 서구 가치관에 녹아들 가능성이 높다. 거기에 초거대 AI가 대화를 잘한다고 말한다. 정보를 줄 수도 있고, 광고를 줄 수도 있다. 그걸 컨트롤하고 조절하는 건 기업이 하는 일이다. 미국 본토 시장은 정보 많이 주고, 한국에는 광고만 덕지덕지 발라도 컨트롤 할 수 있는 방법이 없다. 한번 체계가 고착화되고 나면 기술뿐 아니라 데이터 장벽이 생기고 저쪽에만 데이터가 다 쌓인다. 우리는 광고만 보고 살아야 할 수도 있다. 과거에 구글이 했던 여러 상황을 보면 그럴 가능성을 배제할 수 없다."
"글로벌 사업자에 맞서는 국내기업 AI를 만드는 게 중요하다고 말하는 이유가 AI 주권 때문이다. 이렇게 말해도 배척은 불가능하다. 적어도 어느 정도 경쟁력이 있는 국내 AI 플랫폼 생태계가 있고 경쟁이라도 해야 글로벌 기업들도 퀄리티를 신경은 써줄 거다. 없으면 신경을 안 써줄 거다. 구글이 이런저런 이유를 말하지만, 바드(구글의 인공지능 챗봇) 서비스의 제1외국어를 한국어로 도입해 실험 중이다. 한국에 네이버가 있으니까, 의식을 해서 들어오는 거다. 그런 게 없었다? 시장이 훨씬 큰 쪽을 제1외국어로 잡았어야 했다. 경쟁이 되어야 한다. 정부의 힘, 기업들 함께 같이 붙어 제대로 해야 그나마 해볼 만한 경쟁 체제가 유지가 된다. 그래서 더 강조하는 거다. 그렇게 강조를 해도 경쟁체제인 거고, 이렇게 강조 안 하면 종속되는 거다."
-인공지능 윤리 문제도 대두되고 있다. 네이버는 인공지능 윤리 측면에선 어떤 노력을 기울이고 있는가.
"2021년 이루다 사태가 터졌다. 그쯤에 AI 윤리 준칙을 발표했다. 초거대 AI 하이퍼클로바를 만들면서 윤리 이슈가 가장 대두될 거라고 생각했다. 그래서 제일 먼저 만든 게 윤리팀이다. 챗GPT에 필터가 엄청 많이 걸려있다. 가드레일이라고 표현한다. 근본적인 방법을 찾기 위해 관련 연구팀도 만들었다. 그 팀에서 계속하는 일이 사회적 편향성이나 민감 이슈에 대해 덜 문제가 되도록 발화하는 거다. 관련 데이터도 공개했다. 국내 스타트업, 연구그룹들에 만드는 방법 자체를 공개했다. 어떻게 사회적 민감 이슈와 편향성을 정의하고 편향성과 관련된 그룹들을 어떻게 정의하는지 굉장히 자세하게 적어놔서, 지금 학회 베스트페이퍼 노미네이트까지 올라가 있다. 그 데이터를 만드려면 내부적으로만 할 수는 없다. 잘 만들어도 객관성 문제가 생겨서 국내 AI 정책이니셔티브 '사피'(법대, 사회과학, 인문학 교수 및 카이스트 교수로 이뤄진 단체)에서 AI 윤리 포럼을 만들었다. 매월 미팅하면서 착한 AI를 만들 수 있는지 데이터셋을 한다. 훨씬 덜 편향된 형태로 이야기 한다. 계속 만들고 있다. AI 윤리 준칙은 철학에 가깝고 실행 원칙도 있다. 회사 내에서는 AI 기획 개발 단계부터 체크리스트 만들어서 점검하고 있다. 이 과정이 2~3년이 넘었다고 보면 된다. 안전한 초거대 AI를 만들기 위한 노력과 결과물을 서비스로 제공한다."
-인공지능 학습 데이터에 대한 적정한 대가 지불도 국제적인 쟁점 중 하나인 것 같다.
"난리다. 시간이 좀 걸릴 것 같다. 생성형 AI가 나오기 전에는 AI에 저작권 데이터를 학습하는 거 자체가 저작권 가진 사람한테 무조건 이득이었다. 예를 들면 검색 엔진이 똑똑해지면 내 책이 더 정확하게 노출된다. 하지만 생성AI는 책을 학습해도 어떤 책을 학습했다고 노출하지 않기에 저작권 가진 사람들이 문제를 제기하고 있다. 생성 AI가 뜨거워지기 시작한 건 일 년이 안 됐다. 1년 동안 사회적 합의가 굉장히 중요한 이 이슈의 결론이 도출될 리 없다. 해외도 그렇게 국내도 그렇고 이제 서야 사회적 담론과 논의를 통해 풀어가야 하는 걸 보고 있다. 네가 옳다, 내가 옳다 굉장히 성급하게 정리해선 안 된다. 계속 만나서 어느 수준이 적합한지 논의해야 하는 상황이라고 보고 있다."
-초거대 AI 혁신에 기대하는 시선도 있는 반면 악영향이 있을까 우려하는 시선도 있다."어떤 기술이든 늘 그래왔던 것 같다. 명과 암이 됐다. 핵무기가 세상을 절단할 것 같았지만, 원자력 발전으로 에너지 문제를 해결하고 있다.
AI가 핵무기에 준하다고 하는데, 전형적인 기우라고 본다. 전혀 문제가 없다는 말이 아니다. 구체적인 위험성에 대한 대책을 세우는 건 필요하다. 규제 자체가 목적이 되면 안 된다.
AI는 시대의 흐름이다. 뒤처지면 우리만 경쟁력이 떨어진다. 중국도 개발할 거다. 초거대
AI는 우리나라가 2~3등일 때인데, 지금 선비처럼 고고하게 굴면 구한말처럼 되는 거다. 다만 악용 사례는 방지해야 한다. 초거대
AI를 무기에 사용할 때 어떻게 해야 하는가 등 훨씬 더 구체적인 항목들에 대해 논의해야 한다.
AI는 인류의 위협을 초래하는가 논의는 의미 없다. 자동차도 마찬가지 아닌가. 사고 나면 죽는다. 현실적이고 실제적으로 안전하게 쓰는 논의가 필요하다.
AI가 사회적으로도 비즈니스적으로도 훨씬 더 많은 가치를 제공할 수 있는데 그런 걸 안 드러내고, 마냥 위험할 거라고 말하는 논의는 의미가 없다고 생각한다."