책 쓰는 프로그래머 박찬성이 IT 트렌드를 알려줍니다. 어렵게만 느껴졌던 IT 이슈를 쉽게 풀어주는 본 칼럼은 매달 연재됩니다. |
2016년 이세돌과 알파고 간 세기의 바둑 대결이 펼쳐진 이래로, 수많은 사람들이 인공지능의 가능성에 주목을 해 왔습니다. 그리고 지난 6년간 수많은 인공지능 연구가 탄생했고, 다양한 분야에서 기존에 최고로 여겨지던 여러 해결책을 뛰어넘는 결과를 이끌어내고 있습니다. 간단하게는 단순히 이미지를 분류하는 작업부터, 언어를 이해하고, 글을 쓰고, 그림을 그려내고, 작곡을 하며, 사람을 대신해 코드를 작성하는 등의 믿기 어려운 수준의 성과를 단기간에 이룩해 내고 있는 요즘입니다.
이런 연구적 성취가 연일 보도되고 있지만, 그에 반해 실제 인공지능을 비즈니스에 도입해 성공한 사례는 매우 적으며, 인공지능 기술을 세상에 내 놨을 때 마주할 수 밖에 없는 위험성과 책임 의식을 먼저 생각하지 않은 경우가 많습니다.
이번 칼럼은 인공지능 서비스를 지탱하는 AIOps 기술을 소개하는 세 편의 시리즈 중 첫 번째로, 사람들이 인공지능 기술이 포함된 서비스와 상호 작용할 때 겪을 문제와 그 문제를 고민할 때 자동으로 따라와야만 하는 책임 의식을 다룹니다.
인공지능을 사용에 따른 책임
현 시점에서 누군가 인공지능에 대한 이야기를 한다면, 그 이야기 속에는 거의 항상 데이터가 연관되어 있습니다. 즉 과거 기록을 토대로 최적의 의사 결정을 내릴 수 있는 “모델"을 학습시킨 결과물이 바로 인공지능인 것이죠. 인공지능이 해내는 수많은 놀라운 일을 여과 없이 받아들이면, 모든 것이 마법처럼 일어난다고 느낄지도 모릅니다. 하지만 결국 그 중심에는 바로 “데이터”가 있습니다. 따라서 인공지능의 시대에서 데이터는 매우 중요합니다.
예를 들어 2000년대 데이터로 학습된 모델이 2100년대 데이터에 제대로 대응할 수 있을까요? 운이 좋아 트렌드가 바뀌지 않는다면 가능할 수도 있겠지만, 점점 더 변화가 가속되는 이 세상에서는 현실적으로 불가능하다고 보는 게 옳을 것입니다. 우리가 매일 사용하는 언어라면 더 그러하겠죠. 신조어는 주기적으로 계속 생겨나며, 세대별로 사용하는 언어와 표현이 다르고, 기존의 의미도 미래에 재정의 되거나 완전히 사라지는 것도 충분히 일어날 수 있는 일입니다.
이런 현상은 곧 데이터의 자연적인 “특성”을 말해주기도 합니다. 즉 우리가 원하든, 원치 않든 데이터는 시대의 흐름 속에서 변할 수밖에 없는 것이죠. 즉 데이터로 학습되는 모델은 “항상” 변화할 데이터에 발맞춰 함께 변화될 준비가 되어 있어야 한다는 말입니다. 가령 오늘 대화에서 사용한 어떤 단어가 미래에는 혐오적인 의미로 바뀔 수 있으며, 현재까지 무난했던 콘텐츠가 어느 날 선정적인 내용으로 인식될 수도 있을 것입니다. 심지어 악의적으로 인공지능이 학습한 데이터의 특성을 파악하고, 인공지능을 오작동 하도록 만드는 잘못된 데이터를 주입하는 경우도 있습니다. 그렇다면 의미 변화나, 악의적인 공격에 의해 취약점이 발견될 때마다 인공지능 모델도 함께 변화해야만 할 테죠.
요점은 이러한 데이터의 자연적인 “특성” 때문에, 현재 만든 인공지능 모델은 “현시점”을 가장 잘 표현한 스냅샷에 불과하다는 것입니다. 마치 전체 동영상 길이 중 한 프레임만을 뽑아낸 것과 같습니다. 따라서 동영상의 타임라인(데이터)이 흘러감에 따라 움직인 시점을 가장 잘 표현할 수 있는 모델을 또다시 만드는 과정이 필요합니다. 즉 일단 인공지능을 도입한 서비스를 만들고 나면, 그 인공지능 모델이 항상 “건강한” 상태를 유지하도록 관리해야만 하는 책임이 반드시 뒤따르며, 그 서비스를 그대로 내버려 둔 채 “지금처럼만 잘 작동해라” 라는 말은 곧 책임을 회피하는 것과도 같다고 볼 수 있습니다.
인공지능 서비스가 어려운 이유
다음에 연재될 두 번째 칼럼에서는 인공지능 서비스를 지탱하는 AIOps 기술이 어떤 문제를 풀어내는지 알기 위해서, 성공적인 인공지능 서비스가 어려운 근본적인 이유를 기술적 관점에서 바라봅니다. 데이터가 변하는 자연적 현상은 사람에게는 매우 당연한 것이며, 우리는 보통 이런 변화를 불편하거나 어렵게 생각하지 않으며 살아왔습니다. 하지만 인공지능에게는 매우 불편하고, 다루기 어려운 현상입니다. 무엇이 이를 그토록이나 어렵게 만드는 것일까요? 그 이유를 두 번째 칼럼에서 확인해 보세요.
추천 도서
조시 패터슨, 마이클 카체넬렌보겐, 오스틴 해리스 저 / 김소형 역 | 한빛미디어(2022)
쿠브플로에 대한 전반적인 설명을 다루며, 제목에 나와있듯이 쿠브플로를 활용한 개발보다는 "운영"에 중점을 두고 있습니다. 국내에는 쿠브플로 관련 서적이 거의 없기 때문에, 쿠브플로를 도입하고자 하는 분께는 한 줄기 빛과도 같은 책이 될 것 같습니다.
당장 쿠브플로 도입을 고민하지 않더라도, 인공지능 서비스를 "운영"하는 입장에서의 내용이기 때문에 머신러닝 서비스에 대한 전체적인 큰 그림을 이해하는 데도 꽤 좋습니다.
제임스 댄스모어 저 / 정현아, 조이정 역 | 위키북스(2022)
머신러닝에서 매우 중요한 두 분야는 아마도 데이터 처리와 모델링/모델 학습 방법에 대한 내용일 것입니다. 하지만 “인공지능"이라는 말 속에서, 대중들이 데이터를 처리의 중요성을 파악하기란 쉽지 않아 보이기 때문에 그 중요성을 잘 모르는 경우가 많습니다. 하지만 실제 인공지능 모델을 만들기 위해서는 데이터를 가공하고, 가공하는 처리 공정에 수많은 노력이 필요합니다. 이 책은 데이터 파이프라인 구축의 중요성과, 구체적인 방법을 자세히 설명해 주고 있습니다.
추천기사
‘대한민국 No.1 문화웹진’ 예스24 채널예스
박찬성(프로그래머)