[IT 특집] 머신러닝의 충격

사람이 아닌 컴퓨터의 판단에 기반하는 디지털 서비스의 확산은 IT 업계 판세와 사용자들에게 어떤 변화를 몰고 올까? 당분간은 아주 흥미로운 관전 포인트가 될 것 같다.

글: 황치규(지디넷코리아 기자)

2015.08.03

작게

크게

인공지능의 한 갈래인 머신러닝(Machine Learning: 기계학습)이 IT 헤게모니를 틀어쥐려는 거물급 업체들 간 격전지로 부상했다. 이를 보여주듯 관련 투자와 인수합병(M&A) 그리고 전략적 제휴 소식이 줄을 잇는다. 머신러닝을 활용한 새로운 서비스들도 속속 등장하기 시작했다. 사용자 입장에선 과거와는 다른 디지털 경험을 할 수 있는 새로운 환경을 맞이하게 된 셈이다.

머신러닝은 컴퓨터가 데이터를 통해 학습하고 사람처럼 어떤 대상 혹은 상황을 이해할 수 있게 하는 기술이다. 데이터 양이 급증하고 그걸 처리할 수 있는 하드웨어 기술이 저렴해지면서 머신러닝도 대중화를 향해 치닫는 양상이다. 머신러닝 기술이 발전할수록 사람의 뇌가 할 일을 컴퓨터가 대신하는 것도 늘어나게 마련이다. 신기하고 뜬구름 잡는 이야기같지만 머신러닝은 이미 사람들의 일상 생활 깊숙이 파고들었다.

머신러닝1(0).JPG

머신러닝 기술이 적용된 사례(시계방향).

넷플릭스 영화추천, 마이크로소프트 음성비서 코타나, 아마존 홈 IoT 디바이스 에코, 구글 셀프드라브카

사례는 이미 넘쳐난다.

구글은 2012년 컴퓨터가 유튜브에서 스스로 고양이 이미지을 찾아내도로 하는 프로젝트를 공개해 눈길을 끌었다. 구글 슈퍼컴퓨터는 유튜브에서 공유된 많은 이미지가 유사한 캐릭터를 가지고 있다는 사실을 알았고 그것을 고양이라고 인식했다. 고양이라고 할만한 어떤 표시도 없던 상황에서 고양이라고 알아 맞춘 것이다. 머신러닝의 힘이다. 구글 검색의 기본 원칙인 페이지랭크도 텍스트마이닝이라는 일종의 머신러닝 기술에 기반한다. 머신러닝은 구글 개인 비서 서비스인 구글나우 및 유튜브에서 영상을 추천하는 알고리즘에도 쓰인다. 요즘은 구글은 검색이 아니라 머신러닝 기업이라는 얘기가 나올 정도다.

머신러닝2.jpeg

구글 슈퍼컴퓨터가 인식한 고양이 이미지

세계 최대 소셜 네트워크 서비스(SNS)인 페이스북도 머신러닝 기술을 다양한 분야에 적용하고 있다. 얼굴 인식이 대표적이다. 페이스북은 ‘팬더’라고 불리는 프로젝트를 통해 사진에서 정확하게 성별, 헤어스타일, 옷 스타일, 얼굴 표정을 식별하는 방법도 연구하고 있다. 세계 최대 비디오 스트리밍 업체 넷플릭스는 사용자 구매이력을 바탕으로 영화를 추천해 주는 서비스에 머신러닝을 적용하고 있다.

구글이 5월 개최한 I/O 개발자 컨퍼런스에서 선보인 구글포토도 머신러닝의 진수를 보여주는 서비스다. 구글포토는 고화질 이미지와 동영상을 무제한으로, 그것도 무료로 저장할 수 있는 클라우드 기반 서비스다. 가장 큰 특징은 머신러닝 기술을 활용해 콘텐츠를 자동으로 분류해준다는 것.

구글포토는 촬영자가 특별히 태그를 입력하지 않아도 사진에 찍힌 피사체의 내용과 장소, 일시 등을 추출해 자동으로 분류한다. 분류는 꽤 체계적이다. 예를 들어, A란 사람의 사진이나 동영상만 따로 분류하거나, 야구장에서 촬영된 사진이나 동영상만 따로 모아준다. 검색도 가능하다. 구글포토에서 사진을 관리하는데 있어 사람의 기억은 필요가 없다. 머신러닝 시대, 달라진 풍경이다.

전자상거래 거인 아마존도 최근 자사 서비스의 핵심이라고 할 수 있는 고객 리뷰 시스템을 머신러닝 기반으로 개편하기로 했다. 새 시스템은 자체적으로 개발한 머신러닝 시스템을 활용해 새롭거나 유용한 리뷰를 집중적으로 보여주는 것이다. 새 시스템의 등장으로 돈받고 올리는 가짜 리뷰가 들어설 자리도 줄어들 것으로 보인다.

머신러닝 기술은 점점 발전하고 있고, 응용 분야도 다양해지고 있다. 최근 공개된 실험적인 프로젝트들만 봐도 IT업계에서 머신러닝의 역할이 더욱 커질 것임을 쉽게 예상할 수 있다.

페이스북은 최근 머신러닝 기술을 활용해 얼굴이 흐릿해도 사진 속의 사람을 인식할 수 있는 기술을 개발했다. 얼굴이 분명하게 나와 있지 않아도 신체 모양, 자세 등을 보고 사진에서 사람을 인식할 수 있다고 한다. 인식의 정확도는 83%에 달하는 것으로 전해졌다. 이 기술은 향후 페이스북이 선보일 사진 서비스는 물론이고 광고주들에게도 유용하게 쓰일 전망이다.

구글은 얼마 전 머신러닝 알고리즘을 역이용해 만들어낸 컴퓨터 합성 이미지도 공개했다. 시스템이 이미 학습한 수많은 이미지 정보를 갖고 새로운 이미지을 합성하도록 한 것이다. 이미지가 뭔지 맞추는걸 넘어, 창조하는 단계에 이르렀다고 할 수 있다.

머신러닝3.JPG

구글이 최근 발표한 머신러닝 기반 구글포토 서비스

사람들의 활동으로 발생하는 디지털 데이터는 빠르게 늘고 있다. 머신러닝이 할 수 있는 일도 그만큼 늘고 있다는 얘기다. 컴퓨터가 사람의 뇌처럼 판단한다는 건 신기하면서도 으스스하게 다가오는 것이 사실이다. 사람의 판단을 컴퓨터가 대신한다는 것은 인간의 존엄성과도 무관치 않은 이슈다. 머신러닝 확산에 따른 사생활 침해 우려도 커졌다.

그럼에도 기술의 진화는 피할 수 없어 보인다. 구글, 애플, 아마존 등 이름만으로 반은 먹고 들어가는 IT회사들이 머신러닝을 전진 배치했고, 사용자들은 점점 머신러닝에 익숙해져 가고 있다. 사람이 아닌 컴퓨터의 판단에 기반하는 디지털 서비스의 확산은 IT 업계 판세와 사용자들에게 어떤 변화를 몰고 올까? 당분간은 아주 흥미로운 관전 포인트가 될 것 같다.

* 관련 도서

R을 이용한 데이터 처리&분석 실무

서민구 저 | 길벗

대부분의 데이터 분석 또는 모델링에서 데이터를 처리하는 과정에 많은 시간과 노력이 소요되며 간단한 프로그래밍 문제에 부딪쳐 진도가 나가지 않는 경우가 종종 있음을 생각해보면 프로그래밍에 중심을 둔 접근 방법이 반드시 필요하다. 또 프로그래밍 측면에서 코드를 다루므로 코드의 수행시간을 중요하게 다룬다. 따라서 더 빠르고 효율적인 분석 방법을 배울 수 있다.

코딩 더 매트릭스

Philip N. Klein 원저/필립 클라인 저/마이클 역 | 루비페이퍼

이 책은 소프트웨어 개발에 자주 사용되는 선형대수의 수학적 개념과 이론적 배경, 활용 기법을 전반적으로 소개하고, 이 개념들이 실제 프로그래밍에 어떻게 적용될 수 있는지 예제와 Lab 과제를 통해 보여 준다. 각 장에서 다루는 내용은 학부 선형대수 과목을 수강한 경험이 있는 사람이라면 이해하는 데 큰 어려움이 없을 것이다. Lab 과제는 파이썬을 사용하여 수행하며 파이썬을 잘 모르더라도 따라 하는데 어렵지 않을 만큼 샘플 코드와 충분한 설명이 주어진다.

데이터 마이닝 Data Mining

이안 위튼,아이베 프랭크,마크 홀 공저/이승현 역 | 에이콘출판사

기계 학습에 관한 매우 광범위한 내용들을 난이도와 개념별로 명확하게 구분하여 설명하며, 데이터 마이닝의 기본 개념, 기본적인 알고리즘, 그리고 기계 학습에 관련된 고급 개념을 다룬다. 또한 저자가 공동 개발한 기계 학습 툴로 수많은 데이터 마이닝 툴 중에서도 단연 으뜸으로 널리 사용되는 오픈소스 툴인 웨카(WEKA)에 대한 상세한 기능 설명과 실질적인 사용법을 알려준다.

Building Machine Learning Systems with Python 한국어판

윌리 리커트,루이스 페드로 코엘류 공저/전철욱 역 | 에이콘출판사

파이썬을 활용해 대표적인 Scikit-learn 오픈소스 라이브러리로 실제 기계 학습 시스템을 구현하는 방법을 보여주는 책이다. 일반적인 CSV 데이터가 아닌 독자들이 실제로 해 보고 싶었던 문제인 위키피디아의 주제별 분류, 트위터의 감성 분류, 영화 추천, 사진의 범주적 분류, MP3의 음악 장르 분류 등을 기계 학습을 통해 구현하며 각 기법을 평가한다. 또한, 빅 데이터 시대에 맞춰 대량의 데이터를 빠르게 처리하는 기계 학습환경을 구축해 본다. 파이썬과 NumPy, SciPy, scikit-learn 등 다양한 라이브러리를 사용하여 파이썬의 생태계를 이해할 수 있으며 파이썬 언어를 좀더 깊이 이해할 수 있다.

Storm 실시간 빅데이터 분석 플랫폼

퀸튼 앤더슨 저/조효성 역 | 에이콘출판사

아파치 스톰(Apache Storm)은 분산 환경에서 사용할 수 있는 실시간 빅데이터 분석 플랫폼이다. 분산 환경에서 카산드라(Cassandra), 카프카(Kafka) 등과 같은 다양한 데이터베이스와 연동할 수 있는 기능과 다양한 프로그램 언어로 실시간 데이터 분석 알고리즘을 적용할 수 있어 다양한 프로그램 개발자에게 빅데이터 분석의 장에 참여할 수 있도록 유도하고 있다. 아울러 스택오버플로우(stackoverflow), 소스포지(source forge), 깃허브(github), 그리고 아파치 스톰 커뮤니티를 통해 실질적인 빅데이터 분석 개발에서 마주할 수 있는 문제를 해결할 때 강력한 문제 해결 능력을 제공하고 있어 스톰을 배울 절호의 기회가 될 것이다.

R을 활용한 기계 학습

브레트 란츠 저/전철욱 역 | 에이콘출판사 | 원서 : Machine Learning with R

이 책은 R이 제공하는 다양한 확률, 통계 기법을 모두 사용할 수 있을 뿐만 아니라 사용법도 쉽기 때문에 누구나 데이터를 분석하고 예측할 수 있게 한다. 손쉬운 CRAN을 통해 라이브러리를 설치는 다양한 라이브러리가 필요한 기계 학습에 매우 적합하다. 저자는 다양하고 흥미로운 실제 연구 데이터로 예제를 만들어 화려한 기법 소개보다 정확한 개념과 과정을 설명함으로써 어려운 개념을 쉽게 이해할 수 있게 한다.

해커 스타일로 배우는 기계학습

드류 콘웨이,존 마일즈 화이트 공저/김진홍 역 | 인사이트(insight)

프로그래밍 경력이 있고 데이터 처리에 관심이 있다면, 이 책으로 기계학습을 배워보도록 하자.『해커 스타일로 배우는 기계학습』에는 기계학습의 12개 기법을 대한 훌륭한 사례들이 담겨 있다. 이론을 설명하는 대신 과정에 초점을 맞췄기 때문에, 프로그래밍을 조금 할 줄 알고 정량적으로 사고할 줄 아는 사람이면 누구나 이해하기 쉽다. 각 장은 분류, 예측, 최적화, 추천 문제와 같이 기계학습의 특정 문제들에 초점을 맞춘다. 독자들은 R 프로그래밍 언어를 사용해서 샘플 데이터를 분석하는 법과 간단한 기계학습 알고리즘을 작성하는 법을 배우게 될 것이다.

머신러닝 인 액션

피터 해링턴 저/김영진 역 | 제이펍 | 원서 : Machine Learning IN ACTION

개발자를 위한 지침서. 기계 학습 소개, 다양한 예제로 기계 학습 실습하기, 매일 발생되는 데이터 분석하기, 어프라이어리와 에이다부스트 같은 전형적인 알고리즘 수행하기 등을 다룬다. 통계자료 처리, 데이터 분석, 데이터 시각화 등을 독자들의 업무에 바로 적용할 수 있도록 알고리즘 주요 부분을 재사용 가능한 코드로 사용하였다. 독특하고 다양한 파이썬 예제를 통해 기계학습이나 통계처리에 대한 사전 지식이 없는 독자도 분류, 예측, 추천 그리고 고차원 속성을 요약하고 간소화하는 개념과 방법을 이해하도록 안내한다.

데이터 과학자, 무엇을 배울 것인가

사토 히로유키 등저/정인식 역 | 제이펍

데이터 과학자는 말 그대로 통계학과 전산학을 이용하여 데이터를 분석해서 알고 싶은 정보를 밝혀내는 일을 하는 사람이다. 이 책은 R 언어를 이용한 데이터 파악, 시각화, 그리고 실제 마케팅 분석 사례를 통해 데이터 과학자의 업무를 소개하고 있다. 또한, 데이터 분석을 위한 Python(파이썬)의 기계 학습과 데이터 마이닝 및 여러 알고리즘에 대해서도 다루고 있다.

만들면서 배우는 기계 학습

오다카 토모히로 저/김성재 역 | 한빛미디어

빅데이터 기술은 기계 학습, 자연어 처리, 통계학, 분산 병렬 컴퓨팅 등의 기술이 결합된 시스템을 말한다. 이 책에서는 C 언어 예제를 통해 직접 실험하면서 데이터를 처리하는 기계 학습 원리를 학습할 수 있게 되어 있다. 기계 학습은 이론에 치우쳐 이해하기 어렵다는 단점이 있는데 간단한 코드와 실습을 통해 기초 원리를 쉽게 학습하게 구성되어 있다.

머하웃 완벽 가이드

션 오웬,로빈 애닐,테드 더닝,엘렌 프리드만 공저/안태성 역 | 한빛미디어

머하웃은 대용량 데이터를 처리하는 확장성을 가진 아파치 기계학습용 오픈소스 라이브러리다. 이 책은 머하웃을 사용해서 실질 문제를 해결하는 실전 가이드로 머하웃의 추천엔진, 군집, 분류 기능을 탐험한다. 머하웃의 창시자와 핵심 커미터가 쓴 이 책은 머하웃의 핵심 개념인 추천엔진, 군집, 분류를 알기 쉽게 설명하고 프레임워크에 데이터 분석 기법을 활용하는 방법도 비중 있게 다룬다. 위키피디아 데이터 셋 등을 활용한 실전 테스트도 제시한다. 이 책은 빅데이터에서 효율적이고 빠르게 가치를 뽑아내려는 개발자에게 좋은 안내서가 될 것이다

- [가정의 달 특집] 글쓰기 싫어하는 아이를 위한 처방전

‘대한민국 No.1 문화웹진’ 예스24 채널예스

태그

#황치규 기자 #IT #머신러닝

2개의 댓글

아하하

2015.08.12

도서 내용은 좀 어려워 보이는데..기사 내용 자체는 저같은 일반인도 쉽게 읽을 수 있고, 흥미롭네요. 기자님 기사 종종 찾아볼 듯요!

답글

w3history

2015.08.05

데이터를 통한 분석은 혜안이나 통찰이 뛰어난 사람들만이 어림짐작하던 일들을 누구나 측정가능한 방법으로 확인할 수 있게 된다는 점에서 매력적이라 생각합니다. 국내에서는 경영전략에 사용되는 것 말고는 그 활용사례를 떠올리기가 어려운데... 일단 생각나는건 아파치 머하웃 등으로 구현한 쇼핑몰의 추천 시스템 정도입니다.

답글

홈

읽다

칼럼

기사 상세