AI, 단순 인식에서 상황 이해
엔터테인먼트·교육·교통 등 서비스 발전
4차산업혁명 시대가 도약하면서 핵심기술로 주목받고 있는 인공지능(AI), 사물인터넷(IoT), 자율주행, 빅데이터, 가상현실(VR)·증강현실(AR) 등은 다양한 분야에서 복합적으로 발전하고 있다. 특히 AI는 최근 6년간 발빠르게 성장해 가까운 생활에서 직접적으로 활용되면서 사람의 편의성을 돕고 있다. 데이터가 쌓이면서 AI 기술은 더욱 고도화되고 있으며 빅데이터, 자율주행 등 다른 기술과도 맞물려 여러 분야에서 시너지를 내고 있다. AI는 외부의 정보를 인식, 학습, 추론하고 행동하며 혁신적으로 발전하고 있다. 이에 본지는 의료, 보안, 포털, 자율주행, 일자리, 봉사 등 다양한 영역에서 사람을 돕고 있는 AI 서비스와 기술의 현 상황을 알아본다.

[미디어펜=이해정 기자]영상과 이미지 내 사물의 종류를 인식하는 것을 넘어서 상황까지 이해할 수 있게 된 인공지능(AI)은 다양한 산업 분야 서비스에 활용되고 있다. 

딥러닝이라는 새로운 기술을 활용하면서 AI는 인간의 개입 과정이 줄어들고 스스로 데이터를 학습할수 있게 됐다. 기계 학습 과정은 과거 수개월에서 현재 수 시간이나 몇 분 만에 처리가 가능해졌다.

LG경제연구원의 '최근 인공지능 개발 트렌드와 미래의 진화 방향' 보고서에 따르면 2012년부터 기계가 스스로 데이터를 분석해 이미지나 동영상 속의 사물을 구별해낼 수 있는 AI 기술이 발전했다. 

영상과 이미지 인식 분야는 인간 수준을 넘어선 것으로 나타났다. 이미지 내 사물 인식 정확도를 경쟁하는 ImageNet 경진대회에서 지난해 마이크로소프트는 97.85%의 정확도를 달성했다. 인간 인식률은 94.90%였다. 

업계에 따르면 네이버, 카카오, SK텔레콤, 마이크로소프트, 구글 등은 음성뿐 아니라 영상 AI를개발하면서 다양한 서비스에 적용해나가고 있다. 

   
▲ 네이버 브이라이브 화면./사진=네이버 제공


AI는 외형적 특성 뿐만 아니라 눈 코, 입 모양의 상관 관계를 분석해 표정을 인지하거나 감정을 추측할 수 있다. 또한 이미지 속 상황을 이해해 인간의 언어로 표현하기도 한다. 

마이크로소프트가 발표한 'Seeing AI'는 AI가 시각 장애인의 눈 앞의 상황을 인간의 언어로 설명해주거나 앞에 있는 사람의 성별, 나이, 표정 등 정보를 제공한다.

SK텔레콤은 지난달 27일 AI를 활용해 드라마나 영화 등에서 원하는 장면을 찾아볼 수 있는 'AI 미디어 추천 기술'을 개발, 연내 상용화한다고 밝혔다.

영상분석 기반 장면 검색 기술과 고객 취향 분석 기반 콘텐츠 개인화 추천 기술 등을 포함한다.
수천 편분량의 영상 콘텐츠와 수백만장의 이미지를 AI에 학습시켜 시청자는 원하는 장면이나 좋아하는 배우의 등장 장면만을 모아볼 수 있는 식이다.

카카오는 시각 엔진 기술을 통해 동영상에 실시간 자막을 달아주거나, 유해 영상을 걸러내는 작업 등을 하고 있다. 유사 영상을 찾아내 사용자에게 추천 서비스를 제공하기도 한다. 

시각 엔진 기술은 카카오톡치즈, 다음앱 꽃검색, 카카오톡 샵검색 롱탭이미지검색, 다음 쇼핑 하우 유사스타일 검색, 다음로드뷰 번호판·얼굴 자동 블러 처리, 이미지 검수·모니터링 등 다양한 서비스에 활용되고 있다.

   
▲ SK텔레콤 미디어기술원 연구원들이 영화나 드라마 등 미디어 콘텐츠 속 장면을 검색하는 '씬 디스커버리(Scene Discovery)' 기술을 시연하고 있다./사진=SK텔레콤 제공

카카오 관계자는 "꽃검색은 거의 세계 최초라고 봐도 되는 서비스"라며 "구글보다 빨랐다"고 말했다. 해당 서비스는 네이버에서도 최근 도입했다. 해당 서비스는 꽃을 찍으면 94%의 정확도로 꽃정보를 보여주며 현재 1000여 종의 꽃을 인식할 수 있는 기술이 적용됐다.

네이버는 네이버TV와 브이라이브에서 영상 자막을 실시간 번역하는 번역 엔진 등을 서비스하고 있다. 

KT는 영상 AI를 서비스에 도입하기 위해 준비 중이다. LG유플러스는 영상 인식 기술 종류가 많아 여러가지를 검토하고 있다는 설명이다.

이 밖에도 자율주행과 관련된 산업영역에서는 교통 표지판, 신호등을 인식하고, 차간 거리를 유지하는 등 기능이 카메라를 통해 입력되는 시각 영상에 기반한다. 

AI는 실시간 영상 변형과 합성까지도 가능케 됐다. 워싱턴대에서 발표한 'Synthesizing Obama' 논문에서는 오바마 대통령의 목소리를 갖고 입 모양을 생성해 오바마 대통령의 다른 연설 영상에 합성한다.

이같은 기술은 악용될 위험성도 지적되고 있다. 온라인 매체 버즈피드는 AI를 이용한 합성 기술 '딥페이크(deepfake)'의 위험성을 경고하고자 오바마 전 대통령의 가짜 영상을 공개한 바 있다. AP통신은 지난 2일(현지시각) 이 딥페이크 기술이 1∼2년 안에 정치판과 외교판을 뒤흔들 변수가 될 수 있다고 보도했다. 

오바마 영상을 제작한 버즈피드는 수용자가 스스로 정보 출처를 확인하고, 영상에 어색한 부분이 없는지 확인하라고 조언한다.

한편 AI의 시각 인지 지능은 교육, 쇼핑, 교통 등 모든 영역에서 발전하고 있다. 특히 4차 산업혁명의 핵심 기술인 VR(가상현실)·AR(증강현실)과 관련해 다양하게 활용될 수 있다는 전망도 나온다.
[미디어펜=이해정 기자] ▶다른기사보기