너의 목소리가 보여, 음성인식 기술

  • 기사입력 2019.12.13 11:04
  • 기자명 모터매거진

말 한마디로 천 냥 빚 갚는다고? 이제는 말 한마디로 천하를 거머쥘지도 몰라.

글 | 김상혁

전격 Z 작전의 키트나 아이언 맨의 자비스는 우리에게 꿈같은 첨단 비서였다. 아주 자연스럽게 우리의 말을 알아듣고 이해하며 요구하는 바를 수행한다. 심지어 내려진 명령에 의견을 더해 완벽한 결과를 만들어낸다. 공상과학이라 여겼던 이 음성인식 비서들은 현재 우리 삶 곳곳에 스며들어 임무를 수행하고 있다.

음성인식 기술은 1950년대부터 꾸준히 연구 및 개발되어왔다. 그러나 오랜 연구가 진행됐음에도 뚜렷한 결과를 만들어내지 못했다. 말의 속도나 발음 차이, 음역대 등 넘어야 할 산이 많았다.

재미있는 일화로 과거 어느 기업에서 음성인식 기반 가전제품을 만들어 기업 회장이 직접 시연에 나섰는데 사투리를 알아듣지 못해 처음부터 다시 만들어야 했다는 일화가 있다.

사람마다 억양이나 톤, 발음이 제각각이기 때문에 모든 영역에서 자연어를 인식하고 디지털화해야 한다. 이 과정에서 마이크를 통해 입력된 음성은 노이즈를 제거하고 음절이나 단어, 톤, 억양 등을 분석해 문장으로 만든다.

그렇게 만들어진 문장은 다시 스피커를 통해 음성으로 전달되는 것이다. 물론 이 과정은 그 안에서 수없이 많은 데이터를 추출 및 분석하고 다양한 영역의 정보를 가지고 온다. 아마도 방금 열거한 단 4줄만으로도 셀 수 없이 많은 논문과 자료가 쏟아져 나올 테다.

일련의 과정 중에서 우리가 흔히 알고 기초적인 부분을 한번 살펴보자. TTS(TEXT TO SPEECH), 문자를 음성으로 만들어주는 기술이다. 스마트 폰이나 내비게이션, 인공지능 스피커 등에서 사람 목소리를 들을 수 있는 것도 이 기술 덕분이다.

간혹 인터넷 사이트나 유튜브 등에서 TTS를 활용해 그날그날의 뉴스 소식을 듣곤 한다. 차 안이나 이동 중 텍스트를 모두 읽어나갈 수 없는 상황에서 꽤 유용하게 사용되는 기술이기도 하다.

TTS가 문자를 음성으로 만들어준다면 STT(SPEECH TO TEXT)는 음성을 문자로 만들어주는 기술이다. TTS는 디지털화한 문자를 음성으로 변환하기 때문에 STT보다 정확하고 빠르게 발전해왔으나 STT는 더디게 발전했다.

아마존 알렉사와 손잡은 LG

음성 인식의 복잡함과 난이도 때문이다. 미디어 업계에서는 STT의 발전이 하루빨리 이뤄지길 기대하곤 했었다. 인터뷰 시 STT가 음성 인식만 매끄럽게 수행해준다면야 한결 일이 수월해지니 말이다.

개인 비서로 사람의 말을 이해하고 요구하는 것 이상 임무를 수행하는 시대에 TTS와 STT가 웬 말이냐고? 지금 당장 스마트폰을 켜보라. 구글 번역기나 파파고 번역기가 TTS, STT 기술로 당신을 달변가로 만들어 주고 있다는 사실을 깨닫게 될 것이다.

아마존 에코

TTS와 STT의 음성 인식이 정적이라는 점에서 완벽한 개인 비서가 되긴 어렵다. 사람이 음성으로 명령한 것을 이해할 수 있어야 한다. NLU(NATURAL LANGUAGE UNDERSRANDING)는 사람이 전달한 음성의 단어, 문장 등을 분석해 의미를 파악해 명령을 수행한다.

예컨대 ‘오늘 날씨 어때?’란 음성 명령을 받아들이면 ‘오늘’, ‘날씨’, ‘어때?’를 조합하고 명령자가 오늘 기상 상태를 궁금해한다고 판단, 기상 정보를 끌어오고 텍스트 혹은 문자로 명령자에게 전달하는 것이다.

보스 포터블 홈 스피커

이러한 분석과 판단, 전달을 위해선 많은 양의 정보를 수집하고 학습도 필요하다. 정규화된 문법을 비롯해 인터넷 용어, 일상 언어 패턴 등도 지속적으로 학습하고 언어학을 넘어 음향, 지역 및 문화까지 포괄적인 영역에서 정보 수집과 학습이 이뤄진다.

사람의 사고방식을 기계에 대입한 딥 러닝 기술이 발달하며 정보 처리 속도는 예상을 웃돌아 발전하고 있다.

음성 인식 기술의 대부분은 아마존, 구글, 애플 등 거대 IT 기업이 주름 잡고 있다. IT 기업에서 음성 인식 기술을 바탕으로 가상 비서를 활용하는데 접근하기 쉬운 것은 단연 스마트 폰이다.

잠을 잘 때도, 밥을 먹을 때도, 출근, 이동, 심지어 화장실을 갈 때조차 우리 손안에 있으니, 어찌 보면 개인 비서에 가장 이상적이다.

공룡 IT 기업인 구글과 애플은 각각 2016년 구글 어시스트, 2011년 애플 시리를 선보이며 가상 비서 시대에 활기를 불어넣었다. 이외에도 삼성 빅스비, SK NUGU, 카카오 i 등 우리 손안에서 임무를 수행하는 비서들은 많다.

2016년, IT 업계 조사 기관인 가트너는 2019년에 스마트폰과 스마트폰 사용자 간 약 20%는 가상 비서를 통해 정보를 주고받을 것이라 예상한 바 있다. 2019년 현재에 이르러서 우리가 사용하고 있는 빈도를 보면 20%는 겸손했던 수치가 아닐까 싶다.

날씨나 음악, 웹검색 뿐 아니라 내비게이션 이용도 잦다. 더구나 요즘은 별도의 내비게이션을 장착하기 보다 스마트폰 내비게이션 이용이 주를 이룬다. 당연히 이동 간 가상 비서 의존도가 높아질 수밖에 없다. 발걸음을 돌려 집으로 향해보자.

스마트 스피커가 우리를 맞이한다. TV를 켜는 것은 물론이고 채널도 변경한다. 에어컨과 냉장고도 주인의 명령에 절대적 충성을 보인다.

2018년까지 우리나라에 스마트 스피커는 약 300만 대 가량 판매된 것으로 예상되는데, 시장에 뛰어드는 기업이 많아지고 제품군이 다양해지면서 판매량은 더욱 증가할 테다. 주거 환경과 이동 환경에서 가상 비서는 이제 떼려야 뗄 수 없는 존재로 자리매김하고 있다는 얘기다.

이동 환경에서 빼놓을 수 없는 분야가 자동차다. 미국 워즈 오토가 2018년 발표한 자료에 따르면 자동차에서 사용되는 인공지능 중 인포테인먼트 및 음성인식이 약 32.5%를 차지한다. 자율주행과 더불어 아니, 완전 자율주행차로 넘어가는 과정에서 음성 인식 기술도 뿌리를 내리고 있다.

GM은 IBM의 왓슨을 기반으로 만들어진 온스타 고를 도입해 자동차 가상 비서화에 뛰어들었고 포드는 아마존 알렉사와 손잡으며 가상 비서를 장착했다. 또한 싱크 3를 통해 한국어도 지원하고 사용자의 애플리케이션과 연동할 수 있도록 했다.

아우디도 알렉사, 구글 어시스턴트와 호환 가능하며, BMW는 마이크로소프트 코타나, 아마존 알렉사, 알리바바 등과 힘을 모아 음성인식 가상 비서를 심었다. 볼보, 르노닛산은 구글과 손을 잡았다.

메르세데스-벤츠는 자체 음성인식 기술을 개발해 ‘MBUX’라 이름 붙여 업계를 선도해 나가고자 한다. A클래스에 MBUX를 적용하고 슈퍼볼 광고에 출연시켜 대대적으로 음성인식 가상 비서를 강조했었다. 광고가 아닌 실제 사용에서도 MBUX는 자연어를 받아들이는 수준이 상당해 전반적으로 좋은 평가를 받았다.

국내 브랜드에선 현대자동차가 최근 신형 쏘나타에 카카오 i를 적용해 좋은 평가를 받았다. G70 당시 자연스럽지 못했던 음성 인식이 한층 다듬어져 이젠 대화하듯 말을 걸어도 곧잘 이해하는 수준이다.

구글의 경우 음성 인식률을 약 98%까지 끌어올렸다고 하는데 사람도 사람의 말을 잘못 듣거나 잘못 이해는 일이 허다하다. 기계 역시 완벽하진 않다.

또한 음성 데이터 수집이 범죄에 악용되거나 사생활이 노출되는 문제점도 가지고 있다. 그러나 음성 인식이 우리에게 가져다줄 수 있는 이점을 헤아려야 한다. 삶의 윤택함과 편리함 외 의료 및 복지 분야에서 명확한 장점이 있을 테니 말이다.

이 기사를 공유합니다
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
© 2024 모터매거진. All rights reserved. ND소프트
모바일버전