You cannot see this page without javascript.

알리바바와 40인의 도둑 이야기에 나오는 신기한 동굴의 문은 ‘열려라. 참깨’라는 말에 문이 열린다. 옛날부터 사람들은 사람 아닌 물건, 혹은 동물들이 사람 말을 알아듣는 이야기를 많이 만들어냈는데, 이것이야말로 궁극의 상상력이 아닐까 싶다. 하지만, 정작 사람은 아무 불편 없이 다른 사람 말을 듣고 이해하는 것으로 보아, 분명히 그 속에는 말을 이해하는 원리가 있을 것이고, 오늘날에는 그 원리를 이용한 음성인식 제품들이 많이 만들어지고 있다.

 

 

사람이 소리를 내는 원리

우리가 소리를 알아듣는 방법을 이해하기 위해서는, 우선 사람이 소리를 내는 방법을 알아야 한다. 우리가 소리를 내면, 공기를 매질로 한 파동이 만들어지고, 그 파동은 듣는 사람의 귀 고막을 두드리는 것으로서 음성 정보를 전달하게 된다. 그럼, 사람은 소리를 어떻게 내는 것일까? 첫 번째 단계는, 횡격막이 수축하면서 허파 속의 공기가 밖으로 나오게 된다. 이때 목에 있는 성문(聲門)을 지나게 되는데, 성문에는 성대(聲帶)라는 한 쌍의 주름이 있다.

 

우리가 ‘아~’라는 음을 발성하면서 손을 목에 대었을 때 진동을 느끼게 되는데 바로 그 부분이 성대가 떨리고 있는 부분이다. 그럼 왜 그곳에서는 진동이 발생하게 될까? 우리는 지하철 플랫폼에서 전동차가 막 지나갈 때, 플랫폼 쪽에서부터 철로 방향으로의 힘을 느끼게 되는데, 이것은 베르누이의 정리때문에 발생하는 일이다. 사람의 성문에서도 그런 현상이 발생한다. 공기가 성문을 지나게 될 때 그 부분의 압력이 낮아지고, 힘은 압력이 높은 곳에서 낮은 곳으로 향하므로 그 결과 양옆에 있는 성대들이 서로 부딪히게 된다. 성문에서 발생하는 이러한 사건들은 사람의 목소리에 어떤 영향을 주는 것일까? 바로 음의 높낮이(pitch)를 결정하게 된다. 우리가 공기를 빠르게 보내면 압력이 더 낮아지고, 성대들이 서로 부딪히는 속도는 빨라지며 음의 높이는 높아지게 된다.

 

그럼, 실제 ‘아’, ‘어’와 같은 소리의 언어적 정보는 어디에서 만들어지는가? 성대에서 입술과 콧구멍까지의 통로를 성도(聲道)라고 부르는데 바로 이 성도를 지나면서 여러 가지 음이 만들어지게 된다. 성도의 상태, 즉 입을 크게 벌렸는지 작게 벌렸는지, 혀끝이 윗잇몸에 붙었는지 아닌지와 같은 여러 가지 상태에 따라서 다양한 소리가 나오게 된다.


성도(성대에서 입술 또는 콧구멍에 이르는 통로)의 시상단면(矢狀斷面)
<출처 : wikipedia>

 

 

음성 파형으로부터 언어 정보를 추출하는 방법

‘카’라고 발성했을 때의 음성 파형

  

위에 보이는 그림은 ‘카’라고 발성했을 때의 음성 파형이다. 위 그림에서 0.13초까지 ‘ㅋ’ 음에 해당하는 음성 파형이고 그 이후부터는 ‘아’ 음에 해당한다. ‘ㅋ’과 ‘아’ 음소(音素) 파형 중 ‘아’ 파형을 관찰해보면 시간 축 상에서 커다랗게 나타나는 피크 (peak)들이 보이는 것을 알 수 있다. 바로 이 피크들의 간격을 주기라고 말하고 이 시간 차이가 성대가 떨리는 주기와 일치하게 된다. 한편 ‘ㅋ’ 파형은 그런 피크들이 보이지 않는데 성대가 떨리지 않고 난류를 일으킨 무성음이기 때문이다. 그럼 음성 인식기는 위 음성 파형으로부터 어떻게 어떤 말인지 알아낼까?
 
음성 인식기는 음성 파형이 주어지게 되면, 매 1/100 초 단위로 그 시점에 있는 약 0.02초 정도 길이의 음편(音片)을 가져와서 분석하게 된다. 그 짧은 길이의 음성 파형은 여러 단계의 신호 처리를 거치게 되고 최종적으로 10개 이상의 숫자들이 나오게 되는데, 이 숫자들은 바로 그 시점에서의 성대와 성도의 상태를 나타내는 숫자들이다. 좀 더 쉽게 설명하면, 그 시점에서의 성대 진동 횟수와 입 모양을 그릴 수 있는 숫자들이다. 한편, 음성 인식 측면에서 보면, 사람은 어떠한 음높이의 ‘학교’라는 말을 들어도 모두 ‘학교’라는 언어 정보를 추출한다. 즉, 성대의 진동 주기는 언어 정보와 무관하다. 그러므로 그 숫자 중에서 성대 진동과 관련된 숫자들은 버리고 더이상 사용하지 않는다. 위의 이야기를 비유적으로 설명하면 다음과 같이 요약할 수 있다. 성문에서부터 입까지 찍는 특수한 사진기가 있다고 가정하고 그 사진기는 초당 100회 사진을 찍게 된다. 음성 인식은, 그 사진들을 시간 축으로 나열해 놓고 어떤 말일까 계산하는 과정이다.

 

 

연속 음성 인식기의 원리

음성인식 기술은 그 기술의 난이도에 따라 ‘고립 단어 인식’과 ‘연속 음성 인식’으로 크게 나뉜다. 예를 들어 인식 대상 어휘가 ‘서울’, ‘부산’ 두 개라고 가정하자. 이때 전자는 ‘서울’과 ‘부산’ 딱 두 개 어휘만 인식하는 기술이고, 후자는 이 두 개 어휘의 모든 조합, 즉 ‘서울 서울’, ‘서울 부산 서울’과 같이 어떠한 길이의 어휘 조합도 모두 인식하는 기술이다. 당연히 후자가 더 어려운 기술이다. 그리고 사람과 같은 수준의 음성 인식기를 개발하고자 한다면, 후자의 기술이 사용되어야 한다. ‘연속 음성 인식’을 수학식으로 표현하면 아래와 같다.

 

  

 

음성 인식을 위해서는 당연히 소리를 우선 들어야 하고, T 시간까지 발성된 음성이라면 이 음성은 라고 쓰자. 다음 단계는, 어떤 말일까 예측을 해야 하는데 그 말이 몇 개의 단어로 되어 있는지 모르므로 이라고 쓰고 여기서 m은 단어의 수가 된다. 첫 번째 식의 의미는, 음성이 주어졌을 때 모든 단어 조합에 대해서 가장 확률적으로 가능성이 큰 단어 열이 바로 우리가 찾고 싶은 단어 열이고 그것이 음성인식의 결과 이라는 의미이다.


위에서 첫 번째 식은 베이즈 정리 (Bayes’ Theorem)에 의해서 두 번째 식이 되고, 는 해당 음성 자체가 입력될 확률인데 이 값은 어떤 단어 열을 선택하든 언제나 분모로 있으므로 전체 식에 영향을 주지 않아 제거할 수 있다. 마지막 식에서 을 음향 모델(acoustic model)이라고 부르고 을 언어 모델(language model)이라고 부르는데, 이 두 모델의 확률 곱이 최대가 되는 이 우리가 찾고 싶은 최종 결과이다.


그럼, 두 모델의 의미는 무엇일까? 우선 을 보면 음성 파형을 의미하는 가 없다. 즉, 파형을 보지도 않고 그 음성이 무엇일까 예측하는 확률이다. 예를 들어, 오늘이 올림픽 개최일이라고 가정하자. 그렇다면, 사람들은 아마도 ‘올림픽’이라는 단어를 사용할 가능성이 클 것이다. 그러므로 누군가 무슨 말을 했는데 그 말을 맞추어야 한다면, ‘올림픽’ 아니냐고 이야기하는 것이 가장 합리적인 생각일 것이다. 정리하면 은 사람이 발화 시점에 어떤 단어들을 말할 확률을 미리 계산해서 가지고 있는 값이다. 두 번째로 은 단어 ‘올림픽’을 발성했을 때 해당 음성이 발성될 확률을 의미한다. 예를 들어 네 살배기 어린아이가 ‘올림픽’을 발성하는 것과 성인이 발성하는 것, 그리고 성우가 발성하는 것은 쉽게 생각해도 음의 명료성에서 크게 차이가 있을 것이다. 어린아이가 발성한 ‘올림픽’은 ‘올림’이 ‘우리’처럼 들려서 어쩌면 ‘우리 엄마’에 가깝게 들릴지도 모르고, 그러면  가  보다 더 높은 확률값을 가지게 된다.

 

 

빠르게 인식하는 방법

위 음성 인식 수식을 보면, 모든 후보가 되는 단어 열에 대한 확률을 모두 구해야 하고 그 중 가장 높은 확률을 낸 단어 열을 선택하게 되어 있다. 한편, 단어 열 길이에 대해 제한이 없으므로, 상식적으로 생각해도 우리가 찾아야 하는 탐색 공간은 무한대가 되어 버린다. 그러므로 어떻게 빠르게 단어 열을 찾을 것인가가 중요한 문제가 된다. 이에 대한 해결책은 매우 단순하다. 모든 후보 단어 열에 대한 가능성을 열어두고 음성을 듣다가 정답이 아닐 것 같은 후보들을 탈락시키는 것이다. 마치 축구에서 토너먼트 경기를 하면서 한 팀씩 탈락하는 것처럼, 음성을 들으면서 가능성이 없는 후보는 빨리 탈락시킨다. 음성 신호가 모두 처리되었을 때는 그 험한 경쟁에서 살아남은 최종 승리자가 최종 인식 결과가 된다.

 

 

 

이상호 / NHN 기술연구팀 팀장
KAIST에서 한국어 문서-음성 변환 시스템에서의 운율 생성 모델로 박사학위를 받은 후, LG에서 음성 인식기 개발에 참여했으며, 현재는 네이버 음성 검색 시스템을 개발하는 기술연구팀에서 근무하고 있다.


발행일 
2011.03.24




원문출처 : http://www.soonpeng.co.kr/index.php?document_srl=1045166
profile
엮인글 :
List of Articles
번호 제목 글쓴이 조회 수sort 날짜
공지 심심타파 잼있는 글 많이 올려 주세요....(냉무) [1] Chanyi 10520 2003-06-10

모처럼 등산을..

모처럼 등산을 하러갔습니다.. 산...그거 만만히 봤더니 아니더군요. 무지 높고 험하고 고달프고 .. 그럼에도 불구하고 정~~~말 열심히 올랐습니다. 헥,헥 거리며 하.. 이제 거의 다 왔겠지 그래 얼마 안남았어 조금만 조금만 조금만..더를 외치고 있었죠. 그때 옆에서 아저씨들이 우르르 내려가며 말하더군요. . . . . . . . . . . . . . . . . . . . . . . . . . "어이 힘내 거의 다 내려왔어!" ㅡ_ㅜ ㅡ_ㅡa

  • 2003-06-20

정말 딱 한 번..

강원도 원주의 모 대학교 국문과 03학번 윤모씨. 여자친구와 약속을 해놓고는 퍼질러 자다가 바람을 맞히고 말았다. 다음날 커피숍에서 만난 여자친구가 사랑이 식었냐며 울기 시작했다. 처음엔 달래다가 슬슬 짜증이 난 윤모씨가 결국 일어서며 큰 소리로 한마디 하고 마는데. . . . . . . . . . . . . . . . . . . . . . . . .. .“한 번 잔 거 가지고 뭘 그래!” . 그뒤 카페 손님들이 다 쳐다봐서 얼굴가리고 도망나왔다나....

  • 2003-06-21

뛰어난 유머감각의 소유자 윈스턴 처칠 file [1]

뛰어난 유머감각의 소유자 윈스턴 처칠 윈스턴 처칠 경 (Sir Winston Leonard Spencer-Churchill 1874년 11월 30일 ~ 1965년 1월 23일) 신사의 나라 영국의 최고신사 영국의 전 총리(2회), 노벨 문학상 수상자, 작가. 20세기 영국 정치사에서 유일한 귀족 혈통의 총리.영국 총리로 2차 세계대전을 승리로 이끈 리더십도 탁월한 연설에서 나왔다고 할 정도로 연설의 달인이었다 윈스턴 처칠 만큼 못생긴 정치인도 없었을 것이다. 160cm를 겨우 넘는 단신에 뚱뚱한 대머리. 일그러진 인상에 등은 굽어있고, 목은 거의 안보이며 입술은 너무 ...

  • 2012-01-28

좋은글 에스프레소 file

양도 적고 졸라 적은양의 에스프레소 그런데 엄청쓰기까지 하죠!! 근데 이 커피가 약방의 감초라도 되는 것은 왜일까요? 에스프레소+뜨거운물 = 아메리카노 에스프레소+우유거품+계피가루 = 카푸치노 에스프레소+스팀밀크+초코시럼=카페모카에스프레소+스팀밀크=카페라떼 에스프레소+스팀밀크+우유거품 = 마끼야또 에스프레소+휘핑크림 = 콘파냐 에스프레소+아이스크림 = 아포가또 이처럼 인기없는 에스프레소는 소리없이 모든 커피를 뒷받침하고 있습니다. 일상에서도 이런 사람들이 있죠. 있을때는 잘 모르겠는데 잠깐 자리를 비우면 빈...

  • 2013-01-20

좋은글 성공이란 무엇인가? file

미국의 사상가이자 시인: 랠프 월도 에머슨 성공이란 무엇인가? 자주 그리고 많이 웃는 것. 현명한 이에게 존경을 받고 아이들에게 사랑을 받는 것. 정직한 비평가로부터 찬사를 듣고, 친구의 배반을 참아내는 것. 아름다움을 식별할 줄 알며, 다른 사람의 좋은 점을 알아보는 것. 건강한 아이를 낳든, 한 뙈기의 정원을 가꾸든, 사회 환경을 개선하든, 자기가 태어나기 전보다 세상을 조금이라도 좋은 곳으로 만들어 놓고 떠나는 것. 자신이 한때 이곳에 살았음으로 해서 단 하나의 다른 사람의 인생이라도 행복해지는 것. 이것이 진정한...

  • 2011-02-23

좋은글 꿈을 이루는 방법 file

꿈을 이루는 방법그녀는 유명한 사진학과 출신이 아니었다. 의생활학과를 졸업했지만, 사회에 나오기 전에 이미 자신의 길이 아님을 알았다. 경북 왜관, 촌에서 올라와 그녀는 대학 서클에서 처음으로 사진을 시작했다. 카메라 하나만 달랑 들고 무작정 사진을 시작했다. 그런 그녀를 사진계에서는 인정하지 않았다. 심지어는 '왕따' 까지 당했다. "전공도 아니면서 뭘 안다고!" 2009년 잡지 바자 올해의 포토그래퍼상을 수상했으며 각종 패션사진, 영화 포스터, 연예인 촬영 작업에서 국내 최고로 통하던 사진작가 조선희씨가 처음 사진을...

  • 2013-02-20

좋은글 공부를 해야 하는 이유 7가지 file

공부를 해야 하는 이유 7가지 -생각의 폭을 넓혀 준다.- 사람은 자신이 알고 있는 범위 내에서 생각하게 되어 있다. <우물안 개구리>라는 말이 세상이 넓은 것을 모르는 사람을 빗댄 것처럼 공부를 하지 않으면 알고 있는 것이 적고 따라서 생각의 폭이 좁아질 수밖에 없다. 따라서 상상력도 적을 수밖에 없다. 학교를 나오지 못했어도 스스로 공부는 해야 한다. -학교 선택의 폭을 넓혀 준다.- 안타깝게도 세계 어느 나라도 상급 학교를 선택하는데 공부 잘하는 사람이 절대적으로 유리하다. 우리나라도 예외가 아니다. 공부를 잘하면 상...

  • 2013-09-23

레포트 표지 무료 file

레포트 표지 무료

  • 2013-12-26

심심타파 십년감수 ㅎㅎ file

십년감수 ㅎㅎ ㅋㅋ

  • 2015-01-26

좋은글 강과 바다가 존경받는 이유 file [2]

강과 바다가 산에서 흘러내리는 수많은 냇물의 존경을 받는 이유는 그들보다 낮은데 있기 때문이다. 낮은데 있음으로 해서 강과 바다는 수많은 냇물을 거느릴 수 있다. 이렇듯 현자는 다른 사람 위에 있고자 함에도 사람들 아래서 선다. 그리하면 사람들 위에 있더라도 무겁다 여기지 않으며 앞에 선다 하더라도 무례하다 여기지 않는다. - 노자의 <도덕경> - 남위에 군림하려 하지말고 몸을 낮추고 겸손한자가 진정한 현자가 아닐까? 그런 사람이 진정으로 남들보다 위에 있는 사람들이다. 의도하지는 않았지만 남들이 인정해주는... *^^*

  • 2010-06-18

Korean: 나아가게 하다 (naagage hada): advance

zKorean: Daily #Korean: 나아가게 하다 (naagage hada): advance 원문출처 : http://twitter.com/zKorean/statuses/254959279445004288

  • 2012-10-08

좋은글 Philanthropy is the enemy of justice(자선활동은 정의의 적이다) file

2012 세계경제포럼(WEF)에서 뉴먼이 발표한 내용입니다. It's strange that at this week's World Economic Forum the designated voice of the world's poor has been Bill Gates, who has pledged £478m to the Global Fund to fight Aids, Tuberculosis and Malaria, telling Davos that the world economic crisis was no excuse for cutting aid. It reminds me of that dark hour when Al Gore, despite being a shareholder in Occidental Petroleum, was the voice of climate change action – because Gates does not speak with ...

  • 2012-01-31

좋은글 어느 소년원 학생의 시 file

- 어느 소년원 학생의 시 난 우리 어머니께 감사란 단어 몰랐네 매일 용돈달라 밥해달라 옷사달라 무조건 바라기만 했네 우리 어머니, 나 하나 바라보시는 아들바라기 같은 꽃 어느 날 내게 말하더라 너를 뱃속에 열달 데리고 다닌 값 무료 너가 아플 때 밤 지새가며 간호한 값 무료 너 때문에 지금까지 여러 해 힘들어하고 눈물 흘린 값 무료 너로 인해 수많은 불안으로 지샌 밤들도 모두 무료 이거 말고도 너에 대한 나의 진정한 사랑은 모두 다 무료 어머니의 말에 저절로 눈물이 나오더라.

  • 2012-05-21

좋은글 기계의 음성인식 원리

알리바바와 40인의 도둑 이야기에 나오는 신기한 동굴의 문은 ‘열려라. 참깨’라는 말에 문이 열린다. 옛날부터 사람들은 사람 아닌 물건, 혹은 동물들이 사람 말을 알아듣는 이야기를 많이 만들어냈는데, 이것이야말로 궁극의 상상력이 아닐까 싶다. 하지만, 정작 사람은 아무 불편 없이 다른 사람 말을 듣고 이해하는 것으로 보아, 분명히 그 속에는 말을 이해하는 원리가 있을 것이고, 오늘날에는 그 원리를 이용한 음성인식 제품들이 많이 만들어지고 있다. 사람이 소리를 내는 원리 우리가 소리를 알아듣는 방법을 이해하기 위해서는,...

  • 2011-07-22

심심타파 영어유머 1 [4]

An amateur photographer friend was invited to dinner and took along a few pictures. The hostess looked at his work and exclaimed,"These are very good. You must have an excellent camera." Later, as my friend was departing, he turned to the hostess and said,"That was a delicious meal. You must have some excellent pots." 아마추어 사진작가인 친구하나가 저녁식사에 초대를 받으면서 자기 사진을 몇 장 가져갔다. 그의 작품들을 본 안주인이 감탄하면서 "사진들이 참 좋군요, 아주 좋은 카메라를 사용하시나 봐요"라...

  • 2010-09-08
본 사이트에서는 회원분들의 게시된 이메일 주소가 무단으로 수집되는 것을 거부합니다. 게시된 정보 및 게시물의 저작권과 기타 법적 책임은 자료제공자에게 있습니다. 이메일:chanyi@hanmail.net Copyright © 2001 - 2022 EnjoyEnglish.co.kr. All Right Reserved.