Комп'ютерна телефонія як засіб спілкування

  1. Я ХОЧУ ПОЧУТИ ГОЛОС ...
  2. "ТЕЛЕФОННЕ ПРАВО"
  3. НУ ЩО ТИ мовчить як РИБА ПРО ЛІД?
  4. ЗВОРОТНІЙ ЗАВДАННЯ КОМП'ЮТЕРНОЇ ТЕЛЕФОНІЇ

-Ось кажуть: Карузо, Карузо ... Ні слуху, ні голосу, та ще й гаркавить.
-А ви чули?
-Сам не чув, але мені Рабинович по телефону наспівав.

(Дуже старий анекдот)

Олександр Крейнес Я ХОЧУ ПОЧУТИ ГОЛОС ... "ТЕЛЕФОННЕ ПРАВО" НУ ЩО ТИ мовчить як РИБА ПРО ЛІД? ЗВОРОТНІЙ ЗАВДАННЯ КОМП'ЮТЕРНОЇ ТЕЛЕФОНІЇ

Комп'ютерна телефонія крокує по планеті. Нова технологія знаходить все більше найрізноманітніших застосувань в сучасному офісі. Додатки комп'ютерної телефонії можуть бути спрямовані як на вирішення якихось внутрішніх завдань офісного життя (економія часу співробітників, поліпшення обслуговування клієнтів), так і на вирішення завдань зв'язку інформаційної мережі компанії із зовнішнім світом (віддалений доступ до даних, зв'язок між філіями компанії).

Вже досить звичною стала думка про те, що кошти комп'ютерної телефонії можна використовувати для здійснення віддаленого доступу до корпоративної інформаційної мережі. Для цього застосовуються різноманітні системи інтерактивного мовного відповіді (interactive voice response - IVR). При цьому доводиться вирішувати завдання організації мовного взаємодії між людиною і комп'ютером. Щоб повною мірою забезпечити таку взаємодію, треба, по-перше, "навчити" комп'ютер розуміти людську мову, а по-друге, домогтися, щоб сам комп'ютер "заговорив" по-людськи. Завдання ці складні, їх рішенням люди займаються вже дуже давно, і зараз є можливість забезпечити голосове взаємодія між людиною і комп'ютером на деякому, скажімо так, елементарному рівні.

Менш традиційний спосіб використання засобів комп'ютерної телефонії - застосування цієї технології для забезпечення зв'язку між телефонними мережами різних філій організації через глобальну комп'ютерну мережу Internet. Таке додаток вельми важливо для компаній, що мають велике число філій, розкиданих в різних частинах країни або навіть світу. Ці компанії несуть чималі витрати на забезпечення телефонного зв'язку між філіями. Застосування нових апаратно-програмних засобів комп'ютерної телефонії може допомогти істотно скоротити витрати за рахунок використання Internet для передачі оцифрованих голосових повідомлень.

Саме про ці дві, так би мовити, взаємно зворотних застосуваннях комп'ютерної телефонії піде у нас мова сьогодні. Спочатку ми детально поговоримо про засоби забезпечення голосового інтерфейсу між людиною і комп'ютером, а потім розповімо, як можна використовувати комп'ютерну телефонію для зв'язку між телефонними мережами віддалених філій організації.

Я ХОЧУ ПОЧУТИ ГОЛОС ...

Пам'ятається, років десять (або навіть більше) назад в нашій країні з'явився такий комп'ютер - "Правец-8". На ньому стояла програма під назвою "Говорялка" (комп'ютер був болгарський), яка "озвучувала" будь-який набраний на клавіатурі текст. Це було схоже на класичний "електронний голос", знайомий нам, наприклад, по безлічі дитячих фільмів. Особливо потішно виходила, як тепер це прийнято називати, "ненормативна лексика" - тут вже весь відділ збігався послухати.

Я точно не знаю, як була влаштована "Говорялка". Швидше за все, програма просто "збирала" тексти по буквах з заздалегідь записаних фрагментів - ніяких переходів між звуками, пом'якшень приголосних і вже тим більше наголосів і інтонацій в цій "мови" не було. З тих пір, звичайно, техніка зробила крок далеко вперед. Проте, навчити комп'ютер розуміти людську мову і "озвучувати" різні синтезовані "на льоту" повідомлення - як і раніше надзвичайно приваблива завдання. Вирішити її означало б істотно просунутися на шляху до реалізації природного інтерфейсу користувача. Крім того, повномасштабне голосове взаємодія між людиною і комп'ютером дозволить абсолютно по-новому підійти до проблеми віддаленого доступу до баз даних. Людина зможе отримувати голосову інформацію, синтезовану з результатів пошуку по базі, за допомогою свого телефону.

Почнемо з розпізнавання мови. Як стверджують психологи, сприйняття мови-один із найзагадковіших проявів людського інтелекту. Абсолютно незрозуміло, яким чином діти вчаться розуміти усне мовлення і говорити. Мова ж далеко не однозначна - визначити, яким саме слову відповідає сказане поєднання звуків, можна тільки по контексту.

Завдання машинного розпізнавання мови привертає увагу фахівців в області computer science вже дуже давно. Проте, просунутися в цьому напрямку поки вдалося відносно недалеко. Чисто формально процес розпізнавання мови можна описати буквально в кількох фразах. Аналоговий сигнал, що генерується мікрофоном, оціфровивиается, і далі в мові виділяються так звані фонеми, тобто елементарні фрагменти, з яких складаються всі вимовлені слова. Потім визначається, яке слово якого поєднанню фонем відповідає, і будується відповідний словник. Розпізнати слово - означає знайти його в цьому словнику по сказаному поєднанню фонем. Крапка.

Все це виглядає настільки лінійно, зрозуміло, лише при такому гранично спрощеному описі. Проблеми спливають, варто хоч трохи задуматися про те, як цю схему можна було б реалізувати на практиці. По-перше, людина зазвичай не робить паузи між словами, а при злитому проголошенні до задачі розпізнавання додається ще й завдання виділення слів з потоку мови, що свідомо більш складно. Особливо "неприємною" здається необхідність виділяти односкладові слова - саме з ними і пов'язано максимальне число помилок реально існуючих систем. Можна, звичайно, вимагати, щоб людина вимовляв слова по одному, роблячи досить тривалі паузи (а краще - щоб кожне наступне слово вимовлялося після звукового сигналу). Не дуже зручно, але для подачі простих команд згодиться.

Наступна проблема - різниця голосів, діалектів, дикція і інші індивідуальні особливості мовців. Для того, щоб система працювала нормально, вона повинна, наприклад, "усвідомлювати", що м'яке південне і тверде північне "г" - це одна і та ж буква. А звук "р" (див. Епіграф) чого вартий!

Саме через ці та багатьох інших проблем до повного вирішення задачі розпізнавання мови і раніше досить далеко. Існує два істотно розрізняються режими роботи: з налаштуванням на голос конкретної людини і без такого налаштування. Розміри словника при роботі з налаштуванням на голос (speaker-dependent) в даний час можуть досягати декількох (і навіть багатьох) тисяч слів при злитому проголошенні. Процедура настройки на голос виглядає наступним чином: людина читає якийсь спеціальним чином складений текст, комп'ютер розпізнає слова і видає варіант розпізнавання людині. Людина виправляє помилки і читає текст знову. Після кількох таких ітерацій процес сходиться, і комп'ютер виявляється в стані розпізнавати мову свого "господаря."

Фахівці стверджують, що мова людини настільки ж індивідуальна, як відбитки пальців. Це наводить на думку використовувати малюнок промови людини для побудови різних охоронних систем. Система налаштовується на голос людини (або на голоси деякого числа людей - задавши відповідний персональний код, можна змусити систему завантажити необхідний словник розпізнавання); для входу в систему людина повинна вимовити заздалегідь обумовлене слово або комбінацію слів. При цьому гарантується, що комп'ютер зреагує тільки на голос свого господаря - все решта голосів просто не будуть "зрозумілі".

Нарешті, останній, найбільш складний для реалізації, але водночас і найбільш перспективний режим роботи - розпізнавання без настройки на голос. При цьому гарантується, що система розпізнає будь-яке включене в словник слово, ким би воно не було вимовлено. Тут, як правило, словники налічують невелику кількість слів (зазвичай не більше двох десятків) і існують для відносно невеликого числа мов (приблизно тридцяти); російську мову в це число хоча і входить, проте кількість розпізнаваних російських слів зовсім вже невелика.

Створення словника для розпізнавання мови без настройки на голос - справа дуже складний і дорогий. Для вирішення цього завдання розробникам доводиться опитувати велику кількість (кілька сотень або навіть тисяч) носіїв мови, виділяти якісь загальні елементи мови, "усереднювати" їх певним способом - і все це для того, щоб забезпечити розпізнавання якихось десяти-двадцяти слів. Найчастіше словник без настройки на голос користувача вимагає роздільного проголошення слів. Для цілого ряду додатків цього, однак, виявляється цілком достатньо.

"ТЕЛЕФОННЕ ПРАВО"

Різке збільшення популярності комп'ютерної телефонії, що спостерігається в останні роки, в першу чергу пов'язано з технічною революцією в цій області - появою гнучких модульних систем на базі відкритих стандартів. Це сталося років п'ять тому і супроводжувалося вельми істотним здешевленням апаратури і програмного забезпечення для цієї технології. У сучасному розумінні, комп'ютерна телефонія - це технологія, заснована на інтеграції телефону і комп'ютера в єдину телекомунікаційну середу, при цьому, з одного боку, комп'ютер використовується для інтелектуальної комутації телефонних викликів, а з іншого, телефон перетворюється в засіб віддаленого доступу до комп'ютерних ресурсів при використанні голосового інтерфейсу з користувачем. До цієї ж області відносяться і інші прикладні комп'ютерні системи, пов'язані з підтримкою передачі інформації з телефонних ліній, такі як голосова пошта, факсимільна пошта, факс-сервери і так далі.

У цій області подача голосових команд комп'ютера стає одним з основних засобів управління системою. Людина, яка має в руках телефонний апарат, може керувати віддаленим комп'ютером або набираючи певні комбінації цифр, або подаючи голосові команди. Перший спосіб більш простий в реалізації і, фактично, на сьогоднішній день є найбільш поширеним. Однак його можливості істотно обмежені. (Спробуйте, наприклад, уявити собі, як може бути влаштована подібна інформаційна система з залізничним розкладом. Як вводити станцію призначення?) Другий спосіб потенційно значно більш гнучкий, дозволяє використовувати куди більший "асортимент" команд і позбавляє абонента від необхідності вводити довгі комбінації цифр. Втім, всі ці переваги носять, так би мовити, кількісний характер. А ось і якісне. Всі стандартні апаратні засоби комп'ютерної телефонії розраховані на роботу з тоновим набором телефонного номера. Тим часом, приблизно 85% телефонних апаратів в світі здійснюють імпульсну кодування набраних цифр. По ряду технічних причин, на яких ми за браком місця зупинятися тут не будемо, найбільш зручною альтернативою імпульсного набору є саме використання голосових команд. В умовах Росії, зокрема, це може виявитися єдиною можливістю створити повномасштабну прикладну систему комп'ютерної телефонії.

Який же арсенал комп'ютерно-телефонних засобів розпізнавання голосу? Тут ми маємо на увазі тільки кошти модульних систем комп'ютерної телефонії на базі плат розширення для комп'ютера, про які говорилося вище. У них використовуються спеціалізовані процесори для цифрової обробки аудіосигналів - DSP, в оперативну пам'ять яких в момент включення комп'ютера завантажується програмне забезпечення, що підтримує виконання всіх необхідних функцій. Саме це програмне забезпечення і відповідає за виконання всіх необхідних операцій нижнього рівня; прикладне програмне забезпечення визначає тільки загальну логічну структуру додатків. Таке рішення дає можливість встановлювати системи комп'ютерної телефонії навіть на відносно слабких персональних комп'ютерах.

Загальна схема розпізнавання мови така: надходить по телефонних лініях голосовий сигнал спочатку оцифровується, а потім по внутрішній шині передається на плату розширення для розпізнавання мови. Власне розпізнаванням займається спеціальне програмне забезпечення, завантажене у внутрішню оперативну пам'ять плати. Існують і чисто програмні засоби для розпізнавання мови. Таким, зокрема, є програма для розпізнавання мови в комп'ютерній телефонії VRSoft, представлена ​​компанією Voice Control Systems (VCS). Робота з такою програмою дозволяє, з одного боку, уникнути витрат на придбання додаткового обладнання, а з іншого, істотно підвищує вимоги до використовуваного комп'ютера і зменшує число каналів одночасного розпізнавання. Наприклад, стандартна плата розпізнавання мови VR / 160, що випускається Dialogic, може "обслужити" до 16 каналів одночасно, а можливості VRSoft обмежені чотирма каналами. Крім простих плат для розпізнавання мови, Dialogic випускає і куди більш потужне апаратне забезпечення - сімейство плат Antares, спеціально призначених для розробки просунутих голосових додатків. Antares є чотирипроцесорні плату розширення з великим об'ємом оперативної пам'яті. Програмуючи цю плату, можна створювати будь-які телефонно-комп'ютерні програми на одній платі - Antares об'єднує в собі можливості всіх плат сімейства Dialogic. Важливою властивістю Antares є наявність відкритої платформи для розробки завантажується програмного забезпечення, що дозволяє програмісту вийти за рамки розробки власне додатків і писати програми безпосередньо для DSP-плати.

У комп'ютерній телефонії застосовуються всі три режими розпізнавання мови. Розпізнавання мови з налаштуванням на голос використовується в різних системах, що мають конкретного господаря (господарів). Наприклад, можна віддавати голосові команди набору номера при роботі з мобільним телефоном - їде людина в машині, включає телефон і вимовляє: "подзвонити в офіс" або "подзвонити такому-то", а потім система автоматично набирає потрібний номер. Для того, щоб виконати таке завдання, телефон повинен бути включений в відповідну систему, що працює з розпізнаванням голосу. Далі - користувач може диктувати по телефону необхідні для відправки повідомлення і вказувати (також голосом), за якою адресою їх слід направляти. Захисні голосові системи, в яких інтонаційний малюнок промови використовується як пароль, застосовуються для захисту від несанкціонованого доступу до даних.

Розпізнавання мови без настройки на голос особливо важливо для російських користувачів - про причини цього вже говорилося вище. Як завжди, основою для розпізнавання мови тут служать словники розпізнавання. Всього існує три типи словників для комп'ютерної телефонії. По-перше, це цифровий словник, що вимагає роздільного проголошення слів. З його допомогою можна розпізнавати цифри від нуля до дев'яти, а також найпростіші команди типу "так", "ні", "стоп" і так далі. Такі словники створені для дуже багатьох мов, в тому числі і для російського. Другий вид словника - алфавітно-цифровий, де крім цифр і простих команд присутні найменування всіх букв алфавіту. Використовуючи такий словник, можна побудувати систему, де будь-яке слово можна продиктувати по буквах (наприклад, в довідковій системі або системі замовлення квитків - найменування станції призначення). Ці словники побудовані також для багатьох мов - від англійської (з різними акцентами) до івриту та японського, проте з російською мовою працювати в такому режимі поки не можна. Третій вид словників - словники для розпізнавання злитого мовлення. Тут набір слів ще менше, ніж в цифровому словнику - цифри і слова "так" і "ні" - однак допускається їх злите проголошення. Словники для розпізнавання злитого мовлення є тільки для невеликої кількості мов - англійської, французької, німецької, іспанської, корейського і ще кількох.

Российских Користувачів, безперечно, найбільше может зацікавити питання, Наскільки якісно здійснюється розпізнавання цифр в условиях Нашої телефонної мережі. Московська компанія CompTek International, что займається адаптацією апаратних и програмних ЗАСОБІВ комп'ютерної телефонії до роботи в российских условиях, провела тестування розпізнавання найменувань цифр. Від цифри до цифри результатів Дещо різняться, но в цілому частота правильного розпізнавання складає 75-80 відсотків, что дозволяє Говорити про Досить стійкою работе системи. З'явилися и Перші російські Додатки технології розпізнавання телефонного мовлення. Так, компанія "Імперія" недавно представила свой продукт, де розпізнавання мови застосовується для ПІДТРИМКИ голосового набору номера на мобільному телефоні. Це злегка нагадує способ, коли ви віддаєте командіровку телефону (про что йшлось немного вищє), только тут користувач повинен по одній перерахуваті всі цифри номера. Перш за все, така система дуже зручна для тих, кому часто доводиться дзвонити по телефону, сидячи за кермом автомобіля. Інший приклад системи, що працює з розпізнаванням мови російською мовою - система підбору кадрів, продукт компанії Артикс. При роботі з цією системою абоненту ставиться низка запитань, відповіді на які пропонується дати, назвавши номер відповідного варіанту (варіанти відповіді також озвучуються системою). Виголошений номер розпізнається системою і заноситься в базу даних.

НУ ЩО ТИ мовчить як РИБА ПРО ЛІД?

Зворотна операція по відношенню до розпізнавання мови - перетворення текст-мова. Так називається технологія, що дозволяє генерувати мова по тексту. Основна область застосування - різні автоматичні системи, що передбачають голосову передачу інформації: довідкові системи або програми автоматичного читання по телефону. Трохи нижче ми трохи докладніше розповімо про ці застосуваннях.

Найпростіша різновид перетворення текст-мова - "складання" повідомлень з окремих мовних фрагментів. Приклад - інформатор залізничної довідкової, де в заздалегідь заготовлену повідомлення треба підставити найменування станції призначення, час відправлення та (або) вартість квитка. Для цього треба заготовити мовні фрагменти з числівниками і деякими додатковими словами, щоб повідомлення звучало більш природно (наприклад, треба врахувати, що по-російськи говорять "двадцять один рубль" і "двадцять два рубля", але "двадцять п'ять рублів"). Крім того, необхідно, щоб вставляються мовні фрагменти правильно вписувалися в загальний інтонаційний малюнок фрази. Домогтися цього не так просто, проте цілком можливо. Аналогічні системи, що озвучують суми залишку коштів на рахунку та іншу інформацію (banking by phone), вже використовуються цілим рядом російських банків.

В якості апаратної бази для реалізації подібних систем можна застосовувати будь-яку комп'ютерну апаратуру для відтворення оцифрованої мови. Зокрема, для цього підійде і Sound Blaster. Для телефонних же додатків (які, з нашої точки зору, найбільш цікаві - який сенс озвучувати інформацію людині, яка стоїть поруч з комп'ютерним монітором) застосовуються голосові плати, здатні відтворювати оцифрованную мова по телефонних лініях. Такі плати випускаються багатьма компаніями. Підкреслимо, що сама генерація повідомлень здійснюється в рамках прикладної програми, голосова ж плата використовується просто для відтворення мови.

Техніка складання з готових мовних фрагментів дозволяє реалізувати переважна більшість додатків, де потрібно синтезувати голосове повідомлення по текстової інформації. Останнім часом, однак, все більшого поширення набувають програми, засновані на набагато більш потужною і універсальною техніці синтезу голосових повідомлень за довільним текстом. Саме цю техніку, як правило, і мають на увазі, кажучи про перетворення текст-мова.

В даний час існують два принципово різних способу змоделювати людську мову. Перший з них передбачає моделювання власне голосового сигналу. У цьому випадку, як і при розпізнаванні мови (див. Вище), мова розбивається на елементи, з яких згодом "збираються" окремі слова і текст в цілому. Другий підхід - моделювання голосового апарату людини. Відомо, яким чином змінюється положення губ, язика і зубів при проголошенні того чи іншого звуку. Знаючи це, можна синтезувати відповідний звук.

Однак все це дуже складно. По-перше, треба домогтися, щоб самі синтезовані звуки були природними. По-друге (що, напевно, ще складніше) треба "забезпечити" штучну мова природними інтонаціями і наголосами в словах. Все це призвело до того, що пряме перетворення текст-мова застосовується не дуже широко, а сама синтезована мова звучить досить неприродно.

З'явилися, втім, перші промислові додатки цієї технології. Так, до складу продукту GroupWise 4.1 (Novell) в якості додаткового засобу входить програма, що здійснює читання електронних листів по телефону. Зрозуміло, ця система працює тільки з англійською мовою.

Окремої згадки заслуговує дуже модне нині напрямок - читання сторінок Internet по телефону. Зокрема, саме це завдання вирішує продукт Web-On-Call Voice Browser, представлений компанією NetPhonic Communication Inc. на останній виставці Computer Telephony Expo. Даний продукт забезпечує доступ до Internet осіб, які мають телефон з тоновим набором. Абонент такої системи може прослуховувати вміст документів по телефону і отримувати копії документів по факсу або електронною поштою - для доступу до потрібного документу достатньо пройти по "дереву" голосових меню.

Використовується перетворення текст-мова і в додатках комп'ютерної телефонії - на ньому засновані різні інформаційні системи, де наступне поширення iнформацiї не зводиться до озвучення числівників. Уже не раз згадуваний Dialogic, зокрема, випускає спеціальні плати на базі DSP, де перетворення текст-мова виконується програмним забезпеченням, завантаженим в оперативну пам'ять плати. На жаль, з російською мовою це програмне забезпечення поки не працює, хоча останнім часом з'явилися повідомлення, що компанія BeST (Berkeley Speech Technologies) близька до завершення програмного забезпечення перетворення текст-мова для російської мови.

ЗВОРОТНІЙ ЗАВДАННЯ КОМП'ЮТЕРНОЇ ТЕЛЕФОНІЇ

Отже, ми розповіли про те, які кошти існують для побудови додатків доступу до корпоративних інформаційних систем по телефонній мережі. Тепер розглянемо, яким чином можна застосувати комп'ютерну телефонію для розв'язання оберненої задачі - здійснення зв'язку між телефонними мережами віддалених один від одного філій компанії через комп'ютерну мережу Internet.

Не так давно компанія VocalTec анонсувала новий продукт під назвою VocalTec Telephony Gateway. Даний продукт являє собою апаратно-програмний шлюз між PBX, яка обслуговує офісну телефонну мережу, і всесвітньою комп'ютерною мережею Internet. Співробітник організації, де використовується дана технологія, може набирати місцевий номер будь-якого іншого співробітника цієї організації, не піклуючись про те, де фактично знаходиться даний співробітник - в сусідній кімнаті або в віддаленому на кілька тисяч кілометрів філії компанії.

Офісна PBX, отримавши від співробітника "місцевий" номер, в першу чергу визначає, чи знаходиться викликається номер в тому ж офісі, або мова йде про виклик віддаленого філії. Якщо дзвінок місцевий, то PBX виконує всі необхідні дії самостійно. Якщо ж необхідна далекий зв'язок, то дзвінок буде переведений на обробку в Telephony Gateway. Останній визначає Internet-адреса необхідного філії (відповідно до набраних місцевим номером). В процесі розмови шлюз оцифровує, стискає і розділяє на пакети голосовий сигнал, після чого передає його по Internet. У віддаленому офісі стоїть точно такий же шлюз, який виконує зворотне перетворення. Добутий голосовий сигнал передається місцевої PBX, яка і відправляє його за призначенням.

На апаратному рівні шлюз Telephony Gateway представляє собою окремий персональний комп'ютер, де встановлено комп'ютерно-телефонні плати виробництва Dialogic: плата інтерфейсу з PBX і голосова плата, яка виконує необхідну оцифровку і стиснення голосу. Крім того, в комп'ютері встановлена ​​плата, що здійснює функції інтерфейсу між системою і глобальною мережею. Для роботи зі шлюзом необхідний комп'ютер класом не нижче 486-DX / 4-100 з оперативною пам'яттю не менше 24 Мбайт, на якому встановлено програмне забезпечення Windows NT 4.0 Workstation. Один IP-адресу можна використовувати для обслуговування максимум чотирьох телефонних ліній. При цьому на одну телефонну лінію потрібно канал пропускною спроможністю 11 Кбіт / с.

Для співробітника, що набирає номер віддаленого офісу, весь процес з'єднання не дуже відрізняється від того, як якщо б викликаного їм особа перебувала за сусідній стінкою. Відмінність полягає, по-перше, в тому, що шлюз VocalTec може забезпечувати голосову підтримку процесу з'єднання - видавати будь-які підказки (якщо це необхідно) або голосову інформацію про результати з'єднання. Крім того, оскільки мова йде про зв'язок через Internet, в розмові неминуче виникають паузи тривалістю в частки секунди - приблизно як при використанні супутникового телефону. Для більшості застосувань таке якість зв'язку цілком задовільно, а вартість переговорів може бути порядку на два нижче.

Олександр Крейнес - науковий співробітник Інституту кристалографії РАН. З ним можна зв'язатися за допомогою електронної пошти за адресою [email protected] .А ви чули?
Як вводити станцію призначення?
Який же арсенал комп'ютерно-телефонних засобів розпізнавання голосу?
НУ ЩО ТИ мовчить як РИБА ПРО ЛІД?
Слова жизни
Фотогалерея