Раздел: Технические науки
РЕФЕРАТ

Синтез речи (озвучение речи компьютером)

Постановка задачи.
Задача синтеза речи заключается в том, чтобы текст, представленный в компьютере в виде символов был бы озвучен и превратился в человеческую речь. При этом машина либо уже имеет исходный текст в виде файла, либо составляет его, руководствуясь каким - либо алгоритмом. Как правило, синтезированная речь затем передается по телефонным линиям, имеющим ограниченный сверху и снизу частотный диапазон, поэтому желательно использовать высокий (женский) голос, т.к. он лучше проходит телефонные линии. Речь должна быть максимально разборчивой и членораздельной, а так же должна учитывать изменения интонации в соответствии с правилами языка.
СИНТЕЗ РЕЧИ - speech synthesis - процесс преобразования текста в речь.
Синтез является одной из форм обработки речи, связанной с задачей чтения абонентской системой записанного в ее памяти электронного текста. Существует несколько методов синтеза речи. Первый из них заключается в построении слов путем комбинирования фонем и аллофон. Полученная фонемная последовательность, после выбора высоты тона и интонации, превращается в речь. При таком подходе генерируется вполне понятная речь, но слушающему пользователю ясно, что их произносит робот. Второй метод синтеза речи заключается в ее имитации с использованием модели голосового тракта Человека. Здесь глухие и звонкие согласные в речи представляются источниками периодических и шумовых сигналов соответственно. Затем сигналы проходят через каскад фильтров.
При синтезе для обеспечения высокого качества речи необходимы высокие скорости обработки данных и большая емкость памяти для хранения данных. Поэтому приходится выбирать компромисс за счет определенного ухудшения качества синтезируемой речи.
Обычно синтез речи производится с учетом особенностей языка с автоматической расстановкой ударений.
ОСНОВНЫЕ ФУНКЦИИ КОМПЬЮТЕРНОЙ ТЕЛЕФОНИИ
Аппаратура или программа?
Семейство плат для компьютерной телефонии
Конкретный пример
Литература
Голосовые компьютерные технологии становятся сегодня все более популярными. Задача обучения компьютера навыкам общения с человеком при помощи обычной речи привлекает внимание, как известных гигантов компьютерной индустрии, так и относительно небольших компаний, специализирующихся исключительно на этой области индустрии телекоммуникаций. Компьютеры уже научились понимать команды человека и озвучивать текстовые файлы. Впрочем, голосовые технологии для настольных систем выглядят чем-то вроде забавы удобно, но при необходимости можно обойтись и без них. А вот для развивающейся необычайно быстрыми темпами компьютерной телефонии голосовые технологии - это насущная необходимость.
Основная идея компьютерной телефонии - сочетание мощи компьютерного интеллекта с простотой и доступностью телефонной связи. Благодаря этой технологии, можно связываться с удаленными компьютерами, и, ответив на несколько вопросов голосового меню, выполнить достаточно широкий набор действий: получить телефонное соединение с любым сотрудником компании-пользователя или оставить голосовое сообщение, осуществить доступ к базе данных и получить информацию либо в голосовом виде, либо по факсу. Помимо этого, компьютерная телефония позволяет производить интеллектуальную коммутацию входящего или исходящего звонка, переключать звонок с одного номера телефона на другой, как в пределах организации, так и "наружу" и производить большое количество других действий. Некоторые возможные приложения компьютерной телефонии описаны в работе [1].
ОСНОВНЫЕ ФУНКЦИИ КОМПЬЮТЕРНОЙ ТЕЛЕФОНИИ Сложные приложения компьютерной телефонии формируются из ограниченного числа относительно простых вызовов функций, реализующих достаточно сложные реальные алгоритмы, базирующиеся на ряде следующих аппаратных и программных средств.
Запись и воспроизведение голоса. Чтобы общаться с человеком по телефону, голосовая система должна уметь записывать и воспроизводить человеческую речь. Простейшим примером такой системы является обыкновенный автоответчик, где голос записывается на магнитную ленту, а потом воспроизводится. В современных системах компьютерной телефонии голос записывается в цифровом виде на диск, обычно по методу PCM (Pulse Code Modulation) . Аналоговый электрический сигнал, передающий голос, подвергается цифровому преобразованию через определенные промежутки времени. Согласно известной теореме Найквиста, частота оцифровки или частота выборки должна быть вдвое выше максимальной частоты, присутствующей в спектре оцифровываемого сигнала. Общепринятым стандартом при передаче голоса является сохранение в его спектре частот до 4 кГц - при этом голос, с одной стороны, сохраняет узнаваемость, а с другой - не требует для своей передачи высококачественных линий. Отсюда получается, что частота выборки должна составлять 8 кГц, а общепринятое разрешение аналого-цифрового преобразования составляет 256 уровней. Для кодировки такого преобразования необходимо 8 бит информации. Таким образом, для кодирования голосового сигнала требуется скорость 64 Кбит/с.
Распознавание набранных абонентом цифр. Системы компьютерной телефонии должны воспринимать команды абонента, которые в простейшем случае вводятся путем набора цифры на телефонном аппарате. Отсюда следует, что аппаратура для компьютерной телефонии должна распознавать, какую цифру набрал абонент. Здесь следует отметить, что сегодня существуют две основные принципиально различные системы набора номера - DTMF (Dual-Tone Multifrequency) и импульсный набор. Система DTMF принята в США, Израиле и ряде других стран, импульсный набор - в большинстве европейских стран, России и Японии. В системе DTMF (или тоновом наборе) каждая цифра кодируется звуковым сигналом, представляющим собой сочетание двух частот, отвечающих координатам соответствующей цифры на наборной клавиатуре телефона. Обычно на такой клавиатуре имеется четыре горизонтальных и три вертикальных ряда клавиш, соответственно, в системе DTMF имеется двенадцать сочетаний частот, передаваемых по телефонным линиям в виде обычных звуковых сигналов. Существуют стандартные схемные решения для распознавания этих частот, поэтому обработка тонового набора никаких затруднений не представляет.
С импульсным набором дело обстоит сложнее - каждая цифра кодируется серией разрывов в цепи между телефонным аппаратом и коммутирующим оборудованием на станции. Число разрывов в линии соответствует набранной цифре (ноль кодируется десятью разрывами) ; разрывы, относящиеся к одной и той же цифре, разделены короткими интервалами, более длинные интервалы разделяют разрывы, относящиеся к разным цифрам. Основная проблема состоит в том, что разрывы цепи не передаются дальше по линии, и на другом конце соединения прослушиваются только характерные щелчки. Эти щелчки приходится распознавать, что при наличии помех в линии сделать затруднительно.
Преобразование текст-речь. Любая компьютерно телефонная система должна обладать способностью озвучить для абонента то или иное сообщение. Такое преобразование может выполняться в одном из двух режимов: путем сборки из заранее записанных речевых фрагментов и прямым формированием речевого сообщения по текстовому файлу. Сборка из заранее записанных речевых фрагментов позволяет решать только самые простые задачи, например синтез числительных. Достаточно записать речевые фрагменты, содержащие простейшие элементы, из которых состоят наименования чисел: цифры, десятки, сотни, тысячи и т.д. и из них можно будет набрать любое число. А поскольку работа многих информационных систем связана именно с передачей чисел, то такого синтеза будет вполне достаточно для работы очень многих приложений. Несмотря на внешнюю простоту такой системы, с ней связан целый ряд существенных проблем. Для того, чтобы синтезируемое сообщение звучало плавно, без разрывов, подставляемые слова должны быть интонационно встроены в общую фразу, достичь чего не так просто. В русском языке к этой проблеме добавляется еще проблема изменяемости слов приходится для каждого контекста, где встречается числительное в определенном падеже, делать отдельную запись. Кроме того, в зависимости от числительного меняются и окружающие его слова, например: "триста тридцать один рубль", "триста тридцать три рубля", что еще больше осложняет ситуацию. Тем не менее, существуют стандартные методы подготовки речевых фрагментов для этого метода синтеза сообщений. Данный способ формирования речевых сообщений годится для подавляющего большинства голосовых систем.
Значительно более гибким, хотя и более сложным алгоритмически является прямой синтез речевых сообщений по тексту. Сегодня существуют алгоритмы синтеза речи по текстам на английском, немецком, испанском, японском и ряде других языков. Недавно появились сообщения о том, что разработана и система для русского языка, однако прямого подтверждения этому найти пока не удалось. Лидером в области разработки коммерческих систем текст-речь является сегодня компания Berkeley Speech Technologies (BeST) . Основная проблема, до настоящего времени пока не имеющая полного решения, состоит в том, чтобы синтезированная по тексту речь звучала "по-человечески" - пока компьютерная речь практически не имеет интонаций и ударений, а кроме того, имеются трудности с озвучиванием имен собственных и адресов.
Распознавание голоса. Абонент может подавать команды машине не только набирая определенные комбинации цифр на своем телефонном аппарате, но и более обычным способом - проговаривая команды, что предполагает применение технологий распознавания речи. На сегодняшний день это, пожалуй, одна из самых сложных проблем в области интерфейса человека и компьютера. Несмотря на то, что недавно в этой области были достигнуты большие успехи, до полного решения еще далеко. Все алгоритмы распознавания работают на базе словарей, содержащих определенное количество слов; количество и характер слов для разных языков и режимов распознавания речи отличаются друг от друга. Алгоритмы распознавания речи занимаются выделением соответствующих слов в голосовом сигнале и преобразованием их в текст. Существует несколько режимов распознавания речи: с настройкой на голос конкретного пользователя и без настройки. В первом случае объем словаря может достигать нескольких десятков тысяч слов, которые распознаются при слитном произнесении. Данный режим распознавания применяется, когда у системы компьютерной телефонии имеется только один конкретный пользователь, который может по телефону давать команды системе и даже диктовать письма. Для систем общего пользования необходим режим распознавания без настройки на голос конкретного пользователя. Такие системы также работают на основе словаря, который, однако, может содержать гораздо меньшее число слов. Словари для распознавания речи без настройки на конкретного пользователя создаются на основе образцов речи, полученных от многих сотен или даже тысяч носителей языка.
Словари для работы без настройки на голос конкретного пользователя могут обеспечивать распознавание цифр от нуля до девяти и простейших команд типа "да" и "нет" при их раздельном произнесении, либо обеспечивать распознавание цифр и несколько более узкого набора команд при их слитном произнесении, либо обеспечивать распознавание цифр и наименований всех букв алфавита. Словари для распознавания речи без настройки на голос пользователя созданы для нескольких десятков языков и диалектов - для русского языка пока существует лишь простейший словарь, обеспечивающий распознавание цифр и простейших команд, произносимых раздельно.
Осуществление исходящего звонка. Системы компьютерной телефонии должны обеспечивать набор номера и мониторинг линии, который и представляет наибольший интерес. Речь идет о распознавании сигналов, свидетельствующих о состоянии соединения: редкие гудки - осуществление соединения; снятие трубки на противоположном конце; частые гудки - занятость линии; отсутствие гудков - соединение не установилось; гудки, обозначающие ошибку при наборе номера (как правило, это три последовательных гудка с возрастающей высотой тона) . Кроме того, многие системы компьютерной телефонии в состоянии отличить, отвечает ли им человек, автоответчик или факсимильный аппарат. Для распознавания сигналов в линии и ответа абонента часто используется так называемая каденция - порядок чередования периодов молчания и наличия звука в линии и их продолжительность. Каденция распознается существенно проще, чем речь, хотя и здесь имеются свои проблемы, связанные с тем, что в разных странах состояние линии обозначается разными сигналами, поэтому системы компьютерной телефонии должны допускать настройку на сигналы, которые принято использовать в данной стране. Распознавание "сущности" отвечающего абонента осуществляется довольно просто. Факсимильный аппарат отвечает длинным сигналом готовности, который легко отличить по каденции от редких гудков и от человеческой речи. Человек, снимая трубку, коротко отвечает "Алло! " или в крайнем случае представляется. Автоответчик же начинает долго рассказывать, куда вы позвонили и что надо сделать, чтобы оставить сообщение.
Генерация факсимильных сообщений. Чтобы обеспечить полную поддержку всех необходимых человеку функций, система компьютерной телефонии должна уметь осуществлять генерацию факсимильных сообщений по текстовым файлам, результатам запросов баз данных и так далее. Данная функция мало чем отличается от работы обычного факс-модема.
Аппаратура или программа?
Реализовать перечисленные функции или хотя бы часть из них можно различными способами. В простейшем случае, для телефонного соединения можно использовать обыкновенный факс-модем, а все функции, связанные с обработкой голоса, осуществлять при помощи платы Sound Blaster. При этом вся интеллектуальная нагрузка, связанная с осуществлением телефонного соединения и голосовой поддержкой, ложится на компьютер. Это, во-первых, означает, что для этой цели можно использовать лишь достаточно мощные машины, а во-вторых, при таком подходе компьютер превращается в интеллектуальный телефонный аппарат, что означает не слишком рациональное использование его вычислительных ресурсов. Впрочем, для решения простых задач такой подход может вполне сгодиться. Его преимущество - идейная простота и относительная дешевизна используемого оборудования.
Более основательный подход предполагает использование простых и относительно дешевых голосовых плат, представляющих собой интегрированные устройства, поддерживающие ряд функций, необходимых для установления телефонного соединения. В частности, такие платы набирают номер (как по системе DTMF, так и импульсом) , озвучивают приветствие, задают абоненту вопросы голосового меню, распознают ответы абонента в виде сигналов DTMF, а также оцифровывают речь абонента и готовят соответствующие данные к записи на диск. Такое решение имеет одно несомненное преимущество - все функции поддержки телефонного соединения выполняются автономным процессором DSP (digital signal processor) , находящимся на плате.
DSP представляет собой мощный процессор, разработанный специально для работы с аудиосигналами. Сегодня такие процессоры широко доступны на рынке за весьма умеренную плату. Широко распространено также загружаемое программное обеспечение для этих процессоров, которое, собственно, и обеспечивает выполнение всех необходимых функций. Главный недостаток, помимо малой пропускной способности - данные платы рассчитаны на работу в одноканальном режиме, состоит в том, что эти голосовые платы представляют собой закрытую систему, как с точки зрения аппаратного, так и программного обеспечения. Установив однажды такую плату и программное обеспечение к ней, ее нельзя расширить и очень трудно модифицировать. Кроме того, данные платы не выполняют интеллектуальных функций, таких как распознавание речи или преобразование текст-речь. Производятся такие одноканальные платы большим числом компаний: American Megatrends (Норкросс, шт. Джорджия) , Boca Research (БокаРейтон, шт. Флорида) , Objix Multimedia (Уолтем, шт. Массачусетс) .
Наиболее гибкими и разветвленными являются модульные системы плат расширения для компьютерной телефонии. Основным производителем таких плат является компания Dialogic (Парсипанни, шт. Нью-Джерси) , которая выпускает широкий набор разнообразных плат расширения, различающихся как по функциям, так и по масштабу. Все они основаны на применении технологии DSP, в который загружено фирменное программное обеспечение, обеспечивающее выполнение необходимых функций. Прежде всего, следует отметить программное обеспечение поддержки телефонного соединения SpringWare, в котором реализованы следующие функции: оцифровка и воспроизведение речи, распознавание сигналов состояния линии, распознавание отсутствия звука в линии, распознавание сигналов тонового набора, набор номера в соответствии с заданным стандартом. Помимо этого, SpringWare может отличать речь человека от сигналов в линии, распознавать ответ автоответчика, изменять скорость воспроизведения сообщения без изменения звучания голоса, регулировать громкость и автоматически подстраивать коэффициент усиления при записи речи со входящего звонка.
Семейство плат для компьютерной телефонии Опишем несколько более подробно, какие платы входят в семейство, выпускаемое компанией Dialogic - именно это семейство представляет собой индустриальный стандарт в области модульных систем для компьютерной телефонии. Среди других производителей аппаратного обеспечения следует отметить компанию Natural MicroSystems (Нэтик, шт. Массачусетс) , а также Brooktrout (Нидэм, шт. Массачусетс) и Pika (Канада, Онтарио) .
Главным компонентом систем компьютерной телефонии являются многоканальные голосовые платы. Именно они выполняют основной набор функций, связанных с поддержкой диалога с пользователем и именно на них в первую очередь рассчитано программное обеспечение SpringWare. Число каналов в одной плате меняется от двух до тридцати; имеются платы, рассчитанные на работу с отдельными аналоговыми линиями и способные "принять" на себя цифровой канал T-1 или E-1 целиком. Некоторые платы могут быть напрямую подключены к линии, другим требуются специальные интерфейсные платы, также выпускаемые Dialogic.
Следующий член семейства Dialogic-платы коммутации и распределения ресурсов. Данные платы обеспечивают внутреннюю коммутацию ресурсов в пределах систем и коммутацию внешних линий, например, подключение любого из операторов к любой из внешних линий, организацию конференций и т.д.
Платы распознавания речи и преобразования текст-речь. Данные платы также работают на основе программного обеспечения, загружаемого в DSP-процессор.
Помимо этих плат, в семейство Dialogic входят еще платы поддержки факсимильного обмена, выполняемые в качестве плат-приставок для голосовых плат.
Модульность семейства плат расширения предполагает, что в одном компьютере могут быть установлены несколько плат, выполняющих разные функции. Кроме того, представляется разумным организовать распределение, скажем, ресурсов распознавания голоса между большим числом голосовых каналов. Отсюда следует, что платы должны обмениваться информацией между собой. Использование для этой цели системной шины вызовет ее перегрузку и приведет к непроизводительным затратам ресурсов. Поэтому с самого начала системы компьютерной телефонии были ориентированы на использование собственной шины для обмена информацией между платами.
Вначале для этой цели применялась аналоговая шина AEB, Analog Expansion Bus, представляющая собой просто четыре параллельные аналоговые линии, объединенные в один кабель. Данная шина обладает невысокой пропускной способностью и используется только в системах низшего класса. Следующим шагом на этом пути было использование цифровых шин - сначала это PEB (PCM Expansion Bus) , а потом и MVIP (Multi-Vendor Integration Protocol) , компании Natural MicroSystems. Данные шины можно представлять как внутримашинные линии T-1 (E-1) . MVIP - это сочетание восьми цифровых линий, обеспечивающих 256 независимых голосовых каналов пропускной способностью 64 кбит/с каждый. Индивидуальная шина PEB представляет собой один цифровой канал, однако, используя специальную коммутационную плату, можно обеспечить использование до четырех индивидуальных PEB в одной системе с возможностью обмена информацией как в пределах одной шины, так и между шинами. Суммарная пропускная способность системы на базе PEB может составлять до 128 голосовых каналов на 64 кбит/с.
Следующим шагом в этом направлении стала предложенная Dialogic шина SCbus - составная часть аппаратно-программного стандарта компьютерной телефонии SCSA (Signal Computing System Architecture) . Переход от PEB к SCbus носит не только чисто количественный - суммарная пропускная способность новой шины составляет 2048 голосовых каналов, но и качественный характер. Во-первых, отдельные каналы шины могут быть объединены в магистрали для передачи высококачественного звука или видеоинформации. Служебная информация в SCbus передается по отдельной линии, в то время как в PEB применялось заимствование битов у полезного сигнала. Кроме того, SCbus может управляться любым из устройств, подключенных к шине, что повышает отказоустойчивость системы в целом. Наконец, очень важно, что в стандарте SCbus предусмотрена поддержка передачи информации между отдельными машинами, благодаря чему оказывается возможной организация многомашинных систем.
Конкретный пример В качестве примера рассмотрим, функциональную схему многоканальной голосовой платы D/160SC-LS, входящей в состав семейства Dialogic/HD, объединяющего аппаратуру с высокой плотностью информации - к ней можно подключать до 16 аналоговых линий. Структура платы основана на стандарте SCSA. Плата поддерживает все функции, характерные для голосовых плат.
Входные линии подключаются к телефонному интерфейсу, обеспечивающему защиту аппаратуры от перегрузок, вызванных переходными процессами. Здесь же происходит распознавание входящего звонка. Пройдя интерфейсные цепи, входной сигнал попадает на вход устройства кодировки/декодировки (CODEC) , где происходит его оцифровка. Оцифрованная информация попадает на микросхему SC2000, где определяется, будет ли данная информация передана по шине SCSA для дальнейшей обработки на другие устройства или ее предполагается обрабатывать в пределах самой платы. Именно здесь и обеспечивается использование, например, внешних плат распознавания речи. Обработка оцифрованного звукового сигнала происходит в DSPпроцессорах Motorola 56002 на основе программного обеспечения SpringWare. Здесь выполняются такие функции, как сжатие/восстановление звукового сигнала для передачи его по системной шине компьютера, подстройка уровня громкости и коэффициента усиления, распознавание сигналов тонового набора, распознавание молчания в линии, а также мониторинг соединения. Контроллер HDLC (High-level Data Link Controller) осуществляет доступ к управляющей линии шины SCbus и обеспечивает передачу управляющих сигналов и распознавание коллизий. Расположенный на плате процессор 80C286 управляет ее работой и обеспечивает правильную интерпретацию и выполнение команд от центрального процессора, тем самым поддерживая взаимодействие голосовой платы с прикладной программой. Процессор работает с системной шиной через оперативную память совместного использования, играющую также роль буфера при передаче файлов. Работа платы управляется программным обеспечением, хранящимся в оперативной памяти кода/данных и памяти DSP. Данное программное обеспечение загружается при инициализации системы с жесткого диска.
Литература [1]
. А. Крейнес. Компьютерная телефония в приложениях. Открытые системы, N 2,1996 г., с. 43-47.
"Мир связи и информации. Connect! " №4, стр. 40, авт. - А. Крейнес Мыслящий телефон?
Идея породнить компьютер и телефон не нова. Более того - первым практическим воплощением этой идеи уже не один десяток лет. Всем известная служба "100" в Москве, появившаяся еще в конце 60-х, яркий тому пример. Но лишь последние технологические решения позволили компьютерной телефонии найти широкое применение в различных сферах человеческой жизни и стать одним из важнейших направлений современной отрасли связи.
"Барышня, Смольный! " — кто бы мог подумать, что на рубеже ХХI века, спустя сто лет после изобретения телефона, мы вновь будем общаться с телефонисткой. Только теперь "барышня" начинена электроникой и подобные фразы диктуются совсем другими техническими возможностями системы, которую обычно называют компьютерной телефонией.
Многие эксперты считают компьютерную телефонию (в английской транскрипции CTI — Computer Telephone Integration) одним из главных достижений 90-х годов в области телекоммуникационных технологий. Оставляя это громкое утверждение на совести того, кто его высказывает, отметим, что на Западе использование компьютерной телефонии стало чем-то вроде правила хорошего тона для любой уважающей себя организации. Особенно широкое распространение эта технология получила в США — там без нее вообще невозможно представить себе жизнь любого офиса. Набираешь, к примеру, номер представительства "Аэрофлота" — и в ответ слышишь "голос компьютера": "Благодарим за звонок в компанию "Аэрофлот". Если вам нужна информация о прибытии рейсов — наберите 1, если вам нужна информация о вылете рейсов — наберите 2, если вы хотите подтвердить вылет — наберите 3. " Набрав указанную цифру, можно либо прослушать необходимую информацию, либо получить соединение с оператором для подтверждения брони. Это и есть пример использования системы компьютерной телефонии, которая кроме сервиса интерактивного голосового ответа - IVP (Interactive Voice Response) , обладает и способностью распознавать живую человеческую речь.
Идея породнить компьютер и телефон отнюдь не нова. Компьютерные системы уже давно используются для коммутации телефонных вызовов; хорошо известно, что любая современная городская АТС — по существу, мощная компьютерная система. До самого недавнего времени то же самое можно было сказать и про крупные учрежденческие АТС — все они представляли собой серьезные компьютеры, как правило, масштаба мэйнфрейма. Именно на такой аппаратной базе и были впервые реализованы системы компьютерной телефонии.
Компьютерно-телефонные системы обеспечивают не только интеллектуальное соединение входящих вызовов и выполняют прочие чисто коммутационные функции типа организации конференций — продвинутые системы обладают также возможностью голосового взаимодействия со звонящим абонентом — компьютер может взять на себя обязанности секретаря, телефонного агента по приему заказов, интервьюера, проводящего опрос общественного мнения, оператора банковской системы и выполнить множество других полезных организации функций.
Доступные чудеса Еще совсем недавно разработка систем компьютерной телефонии была "по зубам" только крупным и очень богатым организациям. И дело было не только в высокой стоимости необходимого оборудования (хотя, бесспорно, именно этот фактор имел решающее значение) , но и в большой сложности соответствующего программного обеспечения. Кроме того, во всех таких системах использовались закрытые технологии, что существенно повышало степень зависимости клиента от фирмы-поставщика, а следовательно, увеличивало стоимость.
Лет пять назад ситуация кардинальным образом изменилась. Были разработаны гибкие модульные системы для компьютерной телефонии, представляющие собой наборы плат расширения для настольных компьютеров. Это существенно снизило масштаб прикладных систем, и в результате компьютерная телефония стала доступной даже для небольших организаций. Чрезвычайно важным обстоятельством было то, что все основные технические описания новой технологии были опубликованы, то есть компьютерная телефония стала открытой технологией. Одновременно с "разукрупнением" аппаратной базы произошло значительное усовершенствование средств разработки приложений, что также приблизило компьютерную телефонию к ее потенциальному пользователю.
Что такое Компьютерная Телефония?
В простейшем виде эта система включает персональный компьютер с установленной платой четырехканального микропроцессорного телефонного адаптера. И эта простейшая система может отвечать на звонки, выполняя функции телефонного секретаря, принимать или отправлять факсы, причем по одному, двум или четырем телефонным каналам одновременно! Абонент, позвонивший на эту систему, может выслушать сообщения и ответить на вопросы системы, нажимая необходимые клавиши на своем телефоне, получить нужную информацию или заставляет систему производить определенные действия. Он может оставить свое устное сообщение, принять или передать факс, либо же система соединит его с конкретным лицом, если необходимо. Все эти возможности определяются сложностью используемой программы. Программы этих приложений можно быстро создавать и совершенствовать самому. Необходимо записать в компьютер необходимые голосовые сообщения (как фразы в автоответчике) , составить алгоритм и создать программу. Существует несколько генераторов приложений, программирование в которых заключается в соединении на экране необходимых квадратиков-пиктограмм, причем можно сразу опробовать программу и внести необходимые изменения. Но, в конце концов, можно заказать готовое приложение-программу и не ломать голову! Вам не хватает телефонных каналов - нет проблем, количество каналов в системе, практически, не ограничено! Вы устанавливаете дополнительные платы, более мощные платы, объединяете компьютеры в сеть. Если у Вас мало телефонных линий, есть платы коммутаторов. Хотите распознавание речи - чтобы абонент мог давать команды голосом - устанавливаете дополнительно специальную плату, которая также осуществляет синтез речи и позволяет компьютеру зачитывать абоненту различные тексты, в том числе и факсы.
Сегодня современная офисная система компьютерной телефонии чаще всего представляет собой IBM-совместимый персональный компьютер (но не обязательно, система может работать и на компьютерах других платформ) , в котором установлены одна или несколько плат расширения, реализующих необходимые функции. Платы расширения для систем компьютерной телефонии, как правило, весьма интеллектуальны и могут самостоятельно выполнять целый ряд операций, необходимых для работы системы. Поэтому сам компьютер, где они установлены, может быть не слишком мощным, как правило, для выполнения всех основных функций хватает компьютера с 386 или даже 286-м процессором.
Использование многоканальных голосовых плат Dialogic позволило новгородскому ОКТБ "Омега" разработать систему безопасности для опасных производств. Эта система представляет собой своеобразный "черный ящик", где фиксируются все разговоры сотрудников, например, газодобывающего предприятия. Речь участников разговора оцифровывается и записывается на диск компьютера, после чего соответствующие файлы могут быть организованы в виде базы данных. При возникновении аварийной ситуации записи разговоров могут помочь выяснить ее причину.
Работа систем компьютерной телефонии основана на использовании так называемых голосовых меню. Схема работы с голосовым меню такова: абонент прослушивает сообщение о возможных вариантах действий (точно так же как при работе с обычным меню список опций высвечивается на экране компьютера) , а затем выбирает необходимое действие, набрав заданную цифру или комбинацию цифр на своем телефонном аппарате. Информация о том, какую цифру следует набрать, чтобы выбрать то или иное действие, озвучивается одновременно с описанием действий. Проводя аналогию с работой на компьютере в традиционном режиме, можно сказать, что телефонная трубка здесь играет роль экрана компьютера, а наборное устройство телефона — роль клавиатуры. Отметим, что диск телефонного аппарата можно использовать не только для выбора необходимой опции голосового меню, но и для ввода данных (например, номера кредитной карты или номера рейса, время прибытия которого желает узнать абонент) .
Dialogic compatible Конкретные примеры применения новой технологии мы рассмотрим чуть ниже, а пока скажем несколько слов об аппаратной базе компьютерной телефонии. Соответствующие платы расширения выпускают примерно полтора десятка разных компаний. Общепризнанный лидер в этой области — американская компания Dialogic. Платы для компьютерной телефонии, разработанные Dialogic, стали отраслевым стандартом, и теперь многие другие производители в качестве характеристики своей продукции пишут: совместимо с Dialogic — подобно тому, как про персональные компьютеры говорят: "совместим с IBM PC. " Главным элементом любой системы компьютерной телефонии являются так называемые голосовые платы. В их задачу входит установление соединения с абонентом (то есть набор номера и мониторинг линии в ходе соединения) , озвучивание оцифрованной речи, перевод в цифровой код голоса абонента и распознавание сигналов тонального набора. Последнее необходимо для того, чтобы абонент мог отвечать на вопросы системы в понятной для нее форме. (Впрочем, все не так просто: чуть ниже мы расскажем о некоторых проблемах, которые могут тут возникнуть.) Именно голосовые платы отвечают за организацию голосового меню, а все прочие элементы системы компьютерной телефонии либо обеспечивают какие-то дополнительные функции, либо просто "помогают" голосовым платам общаться с абонентом.
Все голосовые платы, выпускаемые компанией Dialogic, — многоканальные, к ним можно одновременно подключить от 2 до 30 телефонных каналов. Существуют платы, способные работать с аналоговыми линиями, цифровыми каналами, а также платы, которые можно напрямую подключать к линиям T1/E1. Системы компьютерной телефонии на базе плат Dialogic могут также работать с BRI ISDN. Линии ISDN можно подключать либо напрямую к платам, либо через специальные интерфейсные платы. Использование интерфейсных плат в сочетании с коммутацией каналов позволяет создавать системы, где число входных каналов больше суммарного числа каналов, обслуживаемых голосовыми платами. Это может быть полезно, например, в случае, когда абонент, позвонивший в компанию, имеющую систему компьютерной телефонии, после работы с коротким голосовым меню переключается на сотрудника компании — ясно, что в такой ситуации число реально занятых входных каналов может существенно превышать количество каналов, которым в данный момент требуется работа с голосовой платой, ввод же линии в систему в любом случае осуществляется через интерфейсную плату.
Компания "Империя" разработала систему голосового набора для мобильных телефонов. Данная система очень удобна, например, тем, кому часто приходится звонить по мобильному телефону, сидя за рулем автомобиля — использование голосовой системы позволяет набирать номер, не отвлекаясь от дороги.
Вышеупомянутый пример представляет собой частный случай центра телефонного обслуживания — организации, занимающейся обычно сбором заказов либо предоставлением платной информации по телефону. Главной задачей автоматизации центра телефонного обслуживания является рациональное использование труда телефонных агентов и минимизация очередей входных звонков. Поэтому работа компьютеризованного центра телефонного обслуживания может, например, выглядеть так: абонент, позвонивший в центр, в первую очередь прослушивает приветствие системы компьютерной телефонии и отвечает на вопросы о цели его обращения, либо просто вводит свой личный номер, если он является постоянным клиентом центра. Затем его информируют о длине очереди звонящих (увы, здесь очереди еще не изжиты) и предполагаемом времени обслуживания, после чего ставят на ожидание. В момент соединения с агентом, последний получает на экране своего компьютера всю имеющуюся в системе информацию о звонящем клиенте (в частности, за время ожидания соединения компьютерная система центра обслуживания может запросить информацию из сторонних источников) .
Глас человеческий в телефонии Голосовые платы часто используются в сочетании с платами коммутации ресурсов. Используя такое сочетание, можно разработать, например, систему, в которой будет осуществляться маршрутизация телефонного звонка по фактическому местонахождению сотрудника. (Уходит человек со своего рабочего места и вводит в компьютер номер телефона, по которому его можно найти. После этого все звонки по рабочему телефону будут переключаться на введенный номер, который отнюдь не обязательно должен находиться в помещении компании — переключиться можно на любой номер.) По данным исследований, проведенных российской фирмой COPRIS & M в настоящее время российский рынок испытывает наибольшие потребности в следующих приложениях компьютерной телефонии: •автоматическая банковская справочная служба •офисная речевая почта •справочно-информационная система •системы сбора статистической информации •системы опроса общественного мнения •рекламно-маркетинговые службы •системы пейджинговой связи Другие примеры использования плат коммутации ресурсов — разнообразные гостиничные системы, где большое число внутренних линий может соединяться с ограниченным количеством внешних, а также устройства согласования, где входные линии работают в одном стандарте, а выходные — в другом (при этом система может как угодно коммутировать входные и выходные линии) .
Представляют интерес также системы для работы с депозитными карточками. Одна из таких систем используется в ОАО "Московский междугородный и международный телефон". Владелец карточки может выполнить междугородный звонок с любого телефона — достаточно набрать определенный городской номер и ввести свой личный код. Далее клиенту предоставляется возможность набрать номер нужного ему абонента; плата за разговор будет "списана" с карточки.
Из дополнительных устройств в первую очередь следует упомянуть платы поддержки факсимильного обмена. Упрощенно их можно рассматривать как интеллектуальные факс-модемы. Поскольку компьютер, где установлены платы факсимильного обмена, как правило, включен в локальную вычислительную сеть, факсимильные платы представляют собой весьма удобное средство организации корпоративного факс-сервера. Кроме того, устанавливая голосовые платы и платы факсимильного обмена в одной системе, можно легко создавать системы отсылки факсов по требованию, очень удобные для организации различных информационных центров. При этом абонент при помощи разветвленной системы голосовых меню может выбрать необходимый ему справочный раздел и получить всю информацию на свой факсимильный аппарат. Первый образец такой системы в России — справочный центр, разработанный компанией "Новые системы коммуникаций".
Следующим весьма важным компьютерно-телефонным ресурсом являются платы для распознавания речи. Они работают с оцифрованной речью, поставляемой им голосовыми платами и могут распознавать определенные ключевые слова, произносимые человеком. Распознавание производится загруженным в плату программным обеспечением, ресурсы центрального процессора при этом не используются. Количество и режим произнесения (слитно или раздельно) ключевых слов зависит от режима распознавания. При распознавании речи с настройкой на голос пользователя количество ключевых слов может составлять несколько десятков тысяч, так что пользователь может не только подавать простые голосовые команды, но и диктовать сообщения, скажем, для отсылки по электронной почте. Возможности распознавания речи без настройки на голос конкретного пользователя определяются наличием словаря. Для русского языка пока разработан только словарь, позволяющий распознавать цифры от нуля до девяти и слова типа "да" и "нет".
За рубежом еще в 1984 году фирмой AT&T была разработана система Conversant поддерживающая одновременно до 48 вызовов, требующих голосового ответа. Система работает с программным пакетом FlexWord той же фирмы, который обеспечивает распознавание до 2000 отдельных слов и фраз, а модуль преобразования текста в речь предоставляет абонентам возможность получать сложную информацию из различных источников.
Интегрированная офисная система - разработка компании "Артикс Лтд". Она включает в себя справочную службу, предоставляющую информацию о компании: часы работы, адрес, как проехать; информацию о товаре: цена, условие поставки, технические спецификации, комплектация, фото. Система также осуществляет подбор товара по основным реквизитам, рассылку информации о новинках, распродажах, обработку заказов и контроль их прохождения на всех стадиях. Обрабатывая входящие звонки, система регистрирует их и пытается осуществить распознавание абонента (по номеру звонящего или по личному коду) . Помимо этого система обладает еще целым рядом сервисных функций по координации деятельности мобильных и офисных сотрудников, оповещению сотрудников и клиентов о каких-либо событиях, помогает в подборе кадров путем автоматического анкетирования и др.
Преобразование текст-речь — важнейшая функция компьютерно-телефонной системы. Она необходима, в частности, в системах, где абонент получает информацию без обращения к оператору. Наиболее простой пример — банковская система: человек звонит в банк, набирает на телефоне свой личный номер и прослушивает информацию об остатке средств на его счете. При этом компьютер посылает запрос к базе данных, получает ответ и сам озвучивает его абоненту. В такой системе ничего особенно мудреного нет, для ее создания, как и для решения подавляющего большинства подобных проблем, достаточно записать на диск набор речевых фрагментов и разработать не слишком сложную программу, которая будет "собирать" сообщение из фрагментов. Для того чтобы "склеенное" сообщение звучало естественно, потребуется определенное искусство, однако никаких принципиальных проблем на этом пути нет. Первые банковские системы такого рода в России уже работают, в качестве примера можно привести разработки компаний Светец и Ланит.
Значительно более сложной, совершенной и гораздо более редко встречающейся в реальных приложениях технологией является прямое преобразование текст-речь, при котором голосовое сообщение синтезируется по произвольному тексту. На рынке пока отсутствуют продукты, осуществляющие данное преобразование для русского языка, хотя ряд фирм, и в первую очередь BeST (Berkeley Speech Technologies) , мировой лидер в этой области, активно ведут такие работы. Преобразование текст-речь также осуществляется программным обеспечение, загруженным в специальные платы-преобразователи. Dialogic выпускает и такие платы.
На сегодняшний день многие исследовательские лаборатории значительно продвинулись в деле синтеза и распознавания речи, выйдя на субфонетический уровень языка, когда система в принципе может работать не с ограниченным набором фраз и слов, заранее занесенными в память, а со звуками, из которых строится речь.
Без трудностей никуда Системы компьютерной телефонии позволяют существенно автоматизировать труд офисных работников. Помимо уже упоминавшихся функций, система электронного офиса может обеспечивать автоматическое соединение звонящего извне абонента с нужным сотрудником, предоставлять услуги голосовой почты (каждый сотрудник получает свой голосовой почтовый ящик, где абонент может оставлять голосовые сообщения) , а также поддерживать единую среду обмена сообщениями. О последнем применении следует сказать особо. Речь идет о программном обеспечении, благодаря которому пользователь может единым упорядоченным образом знакомиться с содержанием всех полученных сообщений (электронных писем, голосовых и факсимильных сообщений) , немедленно принимать решение о форме ответа и тут же отправлять ответное сообщение, выбирая телефонный номер или электронный адрес из списка на экране компьютера.
Новая технология вызывает огромный интерес у российских пользователей. И многие фирмы сейчас активно работают на этом направлении, пропагандируя новую технологию и одновременно проводя адаптацию ее к техническим условиям нашей телефонной сети. Главной трудностью здесь является проблема тонального набора.
Как уже говорилось выше, все голосовые платы рассчитаны на распознавание ответов абонента в виде сигналов тонального набора. В России же (как и 85 процентах других стран) принята принципиально иная импульсная система. Все вышеперечисленные прикладные системы рассчитаны именно на тональный набор, что исключает из числа их потенциальных пользователей всех абонентов, не имеющих телефонных аппаратов с тональным набором (а таковых подавляющее большинство) . Выходом из положения является либо работа с распознаванием речи, либо применение преобразования пульс-тон. Преобразование пульс-тон в настоящее время выполняется только специализированными платами, однако Dialogic объявил о намерении в ближайшее время включить соответствующие функции в программное обеспечение, загружаемое в голосовые платы. О распознавании речи подробно говорилось выше. Специалисты CompTek International провели тестирование обеих технологий в условиях Московской телефонной сети и выяснили следующее. Преобразование пульс-тон выполняется успешно во всех случаях, когда соответствующие сигналы попадают на вход преобразователя. Проблема состоит в том, что характерные щелчки, сопровождающие импульсный набор, передаются не всеми московскими АТС. Успешность распознавания голоса зависит от того, какая цифра произносится, однако в среднем правильное распознавание обеспечивается в 75-80 процентах случаев.
CompTek International оптимистично оценивает будущее компьютерной телефонии в России. Гибкость и дешевизна аппаратной базы и легкость прикладного программирования дают основания считать, что компьютерно-телефонные системы в ближайшем будущем получат в нашей стране самое широкое распространение.
Речевая почта - voice-mail - вид электронной почты, предназначенный для передачи речевых сообщений.
Слияние телефонной сети с другими типами коммуникационных сетей привело к появлению новых сетевых служб. Речевая почта обеспечивает монолог пользователей, передавая речь в виде сообщений, которые до их востребования хранятся в памяти систем.
Речевая почта, именуемая также телефонной почтой, записывает речевое сообщение для последующей их выдачи адресатам. Для этого в абонентских системах предоставляются зоны памяти, именуемые почтовыми ящиками. Работает почта следующим образом. Пользователь набирает на телефонном аппарате либо другом типе абонентской системы номер службы телефонии. После речевого ответа службы пользователь набирает номер своего почтового ящика и пароль. Затем, он диктует телефонограмму. Это сообщение хранит и передает речевая почта, а выслушивает получатель. Кроме этого, последняя обеспечивает: •рассылку сообщений группам пользователей; •рекламу и справочное оповещение; •сбор объявлений, мнений; •проведение телеконференций; •хранение речевых сообщений-телефонограмм.
Создание речевой почты стало возможным при появлении аудиовидеосистем, снабженных микрофонами и динамиками. В отличие от обычной почты, речевая позволяет передавать речевые сообщения отсутствующим у рабочих мест партнерам и создавать Базы Данных (БД) , в которых хранятся рассматриваемые сообщения. Благодаря этому, речевые сообщения становятся такими же документами, что и бумажные. Подлинность этих сообщений определяется путем анализа речи, имеющей, как и отпечатки пальцев, уникальные характеристики.
Передача речевых сообщений, в отличие от обычных, очень проста, ибо нет необходимости в использовании клавиатуры или светового пера. Вместе с этим, она требует аналого-дискретного преобразования перед и дискретно-аналогового преобразования после передачи сообщения. Кроме этого, из-за большого объема речевых сообщений необходимо осуществление сжатия данных. При этом удается 30-секундную речь упаковать в 100 Кбайт памяти.
Организация речевой почты в скоростных сетях с маршрутизацией данных не представляет трудностей. Они возникают в сетях с селекцией данных из-за необходимости синхронизации потоков блоков данных. Однако эти трудности устраняются рядом способов. Например, использованием асинхронного способа передачи.
Речь - speech - вид коммуникативной деятельности Человека.
Эта деятельность связана с использованием при диалоге либо монологе естественного языка. При взаимодействии пользователя с абонентской системой речевой монолог либо речевой диалог обеспечивает передачу необходимых сведений в виде звука. Речь характеризуется фонемами и аллофонами. Генерация и восприятие речи осуществляется с помощью аналогового сигнала, передаваемого колебаниями звукового аппарата Человека. Для того, чтобы сохранить естественную натуральность речи необходимо использование сигнала полосой не менее 6-7 кГц.
Качество речи, записываемой и воспроизводимой устройствами, зависит от многих факторов. Но наиболее существенным из них является используемая полоса частот. Расширение этой полосы в сторону низких частот улучшает натуральность речи, а в сторону высоких частот - разборчивость отдельных звуков.
Что же касается скорости передачи речи после ее кодирования, то стандартами международного союза электросвязи для телефонии приняты следующие режимы: Режим 0. Передача узкополосной речи (до 3,4 кГц) со скоростью 64 кбит/с.
Режим 1. Передача нормальной речи со скоростью 64 кбит/с.
Режим 2. Передача речи (56 кбит/с) + передача данных (6,4 кбит/с) + синхронизация и управление (1,6 кбит/с) .
Режим 3. Передача речи (48 кбит/с) + передача данных (14,4 кбит/с) + синхронизация и управление (1,6 кбит/с) .
Стандарты определяют кодирование речи методом адаптивной дифференциальной импульсно-кодовой модуляции, описывают задачи управления и передачи звуковой информации.
Важным компонентом абонентской системы, воспринимающим речь, является речевой кодек - устройство, предназначенное для преобразования аналоговых сигналов, представляющих речь, в код. Рекомендации ITU определяют параметры и процедуры кодирования речевых сигналов с полосой от 50 до 7.000 Гц со скоростью 64 кбит/с для режимов трех типов: •тип 0 - для дискретной телефонии.
•тип 1 - для широкополосной передачи.
•тип 2 - для многофункциональной передачи.
Речь широко используется в: •обучающих системах и системах развлечения; •комментариях к прикладным программам; •речевой почте для передачи экстренных сообщений; •диспетчерских системах для информирования персонала о нештатных событиях; •звуковых командах и подсказках пользователям о допускаемых ими ошибках.
Системы речевого общения - СРО.
Под системой речевого общения будем понимать программно-аппаратный комплекс, позволяющий человеку общаться с компьютером на естественном языке.
Современные исследования в области СРО начаты примерно в начале 60-х годов. Первые промышленные СРО появились в конце 70-х годов. К настоящему времени созданы разнообразные СРО для разных сфер применения. Это связано с осознанием потенциальными потребителями преимуществ СРО: - удобство, простота и естественность процедуры общения, требующей минимума специальной подготовки; - возможность использования для связи с ЭВМ обычных телефонных аппаратов и существующей телефонной сети; устранение ручных манипуляций с одновременным увеличением скорости ввода информации (в 3-5 раз по сравнению с клавиатурным вводом) и разгрузка зрения при получения информации.
Цифровой сигнальный процессор (Digital Signal Processor - DSP) - специализированный быстродействующий процессор, выполняющий сложную обработку звукового сигнала в режиме реального времени. Звуковые эффекты типа Reverb, Chorus, а также такие виды обработки звука, как компрессия, распознавание и синтез речи, моделирование акустики помещений и т.п., реализуются обычно с помощью DSP. Сигнальный процессор может быть встроенным или внешним.
Улучшенный сигнальный процессор (Advanced Signal Processor - ASP) и сигнальный процессор Creative (Creative Signal processor CSP) - названия одного и того же цифрового сигнального процессора фирмы Creative Labs, используемого в некоторых платах типа Sound Blaster. Он обеспечивает реализацию дополнительных методов сжатия звука, увеличивает скорость сжатия, повышает надежность распознавания речи. На звучание встроенных FM- и WT-синтезаторов ASP влияния не оказывает.
Системы распознавания и синтеза речи, текста и изображений
1. Состав Технология включает совокупность математических методов, инструментальных и программных средств поддержки, специализированных технологий для решения прикладных интеллектуальных задач, в том числе принятия решений, диагностики, идентификации и прогнозирования, или содержащих задачи указанных типов, в том числе: •математических методов распознавания образов, прогнозирования, анализа и понимания информации, представленной в виде изображений и сигналов; •методов автоматизации синтеза и тестирования указанных информационных технологий; •методов решения индивидуальных (нестандартных или особо важных) , специализированных (для классов задач и предметных областей) задач в данной области и инструментальных средств широкого назначения, баз данных и баз знаний для поддержки разрабатываемых методов.
2. Назначение, основные функциональные показатели Данная группа информационных технологий предназначена для автоматизации, регуляризации и оптимизации выбора и применения алгоритмического и программного обеспечения при решении прикладных задач распознавания образов, прогнозирования, анализа и понимания информации, представленной в виде изображений и сигналов, а также разработки, исследования и реализации соответствующих автоматизированных вычислительных систем. Отличительной и принципиальной особенностью решаемых с помощью этих методов задач является невозможность использования классических математических (аналитических) моделей для формализации и представления исходных данных, которые могут задаваться числовыми массивами, изображениями, сигналами, вербальными описаниями или комбинацией указанных способов. Информация в этих задачах "плохая" по определению: ее характерными особенностями являются неполнота, противоречивость, слабая структурированность, неформализованность, нечеткость. В основе их решения лежат модели не чисто расчетные, а основанные на процедурах анализа и оценивания информации о задаче: главным образом, прецедентов, косвенных характеристик, доступных для измерения, логических и физических ограничений, контекстных и неявных знаний.
3. Область применения Математическая постановка задач распознавания образов, прогнозирования, анализа и понимания изображений и сигналов не зависит от предметной области и специфического вида объекта анализа. Именно поэтому критическая технология, реализующая методы и средства решения указанных задач, применяется в технической диагностике, неразрушающем контроле, дистанционном зондировании; экологическом мониторинге; прогнозировании хода и результатов лечения, диагностике в медицине; в геологии; для прогнозирования в химии и автоматизации научных исследований (обнаружение событий, поиск, восстановление и вывод зависимостей и эмпирических закономерностей) .
4. Основания для выбора Необходимость разработки данной технологии определяется тем, что методы распознавания образов, анализа изображений и прогнозирования лежат в основе информатизации подавляющего большинства отраслей промышленности, автоматизации научных исследований и социальной сферы; значительная часть перспективных высоких и наукоемких технологий использует или предусматривает использование этих методов. Анализ потребностей внутри страны показал, что системы такого типа в период 1996-2000 гг. могут тиражироваться в количестве до 100 тысяч в год. Экспортные возможности на 1996 год на мировом рынке прикладных интеллектуальных программных средств в системах такого класса оцениваются (при квалифицированном маркетинге) в 25-30 тысяч штук.
5. Состояние и тенденция развития Распознавание образов, анализ изображений и речи являются ведущим направлением прикладной информатики. В России получены фундаментальные результаты, позволяющие надеяться на относительно быстрое достижение крупных прикладных успехов при условии соответствующей координации и финансирования работ. В настоящее время разработкой предлагаемых методов занято около 10 тысяч российских ученых и специалистов. За рубежом в этой области работают около 200 тысяч человек.
Имеющийся сейчас в стране научный задел и опыт решения особо важных прикладных задач позволяет осуществить выход на международный рынок наукоемкой продукции и НИОКР. Разрыв между потенциальными возможностями теории и методами, реально используемыми при решении прикладных задач и создании систем распознавания образов и анализа изображений, чрезвычайно велик. В значительной мере такое положение объясняется недостаточным финансированием и плохим материально-техническим обеспечением. В ближайшие несколько лет это может привести к существенному отставанию информатизации общества в России от мирового уровня.
Oki разрабатывает самую миниатюрную в мире БИС для синтеза речи Компания Oki Electric Industry объявила о разработке новой БИС для синтеза речи, которая по размерам вдвое меньше современных чипов. Опытные поставки БИС MSM9831 начнутся в марте.
По мнению специалистов Oki, ИС MSM9831, скорее всего, найдет свое применение в приложениях с системами с управлением речевыми командами, в навигационных системах транспортных средств и в системах имитации звуковых эффектов.
Этот чип, благодаря использованию алгоритма нелинейной 8- разрядной импульсно-кодовой модуляции, может генерировать звук, эквивалентный звуку, получаемому с помощью 10- разрядного алгоритма прямой импульсно-кодовой модуляции. Он позволяет получать звук на частоте от 4 до 16 кГц, воспроизводить до 31 канала. На частоте 4,0 кГц чип MSM9831 обеспечивает 11 секунд звучания.
Размер чипа - 6,8х5,0 мм, он имеет 8 выводов. Уменьшение его размера стало возможным благодаря использованию последовательного интерфейса, благодаря чему число внешних контактов было сокращено вдвое. Такой миниатюрный размер позволяет встраивать чип MSM9831 во многие современные портативные устройства, такие как цифровые камеры, персональные электронные секретари (PDA) и портативные CD- плейеры.
Дальнейшие планы развития.
Задача синтеза речи, как видно из предыдущих материалов, является частью, одной из подзадач компьютерной телефонии. Поэтому ее так и следует рассматривать. В этом направлении уже создано достаточно много, но, к сожалению, универсальные программы синтеза русской речи пока не получили широкого распространения. Это связано с тем, что во - первых разработка таких программ требует больших затрат времени квалифицированных специалистов, таким образом деньги вложенные в разработку могут начать приносить прибыль только через несколько лет, и коммерческие фирмы не хотят этим заниматься. Работа в этом направлении ведется в основном в институтах (МГУ) . Во - вторых, использование голосовых технологий на базе сигнальных процессоров фирмы Dialogic требует достаточно крупных капиталовложений (от 800$) . Это является серьезным барьером для многих фирм зачастую проще взять на работу девочку для обзвонки абонентов, чем покупать Software и Hardware.
Другое применение программ синтеза речи - чтение текстов незрячим людям. На Западе такие системы имеет практически каждый незрячий. В России это пока недостижимо из - за их финансового положения.
Выход здесь один - снижать цены. Но и при сегодняшнем положении вещей есть области применения, где компьютерная телефония незаменима. Например, одна из них предвыборная агитация. В компьютер закладывается список номеров или условие, по которому телефон будет сгенерирован, а так же наговаривается текст предвыборной программы конкурента. Систему настраивают так, чтобы она начала обзвонку и выдачу сообщений, допустим с 1.00 до 6.00. Естественно, за этого кандидата уже никто голосовать не станет. Такая система уже была опробована и показала хорошие результаты на недавних выборах в С. - Петербурге.
Другое направление развития - увеличение количества каналов на одной плате в России упирается в то, что многие станции вообще не поддерживают функции, предусмотренные системой (АОН) и не имеют ресурсов для подключения этих плат. Тут вообще ничего нельзя сделать. Оставляет желать лучшего и качество связи.
В отношении Hardware систем компьютерной телефонии сейчас ведутся разработки по снижению энергопотребления, миниатюризации и увеличению быстродействия.