Есть конспект?
Пришлите нам!

Прорыв в системах для автоматического распознавания речи


В компании Intel была разработана система для распознавания речи, а именно, для управления программными средствами компьютера с помощью произносимых команд. Ее использование позволяет существенно повысить синхронизацию при реагировании компьютерной системой на произносимые команды, благодаря чему повышается точность процесса распознавания речи.

Имеющиеся в настоящее время программы распознавания речи распознают отдельные произносимые слова или содержащиеся в словах фонемы для идентифицирования произносимых команд. Застой сохранялся в этом направлении по сути 5 лет. За все это время на рынке не появилось качественно новых программных продуктов, способных эффективно распознавать речь. Эти программы приходилось обучать сутками напролет, чтобы они настроились на произношение пользователя, при этом произносить слова нужно было чуть ли не по буквам с большими задержками. Куда быстрее оказывалось простое набивание на клавиатуре.

В этих программах обработка произносимых команд обычно осуществлялась с помощью т.н. речевого механизма. Независимо от используемых отдельных терминов или фонем речевой механизм должен быть вызван прикладной программой, для которой требуется обслуживание по распознаванию речи.

Операционные системы могут включать в себя обслуживающие программы Прикладного Программного Интерфейса (ППИ), которые обеспечивают распознавание речи. Прикладная программа может включать в себя вызов речевого ППИ, либо распознавание речи может обеспечиваться извне с помощью второй прикладной программы, которая перехватывает речь и подает первой прикладной программе моделированные ключи или команды на основании речевого ввода.

Если речевой ППИ содержит вызов прикладной программы, то для него требуется, чтобы данная прикладная программа полностью знала данный речевой ППИ, но, что более важно, ППИ принуждает данную прикладную программу обрабатывать входные данные из многих источников и синхронизировать эти входные данные. В любой данный момент времени прикладная программа может принять произнесенную команду, может принять обратный сигнал от речевого ППИ и может также обрабатывать сенсорные входные данные, такие как соответствующие нажатия клавиш. Эта усложненность делает прикладную программу подверженной ошибкам состояния. Причем вторая прикладная программа для перехвата произносимых команд не всегда может быть возможной и ей нужен внешний сервер, полностью знающий каждую обслуживаемую им прикладную программу.

Поэтому стояла потребность в такой системе распознавания речи, которая действует с речевым механизмом, не имея при этом проблем синхронизации. Помимо этого, была потребность в такой системе, которая сможет направлять прикладные команды, при реагировании либо на речь, либо на сенсорный ввод. Причем желательно обеспечить эту систему распознавания речи обладанием относительно высокой надежности с точки зрения возможности устойчивого распознавания основных команд.

Меррилл Джон из компании Intel, придумавший новую систему, построил ее работу на основе того, что способ распознавания речи предусматривает обеспечение речевого механизма некоторым словарем наборов команд. Соответствующий набор команд для текущей прикладной программы закладывают в речевой механизм.

В системе также присутствует механизм соотнесения речевых единиц с идентификатором. Идентификатор также соотносят с действием, предпринимаемым при реагировании на данную речевую единицу. Для данной произносимой речевой единицы определяют идентификатор, и идентификатор обеспечивают для некоторого объекта программного обеспечения.

Технический результат достигается за счет дополнительного соотношения речевых команд с идентификаторами, соотношения идентификаторов с действиями, предпринимаемыми при реагировании на каждую речевую команду, определения идентификатора для произносимой речевой команды, направления идентификатора в объект программного обеспечения и конкретизации некоторого объекта в контейнере и сообщения указанного идентификатора указанному объекту при произнесении определенной речевой команды.


Dr.BoT© Konspektiruem.ru