Как работают программы распознавания речи?

Как работают программы распознавания речи?


30.06.2018
/
oberset

Распознавание речи компьютером уже не является редкостью, а технологии, позволяющие управлять мобильными телефонами или навигаторами голосом, развиваются семимильными шагами. Далее вы прочтете о том, какие возможности дает нам функция распознавания речи сегодня и что ожидает нас в ближайшем будущем.

Как работает распознавание речи?

Распознавание речи выполняется программами, которые могут быть либо установлены на компьютер, либо «прошиты» в памяти мобильных гаджетов. С технической точки зрения любое распознавание речи осуществляется по одному и тому же принципу: микрофон воспринимает звуковые волны человеческого голоса, а система распознавания речи преобразует их в текст, который впоследствии сопоставляется с заранее заданными образцами. В подобных программах, как правило, таких образцов довольно много. Существуют два типа программ распознавания речи:

Привязанные к говорящему. Эти программы постоянно обучаются и со временем начинают понимать голос «своего хозяина» все лучше и лучше. Чем чаще пользователь работает в программе, тем лучше она понимает его. К счастью, обучение происходит довольно быстро – примерно через 20 минут программа научится неплохо понимать вас.

Независимые от говорящего. Вы можете начинать говорить сразу – программа будет реагировать на голосовые команды. В отличие от первого типа, этим программам не нужно учиться понимать вас. Наоборот, вам надо научиться говорить так, чтобы программа вас понимала.

Для чего используют программу распознавания речи?

Не думайте, что если вы поставите программу распознавания речи, то вам больше не понадобятся клавиатура и мышь, однако работа с устройством существенно облегчится.

Диктовка – с помощью программ распознавания речи многие пользователи надиктовывают тексты документов. Такая возможность актуальна, например, для медиков, проводящих обследование (в ходе которого руки обычно заняты) и одновременно протоколирующих его результаты. Для обычного пользователя, которому набивать текст по какой-либо причине сложно (или просто лень) она также может оказаться полезной.

Ввод команд – пользователи могут использовать «распознавалку» для ввода команд, то есть проговариваемое слово будет восприниматься системой как щелчок клавиши мыши. Пользователь командует: «Открыть файл», «Отправить почту» или «Новое окно», а компьютер выполняет соответствующие действия. Это особенно актуально для людей с ограниченными физическими возможностями – вместо мыши и клавиатуры они смогут управлять компьютером при помощи голоса. Большую популярность голосовые команды получили в автомобильных навигаторах, которым можно продиктовать адрес для составления маршрута.

Что потребуется для распознавания речи?

Программа распознавания речи – англоязычные пользователи Windows могут воспользоваться, например, Dragon Naturally Speaking или IBM Via Voice. Русский язык понимают программы «Горыныч» и «Диктограф».

Микрофон или гарнитура (гибрид наушника и микрофона) – для «попадания» слов в компьютер. В мобильных устройствах обычно используется встроенный микрофон.

В каких устройствах используется функция распознавания речи?

Функция распознавания речи может использоваться не только в ПК, но и во многих других устройствах. Это особенно актуально, если у «гаджета» компактная клавиатура с маленькими клавишами (или вовсе ее нет).

Мобильные телефоны – уже давно существует возможность голосового управления.

Автомобильные навигаторы – новые навигационные устройства позволяют голосом ввести пункт назначения. Если произносить слова отчетливо и, по возможности, в тишине, то эта функция работает очень хорошо. Хотя данная операция занимает столько же времени, сколько и клавиатурный ввод, но во время движения в любом случае более безопасно и удобно использовать голосовое управление. Правда, совсем без рук здесь не обойтись – для запуска голосовой команды нужно нажать на экранную кнопку.

Автомобили – некоторыми новыми марками автомобилей, например, Mercedes, Audi, Toyota, Ford или BMW, можно управлять при помощи голоса (правда, набор команд ограничен). Например, в некоторых моделях BMW после нажатия кнопки, расположенной на руле, активируются функции голосового управления стереосистемой или системой навигации.

Мультимедийные диски для изучения иностранных языков – некоторые обучающие программы проверяют правильность произношения. Программа просит вас прочитать определенное предложение и, обработав с помощью функции распознавания речи результат, сообщает, все ли у вас в порядке с произношением.

Какие проблемы возникают при работе с программами-«распознавалками»

Управление устройствами или диктовка текстов выполняются достаточно хорошо, но, к сожалению, не идеально. Слова не всегда звучат одинаково – самая большая трудность при распознавании речи заключается в том, что ни один человек не произнесет одно и то же слово одинаково, даже если очень постарается. Все люди говорят по-разному – поэтому программа распознавания речи будет функционировать более четко, если новый пользователь сначала немного «потренирует» ее. Правда, это не всегда возможно, а иногда даже и не нужно, например, при использовании программ, не привязанных к собеседнику. Многие программы распознавания речи умеют настраиваться на нового пользователя автоматически.

Фоновые шумы могут существенно искажать звучание произносимого слова. Это в значительной степени ограничивает функции распознавания речи, а в многолюдных или зашумленных местах и вовсе делает его невозможным.

Слова с одинаковым (или очень похожим) звучанием – особенно тяжело приходится программам распознавания речи с так называемыми омофонами – словами, которые произносятся практически одинаково, а пишутся по-разному («лез» и «лес», «рот» и «род»). Значение таких слов программа должна определять по контексту предложения.

Каковы перспективы функции распознавания речи?

В мобильных устройствах роль функции распознавания речи существенно возрастает, ведь набивать текст на маленьких клавиатурах мобильных телефонов весьма утомительно.

Можно предположить, что со временем все большее количество устройств будет понимать человеческий голос. Поэтому не удивляйтесь, если однажды утром ваша кофе-машина не только спросит вас, что приготовить – капуччино или эспрессо – но и поймет ваш ответ.



Как работает видеокарта компьютера?

Видеокарта компьютера принимает от центрального процессора данные, рассчитывает на их основе информацию об изображении и генерирует сигналы, управляющие монитором.

ScanFS — альтернативный инструмент поиска файлов и папок для Windows

ScanFs — продвинутая утилита, предназначенная для быстрого поиска файлов и папок на диске с применением различных фильтров.

Поиск и проверка значений в массиве на Javascript

Примеры поиска значений в массиве с помощью методов find, findIndex, includes, every и других.