Toyota сможет распознавать ваш голос и настроение

Amazon запатентовала распознавание самочувствия и настроения по голосу

Mr. Robot / USA Network, 2017

Компания Amazon запатентовала технологию, с помощью которой система анализа речи сможет распознавать больного человека. Помимо простуды, которую предлагается определять по кашлю и хрипоте, система также сможет распознать настроение пользователя. Предполагается, что эту технологию компания будет использовать в своем голосовом помощнике Alexa, сообщает Ars Technica.

Amazon представила голосовой помощник Alexa в 2014 году. Помимо устройства Amazon Echo, для которого помощник разрабатывался изначально, компания использует его в самых разных устройствах, от микроволновок до автомобилей. Технология анализа речи компании постоянно дорабатывается: к примеру, год назад голосовой помощник научился давать персонализированные ответы разным пользователям, а недавно разработчик-любитель научил Alexa отвечать на жестовые запросы.

Теперь компания запатентовала диагностику заболеваний по голосу пользователя. В патенте, который был одобрен 9 октября, обозначено, что технология распознавания речи для такой диагностики будет использоваться в устройствах Amazon (например, той же колонке Echo). Разумеется, подобная диагностика не заменит врачебную: анализируя временные и пространственные параметры речи, а также изменение голоса из-за кашля и больного горла, Alexa сможет, к примеру, уточнить у пользователя, не болен ли он, и предложит заказать ему лекарства. Что касается анализа эмоций, то в этом случае у системы будет доступ не только к голосовым ответам, но и к истории поиска пользователя: анализ будет дополнен информации о последних действиях в сети. С помощью этого система сможет определить, к примеру, что человеку грустно или скучно, и спросить, как у него дела и чем он хотел бы заняться; также голосовой помощник сможет предложить посмотреть фильм. В перспективе анализ настроения можно также использовать для диагностики психических расстройств, но подробно в патенте об этом не говорится.

Пока что неизвестно, будет ли запатентованный метод будет использоваться в Alexa. В любом случае, Amazon сперва необходимо убедиться в том, что использование и хранение такой информации для дальнейшего обучения системы не противоречит конфиденциальности данных.

Amazon — не единственные, кто использует анализ речи для определения болезней: правда, в основном, все предложенные на данный момент решения касаются диагностики психических расстройств и, в основном, по содержанию произнесенного и семантическим характеристикам. Например, в этом году американские разработчики представили метод предсказания психоза и диагностики депрессии по речи.

Приложение может распознавать настроение пользователя по его голосу

Специалисты британской компании EI Technologies разработали интеллектуальную систему Xpression, которая улавливает изменения голоса человека. Установленная на смартфоне программа распознает настроение владельца и может отправлять данные лечащему врачу, тем самым предупреждая развитие депрессии.

Анализ эмоций

Создатели Xpression Мэтт Добсон и Дункан Барклай специализируются на анализе голоса. Их программа может угадывать пять эмоциональных состояний: спокойствие, счастье, грусть, злость и тревогу. Приложение фиксирует в течение дня, как изменяются эмоции человека, и отправляет эти данные по электронной почте психологу.

Программа работает в связке с удаленным сервером и посылает на него фрагменты речи длиной 200 миллисекунд. Там происходит анализ данных: громкость голоса, его сила, изменение высоты тона и темпа речи, что позволяет системе точно оценить эмоциональное состояние человека.

Психолог Национальной службы здравоохранения Великобритании Адриан Скиннер считает, что общество давно нуждается в подобной технологии.

Во время депрессии люди склонны переставать заполнять дневники настроения. Это приложение поможет нам лучше отслеживать признаки депрессии изо дня в день, контролируя настроение пациента“, – отмечает г-н Скиннер.

Мэтт Добсон из EI Technologies рассказал РБК daily, что Xpression будет доступно для потребителей в ближайшие 12 месяцев.

Мы бы хотели, чтобы каждый человек смог воспользоваться нашим приложением, так как мы убеждены, что многие люди смогут извлечь выгоду от его использования. Было бы здорово, если Xpression будет использоваться по всему миру, но мы не ожидаем, что кто-нибудь переведет его, скажем, на русский язык, прежде чем мы запустимся“, – добавил г-н Добсон.

Трудности перевода

По словам аналитика рынка мобильных гаджетов Михаила Фадеева, в основе подобного рода решений лежат системы искусственного интеллекта, работающие по принципу нейронной сети.

Схожий механизм используется в системах голосового ввода (Siri), рукописного ввода текста, а также в системах распознавания печатного текста (OCR). Система изначально “натаскивается” производителями на большом массиве эталонных образцов. Например, множество (сотни, тысячи человек) проговаривают эталонные фразы. Перед тем как использовать такую систему, каждый конкретный человек должен в течение какого-то времени “приучить” ее к специфике своего голоса – произносить те же самые эталонные фразы в своем обычном повседневном состоянии. В дальнейшем программа следит за отклонениями тембра голоса и его громкости, изменениями промежутков между звуками и словами, сравнивает все это с профилем человека и на основании отклонений и изменений делает вывод о настроении, – говорит г-н Фадеев. – Например, когда человек нервничает, он в подавляющем большинстве случаев начинает говорить громче и быстрее“.

Эксперт добавил, что данное приложение требует очень тщательного подхода к внедрению поддержки различных языков: дело в том, что британцы, русские, китайцы и представители всех остальных народов, как правило, говорят с разной скоростью. А те же итальянцы, например, в среднем говорят куда громче британцев. Кроме того, люди разного возраста и разных полов также говорят с различными интонациями.

Нишевой прорыв

По словам коммерческого директора компании “Вобис Компьютер” Михаила Чернышова, в профессиональной сфере технологии анализа голоса используются не один десяток лет.

Яркий пример – израильская компания Nемеsуsсо, чьи решения применяются и в государственных, и в частных структурах. Причем при анализе возможно распознавание большого числа самых разных оттенков эмоционального состояния человека, от уровня стресса до смущения, – рассказывает г-н Чернышов. – У Xpression есть одно весомое преимущество. Скажем так, это первая на моей памяти разработка в области анализа голоса, способная приносить пользу на уровне обывателей. Заметьте, продукт EI Technologies – это не развлекательный сервис, а серьезное нишевое предложение с конкретной целевой аудиторией“.

Если вы заметили ошибку в тексте новости, пожалуйста, выделите её и нажмите Ctrl+Enter

Методы распознавания речи, современные речевые технологии

Рубрика: Информационные технологии

Дата публикации: 28.09.2020 2020-09-28

Статья просмотрена: 203 раза

Библиографическое описание:

Казачкин А. Е. Методы распознавания речи, современные речевые технологии // Молодой ученый. — 2020. — №39. — С. 6-8. — URL https://moluch.ru/archive/277/62675/ (дата обращения: 17.12.2019).

В данной статье мы проведем обзор развития систем распознавания речи, рассмотрим основные принципы их построения, а также актуальные области применения и перспективы развития систем распознавания речи.

В настоящее время существуют многочисленные технические средства, способные распознавать произносимые речевые сообщения: компьютеры, автомобили, телефоны и др.

Что же такое распознавание речи? На первый взгляд, все кажется очень просто: человек произносит слово (фразу) — техническая система реагирует на него: либо выполняет команду, содержащуюся в слове (фразе), либо набирает диктуемый текст.

Современные системы распознавания речи дают возможность пользователям диктовать слова (фразы) в обычной разговорной манере. Однако процесс непрерывного распознавания речи, дающий до 95 % качества распознавания при оптимальных условиях, все-таки дает на 100 знаков 4–5 ошибок. Около 200 ошибок на странице формата A4 — слишком много для профессиональной работы.

Как правило, система распознавания речи состоит из двух моделей: акустической и лингвистической.

Компьютер записывает звук речи в виде цифрового сигнала и делит его на аудиофрагменты длительностью несколько миллисекунд. Акустическая модель отвечает за преобразование речевого сигнала в набор признаков, в которых отображена информация о содержании речевого сообщения. Программа выполняет сложный анализ речи, сравнивая аудиофрагменты с записанными в память речевыми образцами.

Лингвистическая модель анализирует информацию, получаемую от акустической модели, и формирует окончательный результат распознавания. На основе вероятностного расчета компьютер определяет, что именно мог произнести пользователь. В основе модели лежит понятие фонемы — наименьшей акустической единицы языка. В процессе обучения, компьютер распознает наиболее важные признаки произношения пользователем фонем и записывает полученные данные в виде профиля пользователя. Для таких систем важно, чтобы в дальнейшем во время диктовки пользователь, по возможности,

Возможности современных технологий

Увеличение вычислительных мощностей мобильных устройств позволило создать для них программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, Siri, голосовой переводчик Google Translate, Алиса и т. д. Эти приложения способны распознавать фразы, произнесенные пользователем, и выполнять команду, либо переводить их на другие языки.

Интеллектуальные речевые системы, позволяющие автоматически синтезировать и распознавать речевой сигнал, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивных телефонных приложений в настоящее время не веяние моды, а необходимость. Снижение нагрузки на операторов контакт-центров, и как следствие: сокращение расходов на оплату труда и повышение производительности систем обслуживания — вот только некоторые преимущества, доказывающие целесообразность использования подобных продуктов.

Таким образом, в приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

Проблемы развития систем распознавания речи

Рассмотрим некоторые аспекты, препятствующие глобальному решению проблемы качественного распознавания речи.

1. Темп речи пользователей варьируется в широких пределах, часто в несколько раз. При этом различные звуки речи растягиваются или сжимаются не пропорционально. Например, гласные изменяются значительно сильнее, чем полугласные и особенно смычные согласные. Для так называемых щелевых звуков есть свои закономерности. (Полугласные — это звуки, при генерации которых необходимо участие голосовых связок, как и для гласных звуков, но сами они в обиходе считаются согласными). Образование щелевых звуков связано с шипением и прочими эффектами турбулентности в органах артикуляции. Это свойство называется временной нестационарностью образцов речевого сигнала.

2. Произнося одно и то же слово или фразу в разное время, под влиянием различных факторов (настроения, состояния здоровья и др.), мы генерируем заметно не совпадающие спектрально-временные распределения энергии. Это справедливо даже для дважды подряд произнесенного слова. Намного сильнее этот эффект проявляется при сравнении спектрограмм одной и той же фразы, произнесенной разными людьми. Обычно этот эффект называют спектральной нестационарностью образцов речевого сигнала.

3. Изменение темпа речи и четкости произношения является причиной коартикуляционной нестационарности, означающей изменение взаимовлияния соседних звуков от образца к образцу.

4. Проблема кластеризации слитной речи: в непрерывном речевом потоке трудно распознать речевые единицы из-за неточного определения границ.

Это лишь часть причин, препятствующих полной реализации систем распознавания речи.

Области применения систем распознавания речи

Основными областями применения систем распознавания речи я выделил:

1. Автоматизированный пользовательский интерфейс. На сегодняшний день для многих людей общение с компьютером все еще вызывает затруднения. Системы распознавания речи позволяют преодолевать эти трудности. Преимущество систем распознавания голоса состоит в том, что они намного быстрее любых других типов интерфейсов. Голосовая программа электронной почты позволяет включать компьютер, диктовать и отправлять сообщения, не прикасаясь к мыши и клавиатуре. Также люди с физическими недостатками получат более эффективный способ взаимодействия с компьютером.

Наиболее очевидное использование системы распознавания слитной речи заключается в создании систем автоматического стенографирования, которые могут заменять секретарей при диктовке голосом текстов писем, заметок в ежедневник, докладов. В таком случае происходит не только экономия за счет сокращения работы стенографиста, но и повышение степени конфиденциальности информации.

2. Управление мобильными устройствами. Известно, насколько неудобно и опасно использование мобильных телефонов с обычным (тактильным) способом набора номера за рулем. Поэтому в последнее время популярностью пользуются мобильные телефоны с голосовым набором. Достаточно произнести имя абонента, и соединение произойдет автоматически. Аудиосистемы контроля и управления уже применяются в автомобилях некоторых производителей. Владелец автомобиля голосом подает команды управления температурным режимом, радио, навигационной системой, которые воспринимают голос и выполняют команды (DIVO и VoiceCommander).

3. Информационные услуги. Технология распознавания голоса быстро изменила рынок телефонных услуг. Системы, распознающие разговорную речь, работают в информационных телефонных центрах. Эти системы позволяют автоматизировать диалог с клиентом, в результате чего отпадает необходимость в огромном количестве операторов, принимающих телефонные звонки, и избавляя клиентов от длительного ожидания освободившегося оператора на линии.

4. Интерфейсы разграничения доступа. За последнее десятилетие области применения таких систем значительно расширились и продолжают расширяться. Они применяются, в частности, для контроля ограниченного доступа к объекту с помощью распознавания лица и речи человека, выполнения финансовых операций при помощи речи и сенсорных экранов банкоматов.

В заключении данной статьи, хотел бы сказать Ограничения применения систем распознавания речи в рамках наиболее традиционных приложений позволяют сделать вывод о необходимости поиска потенциально новых решений в области распознавания речи. В ближайшее десятилетие задача распознавания и понимания естественной речи вне зависимости от языка и диктора будет занимать центральное место в речевых технологиях.

В настоящее время в ХНУРЭ разрабатывается новый метод автоматического распознавания речевых сигналов в реальном масштабе времени, основанный на бионическом принципе анализа сигналов.

Ссылка на основную публикацию