Вход |  Регистрация
 
 
Время электроники Понедельник, 5 декабря
 
 


Это интересно!

Новости


Обзоры, аналитика


Интервью, презентации

Ранее

Виртуальное лобовое стекло позволяет видеть вперед сквозь автомобили

Инженеры из Португалии создали систему, которая с помощью камер и полупрозрачного экрана позволяет видеть «сквозь» впереди идущие машины и совершать безопасные обгоны на трассах. Позже разработчики намерены выводить изображение вместо дополнительного экрана на лобовое стекло с помощью проекторов.

Создан автомобильный «самописец» для экономии бензина и вызова экстренных служб

Легко подключаемое к бортовому компьютеру устройство Automatic Link позволяет экономить на топливе, следить за работой двигателя и вызывать экстренную помощь при попадании в ДТП. Гаджет также поможет найти автомобиль на парковке.

"Умные" велоколеса с мотором, GPS, и Bluetooth появятся в ноябре

В рамках проекта Copenhagen Wheel ведется разработка «умного» колеса, оснащенного электромотором с функцией рекуперативного торможения: подзарядки аккумулятора при снижении скорости. Кроме того, на колесо, позволяющее превратить обычный велосипед в "гибридный", установлены GPS-навигатор, модуль Bluetooth и различные датчики.

Реклама

По вопросам размещения рекламы обращайтесь в отдел рекламы

Реклама наших партнеров

 

25 октября 2013

Компьютеры наконец услышат людей

Разработан новый алгоритм идентификации личности и распознавания речи, который может совершить революцию в способах управления компьютером. Впервые машины смогут узнавать людей, говорящих на любом языке, а в перспективе и понимать их.

И

сследователи из Массачусетского технологического института нашли новый способ анализировать различия между голосами разных людей, что позволяет надежно идентифицировать людей по голосу, отсеивать несущественную для распознавания смысла сказанного информацию. Новый алгоритм не требует значительных вычислительных ресурсов и может работать без дополнительного обучения компьютера.

В настоящее время все мало-мальски надежные системы идентификации и распознавания речи требуют обучения. Проще говоря, сначала человек произносит слова, дает возможность машине узнать особенности произношения конкретного человека, после чего возможно распознавание его речи. Точность идентификации по речи и распознавания при этом зависит от того, сколько времени и сил потратил человек на обучение своего электронного помощника. Понятно, что данная методика очень трудоемка, к тому же она почти бесполезна во многих очень перспективных сферах применения, например обеспечении доступа по голосовому паролю и переводе беседы двух людей.

Для решения этой проблемы нужен алгоритм, который мог бы отсеивать индивидуальные особенности речи людей. Однако, для создания звукового портрета одного оратора, современные компьютеры анализируют более 2000 различных звуков, многие из которых могут соответствовать искомым согласным и гласным звукам, а многие нет. Для описания каждого из этих звуков, компьютеру может понадобиться около 60 переменных, таких, например, как сила акустического сигнала в различных частотных диапазонах. В результате, за каждую секунду речи система должна обрабатывать 120 000 значений, что требует больших вычислительных возможностей, недоступных мобильным устройствам. Поэтому и требуется индивидуальное обучение компьютера распознаванию речи.

Исследователи из MIT продемонстрировали новый алгоритм, сокращающий число переменных, и позволяющий распознавать речь без необходимости обучения. Суть технологии заключается в особом методе распознавания индивидуальных особенностей речи, названном i-vector. Новая технология дает такое же качество анализа голоса, как и системы, требующие обучения.

Чтобы приблизительно понять, как работает i-vector, представьте график, например показывающий зависимость потраченных на работу часов от полученной заработной платы. Обычный график – это диагональная линия в двумерном пространстве. А теперь представьте, что график повернули вокруг своей оси таким образом, что все линии стали параллельны линии взгляда. Таким образом, все линии графика слились в одну, линия Y стала не нужна, и все изменения в графике описываются одной линией X.

Схожим образом i-vector обнаруживает новые оси для описания информации, которая характеризует звуки речи в 120000-мерном пространстве. Сначала алгоритм находит ось, которая описывает большую часть акустической информации, затем следующую ось, содержащую наибольшее количество информации и так далее. В результате количество информации, добавляемой с каждой новой осью, постепенно уменьшается.

В ходе экспериментов, ученые MIT установили, что новому алгоритму достаточно всего 100-мерной акустической картинки, чтобы описать все возможные комбинации звуков человеческой речи. Более того, в определенных случаях с помощью i-vector можно уменьшить количество этих измерений до 3-х.

Для каждой секунды речи, i-vector создает одну виртуальную точку в трехмерном пространстве, а затем определяет границы кластеров точек, которые характеризуют особенности речи. Следующий шаг заключается в определении границ кластеров точек (эти кластеры соответствуют речи определенного оратора). Затем алгоритм выявляет кластеры, которые близки друг другу и сливает их в один, постепенно остаются лишь очень непохожие кластеры, которые наверняка являются речью разных людей.

Технология i-vector позволяет идентифицировать говорящего за время менее 30 секунд. Понятно, что новую технологию прежде всего будут применять спецслужбы: для обнаружения скрывающихся людей или автоматического просеивания сетей в поисках конкретных собеседников и конкретных тем. Новый алгоритм найдет широкое применение и в повседневной жизни, например компьютеры смогут опознать хозяина по голосу, а значит отпадет проблема забытого пароля. Также система анализа особенностей речи может помочь в разработке новых технологий распознавания речи и автоматического перевода звуковых сигналов речи в электронные: команды или буквы на мониторе.

Читайте также:
Создано дешевое устройство для управления компьютером при помощи глаз
Революционный интерфейс: создана замена клавиатуре и мышке

Источник: CNews

Комментарии

0 / 0
0 / 0

Прокомментировать







 
 
 




Rambler's Top100
Руководителям  |  Разработчикам  |  Производителям  |  Снабженцам
© 2007 - 2016 Издательский дом Электроника
Использование любых бесплатных материалов разрешено, при условии наличия ссылки на сайт «Время электроники».
Создание сайтаFractalla Design | Сделано на CMS DJEM ®
Контакты