Видеонаблюдение научили распознавать по губам

Чтение по губам — одна из самых сложных задач для искусственного разума. Изначально этот принцип распознавания, как и сама новость – покажутся странными, но это лишь на первый взгляд. В Великобритании достигли прогресса в технологии распознавания речи по губам на видеоизображении. Исследователи утверждают, что их достижения позволят распознавать тех, кого снимают камеры видеонаблюдения.

Технология автоматического визуального распознавания речи, созданная доктором Хелен Беа и профессором Ричардом Харви, может применяться везде, где без неё нельзя понять, что говорят люди в кадре. Уличные камеры ведут съёмку в шуме проезжающих машин, а панорамные показывают тех, кто находится далеко от микрофона. Где-то звук вообще не записывается. Во всех этих случаях автоматическое чтение по губам многократно повысит эффективность видеонаблюдения.

«Чтение по губам — одна из самых сложных задач для искусственного разума», — говорит Ричард Харви. Чтобы осознать масштабы проблемы, достаточно представить, насколько одинаково выглядят губы, произносящие звуки «п», «б» и «м». Поэтому исследователи из Университета Восточной Англии так гордятся своими достижениями. Им удалось научить компьютер расшифровывать речь лучше, чем это делает человек, владеющий навыком чтения по губам.
1
Система распознавания речи по мере работы постепенно «изучает», как люди шевелят губами. Исследователи «обучают» систему, используя движение губ одного человека, а затем тестируют её на другом человеке. На каждом этапе работы команда имеет базу данных на 12 человек и использует список примерно из 1000 слов. Это даёт правильный результат в 80% случаев для одного говорящего и в 60% — для двух. В системе также используются элементы языкового моделирования — для того, чтобы приучить компьютер понимать контекст произносимых слов.

«Видеонаблюдение — это пока ещё вызов: множество факторов работает в нём против нас, — говорит Ричард Харви. — Например, на большинстве записей губы имеют достаточно маленький размер и скорости кадров не хватает, чтобы фиксировать все их движения».

В результате учёные пока не готовы предложить индустрии безопасности готовый продукт, но в будущем, несомненно, сделают это. И тогда у новой технологии начнётся этап юридических, а не технических сложностей. Ведь запись разговоров — это, во многих случаях, более сильное вторжение в личное пространство человека, чем видеонаблюдение. Здесь показателен пример лёгких поездов штата Нью-Джерси: пассажиры спокойно воспринимали видеонаблюдение, но возмутились, когда в вагонах начали внедрять аудиозапись разговоров.