Группа исследователей из Массачусетского технологического института в сотрудничестве с Microsoft и Adobe, разработала технику воссоздания речи на основе анализа вибрации предметов в видеозаписи. Для воссоздания речи достаточно записи с частотой 60 кадров в секунду и наличия в кадре легко вибрирующих предметов, таких как упаковка от чипсов, стакан воды и даже листья комнатных растений.

Техника воссоздания речи по вибрации предметов не нова и активно используется спецслужбами для организации подслушивания в помещениях по вибрации оконного стекла или предметов. Но до сих пор для воплощения данной техники требовались специализированные высокочувствительные устройства, такие как лазерные микрофоны. Новый метод позволяет обойтись обычной видеокамерой с разрешением порядка 700x400.

Суть метода в том, что для того чтобы уловить колебания предмета в несколько микрометров, которые невозможно заметить через перемещение пикселей (изменение в 5/1000 пикселя), используется анализ изменения цвета отдельных пикселей граничных областей предметов. Камера не улавливает малые вибрации на уровне перемещения пикселей, но отражает их через аберрации цветового спектра. Изначально эксперименты проводились с использованием высокоскоростных камер, способных снимать с частотой 2-6 тысяч кадров в секунду, но по мере усовершенствования техники разработчики смогли обеспечить разбор речи и при съёмке обычной DSLR-камерой, выдающей 60 кадров в секунду.

Для доведения частоты выборки до значений, пригодных для анализа звуковых колебаний использовалась особенность вывода данных с сенсора цифровых камер. Данные с сенсора выдаются не одновременно, а построчно, те каждая следующая строка сканируется с небольшим запаздыванием, что позволяет рассматривать разные пиксели по вертикали как несущие полные данные об экспозиции в разные моменты времени.

Из пока не решённых ограничений отмечается необходимость съемки вибрирующего предмета крупным планом. Максимальное расстояние до камеры, с которого удалось обеспечить воссоздание приемлемого для разбора качества звука, составило 4 метра. В качестве возможного пути для обхода данного ограничения упоминается использование мощных линз для увеличения. Процесс анализа является достаточно ресурсоёмкой операцией и требует до двух часов вычислений и 32Гб ОЗУ на современном персональном компьютере для обработки одного кадра.



Источник: http://www.opennet.ru/opennews/art.shtml?num=40349