ИИ Google сейчас разбирает по устам лучше, чем человек
Ученые из Google DeepMind и Оксфордского института применяли синтетический разум для образования наиболее четкого на данный момент ПО для чтения по устам. Для тренировки нейронной сети учёные применяли тыс часов записей с BBC, из-за чего система обучилась с возможностью в 46,8 % устанавливать то, что рассказывают люди на дисплее. Итоги могут показаться не такими уж и внушительными, в особенности если учесть пунктуальность транскрибирования синтетическим умом аудиозаписей, но специалист в чтении по устам сумел верно установить слова в таких же видеоклипах только в 12,4 % примеров.
Иная команда специалистов из Оксфордского института раньше в данном месяце сделала отчет о похожем плане. Применяя подобные технологии, они смогли сделать платформу LipNet, которая в тестах продемонстрировала пунктуальность в 93,4 %, тогда как пунктуальность определения слов человеком составила 52,3 %. Но платформа данная тестировалась лишь на специально вписанном для неё видео, в котором волонтёры принимали трафаретные фразы. К тому же, ПО DeepMind, именуемое Watch, Listen, Attend, and Spell, транскрибировало натуральные, неискушенные диалоги из общественно-политических передач с канала BBC.
Для тренировки нейронной сети применялось не менее 5-и миллионов часов записей из подобных телевизионных шоу, как Newsnight, Question Тайм и World Today. Видеоролики содержали 118 миллионов разных услуг и около 17,5 миллионов эксклюзивных слов, тогда как в основе видеороликов для испытания LipNet находилось всего 51 эксклюзивное слово.
Ученые из DeepMind полагают, что их новая платформа вполне может быть нужна в общем ряде всевозможных случаев — к примеру, в помощи людям со слабым слухом в осознании разговоров. Она также могла бы быть применена для аннотирования безмолвных кинофильмов либо администрирования голосовыми ассистентами за счет проговаривания слов камерой.