6c248c0d

ИИ Google сейчас разбирает по устам лучше, чем человек

Ученые из Google DeepMind и Оксфордского института применяли синтетический разум для образования наиболее четкого на данный момент ПО для чтения по устам. Для тренировки нейронной сети учёные применяли тыс часов записей с BBC, из-за чего система обучилась с возможностью в 46,8 % устанавливать то, что рассказывают люди на дисплее. Итоги могут показаться не такими уж и внушительными, в особенности если учесть пунктуальность транскрибирования синтетическим умом аудиозаписей, но специалист в чтении по устам сумел верно установить слова в таких же видеоклипах только в 12,4 % примеров.

Иная команда специалистов из Оксфордского института раньше в данном месяце сделала отчет о похожем плане. Применяя подобные технологии, они смогли сделать платформу LipNet, которая в тестах продемонстрировала пунктуальность в 93,4 %, тогда как пунктуальность определения слов человеком составила 52,3 %. Но платформа данная тестировалась лишь на специально вписанном для неё видео, в котором волонтёры принимали трафаретные фразы. К тому же, ПО DeepMind, именуемое Watch, Listen, Attend, and Spell, транскрибировало натуральные, неискушенные диалоги из общественно-политических передач с канала BBC.

Для тренировки нейронной сети применялось не менее 5-и миллионов часов записей из подобных телевизионных шоу, как Newsnight, Question Тайм и World Today. Видеоролики содержали 118 миллионов разных услуг и около 17,5 миллионов эксклюзивных слов, тогда как в основе видеороликов для испытания LipNet находилось всего 51 эксклюзивное слово.

Ученые из DeepMind полагают, что их новая платформа вполне может быть нужна в общем ряде всевозможных случаев — к примеру, в помощи людям со слабым слухом в осознании разговоров. Она также могла бы быть применена для аннотирования безмолвных кинофильмов либо администрирования голосовыми ассистентами за счет проговаривания слов камерой.

Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий