Этот научный прорыв, помноженный на мощь ИИ и синтезаторов речи открывает новую эру во взаимодействии между компьютером и мозгом. Само собой, это так же открывает новые возможности людям, которые по той или иной причине потеряли возможность говорить.
«Наши голоса помогают поддерживать связь с нашими друзьями, с семьей и с окружающим миром, поэтому потеря силы голоса из-за травмы или болезни для людей разрушительна. Однако, с сегодняшним запасом знаний у нас есть потенциальный способ восстановить эту силу. Мы показали, что при правильной технологии мысли людей могут быть расшифрованы и понятны любому слушателю», – говорит Нима Месгарани, доктор философии и одна из авторов исследования, проведенном в Институте психического поведения Мортимера Б. Цукермана при Колумбийском университете.
Десятилетия исследований показали, что когда люди говорят или даже воображают, что произносят слова, в их мозгу появляются характерные шаблоны активности. Четкая и узнаваемая схема сигналов также возникает, когда мы слушаем, как кто-то говорит, или воображаем, что слушает. Эксперты десятилетия пытались расшифровать эти паттерны, однако только сейчас перед ними открылось будущее, в котором мысли не могут уже больше быть скрытыми внутри мозга, а вместо этого могут быть переведены в устную речь по желанию.
Но совершить этот подвиг оказалось непросто. Ранние попытки расшифровать сигналы мозга доктора Месгарани и других были сосредоточены на простых компьютерных моделях, которые анализировали спектрограммы, которые являются визуальным представлением звуковых частот.
Но из-за того, что этот подход не дал ничего похожего на понятную речь, команда доктора Месгарани вместо этого обратилась к вокодеру, компьютерному алгоритму, который может синтезировать речь после обучения по записи разговоров людей.
«Это та же технология, которая используется Amazon Echo и Apple Siri для устного ответа на наши вопросы», – сказала доктор Месгарани, которая также является адъюнкт-профессором по электротехнике в Колумбийской школе инженерии и прикладной науки Fu Foundation.
Чтобы научить вокодер интерпретировать мозговую деятельность, доктор Месгарани объединилась с Ашешем Динеш Мехта, доктором медицины, доктором наук, нейрохирургом в Институте нейробиологии Northwell Health Physician Partners и соавтором сегодняшней статьи. Доктор Мехта лечит пациентов с эпилепсией, некоторые из которых должны регулярно проходить операции.
«Работая с доктором Мехтой, мы попросили пациентов, страдающих эпилепсией, уже перенесших операцию на головном мозге, выслушать предложения разных людей, в то время как мы измеряли закономерности их мозговой активности», – говорит доктор Месгарани. «Эти нейронные паттерны и тренировали вокодер».
Затем исследователи попросили тех же пациентов прослушать динамики, произносящие цифры от 0 до 9, во время записи сигналов мозга, которые затем можно было бы пропустить через вокодер. Звук, производимый вокодером в ответ на эти сигналы, анализировался и очищался с помощью нейронных сетей типа искусственного интеллекта, который имитирует структуру нейронов в биологическом мозге.
Конечным результатом был роботизированный голос, повторяющий последовательность чисел. Чтобы проверить точность записи, доктор Месгарани и ее команда поручили людям прослушать запись и сообщить, что они услышали.
«Мы обнаружили, что люди могут понимать и повторять звуки примерно в 75% случаев, что значительно превосходит любые предыдущие попытки», – говорит доктор Месгарани. Улучшение разборчивости было особенно очевидным при сравнении новых записей с более ранними попытками, основанными на спектрограмме. «Чувствительный вокодер и мощные нейронные сети представляли звуки, которые пациенты первоначально слушали с удивительной точностью».
Доктор Месгарани и ее команда планируют теперь протестировать более сложные слова и предложения. Так же они намерены выполнить те же тесты для сигналов мозга, излучаемых, когда человек говорит или воображает речь. В конечном счете, они надеются, что их система может быть частью импланта, подобного тем, которые носят некоторые пациенты с эпилепсией, которые переводят мысли владельца непосредственно в слова.
«В этом сценарии, если владелец чипа думает: «Мне нужен стакан воды», наша система может воспринимать сигналы мозга, генерируемые этой мыслью, и превращать их в синтезированную словесную речь», – говорит доктор Месгарани. «Это изменяет правила игры и любому, кто потерял способность говорить из-за травмы или болезни, технология дает новый шанс общения с окружающим миром».
Комментарий Редакции The Big The One: Поскольку некоторые наши сотрудники имеют определенное отношение к нейрофизиологии, мы можем совершено однозначно утверждать, что решение проблемы чтения мыслей и перевода этих мыслей в слова – это не задача, которую могут решить какая-то там доктор философии на пару с толковым нейрохирургом. Это задача для НИИ, который будет решать её сто, двести или более лет. Причем совершенно не факт, что НИИ эту задачку решит – даже если туда свезут все суперкомпьютеры NASA, на которых толпа инженеров начнет моделировать нейросети. Однако, статья в научном журнале не будет врать и факт распознавания мыслей определенно есть. Как же тогда эти два факта свести воедино?
Очень просто. В последние 20-30 лет в мире появилось огромное количество совершенно невероятных и очень сложных технологий вроде микропроцессоров и жестких дисков. И каждый день появляются все новые и новые как бы изобретения, которые записывают на каких-то "талантливых студентов", которые сидя в гараже собрали из металлолома штуку, над которой до этого 50 лет бились научно-исследовательские институты. И в данном случае мы имеем изобретение аналогичного генеза. То есть разработку, которую много лет делал (или передал людям) непонятно кто, но которую записали на тётеньку и дяденьку из Колумбии.
На самом деле, кого теперь в "изобретатели" технологии запишет Википедия нет совершенно никакой разницы. Главное, что технологию предъявили миру, используя научный журнал. Далее какая-нибудь китайская контора начнет выпускать такие "гаджеты", которые приучат людей к самой мысли о том, что их голова отныне стала совершенно прозрачна. Наконец третьим этапом будет тот самый оруэлловский "1984 год" когда даже мысли любого человека можно будет свободно читать на расстоянии. Например, расставив в квартирах специальные датчики или интегрировав в тело специальный, реагирующий на импульсы мозга чип. Более того.
Каждая технология имеет, как правило, и обратное применение. Например, если есть технология превращения нервных импульсов в слова, то используя этот же принцип можно любые слова превращать в чьи-то мысли. В этой ситуации у президентов разных стран открывается грандиозная перспектива быть поддерживаемыми абсолютно всем электоратом, поскольку теперь есть техническая возможность заставить каждого избирателя даже думать как он – достаточно пустить правильно модулированный сигнал в розетку.
В общем, что и говорить – мы с интересом следим за развитием событий.