14 Nov 2020 Health & Science 7 min. to read

Deep Learning и как он помогает изучать человеческий мозг

QS World University Ranking – издание публикующее рейтинги высших учебных заведений по всему миру в очередной раз поставило Массачусетский Технологический институт на 1-е место. Почетное первенство за MIT сохраняется уже не первый год и институт также входит в топ рейтингов ряда других аналитических агентств.

Один из актуальных предметов исследования в MIT – это одна из отраслей искусственного интеллекта –  Deep Learning. Это вид сложный нейросети самый популярный и обсуждаемый метод машинного обучения, который, в отличие от классических методов, может «натренировать» нейросеть на выполнение сложных задач.

В процессе обучения глубокие нейросети нагружают постоянно усложняющимися образами, каждый из которых накладывается на предыдущий, приходя таким образом к эмпирическим выводам, как это присуще обычному органическому интеллекту. При этом сложные нейросети порой довольно точно имитируют активность человеческого мозга. Но это происходит не потому, что ученые копируют «биологию»: просто устройство нашей нервной системы оказывается наиболее эффективным и с точки зрения машин. О том, как это обстоятельство приближает нас к разгадке самого сложного органа в мире, рассказывает в своей статье журнала Quanta Magazine Анил Анантасвами – профильный журналист и  научный сотрудник Knight Science Journalism Research в MIT.

Зимой 2011 года Дэн Яминс, специалист по вычислительной нейробиологии из Массачусетского технологического института, часто засиживался на работе до полуночи, занимаясь своим проектом — системой, распознающей объекты на изображениях, несмотря на различия в размере, положении и прочих характеристиках. Это была глубокая нейросеть — компьютерная модель, построенная по принципу организации человеческого мозга.

«Я отчетливо помню момент, когда нам удалось создать нейросеть, которая справилась с задачей», — рассказывает он. Было два часа ночи, слишком рано, чтобы будить научного руководителя Джеймса ДиКарло или других коллег, поэтому взволнованный Яминс решил пойти прогуляться.

Находка Яминса стала прорывом в области искусственного интеллекта, но конечной целью ученых было создание компьютерной модели мозга.

ДиКарло и Яминс (который сейчас руководит собственной лабораторией в Стэнфордском университете) — представители узкого круга нейробиологов, изучающих устройство мозга при помощи глубоких нейросетей. Ученым долгое время не давал покоя вопрос функциональной специализации отделов мозга.

Они не могли понять, почему в мозге есть специальный участок для каждой отдельной функции — например, область, отвечающая за распознавание объектов в целом, и область, отвечающая конкретно за распознавание лиц. Благодаря глубоким нейросетям теперь известно, что такая специализация — наиболее эффективный способ решения задач.

Ученые также обнаружили, что глубокие нейросети, успешно обрабатывающие речь, музыку и запахи, имеют схожее устройство с системами слуха и обоняния в человеческом мозге.

Эти успехи стали неожиданностью, так как нейробиологи прежде скептически относились к сравнению мозга и нейросетей.

«Еще недавно никто в моей лаборатории не работал с глубокими нейросетями, говорит нейробиолог из МИТ Нэнси Кэнвишер, — а теперь они используются почти ежедневно».

Обработка зрительной информации

Компьютерные нейросети состоят из взаимосвязанных компонентов, называемых перцептронами, которые представляют собой упрощенные цифровые модели нейронов. Нейросеть содержит как минимум два слоя перцептронов — входящий и исходящий. Если поместить между этими слоями один или более скрытых слоев, мы получим глубокую нейронную сеть — чем больше скрытых слоев, тем глубже нейросеть.

Глубокие нейросети можно обучить находить закономерности в данных, например идентифицировать изображения котов и собак. Обучение осуществляется при помощи алгоритма, который регулирует связи между перцептронами так, чтобы распознать в определенных входящих данных (пикселях изображения) объект (кота или собаку). Обученная глубокая нейросеть может категоризировать изображения, которые никогда раньше не видела.

Нейробиологи не раз указывали на один существенный недостаток нейросетевых моделей мозга: настоящие нейроны обрабатывают информацию более тщательно, чем перцептроны.

Кроме того, в основе глубоких сетей часто лежит так называемый метод обратного распространения ошибки, который не применяется в настоящей нервной системе.

И всё же глубокие сети — это лучший способ моделирования мозга.

Исследователи использовали знания о распознавании людей и мест, а также гипотезу о двух потоках обработки зрительной информации (вентральный поток отвечает за обработку предметной информации, дорсальный — пространственной) для разработки компьютерной модели зрительной системы. У людей вентральный поток начинается с сетчатки и заканчивается в латеральном коленчатом теле — расположенной в таламусе структуры, которая играет роль ретрансляционной станции. Латеральное коленчатое тело связывается с первичной зрительной корой (V1), зонами V2 и V4 и в конечном итоге с нижней височной корой.

Главное открытие нейробиологов состоит в том, что зрительная информация обрабатывается в определенном порядке: на более ранних стадиях происходит обработка общих деталей визуального поля — контуров, очертаний, форм и цветов; тогда как более сложные данные — целые объекты и лица — обрабатываются позже в нижней височной коре.

Это открытие легло в основу глубокой нейросети, разработанной Яминсом и его коллегами.

Их сеть содержит скрытые сверточные слои, каждый из которых отвечает за обработку разных ключевых характеристик изображения. Более общие детали обрабатываются на ранних этапах, а более сложные — на поздних, как в мозге человека.

Когда сверточная нейронная сеть учится категоризировать изображения, то поначалу использует для своих фильтров случайные значения и постепенно усваивает значения, необходимые для конкретной задачи.

Четырехслойная сверточная нейросеть Яминса успешно распознала восемь категорий объектов (животные, лодки, машины, стулья, лица, фрукты, самолеты и столы) на 5760 реалистичных трехмерных изображениях. Несмотря на различия в положении и масштабе объектов, нейросети удалось распознать их не хуже, чем это сделал бы человек.

Яминс не знал, что новые открытия в области компьютерного зрения подтвердили правильность его подхода.

Вскоре после того, как он завершил работу над своей нейросетью, громко заявила о себе другая сверточная нейросеть AlexNet. Также созданная по принципу иерархической обработки информации и обученная на 1,2 миллиона аннотированных изображений, содержащих тысячу разных категорий объектов, в 2012 году на соревновании по распознаванию изображений AlexNet обошла всех своих соперников. Коэффициент ошибок AlexNet составил всего 15,3% (по сравнению с 26,2% у ее ближайшего конкурента). Благодаря победе AlexNet глубокие нейросети стали конкурентоспособными в области искусственного интеллекта и машинного обучения.

Но Яминса и других членов команды ДиКарло больше интересовала нейробиология. Раз их сверточная нейросеть (СНС) имеет аналогичную со зрительной системой архитектуру, может ли она спрогнозировать реакцию нейронов на совершенно новое изображение?

Чтобы ответить на этот вопрос, они сначала сопоставили активность искусственных нейронов их СНС с процессами, происходящими в вентральной зрительной системе двух макак-резусов. Затем с помощью СНС смоделировали реакцию определенных участков мозга макак на изображения, которых те раньше не видели.

«Сделанные нами прогнозы оказались верными, — говорит Яминс. — Более того, обнаружилось, что ранние и поздние стадии обработки в СНС соответствуют ранним и поздним стадиям в структуре мозга».

Кэнвишер хорошо помнит, как ее впечатлили результаты исследования, опубликованные в 2014 году.

«Это не доказывает, что отдельные составляющие глубокой нейросети ведут себя так же, как нейроны, — говорит она. — Тем не менее это совпадение поражает».

Обработка звука

После того, как Яминс и ДиКарло опубликовали результаты своего эксперимента, начались поиски новых и более эффективных глубоких нейросетевых моделей мозга, особенно менее изученных его областей.

По словам Джоша Макдермотта, нейробиолога из МИТ, ученым до сих пор мало известно о слуховой коре, в особенности у человека. Он надеется, что глубокие сети предоставят новые данные о том, как мозг обрабатывает звук.

Команда Макдермотта, в которую также вошли Александер Келл и Яминс, приступила к разработке глубоких нейросетей для классификации двух типов звуков: речи и музыки.

Сначала они создали компьютерную модель ушной улитки — части внутреннего уха, отвечающей за восприятие и распознавание звуков, — которая должна была обрабатывать звук и распределять его по каналам разной частоты. СНС обучили распознавать слова на аудиозаписи и отличать музыку от фонового шума. Команда пыталась создать архитектуру глубокой нейросети, которая бы успешно выполняла обе задачи и при этом не требовала значительных ресурсов.

У них было три возможных варианта:

  • входной слой выполняет обе задачи, а дальше сеть разделяется на две части;
  • обе задачи выполняются вместе всей нейросетью, и разделение происходит только на выходе;
  • или же на некоторых стадиях обе задачи выполняются вместе, а на некоторых — по отдельности.

Как можно было предположить, нейросети с отдельными путями для обработки речи и музыки превзошли нейросети, в которых речь и музыка обрабатывались одним и тем же путем. Однако гибридная нейросеть с семью объединенными слоями и пятью парами отдельных слоев оказалась почти настолько же эффективной. Макдермотт и его коллеги решили выбрать последнюю, так как она расходовала меньше всего ресурсов.

Гибридная нейросеть показала хорошие результаты в соревновании с людьми. Кроме того, она согласуется с данными других исследований, которые говорят о том, что непервичная слуховая кора имеет отдельные области для обработки музыки и речи. А в ходе решающего теста, результаты которого были опубликованы в 2018 году, модель успешно спрогнозировала мозговую активность участников эксперимента и доказала свое превосходство над моделями, не основанными на глубоком обучении.

Кэнвишер изначально скептически относилась к возможности использования глубокого обучения в собственных исследованиях, но и ее впечатлили полученные Макдермоттом результаты.

Кэнвишер приобрела известность в 1990-х годах, когда ей удалось доказать, что область нижней височной коры — веретенообразная извилина — отвечает за распознавание лиц. Активность веретенообразной извилины намного выше, когда человек смотрит на изображения лиц, чем когда он смотрит на изображения объектов. Но зачем мозгу отдельные области для распознавания лиц и объектов?

Нейробиологам всегда было трудно отвечать на вопросы «зачем?» и «почему?». Заручившись помощью Катарины Добс и других своих коллег, Кэнвишер разработала сверхточную нейросеть VGG, более глубокий аналог AlexNet, и обучила одну нейросеть распознавать лица, а другую — объекты.

Оказалось, что глубокая сеть, обученная распознавать лица, плохо справлялась с распознаванием объектов, и наоборот. А когда ученые обучили одну нейросеть выполнять обе задачи, то обнаружили, что сеть самоорганизовалась таким образом, чтобы на более поздних этапах обрабатывать лица и объекты отдельно.

Это согласуется с принципом работы зрительной системы человека. «Мы обнаружили, что в глубоких нейросетях, умеющих выполнять обе задачи, спонтанно происходило разделение функций обработки лиц и объектов», — говорит Добс, которая сейчас работает в Гиссенском университете имени Юстуса Либиха в Германии.

«Больше всего меня радует то, что мы наконец можем ответить на вопрос, почему мозг организован именно так», — говорит Кэнвишер.

Обработка запахов

Также есть новые интересные данные о восприятии запахов. В прошлом году специалист по вычислительной нейробиологии Роберт Янг вместе со своими коллегами из Колумбийского университета разработал глубокую нейросеть, моделирующую обонятельную систему мухи-дрозофилы.

Обонятельная система мухи-дрозофилы достаточно хорошо изучена.

Первый слой, отвечающий за обработку запахов, состоит из обонятельных сенсорных нейронов, каждый из которых содержит только один из 50 видов обонятельных рецепторов. Все сенсорные нейроны одного типа (в среднем около 10 штук) соединены с одним кластером нервных клеток, расположенным на следующем слое. Кластеры нервных клеток, в свою очередь, произвольным образом соединены с нейронами следующего слоя, который называется слоем Кеньона и состоит из примерно 2500 нейронов. Последний слой, состоящий из 20 нейронов, отвечает за реакцию на запах.

Прежде чем приступить к разработке компьютерной модели, имитирующей этот процесс, Янг и его коллеги создали набор данных, имитирующих запахи. Нейроны реагируют на запахи иначе, чем на изображения. Если наложить друг на друга два изображения котов, результат может оказаться совсем не похожим на кота. Но если смешать запахи двух яблок, в итоге всё равно получится яблочный запах.

Ученые создали глубокую сеть из четырех слоев: трех слоев для обработки запахов и одного выходного слоя. Обучив нейросеть классифицировать симулированные запахи, Янг и его коллеги обнаружили, что связи в ней были такими же, как и в мозге мухи-дрозофилы. Это совпадение указывает на то, что и эволюция, и глубокая нейросеть нашли оптимальное решение.

Но Янг не спешит с выводами. «Возможно, нам просто повезло», — говорит он.

Следующий шаг — разработка глубоких сетей, способных спрогнозировать устройство обонятельной системы еще не изученного животного. «Это будет настоящим испытанием для нас», — говорит Янг.

Нейросети — больше не черные ящики

Глубокие нейросети часто называют черными ящиками из-за того, что полученные с их помощью результаты невозможно спрогнозировать на основе изучения миллионов или даже миллиардов отдельных параметров. Не станет ли глубокая нейросетевая модель мозга лишь заменой одного неизвестного другим?

«Не совсем. Нейросеть изучать всё же легче, чем мозг», — говорит Янг.

В прошлом году команда ДиКарло опубликовала результаты исследования, которые опровергают утверждение о непрозрачности глубоких нейросетей. При помощи AlexNet ученые смоделировали вентральный зрительный поток макаки и обнаружили, что группы искусственных нейронов и нервные узлы зрительной зоны V4 у макак совпадают.

Затем, используя компьютерную модель, они сгенерировали изображения, которые, по их прогнозам, должны были вызвать очень высокую активность нейронов. В ходе одного такого эксперимента активность нервных узлов повысилась на 68% относительно обычного уровня; в ходе еще одного испытания демонстрируемые изображения вызывали повышение активности одного нейрона одновременно с понижением активности соседних нейронов.

Оба этих исхода были спрогнозированы нейросетью.

Полученные результаты указывают на то, что глубокие нейросети в определенной степени прозрачны и отражают реальную активность мозга.

Стоит отметить, что совпадения в структуре и работе глубоких сетей и мозга еще не означают, что они функционируют одинаково. Однако вполне возможно, что они следуют одним и тем же принципам.

Deep learning –   многосложный инструмент и нейросетевые модели  также имеют некоторые недостатки. Об этом и другом почитайте в полной версии статьи в   Quanta Magazine на английском и в адаптированном на русский язык материале Knife.Media.

Понравилось? Поставьте лайк нашему проекту – www.ilike.boston и подписывайтесь на наши новости и звоните нам, если собираетесь в Бостон, Нью-Йорк или в путешествие по Америке.

References: In A.I. we trust? Об искусственном интеллекте: коротко о главном.

Аутентичный текст проекта WelcomeToMA © и “ILike.Boston”™. All Rights Reserved. Использование текстовых материалов без изменений онлайн в некоммерческих целях разрешается c упоминанием названия проекта «WelcometoMA»© (или ленты новостей “ILike.Boston”™) и активной ссылки на оригинал материала на сайте или на одной из соцсетей издания.