Как работает зрение?

Как работает зрение?

Как родители узнают своего ребенка на детской площадке? При всей кажущейся простоте этот вопрос – как происходит распознавание объектов в мозге – является одной из сложнейших проблем нейробиологии. Картина, нарисованная мной, отличается от той, что представлена в большинстве учебников, которые явно или неявно постулируют существование фиксированной иерархии инкрементальных шагов, каждый из которых ведет к следующему шагу более высокого уровня. На самом деле, как показывают последние исследования, наш зрительный анализатор практически от начала и до конца основан на гибких механизмах нейронной пластичности, обучающихся по правилам нейронной сети.
 
Для начала я хотел бы показать коммутационную схему зрительного анализатора. К счастью, мне не пришлось составлять ее самому: эта трудоемкая работа уже проделана Даниэлем Феллеманом и Дэвидом Ван Эссеном из Университета Вашингтона в Сент-Луисе, которые составили схему связей в зрительной системе приматов. Как подчеркивают ее авторы, здесь отражены только самые основные соединения. Прямоугольники – это области мозга. Линии – аксональные проводящие пути между ними. Мы, нейробиологи, любим показывать эту схему как наглядное доказательство ужасающей сложности мозга. Помимо прочего, тем самым мы отчасти пытаемся оправдаться за то, что мы до сих пор не разобрались в его устройстве. Еще раз повторю: на этой схеме показаны соединения только между наиболее крупными областями мозга. Если бы мы попытались показать все соединения между нейронами, этих линий было бы в миллионы раз больше. В таком масштабе вместо коммутационной схемы вы бы увидели квадрат густо-черного цвета.
 
как устроена наша зрительная система
 
Давайте начнем с широкого, базового представления о том, как устроена наша зрительная система. Конечно, сегодня еще слишком многое остается неизвестным, а высшие зрительные центры изучены лишь в самых общих чертах. Но в ожидании того, когда экспериментаторы наконец-то доберутся до отдельных соединений на уровне нейронов, мы можем выделить ключевые фундаментальные принципы организации нашего зрения. Вот они:
 
1. Зрительные системы не являются нейтральными, беспристрастными регистраторами входных сигналов. Они искажают (модифицируют) свои ответы на каждом уровне, приводя их в соответствие с закономерностями видимого мира.
 
2. Иногда это свойство встроено в генетический код, но во многих случаях оно является результатом обучения нейронной сети. Это касается всего – от базовых закономерностей, таких как края и линии, до восприятия сложных объектов, таких как лица.
 
3. Грубые соединения между зрительными областями мозга образуются при помощи сигнальных молекул – таких же, какие используются природой, например, чтобы обеспечить развитие печени или рук в ходе внутриутробного периода. Эти молекулы помогают аксонам зрительных клеток найти путь к областям-мишеням в головном мозге и сформировать примерную топографическую карту поля зрения в каждой из них. Более тонкие нейрональные связи, лежащие в основе восприятия конкретных объектов – распознавания объектов, – создаются благодаря механизму нейронной пластичности.
 
Зрительная система мозга как нейронная сеть
 
Зрительная система мозга как нейронная сеть
 
Основные факты о нашем зрительном анализаторе:
 
1. Сетчатка предварительно обрабатывает изображение, разбивая его на множество независимых репрезентаций.
 
2. Сетчатка передает зрительную информацию в латеральное коленчатое тело, которое повышает четкость рецептивных полей и регулирует поток информации, идущий в кору.
 
3. Первичная зрительная кора (V1) трансформирует рецептивные поля; большинство нейронов V1 лучше всего реагируют на края определенной ориентации.
 
4. В зрительных зонах V1 и V2 многие клетки освобождаются от жесткой настройки на конкретное положение стимула: эти так называемые сложные клетки реагируют на края определенной ориентации, которые могут находиться в более широкой области видимого пространства. Это шаг к абстрагированию от точного визуального ввода.
 
5. Следующие зрительные зоны, V3 и V4, содержат нейроны с разнообразной избирательной чувствительностью – например, к цвету, движению или глубине. Они передают информацию в зрительные области в височной коре.
 
6. Нижняя височная кора состоит из мозаики отдельных зон, чувствительных к самым разным вещам. Некоторые из этих зон специализируются на распознавании лиц.
 
7. В направлении от задней к передней части височной доли участки распознавания лиц снижают свои «позиционные» требования: их нейроны постепенно приобретают пространственную инвариантность, то есть реагируют на лица независимо от их точного местоположения или ориентации в пространстве.
 
8. В средней височной коре и еще более высоких областях коры находятся клетки, которые реагируют только на изображение конкретного человека или объекта независимо от его местоположения в поле зрения и от угла зрения.
 
Раньше ученые считали, что большинство этих шагов жестко запрограммированы в мозге в виде структуры с фиксированными связями. Но, как мы теперь знаем из многочисленных исследований, эта система оказалась гораздо более пластичной. В следующих разделах мы еще раз пройдемся по зрительной системе от сетчатки до высших корковых областей, но на этот раз сосредоточим внимание на ее сетеподобном характере, а также на значительной пластичности и обучаемости. Нас также будут интересовать аспекты, которые делают естественное человеческое зрение похожим на ведущую форму компьютерного зрения.
 
Сетчатка
 
Компьютерное зрение обычно начинается с этапа предварительной обработки или нормализации изображения, в ходе которого беспорядочное естественное изображение преобразуется в более простое и пригодное для дальнейшей обработки. То же самое, по сути, делает и сетчатка: она улавливает свет и преобразует вывод своих светочувствительных клеток – палочек и колбочек – в набор сигналов, с которыми может работать остальная часть зрительной системы. Первым делом сетчатка нормализует вывод с фоторецепторов, выравнивая огромные вариации интенсивности света, которые характерны для земной реальности. Это гораздо важнее, чем мы думаем. Значения сигналов палочек и колбочек разнились бы в сотню миллиардов раз темной безлунной ночью и ярким солнечным днем, если бы их вывод не нормализовался сетчаткой. Ни отдельные нейроны, ни весь мозг, ни даже компьютеры не способны справиться с таким гигантским диапазоном входных сигналов.
 
Сетчатка сжимает этот диапазон, так что при любой освещенности ее выходные сигналы об интенсивности света варьируются всего примерно в десять раз. Что еще удивительнее, она центрирует этот узкий диапазон относительно средней яркости окружающего освещения на данный момент. Мы осознаем этот процесс настройки, только когда внезапно выходим из темноты на свет или наоборот: мы временно ослеплены ярким светом или ничего не видим в темноте, пока сетчатка не адаптируется к новому уровню яркости. Второй вид предварительной обработки изображения, который выполняет сетчатка, – это начальное выделение краев (при помощи латерального торможения) и обнаружение движения.
 
В чем смысл этого начального этапа обработки изображений? В компьютерах практически любой алгоритм машинного зрения начинается с набора операций, цель которых – уменьшить вычислительную нагрузку на последующие этапы обработки, будь то анализ на основе правил или с использованием нейронных сетей. Например, природа на протяжении миллионов лет усвоила ключевой урок: важно то, что движется, – и воплотила это знание в сетчатке в виде чувствительных к движению ганглионарных клеток.
 
Латеральное коленчатое тело (ЛКТ)
 
В позднем пренатальном периоде аксоны ганглионарных клеток сетчатки уже достигают ЛКТ. Там они соединяются с нейронами, но делают это неточно: окончания ганглионарных клеток разветвляются на множество веточек, которые охватывают довольно обширные области и соединяются со многими нейронами ЛКТ. Если бы такая ситуация сохранялась и в зрелом возрасте, наше зрение было бы размазанным из-за перекрывающих друг друга проводящих путей. Но благодаря механизму синаптического усиления аксоны сетчатки все лучше достигают своей цели.
 
Вкратце это работает следующим образом: генетически запрограммированные молекулярные сигналы направляют аксоны сетчатки к ЛКТ, где те формируют грубую топографическую карту. Аксоны, которые одновременно возбуждают свои постсинаптические нейроны, – то есть аксоны, идущие из одного глаза, – усиливают синаптические связи со своими нейронами-мишенями в ЛКТ. Постепенно разветвленные аксоны уточняют свои мишени, так что одна группа нейронов ЛКТ становится чувствительной к входящим сигналам от правого глаза, другая – от левого. Страйкер и Шатц убедительно доказали это посредством обстоятельно проведенных и воспроизводимых экспериментов, что стало очередным важным шагом в исследовании зрительной системы.
 
Первичная зрительная кора (V1)

Начиная с этого места мы можем рассматривать этапы зрительного анализатора как слои нейронной сети. Давайте возьмем процесс распознавания объектов и посмотрим, как каждый из его этапов мог быть создан мозгом с использованием того, что сегодня мы называем правилами машинного обучения.
 
Нейроны ЛКТ проецируют аксоны в первичную зрительную кору, где появляются нейроны, чувствительные к ориентированным краям. Но как нейроны V1 создают простые ориентированные рецептивные поля из неориентированных полей нейронов ЛКТ?
 
Дело в том, что в нейроне V1 сходятся аксоны нескольких нейронов ЛКТ, причем сходятся весьма специфическим образом: рецептивные поля этих нейронов ЛКТ располагаются на сетчатке в ряд и их аксоны выстраиваются в нейроне V1 таким образом, чтобы отражать это линейное расположение. Если схематично зарисовать ответы нейрона V1 на точечное пятно света, карта его рецептивного поля будет выглядеть так, как показано на рисунке на следующей странице слева. Но на отдельные точечные стимулы он реагирует очень слабо; сильнее всего он возбуждается при виде края, ориентированного вдоль ряда плюсов (областей возбуждения).
 
Рецептивные поля нейронов ЛКТ
 
Рецептивные поля нейронов ЛКТ – это маленькие кружки на рисунке слева. Аксоны клеток ЛКТ сходятся в одном нейроне первичной зрительной коры. Одни из них идут от on-клеток и являются возбуждающими (обозначены плюсом); другие – от off-клеток и являются тормозящими (обозначены минусом). Если сетчатка стимулируется краем, точно ориентированным под соответствующим углом (рисунок справа), все возбуждающие входы активируются, а все тормозящие молчат.
 
Корковый нейрон имеет вытянутое рецептивное поле с областью возбуждения, граничащей с областью торможения. Оптимальный стимул для этой клетки показан на рисунке справа: светлая область, граничащая с темной. Именно это мы и называем ориентированным краем. На светлой стороне края входы четырех нейронов ЛКТ суммируются, когда край имеет соответствующую ориентацию.
 
Как уже не раз отмечалось, линии и края очень важны, поскольку они являются доминирующими носителями информации о естественной визуальной среде. Это объясняется тем, что наш мир состоит из объектов, а края объектов определяют их границы, отделяя от всего остального. Иногда края бывают прямыми, как стволы деревьев; иногда изогнутыми, как у камней, но кривая – это просто набор крошечных прямых линий. Таким образом, информация о краях составляет значительную часть общего ввода в зрительную систему мозга, что неизбежно влияет на организацию ее синаптических связей.
 
Нам уже известен механизм, посредством которого нейронная сеть, обучаемая на примерах из естественного мира, может трансформировать ввод от круглых неориентированных рецептивных полей в чувствительные к линиям элементы – то есть создавать «простые» корковые клетки. Представим группу клеток ЛКТ, сходящихся в нейроне V1. Когда четыре расположенные в ряд клетки ЛКТ стимулируются краем соответствующей ориентации, они одновременно возбуждаются и вызывают возбуждение своего коркового нейрона. Это приводит к усилению синаптических связей между этой линией клеток ЛКТ и нейроном-мишенью – и, как следствие, к относительному ослаблению связей этого нейрона с другими клетками ЛКТ.
 
Описанный механизм был протестирован много лет назад на искусственной нейронной сети, которую обучали путем простой демонстрации большого количества изображений естественного мира (это был случай так называемого обучения без учителя). Последующий анализ выходного слоя сети показал, что она научилась распознавать прямые линии – то есть в процессе обучения компьютер создал свою версию простых клеток. Это неудивительно: поскольку видимый мир непохож на случайно снежащий телеэкран, практически любая зрительная система – естественная или искусственная – уже на ранней стадии будет включать функцию обнаружения краев.
 
Зрительная зона коры V2: Сложные клетки
 
Сложные клетки, как и их простые собратья, избирательны в отношении ориентации, но имеют более обширное рецептивное поле и, как следствие, менее привязаны к точному положению ориентированного края в пространстве. Можно сказать, что эти клетки выполняют базовую форму генерализации: они выделяют общий признак – край определенной ориентации, абстрагируясь от конкретного набора зрительных пикселей, стимулируемых на сетчатке.
 
Предположительно сложная клетка создается так же, как и простая: посредством конвергенции нейронов предыдущего уровня, в данном случае простых клеток, в нейроне более высокого уровня. Каждая простая клетка чувствительна к ориентированному краю, находящемуся в строго определенном месте поля обзора. Схождение множества простых клеток с ограниченными локальными полями в одном нейроне создает сложную клетку, которая реагирует на край данной ориентации на всем пространстве их общего рецептивного поля.
 
Зрительная зона коры V2: Сложные клетки
 
Сложные клетки сосредоточены в зрительной зоне V2, но также присутствуют и в первичной зрительной коре V1. Поэтому сделанное мной здесь разделение призвано всего лишь подчеркнуть тот факт, что сложные клетки, судя по всему, создаются путем иерархической конвергенции простых клеток, как это предположили Хьюбел и Визель. Этот используемый мозгом способ создания сложных клеток из простых лег в основу одной из ведущих современных форм машинного обучения.
 
Сложные клетки сосредоточены в зрительной зоне V2, но также присутствуют и в первичной зрительной коре V1. Поэтому сделанное мной здесь разделение призвано всего лишь подчеркнуть тот факт, что сложные клетки, судя по всему, создаются путем иерархической конвергенции простых клеток, как это предположили Хьюбел и Визель. Этот используемый мозгом способ создания сложных клеток из простых лег в основу одной из ведущих современных форм машинного обучения.
 
Зрительные зоны коры V3 и V4
 
Многочисленность и разнообразие связей между зонами V1, V2, V3 и V4 не позволяет рассматривать их как жестко обособленные анатомические структуры, а также затрудняет понимание того, каким образом происходит формирование последующих рецептивных полей из предыдущих. Скорее речь идет о сетеобразной структуре.
 
Изучение активности нейронов в зонах V3 и V4 показывает, что те реагируют на различные признаки. Один из достаточно хорошо изученных – кривизна. Первоначально эти клетки были описаны Хьюбелом и Визелем как клетки, реагирующие на концы линий (end-stopped cells). Эти клетки чем-то похожи на сложные клетки – предполагается, что они создаются посредством иерархической конвергенции сложных клеток, – но обладают дополнительным свойством: они предпочитают не просто края, а края определенной, фиксированной длины. Однако последующие исследования показали, что это свойство также можно рассматривать как чувствительность к кривизне. Помимо них в зонах V3 и V4 содержатся клетки с другими специфическими видами чувствительности: так, некоторые клетки в V4 чувствительны к цветам, а в V2 есть клетки, чувствительные к углам. Честно говоря, ученые пока имеют весьма смутное представление о том, что происходит внутри этих зрительных зон.
 
По аналогии с искусственными нейронными сетями зоны V1, V2, V3 и V4 могут функционировать как промежуточные «скрытые слои» зрительной сети. Именно это может объяснять, почему поведение их нейронов – несмотря на все усилия исследователей – так трудно классифицировать. Скрытые слои последовательно соединяют несколько нейронных сетей, таким образом значительно увеличивая их вычислительную мощь. Они называются «скрытыми», потому что не взаимодействуют напрямую с внешним миром, а только с соседними слоями. Понять, что делают эти скрытые слои, нелегко даже в собственноручно сотворенных нами системах ИИ. Ситуация осложняется тем, что нейроны в одном скрытом слое необязательно должны делать одно и то же. Да, у нас есть основания полагать, что нейроны в зонах V3 и V4 выполняют более сложные функции по выделению признаков, чем клетки в зонах V1 и V2. Можно сказать, что по своей сложности функции этих скрытых слоев находятся в промежутке между функциями зон V1 и V2 и функциями областей распознавания объектов в височной коре.
 
Височная кора
 
Если не вдаваться в детали, обработка зрительной информации в височной коре построена по иерархическому принципу в направлении от задней к передней части коры: более простые признаки выделяются в задней части, ближе к первичной зрительной коре V1, а распознавание сложных объектов происходит ближе к передней части (лобной доле мозга). Разумеется, это сильно упрощенное представление (вспомните вышеприведенную анатомическую «коммутационную схему» с ее паутиной прямых и обратных связей), но достаточно близкое к реальности, чтобы быть полезным для понимания системы обработки изображений в мозге.
 
В височной доле существует по крайней мере шесть участков распознавания лиц, соединенных между собой аксональными связями. У этих участков есть свои формальные названия, указывающие на соответствующие анатомические подразделения височной доли, где они расположены. Но эти названия слишком сложны для неспециалистов и вызывают разногласия у экспертов, поэтому я взял на себя смелость свести их в более обобщенную номенклатуру. Не вдаваясь в детали, я расскажу о задней, центральной и передней частях нижней височной коры.
 
Продолжая наш разговор, мы можем рассматривать эти шесть участков распознавания лиц, распределенных по коре височных долей, как скрытые слои нейронной сети, предназначенной для идентификации конкретных визуальных объектов. Самое примечательное, что эти зоны коры являются в определенной мере универсальными распознавателями – они не запрограммированы генетически на распознавание лиц, а приобретают эту специализацию в процессе обучения (например, эксперименты Ливингстон и ее коллег показали, что у обезьян, которые с детства не видели лиц, эти участки отвечают за распознавание рук).
 
Можно сказать, что скрытые слои нейронной сети в направлении от задней к центральной части височной коры выделяют все более сложные наборы признаков лица. Скрытые слои в задней части получают входные данные от зон V1–V4 и используют их для обнаружения таких компонентов, как овал лица, нос, подбородок, волосы и особенно глаза. Нетрудно представить, как сложная избирательная чувствительность предыдущих слоев – избирательность к кривым, углам и т. д. – помогает обнаруживать вышеуказанные компоненты лица. В магии распознавания лиц гораздо меньше магического, чем может показаться, потому что лицо – не случайный набор пикселей. Но детальная механика этого процесса нам (пока) неизвестна: как это часто бывает с нейронными сетями, чем именно занимается каждый скрытый слой, остается загадкой.
 
Участки распознавания лиц в задней и центральной частях височной коры, по всей видимости, компонуют выделенные признаки лица в простую репрезентацию – своего рода «протолицо». Эксперименты Цао и ее коллег показали, что эти признаки предположительно являются относительно простыми, например, такими как соотношение высоты и ширины лица, расстояние между глазами и т. д. Еще раз повторю, что пиксели в изображении лица расположены не случайным образом. Два темных пятна, соответствующих ноздрям, обычно идут парой, а ниже них находится линия пикселей, соответствующая рту. Отдельные элементы лица связаны между собой в реальном мире – и становятся связанными в мозге в виде клеточного ансамбля.
 
Нейроны в указанных участках чувствительны к изображениям реальных биологических лиц, но их легко обмануть символическими лицами – овалами с двумя точками вместо глаз и короткими прямыми линиями вместо носа и рта. Исследования Цао и ее коллег позволяют сделать вывод, что некоторые находящиеся здесь нейроны могут математически суммировать отдельные компоненты и делать вывод о степени подобия лицу. Играя с различными комбинациями компонентов, они обнаружили, что, например, простое лицо без одного глаза вызывает у таких нейронов менее сильный количественно измеримый ответ, чем такое же лицо с двумя глазами. Но даже эти продвинутые нейроны требуют, чтобы изображение лица попадало в строго определенное место их рецептивного поля – аналогично простым клеткам в зоне V1, которые реагируют только на строго локализованные ориентированные края.
 
Логично предположить, что задняя и центральная части височной коры поставляют зрительную информацию в следующий нейронный слой – переднюю часть, которая является пространственно-инвариантным распознавателем лиц. Многие нейроны в передних участках допускают относительную свободу в отношении расположения лица в пространстве, а также представляющего его набора пикселей. Механика этого процесса также детально неясна, но можно предположить, что она напоминает происходящее в аналогичных искусственных нейронных сетях. Установлено, что некоторые находящиеся здесь нейроны способны распознавать не только прямое, но и зеркальное изображение лиц в обширном рецептивном поле. Зачем нужно распознавание зеркальных изображений, пока неясно. Правдоподобное предположение состоит в том, что эти клетки могут быть промежуточным скрытым слоем – звеном на пути к достижению полной пространственной инвариантности. И действительно, в самом переднем участке есть такие продвинутые нейроны, которые реагируют на лица независимо от их расположения в пространстве.
 
Наконец, что еще более примечательно, в близлежащей области коры обнаружены нейроны, реагирующие на конкретные лица. Это означает, что в нашем мозге могут иметься клетки и микросхемы – части клеточных ансамблей, помогающие нам узнавать всех знакомых нам людей: членов семьи, друзей, коллег и т. д. Предположительно выходные данные из пространственно-инвариантной нейронной сети служат входными данными для нейронной сети еще более высокого уровня, которая учится распознавать конкретных людей. Но как эти клетки интегрируются в целостную систему, мы пока можем только гадать.
 
Таким образом, этапы обработки зрительной информации в височной коре можно представить как серию из пяти видов событий. 
 
Во-первых, нейронная сеть учится распознавать компоненты лица. Во-вторых, из этих выделенных компонентов лица – глаз, носа, рта и т. д. – собирается простая репрезентация лица. В-третьих, нейроны возбуждаются в ответ на изображение лица, расположенное в определенном месте их рецептивного поля. В-четвертых, некоторые клетки достигают частичной инвариантности к положению лица в пространстве и к углу зрения. В-пятых, нейроны в самом переднем участке распознавания лиц достигают почти полной инвариантности в отношении указанных аспектов. Наконец, у людей близлежащая область – одна из мишеней передней части височной коры – содержит клетки, реагирующие только на небольшой ряд знакомых лиц. Таким образом, складывается впечатление, что главная цель всех этих участков распознавания лиц в том, чтобы поэтапно формировать репрезентации индивидуальных идентичностей – людей или объектов.
 
Наверняка вы обратили внимание на степень расплывчатости при описании этой гипотетической нейронной сети. Дело в том, что мы далеки от механистического понимания высших этапов обработки зрительной информации как основанных только на специфических нейронах и синапсах. На самом деле во многих отношениях очевидно, что мозг не может полагаться на простые перцептронообразные нейронные сети, используемые компьютерами для распознавания лиц и управления автомобилями. Забегая вперед, скажу, что, в отличие от большинства искусственных нейронных сетей, опирающихся на контролируемое обучение, мозг обучается без учителя. Я хотел здесь не столько описать конкретную форму нейронной сети, сколько подчеркнуть общий принцип, который заключается в том, что распознавание объектов основано на мультинейронных ансамблях, сформированных посредством постепенной модификации и усиления синаптических связей, как это и предполагал Хебб.
 
Напомню, что лица – не единственные объекты, распознаваемые в височной коре. Другие участки специализируются на широком разнообразии других типов объектов, связанных визуально или концептуально. Хороший пример – клетки, реагирующие на изображения инструментов, причем не на конкретные инструменты, а на инструменты как категорию (молотки, пилы, плоскогубцы). Мы только начинаем делать первые шаги к расшифровке необычной логической схемы височной доли.
 

«Точка зрения, будто верующий более счастлив, чем атеист, столь же абсурдна, как распространенное убеждение, что пьяный счастливее трезвого»

Шоу Бернард

Научный подход на Google Play

Файлы

Интеллектуальные уловки

Машины созидания: Грядущая эра нанотехнологии

Опиум для народа. Религия как глобальный бизнес-проект

Критика клерикальных концепций войны и мира