Текст
из раздела Теории.
Здесь не утверждаются истины.
Теории - это приглашение к размышлению.
Поиск ИИ попса
«Мы не предполагаем, что компьютер, который в сотни раз точнее и в миллионы
раз быстрее человека,
может сделать в 10000 раз больше ошибок…
…Если мы полностью доверимся машинам, катастрофа неизбежна.»
Тим Харфорд
Но именно это мы и делаем, полностью доверяясь результатам машинного обучения или результатам ранжирования поисковой выдачи.
Предположим, что компьютер или поисковик работает не в 21-м веке, а на пару тысячелетий раньше. В этом случае ответ компьютера на вопрос о форме Земли, основанный на ранжировании по цитируемости, авторитетности и т.д. был бы… «Земля плоская». И в выдаче было бы множество ссылок на описание строения плоской Земли с небольшими вариациями о том на чем эта плоскость стоит – на черепахах или слонах и самая «современная», синтетическая теория древнего мира – на слонах, которые стоят на черепахах.
Разумеется, ни одной ссылки на сайт с предположением, что Земля шар – не было бы. У таких сайтов не было бы ни авторитета, ни цитируемости, ни иных «ранжируемых» достоинств.
Машинное обучение тоже происходило бы на множестве данных о плоской Земле.
Но перенесемся вместе с нашим гипотетическим компьютером в Средневековье. И спросим компьютер об орбите вращения Солнца вокруг Земли. И мы получим множество авторитетных ссылок, в том числе на сайт папы Римского (куда уж авторитетнее для Средневековья). И, разумеется, сайты, утверждающие что Земля вращается вокруг Солнца никаким «авторитетом» для поисковой выдачи обладать не будут. Впрочем, если мы решим провести некое машинное обучение на массиве Средневековых данных, то компьютер будет обучаться в системе «Солнце вокруг Земли», а не «Земля вокруг Солнца». В результате, ошибки будут множиться, а у инквизиции появится новое неопровержимое доказательство против Галилея или Бруно – данные из Средневекового компьютера, «который не может ошибаться».
Наличие такого «машинного» доказательство не ускорило бы, а замедлило прогресс.
Может быть в 18-19 веке наш компьютер будет обучаться лучше и ранжировать точнее, основываясь на массиве данных или на авторитетности сайта?
Давайте тогда спросим его… Может ли женщина работать, учиться, голосовать? Или является ли раб полноценным человеком?
Ответы, на основе ранжирования сайтов 18-19 века, очевидны… А заодно вредны и ложны.
Система, основанная на ранжировании по авторитетности, проигнорировала в 19-м веке работы Менделя, задержав развитие генетики на пол века*. Цена этой ошибки ранжирования и игнорирования «сайта» Менделя «в выдаче» выражается даже не в дешевых продуктах, а в жизни и здоровье многих людей, единственная надежда которых – медицинская генетика и лекарства на основе генной инженерии. И они уже не дождутся этих лекарств. Уже умрут за эти 50 лет отставания, созданного ранжированием на основании «авторитета». Умрут сейчас. В наши дни. То есть кто-то из нас.
Другой пример того как система, основанная «на авторитетности», задержала развитие медицины на 1000 лет – строение сердечно-сосудистой системы.
Наша кровеносная система является замкнутой. Т.е. кровь из артерий и артериол попадает в капилляры, а потом собирается в венулы и вены, и опять возвращается в сердце. Сейчас это «как дважды два». И это такое же фундаментальное открытие для медицины и фармакологии, как законы Ньютона для физиков, таблица Менделеева для химиков и протокол http для веба.
Однако… на протяжении 1000 лет, благодаря заслуженному авторитету ученого Галена, его последователей, копипастеров и копирайтеров… это было не так. Гален считал кровеносную систему не замкнутой. И развитие медицины фактически остановилось на 1000 лет. И виновен был в этом не Гален. Он был великий врач, совершавший как открытия, так и ошибки. Виновата в застое была система, основанная на авторитетности, одинаково ранжировавшая как достижения, так и грубейшие ошибки.
Что было бы сейчас, если бы система ранжирования или машинного обучения Средневековья не испытывала бы столь сильного пиетета перед авторитетом Галена? Тогда средняя продолжительность жизни любого жителя Земли была бы лет 150, а пришедшие в негодность органы – хоть зубы, хоть сердце, печень или глаза – пациентам меняли бы в поликлинике быстрее, проще и надежнее, чем сейчас ставят пломбы.
И это цена ранжирвания по «авторитетности».
Точно такая же ошибка закрадывается и при машинном обучении, и при создании искусственного интеллекта. Мы используем для обучения авторитетные источники, что допустимо для логистики супермаркета, но заведомо ведет к ошибке в любом ином, хоть немного более сложном, деле. И хорошо еще, если это будут всякие «живописные» или музыкальные аттракционы для смартфонов. Проблема в том, что скорее всего это будет про жизни людей.
Предвидя возражение, что обучение происходит только на заслуживающих доверия источниках, я приготовил пример из узко профессиональной области. Из роддома. И в этом примере фигурирую только авторитеты гинекологов. Специалистов. Заслуживающих доверия. Машинное обучение происходит на их авторитетном мнении. А «на кону» жизни рожениц. Женщин. Пациенток роддома.
В 1847 году, пытаясь понять причину частой послеродовой смертности у женщин, венгерский врач, акушер-гинеколог, профессор из Австрийской империи, Игнац Земмельвейс* обнаружил, что если доктора будут мыть руки с антисептиком перед тем как принимать роды, то случаи сепсиса и смерти у рожениц сократятся в 7 раз и умирать после родов будет не каждая пятая женщина, а 2-3 из сотни. Земмельвейс обязал персонал мыть руки перед любыми манипуляциями с беременными, роженицами или новорожденными. Начал всеми способами извещать коллег о новом простом методе, позволяющем спасти сотни жизней.
В те времена мытье рук не было рутинной гигиенической процедурой. Да и вообще были проблемы с гигиеной и пониманием, зачем это нужно. Не было и знаний о микробах, путях распространения инфекций. Поэтому открытие Земмельвейса фактически обвиняло докторов в смерти их пациенток. А доктора тогда были элитой. Еще большим оскорблением была доказательная база Земмельвейса - он сравнивал смертность «элитных родов», которые принимали врачи, и «социальных родов», когда родовспоможение оказывали акушерки без образования. И смертность у акушерок была в разы ниже. При этом все врачи были мужчины. Все акушерки - женщины. «Невежественные» женщины, по понятиям того времени, противопоставлялись элитным образованным докторам. И, конечно, для «высоколобого» доктора было крайне оскорбительно, что для того, чтобы не возникло сепсиса («заражения крови»), для того, чтобы пациентка не умерла, нужно всего лишь помыть руки.
В итоге, Земмельвейс был «понижен в выдаче» современной ему системой ранжирования. Его исследования не были «скормлены» для обучения систем искусственного интеллекта. Сначала Земмельвейса травили, потом уволили, а поскольку он продолжал упорствовать, организовывая обучение врачей и издав книгу (на свои деньги), то его спрятали в сумасшедший дом, где вскоре, для надежности, убили.
Коллеги Земмельвейса, избавившись от альтернативного мнения, продолжили радостно копипастить и повышать в ранжировании друг друга. Ну а женщины, которые могли бы жить, которые приехали на роды вполне здоровыми, продолжали умирать. Их дети становились сиротами.
Пример Земмельвейса наглядно демонстрирует, что системы ранжирования и машинного обучения, основанные на «авторитетности», «количестве данных или ссылок», регалий авторов и т.д. приводят к реальным трагедиям и смертям. Ведь руки так и не стали мыть, женщины продолжали умирать.
Подобных примеров в любой области человеческой деятельности можно найти множество. Еще большее количество попыток «тихо закончившихся банном» нам просто неизвестно.
Вы, наверно, думаете, что если мы перенесемся в 20-21-й век, то ошибка исчезнет? Вовсе нет. Самые авторитетные экономисты и финансисты создали так называемые критерии для банков (Базель 1 и Базель 2)**. Ни одна поисковая выдача, основанная на авторитетности, ни одно машинное обучение на основе массы данных не прогнозировало финансового кризиса 2008 года. А он произошел. Проигнорировав все «авторитетные» критерии. Мнение аутсайдеров, которые оказались правы, не было учтено нашим «компьютером» ни при машинном обучении, как «единичное», ни при ранжировании сайтов по принципу авторитетности.
Попробуйте сейчас спросить у поисковика о строении атома или о том, как почистить ковер. И вы получите в выдаче десятки сайтов-близнецов, на которых по разному написано одно и то же. На уровне школьного учебника четвертьвековой давности и книги «Сделай сам» с пыльной полки советской библиотеки.
Если раньше Интернет позволял найти альтернативу, то теперь алгоритмы ранжирования поисковиков все больше напоминают цензурное ведомство и альтернатива прячется. Ее нет в выдаче.
Если мы «скормим» компьютеру тысячи историй болезней, содержащих врачебные ошибки (а они обязательно, к сожалению, их содержат), то компьютер просто научится ошибаться так же как некий усредненный доктор. Просто он будет делать это быстрее, чем врач.
И это не предположение, а факт.
Для преодоления веса «авторитета» и смены точки зрения ВОЗ на методы лечения язвы желудка ушло 20 лет в конце 20-го и начале 21-го века**. Для преодоления веса «авторитета» и изменения ошибочной инструкции Минздрава по введению прикормов ушло 10 лет.
Вроде немного, если не считать цены. Например, такой – умрете ли конкретно Вы из-за кровотечения в желудке за эти 20 лет? Как много детей за 10 лет будут иметь повышенный риск развития астмы… Вернее, насколько велик будет риск развития астмы конкретно у Вашего ребенка.
Современные алгоритмы ранжирования и машинного обучения имеют один серьезный дефект. Они производят попсу.
Т.е. если проводить аналогию с музыкой, то ни с помощью алгоритмов ранжирования, ни с помощью машинного обучения ничего кроме попсы создать-найти не получится. Ни джаза, ни симфонической музыки, ни даже рока. Алгоритмы и поиска и обучения, а значит и ИИ заточены только на попсу – два прихлопа три притопа.
Конечно, поисковые системы не раскрывают свои алгоритмы, однако общие принципы их работы, в общих чертах, понятны и, что важно в контексте этого текста, подтверждаются опытом. Они строятся на «авторитетности» источника. Когда-то этот авторитет определялся ссылками. Со временем он усложнялся и дополнялся, борясь с СЕОшниками… и тут же порождая новых СЕОшников. Но всегда оставался одинаков, базируясь, так или иначе, на «авторитете». Становясь все мудренее, путанее, а теперь и вовсе «мы не знаем, как это работает – у нас поисковик на машинном обучении».
В большинстве случаев это, конечно, удовлетворяет пользователя. Подчас вполне достаточно Википедии для получения необходимой краткой справки. Поиск по новостям, если не цензурируется сознательно, наверно тоже выглядит вполне сносно, ибо просто не успевает получить настолько тяжелые бирки «авторитетности», чтобы создать проблему.
Но таким образом Интернет, вместо мощного инструмента созидания, превращается в бульварную газету с поваренной книгой. В телефонный справочник с бородатыми анекдотами. Узнать что-то действительно новое, необычное, передовое, при опоре на «авторитетность» поисковой выдачи, становится нереально.
В результате потенциал Интернета используется не полностью и совсем не так как задумывали его «родители». Фактически Интернет становится бесплоден и даже тормозит развитие и созидание, выдавая «на гора» самое «авторитетное» и «погребая» под грудой ссылок действительно новое, а значит необычное, непривычнее, возмутительное и (пока) не «авторитетное».
Мы можем предположить, что какой-то человек, пусть и очень авторитетный, может ошибаться. Но не машина. Мы начинаем свое знакомство с компьютерами и алгоритмами с калькуляторов и иных простейших устройств. И у нас формируется мнение, что «машина не может ошибаться». Возможно это так, если речь идет о калькуляторе или кофеварке. Но если речь идет о чем-то более сложном, вроде искусственного интеллекта или поисковой выдачи, то это утверждение становится ложным, поскольку и ранжирование поисковиков, и машинное обучение построено на усредненном мнении многих людей, «поведении пользователей». На средней температуре по больнице. На попсе.
Система ранжирования и рейтинга, основанная на «мнении большинства» и «авторитетности», плодит «попсу» и банит будущее. Такая система прячет важную и необычную информацию, препятствует развитию мысли и тормозит развитие.
Алекс Фарнезе.
Вы можете связаться с автором статьи, используя нашу редакционную
почту
(см. раздел Контакты внизу главной страницы).
* Подробнее в статьях «Ошибка выжившего» и «Дефекты лайков»
** Подробнее в книге Тим Харфорд «Хаос. Как беспорядок меняет нашу жизнь к лучшему».