Текст из раздела Теории.
Здесь не утверждаются истины.
Теории - это приглашение к размышлению.

Биг дата

Панацея с системными ошибками.

Модные направления в IT - искусственный интеллект и биг дата, - на самом деле находятся в весьма зачаточном состоянии, но уже повсеместно используются и внедряются. При этом мы до конца не знаем всех возможных багов и глюков этой системы. Мы не очень чистоплотно и ответственно подходим к подбору данных, на которых учится ИИ. Мы развлекаемся этой новой игрушкой и пытаемся сделать на ней деньги, совершенно не задумываясь, к чему это может привести, не анализируя какие техногенные катастрофы от ошибок биг даты и искусственного интеллекта ждут нас в достаточно близком будущем.

Когда-то такую же эйфорию люди испытывали от появления не взрывоопасного топлива для автомобилей - этилированного бензина, содержащего свинец. Изобретатель этого бензина и корпорации хорошо обогатились за счет этого товара, заодно отравив весь мир свинцом. Сейчас этилированный бензин запрещен к применению во всех развитых странах (и даже во многих менее развитых). А ученые заняты подсчетом количества жертв этого бизнеса, ведь повышенное содержание свинца в выхлопных газах приводит к повышению агрессии в обществе, сокращает продолжительность жизни, вызывает различные заболевания.

И если мы оглянемся на историю 20-го века, то возникает вопрос – какая часть вины за пролитую в нем кровь лежит на желании подзаработать на модной марке бензина?

Атомная энергетика тоже обещала много плюшек, и мир тоже находился в эйфории, и повсюду, наперегонки, строил атомные электростанции. Самая известная из них - Чернобыльская. Но она далеко не единственная.

При всем этом важно то, что в отличии от биг даты и искусственного интеллекта, обучаемого на больших массивах данных, мы гораздо лучше представляли тогда последствия применения мирного атома или бензина, чем представляем сейчас то, что происходит "внутри" ИИ и как и чему он "учится" на массиве данных.

Неправильный или неадекватный подбор данных для обучения, ошибки в алгоритме обучения, некорректно поставленные и сформулированные задачи, отсутствие коррекции обучения и подбора данных, ошибки в исходных данных, неправильная интерпретация данных, некорректные или ошибочные выводы, нарушения причинно-следственных связей, ошибочно заданные оценки, индексы и приоритеты, ошибки внутри самой системы (любой компьютер имеет глюки и баги) - все вместе и по отдельности может привести к проблемам и катастрофам.

Примером фундаментальной системной ошибки методологии создания выборки и алгоритма обучения является пример с созданием шеф-повара на основе биг даты и искусственного интеллекта. Не так давно одна весьма уважаемая, мощная, не ограниченная бюджетом или кадрами корпорация загрузила в компьютер тонны рецептов, статей по диетологии и питанию, запустила нейронную сеть и на выходе получила... совершенно несъедобные рецепты от этого супер-шеф-повара. И никто не знает в чем тут ошибка.

А теперь представим себе, что подобный ИИ управляет чем-то посерьезнее: движением поездов, посадкой самолетов, переключением светофоров, поисковой выдачей в Интернете, определением качества и достоверности информации на сайтах, температурой в реакторе АЭС, прогнозом результатов выборов или котировок акций... Стало страшно?

Проблема в том, что плох не искусственный интеллект и не биг дата, а эйфория вокруг них, желание сделать на этом хайпе быстрые деньги, пляски с бубном и повышение цены акций IT-компаний, стук по столу председателя совета директоров и звонки в его приемную от мажоритарных акционеров. Проблема не в технологии, а в человеке. Как и всегда. В его жадности, желании власти, славы, в его нетерпении и неумении дисциплинированно и критично мыслить.

И это именно то, что наблюдается сейчас в IT - хайп и эйфория от биг даты, недостаточно критичное и осторожное отношение к этим технологиям, небрежное их использование. Это рождает ошибки у которых невозможно найти ни начала, ни конца. И это легко может привести к техногенным катастрофам.

Разумеется, сама по себе технология ИИ и БД хорошая. Любая технология всегда хороша или как минимум нейтральна. Проблема в прокладке между рулем и сиденьем. В кривых руках и головах людей. Это как с автоматом. Он может защитить, может убить. В зависимости от рук, которые его держат.

Проблема в том, что ИИ и биг дата выпускаются в жизнь "с пылу с жару", "с колес". Продукты поступают на рынок прежде, чем технология отработана в эксперименте, в лаборатории. По каждому пункту, по каждой базе.

До того, как начинать использование любого решения на основе искусственного интеллекта или с использованием биг даты, необходимо проверить каждое такое решение в двойных слепых рандомизированных исследованиях, как принято в фармакологии. Протестировать воспроизводимость результатов в сторонних лабораториях, как это принято в физике. Иначе получится яд, вместо лекарства и атомный гриб, вместо праздничного фейерверка.

Если этого не сделать, то хорошая идея и технология будут дискредитированы.

В свое время именно эйфория и повальное применение антибиотиков и гормонов дискредитировало эти прекрасные препараты в глазах многих пациентов.

Спешка хороша при ловле блох и плоха при отработке новой технологии, обещающей стать фундаментом новой информационной революции.

Биг дата несомненно может помочь в любой лабораторной науке. Смоделировать что-то, обсчитать. Это ускоряет процесс. Но потом это «что-то» найденное ИИ проверяется человеком. И работает далеко не всегда.

В лабораторных, проверяемых условиях биг дата просто супер. Но на просторы ей пока рано - мы не знаем всех повадок этого тигра, а уже выпускаем его на волю. Не стоит удивляться, когда он кого-то сожрет.

Лишь обкатав в лаборатории, обнаружив все глюки, фундаментальные и системные ошибки, и научившись их избегать, устранять или минимизировать, можно будет выпускать тигра.

Сколько раз человечество и даже ученые ошибались в своих предположениях? Платон и Декарт считали, что всему причиной Бог. Люди считали, что Земля плоская, а небо - твердь. Эйнштейн считал, что квантовая физика - ошибка. Вселенная менее столетия назад считалась неизменной, не расширяющейся. Хирурги считали, что мытье рук пустая трата времени. Сифилис лечили ртутью, эпилепсию - помещением в психбольницу, ПМС считали истерией, а большинство болезней лечили кровопусканием. Если мы загрузим в биг дату всю литературу за письменную историю человечества, включая Коран, Библию, Веды и труды астрофизиков, то на выходе получим Бога и акт творения, а вовсе не Большой Взрыв и физические законы.

За 5000 лет письменной истории мы накопили опыт множества ошибок. Мы постоянно торопились, заблуждались и спотыкались. С чего бы вдруг биг дата или искусственный интеллект вдруг станут панацеей, вечным двигателем или 100% решением всех проблем. Логичнее предположить, что это очередное преувеличение или заблуждение.

Искусственный интеллект, умение работать с большими объемами данных, умение компьютеров самообучаться – это круто, здорово и т.д. Но это направление еще настолько сырое, что использовать его вне лабораторий рановато и опасно. Тем не менее, сейчас в IT биг дата и искусственный интеллект начинают использоваться повсеместно (в реальном, а не лабораторном мире). В конце концов, сами программисты перестанут понимать, где, почему и что глючит (уже не понимают и своими действиями множат ошибки, что легко заметить по результатам поисковой выдачи). Ошибки накапливаются как снег на склоне. В итоге это неминуемо приведет к сходу лавины.

Надо быть осторожным, чтобы Святой Грааль не превратился в ящик Пандоры.

Иван Милюков
12.2020г

Вы можете связаться с автором статьи, используя нашу редакционную почту
(см. раздел Контакты внизу главной страницы).