В 2010 году наши телефоны уже выполняли вычисления в миллионы раз сложнее, чем те, на которые была способна бортовая машина миссии Аполлон-11, высадившая людей на Луну.
Рекомендуем публикацию по теме
Но техника еще не умела в то время отличать фотографии котов от собак или лицо своего владельца от любого другого.
Именно в 2010 году коллектив программистов из нескольких американских университетов провел первый «ImageNet Challenge» — соревнование между системами компьютерного зрения. Задача на первый взгляд выглядела просто — классифицировать изображения по категориям, например, собаки и коты. Никакой магии в то время не произошло — алгоритмы участников ошибались так же часто, как рандомайзер.
Но все же конкурс начали проводить ежегодно, и уже в 2012 году к соревнованию присоединилась команда из Технического Университета Торонто — Алексей Крижевский и Илья Суцкевер вместе со своим научным руководителем. Их алгоритм ошибался только в 15% случаев, и это был прорыв, с которого началась вторая эпоха искусственного интеллекта. Если вы это пропустили... то мы уже в третьей эпохе. Но обо всем по порядку.
Первая Эпоха. ИИ vs Закон Мура
Еще 1965 году Гордон Мур сформулировал теорию, которую позже назвали законом Мура — «Количество транзисторов на микрочипе удваивается каждые два года».
Рекомендуем публикацию по теме
В течение следующих 55 лет вся техника развивалась в соответствии с этими темпами — каждые два года мощность компьютеров увеличивалась вдвое. Важно, что закон Мура не является физическим законом, а больше социологически-экономическим наблюдением: понимая спрос и заинтересованность человечества в развитии технологий, можно было предсказать объем инвестиций и, соответственно, скорость прогресса.
Для широкой общественности это стало очевидным в случае игровых компьютеров, которые морально устаревали примерно через каждые два года. Итак, вычислительная мощность компьютеров, использовавшихся для обучения нейронных сетей с 50-х до 2010-х, увеличивалась так же, как и в других отраслях, указанных в прогнозе Гордона Мура. Именно этот период получил название первой эпохи машинного обучения.
«Джорджтаунский эксперимент» состоялся в 1954 году и является выдающимся событием этого периода. Во времена Холодной войны, когда цивилизованный мир находился в напряженной ситуации из-за ядерных угроз со стороны СССР, была потребность адекватно оценивать риски. Одной из задач было переводить большое количество текстов с русского языка на английский.
В рамках демонстрации перспективности Джорджтаунского эксперимента более 60 предложений на русском языке, написанных латиницей, были введены компьютерным оператором в машину, и в результате на выходе появился перевод этих предложений на английский язык, который был напечатан на принтере. Этот эксперимент считается важным шагом в развитии машинного перевода и показал возможности компьютеров в этой сфере на начальном этапе их развития.
Задача, с которой система не справилась, — это правильное понимание контекста, или полисемия, которая означает, что слова имеют несколько значений. Например, слово «Bank» может иметь значение финансового учреждения или берега реки (river bank). Кроме того, система не смогла эффективно учитывать вариативность речи, иронию или оттенки смысла.
В последующие 10 лет ученые работали над улучшением системы перевода, но не смогли решить проблемы с пониманием контекста, полисемией слов и разнообразием вариантов речи. Эксперимент признали неудачным и прекратили финансирование этого направления исследований.
Для того, чтобы прописать все правила и исключения живой речи, понадобились бы миллионы человеко-часов или же система, которая способна учиться сама. И на самом деле, в 60-е уже существовали такие системы.
Уоррен Маккалох и Уелтер Питс описали концепцию искусственной нейронной сети, похожей на наш мозг, еще в 1943 году. Через 10 лет ученый Фрэнк Розенблат реализовал их идею, создав Перцептон — первую искусственную нейросеть. Перцептон умел обобщать различные изображения, создавая один образ, в частности он понимал несколько шрифтов и письменный текст и мог прочитать его. Между входной и выходной информацией в Персептоне был 1 слой нейронов. Он взвешивал комбинацию сигналов и решал — например, 55% что написана буква «а» и 45%, что «д», на выходе машина выбирала вариант с большим «весом»
Так что концепция машинного обучения существовала уже 70 лет назад, но ее очень сильно ограничивал закон Мура. Первые нейросети имели максимум 2 слоя нейронов, а современные имеют тысячи слоев. Во времена Джортаунского эксперимента создать многослойную нейросеть не было возможности из-за того, что не существовало компьютеров, способных обрабатывать такое количество информации. Персептон, например, стоил миллионы долларов и занимал огромную комнату.
На протяжении всех этих лет каждую новую идею развития ИИ сначала встречали овациями, а потом наступало разочарование. Техника не могла догнать научную мысль, — результаты работы оставались в лабораториях, инвестиции не приходили, стартапы закрывались... но амбиции оставались.
В 2010 компьютеры могли достаточно хорошо читать текст, но не могли распознать птичку и бабочку, а уже в 2012 году прогресс смог разбить стеклянный потолок.
Вторая эпоха ИИ и AlexNet
Вторую эпоху ИИ символично отсчитывают от того самого конкурса ImageNet Challenge.
На нем Суцкевер и Крижевский представили AlexNet. Дело в том, что демонстрация успехов команды ученых так заинтересовала крупные технологические компании, что, все, что было связано с машинным обучением, стали заваливать деньгами, и ученые могли использовать не просто компьютеры, а огромные дата-центры. В каком-то смысле AlexNet освободил ИИ от закона Мура.
В течение второй эпохи развития ИИ компьютеры научились различать изображения лучше людей, и это стало возможным за счет огромного количества слоев нейронов в сетях.
Третья эпоха ИИ и ChatGPT
Успехи моделей, которые разворачивали на огромных и мощных компьютерах, начали приносить больше денег владельцам, компании начали арендовать еще больше вычислительных мощностей.
И вместе со всеми этими деньгами и железом началась третья эпоха ИИ. Эпоха Больших Моделей. Мощности машин, которые используют для обучения моделей удваиваются каждые 10 месяцев. И так рождается ChatGPT.
Рекомендуем публикацию по теме
Для обучения большой модели нужно в 100 раз больше ресурсов чем для такой, которая заточена только на компьютерное зрение.
И вот сейчас технические компании столкнулись с новым вызовом — современные процессорные элементы имеют размер 2 нанометра, то есть это только несколько атомов, и уже скоро появится новое ограничение — физическое.
Хотя возможно, эту проблему решат не за счет увеличения мощности, а за счет изменения датасета. Если для обучения моделей второй эпохи нужен размеченный датасет, а это огромный объем информации, то обучение на неразмеченных текстах значительно уменьшает этот объем.
Что дальше?
Наверняка вы читали о скандалах-интригах-расследованиях в OpenAI. Некоторые СМИ писали о проекте Q*. Это перспективное развитие в поиске суперинтеллекта — известного также как общий искусственный интеллект. Этот проект имеет огромные вычислительные ресурсы и созданная модель уже способна решать математические задачи из школьной программы.
Способность к вычислениям считается одним из ключевых знаковых пунктов генеративного искусственного интеллекта. Сейчас он может писать и переводить тексты, но не заниматься математикой. И это очень приближает ИИ к человеку. Заменит ли ИИ нас в работе, или человечество в конце концов введет трехдневную рабочую неделю, покажет будущее.
И оно всегда наступает неожиданно.