В 2010 році наші телефони вже виконували обчислення в мільйони разів складніші, ніж ті, на які була здатна бортова машина місії Аполлон-11, що висадила людей на Місяць.
Рекомендуємо публікацію по темі
Але в той час техніка ще не вміла розрізняти фотографії котів від собак або обличчя свого власника від будь-якого іншого.
Саме в 2010 році колектив програмістів з декількох американських університетів провів перший «ImageNet Challenge» — змагання між системами комп'ютерного зору. Завдання на перший погляд виглядало просто — класифікувати зображення за категоріями, наприклад, собаки та коти. Жодної магії в той час не відбулося — алгоритми учасників помилялись так само часто, як рандомайзер.
Але все ж таки конкурс почали проводити щорічно, і вже в 2012 році до змагання приєдналася команда з Технічного Університету Торонто — Олексій Крижевський та Ілля Суцкевер разом із своїм науковим керівником. Їх алгоритм помилявся тільки у 15% випадків, і це був прорив, з якого почалась друга епоха штучного інтелекту. Якщо ви це пропустили... то ми вже в третій епосі. Але про все по порядку.
Перша Епоха. ШІ vs Закон Мура
Ще 1965 році Гордон Мур сформулював теорію, яку пізніше назвали законом Мура — «Кількість транзисторів на мікрочіпі подвоюється кожні два роки».
Рекомендуємо публікацію по темі
Протягом наступних 55 років вся техніка розвивалась згідно з цими темпами — кожні два роки потужність комп'ютерів збільшувалась удвічі. Важливо, що закон Мура не є фізичним законом, а більше соціологічно-економічним спостереженням: розуміючи попит та зацікавленість людства в розвитку технологій, можна було передбачити обсяг інвестицій і, відповідно, швидкість прогресу.
Для широкої громадськості це стало очевидним у випадку ігрових комп'ютерів, які морально застарівали приблизно через кожні два роки. Отже, обчислювальна потужність комп'ютерів, що використовувалися для навчання нейронних мереж з 50-х до 2010-их, збільшувалась так само, як і в інших галузях, зазначених в прогнозі Гордона Мура. Саме цей період отримав назву першої епохи машинного навчання.
«Джорджтаунський експеримент» відбувся в 1954 році і є визначною подією цього періоду. У часи Холодної війни, коли цивілізований світ знаходився в напруженій ситуації через ядерні загрози з боку СРСР, була потреба адекватно оцінювати ризики. Одним із завдань було перекладати велику кількість текстів з російської мови на англійську.
У рамках демонстрації перспективності Джорджтаунського експеримену більше 60 російських речень, написаних латиницею, були введені комп'ютерним оператором в машину, і в результаті на виході з'явився переклад цих речень англійською мовою, який був надрукований на принтері. Цей експеримент вважається важливим кроком у розвитку машинного перекладу та показав можливості комп'ютерів у цій сфері на початковому етапі їхнього розвитку.
Задача, з якою система не впоралась, — це правильне розуміння контексту, або полісемія, яка означає, що слова мають кілька значень. Наприклад, слово «Bank» може мати значення фінансової установи або берега річки (river bank). Крім того, система не змогла ефективно враховувати варіативність мовлення, іронію або відтінки сенсу.
У наступні 10 років вчені працювали над поліпшенням системи перекладу, але не змогли вирішити проблеми з розумінням контексту, полісемією слів та різноманіттям варіантів мовлення. Експеримент визнали невдалим і припинили фінансування цього напрямку досліджень.
Для того, щоб прописати усі правила та виключення живої мови, знадобились би мільйони людино-годин або ж система, яка здатна навчатись сама. І насправді, в 60-ті уже існували такі системи.
Воррен Маккалох та Уелтер Пітс описали концепцію штучної нейронної мережі, яка була схожа на наш мозок, ще в 1943 році. Через 10 років вчений Френк Розенблат реалізував їх ідею, створивши Перцептон — першу штучну нейромережу. Перцептон вмів узагальнювати різні зображення, створюючи один образ, зокрема він розумів декілька шрифтів і писемний текст і міг прочитати його. Між вхідною і вихідною інформацією у Персептоні був 1 шар нейронів. Він зважував комбінацію сигналів і вирішував — наприклад, 55% що написана буква «а» і 45%, що «д», на виході машина обирала варіант з більшою «вагою».
Отже, концепція машинного навчання існувала вже 70 років тому, але її дуже сильно обмежував закон Мура. Перші нейромережі мали максимум 2 шари нейронів, а сучасні мають тисячі шарів. В часи Джортаунського експерименту створити багатошарову нейромережу не було можливості через те, що не існувало комп'ютерів, які були б здатні обробляти таку кількість інформації. Персептон, наприклад, коштував мільйони доларів і займав величезну кімнату.
Протягом всіх цих років кожну нову ідею розвитку ШІ спочатку зустрічали оваціями, а потім наставало розчарування. Техніка не могла наздогнати наукову думку, — результати роботи залишались в лабораторіях, інвестиції не приходили, стартапи закривались… але амбіції залишались.
В 2010 комп’ютери могли досить добре читати текст, але не могли розпізнати пташку і метелика, а вже в 2012 році прогрес зміг розбити скляну стелю.
Друга епоха ШІ та AlexNet
Другу епоху ШІ символічно відраховують від того самого конкусу ImageNet Challenge.
На ньому Суцкевер і Крижевський представили AlexNet. Справа в тому, що демонстрація успіхів команди науковців так зацікавила великі технологічні компанії, що, все, зо було пов’язане з машинним навчанням, стали завалювати грошима, і науковці могли використовувати не просто комп’ютери, а величезні дата-центри. В якомусь сенсі AlexNet звільнив ШІ від закону Мура.
Протягом другої епохи розвитку ШІ комп’ютери навчились розрізняти зображення краще за людей, і це стало можливим за рахунок величезної кількості шарів нейронів в мережах.
Третя епоха ШІ та ChatGPT
Успіхи моделей, які розгортали на величезних і потужних комп’ютерах, почали приносити більше грошей власникам, компанії почали орендувати ще більше обчислювальних потужностей. І разом з всіма цими грошима і залізом почалася третя епоха ШІ. Епоха Великих Моделей. Потужності машин, яки використовують для навчання моделей подвоюються кожні 10 місяців. І так народжується ChatGPT.
Рекомендуємо публікацію по темі
Для навчання великої моделі потрібно в 100 разів більше ресурсів ніж для такої, яка заточена тільки на комп’ютерний зір.
І ось зараз технічні компанії зіштовхнулись із новим викликом — сучасні процесорні елементи мають розмір 2 нанометра, тобто це тільки декілька атомів, і вже скоро з’явиться нове обмеження — фізичне.
Хоча можливо, цю проблему вирішать не за рахунок збільшення потужності, а за рахунок зміни датасету. Якщо для навчання моделей другої епохи потрібен розмічений датасет, а це величезний обсяг інформації, то навчання на нерозмічених текстах значно зменшує цей обсяг.
Що далі?
Напевно, ви читали про скандали-інтриги-розлідування в OpenAI. Деякі СМІ писали про проєкт Q*. Це перспективний розвиток у пошуку суперінтелекту — відомого також як загальний штучний інтелект. Цей проєкт має величезні обчислювальні ресурси і створена модель вже здатна вирішувати математичні завдання зі шкільної програми.
Здатність до обчислень вважається одним із ключових знакових пунктів генеративного штучного інтелекту. Наразі він може писати та перекладати тексти, проте не займатися математикою. І це дуже наближує ШІ до людини. Чи замінить ШІ нас в роботі, чи людство врешті запровадить триденний робочий тиждень, покаже майбутнє.
І воно завжди наступає зненацька.