Бій великих моделей штучного інтелекту: перемога інженерії чи владарювання алгоритмів

Битва ста моделей у сфері ШІ: інженерна проблема чи наукова задача?

Минулого місяця в індустрії ШІ спалахнула "війна тварин".

З одного боку, це Llama, випущений Meta, який, завдяки своїй відкритій природі, користується великою популярністю серед розробницької спільноти. З іншого боку, є великий модель під назвою Falcon. У травні цього року з'явився Falcon-40B, який зайняв перше місце в "рейтингу відкритих LLM".

Цей рейтинг створено спільнотою відкритих моделей, яка надає набір стандартів для оцінки здатностей LLM і проводить ранжування. У рейтингу в основному Llama та Falcon чергуються на верхніх позиціях. Після випуску Llama 2 родина Llama знову здобула перевагу; на початку вересня Falcon випустив версію 180B, досягнувши ще вищого рангу.

Цікаво, що розробники "Сокола" знаходяться в Інституті наукових досліджень технологічних інновацій в Абу-Дабі, столиці Об'єднаних Арабських Еміратів. Представники уряду заявили: "Ми беремо участь у цій грі, щоб перевернути уявлення основних гравців".

На другий день після випуску версії 180B міністр штучного інтелекту ОАЕ Омар потрапив до списку "100 найвпливовіших людей у сфері ШІ", складеного журналом Time.

Сьогодні в сфері ШІ вже настав етап "кожен сам за себе": країни та компанії з фінансовими можливостями мають плани створити власну версію ChatGPT. Лише в колі країн Перської затоки вже є не один гравець — у серпні Саудівська Аравія лише для національних університетів придбала понад 3000 чіпів H100 для тренування LLM.

Жу Сяоху з Jinsha River Venture колись висловився: "Коли я не надавав значення інноваціям у бізнес-моделях Інтернету, вважав, що немає бар'єрів: битва ста груп, битва ста автомобілів, битва ста трансляцій; не очікував, що стартапи на основі жорстких технологій залишаться у битві ста моделей..."

Як так сталося, що обіцяна висока складність жорстких технологій перетворилася на модель однієї країни з врожайністю десяти тисяч斤 на акр?

Трансформер поглинає світ

Американські стартапи, китайські технологічні гіганти та нафтові магнати Близького Сходу можуть реалізувати свої мрії про великі моделі завдяки відомій статті: «Увага — це все, що вам потрібно».

У 2017 році 8 комп'ютерних вчених з Google у цій статті відкрили світові алгоритм Transformer. Ця стаття наразі є третьою за кількістю цитувань в історії штучного інтелекту, і поява Transformer стала спусковим гачком для цього раунду буму штучного інтелекту.

Незалежно від того, до якої країни належить поточна велика модель, включаючи сенсаційні серії GPT, вона стоїть на плечах Transformer.

До цього часу "навчити машину читати" було визнаною академічною проблемою. На відміну від розпізнавання зображень, люди під час читання тексту не лише звертають увагу на поточні слова та фрази, але й поєднують їх з контекстом для розуміння.

На ранніх етапах нейронні мережі мали незалежні входи і не володіли здатністю розуміти великі обсяги тексту, навіть цілі статті, тому виникали проблеми, такі як переклад "开水间" як "open water room".

До 2014 року комп'ютерний вчений Ілля, який працював у Google, а потім перейшов до OpenAI, першим отримав результати. Він використав рекурентні нейронні мережі (RNN) для обробки природної мови, що дозволило одній з платформ перекладу швидко вирватися вперед від конкурентів.

RNN запропонував "циклічний дизайн", що дозволяє кожному нейрону приймати як вхідну інформацію поточного моменту, так і інформацію з попереднього моменту, що надає нейронній мережі здатність "поєднувати контекст".

Поява RNN розпалила дослідницький ентузіазм у наукових колах, і автор роботи про Transformer Шазель також на деякий час захопився цим. Однак розробники швидко усвідомили, що у RNN існує серйозний недолік:

Цей алгоритм використовує послідовні обчислення, які, безумовно, можуть вирішити проблему контексту, але ефективність його роботи не висока, і йому важко обробляти велику кількість параметрів.

Складний дизайн RNN швидко набрид Шазелю. Тому з 2015 року Шазель разом із семи однодумцями почали розробку альтернативи RNN, результатом якої став Transformer.

На відміну від RNN, у трансформера є дві революційні особливості:

По-перше, замість циклічного дизайну RNN було використано кодування позицій, що дозволило здійснити паралельні обчислення — ця зміна значно підвищила ефективність навчання Transformer, що дозволило обробляти великі дані та привело штучний інтелект до епохи великих моделей; по-друге, було ще більше посилено контекстуальну здатність.

З моментом, коли Transformer в один присід вирішив безліч недоліків, він поступово став єдиним рішенням у NLP (обробці природної мови), викликаючи відчуття, що "якщо б не було Transformer, NLP залишився б у вічній ночі". Навіть Ілля залишив RNN, яку він сам підняв на п'єдестал, і перейшов до Transformer.

Іншими словами, Transformer є прабатьком усіх великих моделей сьогодні, оскільки він перетворив великі моделі з теоретичної дослідницької проблеми на чисто інженерну проблему.

У 2019 році OpenAI на основі Transformer розробила GPT-2, яка вразила академічне середовище. У відповідь Google швидко запустила більш потужний AI під назвою Meena.

В порівнянні з GPT-2, у Meena немає інновацій у базових алгоритмах, лише на 8,5 разів більше навчальних параметрів і на 14 разів більше обчислювальної потужності, ніж у GPT-2. Автори статті про Transformer, Шазел, були вражені "агресивним нагромадженням" і на місці написали меморандум "Meena поглинає світ".

Поява Transformer значно уповільнила темп інновацій у базових алгоритмах академічної сфери. Такі інженерні елементи, як обробка даних, масштаб обчислювальних потужностей, архітектура моделей тощо, все більше стають важливими факторами перемоги в змаганнях з ШІ, і будь-яка технологічна компанія з певними технічними можливостями може створити великий модель.

Отже, комп'ютерний вчений Ендрю Нґ у своїй промові в Стенфордському університеті висловив точку зору: "ШІ є набором інструментів, що включає навчання з наглядом, навчання без нагляду, навчання з підкріпленням та сучасний генеративний штучний інтелект. Усі ці технології є універсальними, подібно до електрики та Інтернету."

OpenAI дійсно залишається орієнтиром для LLM, але аналітичні агентства у сфері напівпровідників вважають, що конкурентоспроможність GPT-4 походить від інженерних рішень — якщо вони будуть відкритими, будь-який конкурент зможе швидко їх відтворити.

Цей аналітик прогнозує, що, можливо, не знадобиться багато часу, і інші великі технологічні компанії також зможуть створити моделі з продуктивністю, рівною GPT-4.

Копи на склі

Сьогодні «бій сотень моделей» вже не є риторичним прийомом, а об'єктивною реальністю.

Відповідні звіти показують, що станом на липень цього року кількість внутрішніх великих моделей досягла 130, що перевищує 114 у США, успішно здійснивши обгін на повороті, і різних міфів і легенд вже майже не вистачає для найменування вітчизняних технологічних компаній.

А в інших заможних країнах, окрім США і Китаю, також почали реалізовувати "одна країна - одна модель": крім Японії та ОАЕ, є також велика модель Bhashini, яку очолює уряд Індії, та HyperClova X, розроблена південнокорейською інтернет-компанією.

Цей спектакль насправді нагадує епоху інтернет-експансії, коли панували бульбашки, а "грошова спроможність" змагалася одна з одною.

Як було зазначено раніше, трансформер перетворив великі моделі на чисто інженерну задачу: якщо хтось має гроші та графічний процесор, все інше можна віддати на відкуп параметрам. Але хоча квиток на вхід не важко отримати, це не означає, що кожен має можливість стати BAT в епоху ШІ.

Згадане на початку "Війна тварин" є типовим прикладом: хоча Falcon перевершує Llama за рейтингом, важко стверджувати, наскільки великий вплив він справив на Meta.

Відомо, що компанії відкривають свої наукові досягнення, щоб ділитися благами технологій із суспільством, а також сподіваються залучити розум людей. Зі зростанням використання та вдосконалення Llama різними університетськими професорами, науковими установами та малими і середніми підприємствами, Meta може впроваджувати ці досягнення у свої продукти.

Для відкритих великих моделей активна спільнота розробників є їхньою основною конкурентною перевагою.

А вже у 2015 році, коли було створено лабораторію штучного інтелекту, Meta визначила основний тон відкритого виходу; Цукерберг, який став багатим завдяки бізнесу в соціальних мережах, також добре розуміється на "належних відносинах з громадськістю".

Наприклад, у жовтні Meta організувала захід під назвою "AI-версія програми стимулювання творців": розробники, які використовують Llama 2 для вирішення соціальних проблем, таких як освіта та навколишнє середовище, матимуть можливість отримати фінансування в розмірі 500 тисяч доларів.

Сьогодні серія Llama від Meta безсумнівно стала орієнтиром для відкритих LLM.

Станом на початок жовтня, у рейтингу топ-10 відкритих LLM, 8 з них побудовані на основі Llama 2 і всі використовують його відкриту ліцензію. Лише на цій платформі кількість LLM, що використовують відкриту ліцензію Llama 2, перевищила 1500.

Звичайно, підвищити продуктивність, як у Falcon, також не завадить, але на сьогоднішній день більшість LLM на ринку все ще мають помітну різницю у продуктивності в порівнянні з GPT-4.

Наприклад, нещодавно GPT-4 зайняв перше місце в тестуванні AgentBench з оцінкою 4,41 бали. Стандарт AgentBench був спільно розроблений Університетом Ціньхуа, Університетом штату Огайо та Університетом Каліфорнії в Берклі для оцінки можливостей LLM у багатовимірних умовах відкритого генерування, включаючи завдання в восьми різних середовищах, таких як операційні системи, бази даних, графи знань, карткові битви тощо.

Результати тестування показали, що друге місце зайняв Claude з оцінкою лише 2,77 бали, розрив все ще є досить очевидним. Що стосується тих гучних відкритих LLM, їхні результати тестування коливаються близько 1 бала, що навіть не досягає 1/4 від GPT-4.

Слід знати, що GPT-4 було випущено в березні цього року, і це результат того, що світові колеги наздоганяли протягом півроку. Причиною такої різниці є команда вчених OpenAI з дуже високою "інтелектуальною щільністю" та накопичений досвід тривалих досліджень LLM, завдяки чому вони завжди залишаються попереду.

Тобто, основна здатність великої моделі полягає не у параметрах, а у створенні екосистеми (відкритий код) або чистій здатності до виведення (закритий код).

Зі зростанням активності відкритих спільнот продуктивність різних LLM може стати схожою, оскільки всі використовують подібні архітектури моделей і схожі набори даних.

Інша, більш зрозуміла проблема полягає в тому, що, крім Midjourney, здається, жодна велика модель не змогла заробити гроші.

Якір вартості

У серпні цього року стаття під заголовком "OpenAI може збанкрутувати до кінця 2024 року" привернула чималу увагу. Основну ідею статті можна вкласти в одне речення: OpenAI витрачає гроші занадто швидко.

У тексті згадується, що з моменту розробки ChatGPT збитки OpenAI швидко зростають, у 2022 році вони становили приблизно 540 мільйонів доларів, і тепер залишається лише чекати, поки інвестори Microsoft покриють витрати.

Хоча заголовок статті виглядає привабливо, він також відображає реальний стан справ у багатьох постачальників великих моделей: витрати та доходи серйозно дисбалансовані.

Занадто високі витрати призвели до того, що на сьогоднішній день лише NVIDIA заробляє великі гроші завдяки штучному інтелекту, максимум ще можна додати Broadcom.

Згідно з оцінками консультаційної компанії, NVIDIA продала понад 300 тисяч H100 у другому кварталі цього року. Це чіп для ШІ, який має неймовірну ефективність у навчанні ШІ, і технологічні компанії та науково-дослідні установи по всьому світу намагаються його придбати. Якщо скласти ці 300 тисяч H100 один на одного, їхня вага буде дорівнювати вазі 4,5 літаків Boeing 747.

Виступи NVIDIA також різко зросли, порівняно з минулим роком доходи стрибнули на 854%, що вразило Уолл-стріт. До речі, наразі ціна H100 на вторинному ринку досягла 40-50 тисяч доларів, але його собівартість становить лише трохи більше 3000 доларів.

Високі витрати на обчислювальну потужність вже в певній мірі стали перешкодою для розвитку галузі. Компанія Sequoia Capital провела розрахунки: світові технологічні компанії щорічно витрачають приблизно 200 мільярдів доларів на будівництво інфраструктури для великих моделей; у порівнянні з цим, великі моделі можуть генерувати максимум 75 мільярдів доларів доходу на рік, що створює щонайменше 125 мільярдів доларів розриву.

Крім того, окрім небагатьох випадків, таких як Midjourney, більшість програмних компаній, витративши величезні кошти, ще не зрозуміли, як заробити гроші. Особливо двоє лідерів галузі — Microsoft та Adobe — йдуть дещо непевно.

Microsoft та OpenAI колись співпрацювали над розробкою інструменту генерації коду на основі штучного інтелекту GitHub Copilot. Хоча щомісячна плата складає 10 доларів, через витрати на обслуговування Microsoft фактично втрачає 20 доларів, а користувачі з великим навантаженням можуть змусити Microsoft щомісяця витрачати 80 доларів. Таким чином, можна припустити, що з ціною 30 доларів за Microsoft 365 Copilot можуть бути ще більші збитки.

Не дивно, що Adobe, яка щойно випустила інструмент Firefly AI, також швидко запровадила супутню систему балів, щоб запобігти збиткам компанії від надмірного використання користувачами. Як тільки користувач використовує більше, ніж виділено щомісяця, Adobe уповільнить надання послуг.

Слід зазначити, що Microsoft і Adobe вже є великими програмними гігантами з чіткими бізнес-сценаріями та великою кількістю вже готових платних користувачів. А більшість моделей, які в основному складаються з параметрів, досягає найбільшого успіху.

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • 8
  • Поділіться
Прокоментувати
0/400
TheShibaWhisperervip
· 07-12 03:20
Їзда на стіні, спостерігаючи за соколом, що рве альпаку
Переглянути оригіналвідповісти на0
GasFeeTearsvip
· 07-12 03:06
Параметри корисні не так, як гроші.
Переглянути оригіналвідповісти на0
OnchainGossipervip
· 07-11 01:47
Думав, що два літаки стріляють, а виявилось ось так.
Переглянути оригіналвідповісти на0
TeaTimeTradervip
· 07-09 03:48
Хочу побачити, як великий модель працює самостійно.
Переглянути оригіналвідповісти на0
BlockDetectivevip
· 07-09 03:45
Великі моделі в світі бойових мистецтв стали справжнім сміховим шоу.
Переглянути оригіналвідповісти на0
Hash_Banditvip
· 07-09 03:32
так само, як війни з видобутку в '17... але з набагато більшими застеками, чесно кажучи
Переглянути оригіналвідповісти на0
PonziDetectorvip
· 07-09 03:31
За рейтингами ховається лише налаштування параметрів.
Переглянути оригіналвідповісти на0
AirdropFreedomvip
· 07-09 03:29
Ці багатії почали займатися алгоритмами.
Переглянути оригіналвідповісти на0
  • Закріпити