Битва больших моделей ИИ: победа инженерии или алгоритм властвует

Битва ста моделей в области ИИ: инженерная проблема или научная задача?

В прошлом месяце в индустрии ИИ разразилась "война животных".

С одной стороны, это Llama, выпущенный Meta, который благодаря своей открытой природе пользуется популярностью в сообществе разработчиков. С другой стороны, это крупная модель под названием Falcon. В мае этого года появился Falcon-40B, который возглавил "рейтинг открытых LLM".

Этот рейтинг был составлен сообществом открытых моделей и предоставляет набор стандартов для оценки возможностей LLM и их ранжирования. В основном в рейтинге Llama и Falcon чередуются на первых местах. После запуска Llama 2 семья Llama вернула себе позицию; к началу сентября Falcon выпустил версию на 180B и снова занял более высокую позицию.

Интересно, что разработчик "Сокола" находится в Научно-исследовательском институте технологических инноваций в столице ОАЭ, Абу-Даби. Представители правительства заявили: "Мы участвуем в этой игре, чтобы разрушить основных игроков".

На второй день после выпуска версии 180B министр искусственного интеллекта ОАЭ Омар был включен в список "100 самых влиятельных людей в области ИИ", составленный журналом "Time".

Сегодня область ИИ уже вступила в стадию "беспорядка": страны и компании с финансовыми возможностями имеют планы по созданию своих версий ChatGPT. Только в кругу стран Персидского залива уже не один игрок — в августе Саудовская Аравия купила более 3000 H100 для обучения LLM в своих университетах.

Жу Сяоху из Jinshajiang Venture Capital однажды высказался: "В то время я не воспринимал инновации бизнес-моделей в интернете всерьез, считал, что нет барьеров: битва ста групп, битва ста автомобилей, битва ста трансляций; не ожидал, что стартапы с жесткими технологиями и большими моделями все равно приведут к битве ста моделей..."

Как же так? Обещали высокие технологии, а в итоге вышло так, что в каждой стране по одной модели и урожай по сто тысяч斤 с муки?

Трансформер поглощает мир

Американские стартапы, китайские технологические гиганты и нефтяные магнаты Ближнего Востока могут осуществить свои мечты о больших моделях, и все благодаря той знаменитой статье: «Внимание — это все, что вам нужно».

В 2017 году восемь компьютерных ученых из Google опубликовали алгоритм Transformer в этой статье, сделав его доступным для всего мира. Эта статья в настоящее время является третьей по количеству ссылок в истории искусственного интеллекта, и появление Transformer запустило текущую волну интереса к искусственному интеллекту.

Независимо от того, какой национальности текущая большая модель, включая всемирно известные серии GPT, все они стоят на плечах Transformer.

До этого момента "научить машины читать" считалась общепризнанной академической проблемой. В отличие от распознавания изображений, когда люди читают текст, они не только обращают внимание на слова и фразы, которые видят в данный момент, но и учитывают контекст для понимания.

В ранние годы нейронные сети имели независимые входные данные и не могли понимать большие объемы текста, даже целые статьи, поэтому возникали проблемы, такие как перевод "开水间" как "open water room".

До 2014 года компьютерный ученый Илья, работавший в Google и затем перешедший в OpenAI, первым добился результатов. Он использовал рекуррентные нейронные сети (RNN) для обработки естественного языка, что быстро позволило одной из платформ перевода значительно опередить конкурентов.

RNN предложила "циклический дизайн", позволяя каждому нейрону принимать как входную информацию текущего момента, так и входную информацию предыдущего момента, что придаёт нейронной сети способность "связывать контекст".

Появление RNN разожгло исследовательский энтузиазм в академических кругах, и автор статьи о Transformer Шазел на некоторое время также увлекся ими. Однако разработчики быстро осознали, что у RNN есть серьезный недостаток:

Алгоритм использует последовательные вычисления, которые, безусловно, могут решить проблемы контекста, но эффективность выполнения не высока, и с большим количеством параметров справляться трудно.

Сложный дизайн RNN быстро начал утомлять Шазела. Поэтому с 2015 года Шазел и 7 единомышленников начали разрабатывать альтернативу RNN, результатом чего стал Transformer.

По сравнению с RNN, у Transformer есть два основных изменения:

Во-первых, использование позиционного кодирования заменило циклическую структуру RNN, что позволило осуществлять параллельные вычисления — это изменение значительно повысило эффективность тренировки Transformer, что позволило обрабатывать большие данные и вывело ИИ в эпоху больших моделей; во-вторых, было дополнительно усилено понимание контекста.

С тех пор как Transformer одним махом решил множество недостатков, он постепенно стал единственным решением для NLP (обработки естественного языка), создавая ощущение, будто "если бы не было Transformer, NLP навсегда оставался бы в долгой ночи". Даже Илья отказался от RNN, который он сам возвел на пьедестал, и переключился на Transformer.

Иными словами, Transformer является прародителем всех современных крупных моделей, потому что он превратил крупные модели из теоретической исследовательской задачи в чисто инженерную задачу.

В 2019 году OpenAI разработала GPT-2 на основе Transformer, что произвело фурор в академических кругах. В ответ Google быстро выпустила более мощный ИИ под названием Meena.

По сравнению с GPT-2, у Meena нет инноваций в базовых алгоритмах, она просто имеет на 8,5 раз больше обучающих параметров и в 14 раз больше вычислительной мощности. Автор статьи о Transformer Шазер был потрясен "агрессивным наращиванием", и на месте написал заметку "Meena поглощает мир".

Появление Transformer значительно замедлило скорость инноваций базовых алгоритмов в академической среде. Элементы инженерии, такие как обработка данных, масштаб вычислительных мощностей и архитектура моделей, постепенно становятся важными факторами успеха в AI-соревнованиях, и любая технологическая компания с определенными техническими возможностями может создать большую модель.

Таким образом, компьютерный ученый Эндрю Нг, выступая в Стэнфордском университете, упомянул следующую точку зрения: "ИИ — это совокупность инструментов, включая обучение с учителем, обучение без учителя, обучение с подкреплением и современный генеративный искусственный интеллект. Все это универсальные технологии, аналогичные другим универсальным технологиям, таким как электричество и интернет."

OpenAI, безусловно, остается ориентиром для моделей LLM, но аналитическая компания в области полупроводников считает, что конкурентоспособность GPT-4 исходит из инженерных решений — если он будет открытым, любой конкурент сможет быстро воспроизвести его.

Этот аналитик ожидает, что, возможно, не пройдет много времени, и другие крупные технологические компании смогут создать модели, сопоставимые по производительности с GPT-4.

Оборонительный ров на стекле

В настоящее время "битва ста моделей" уже не является риторическим приемом, а является объективной реальностью.

Согласно отчетам, по состоянию на июль этого года количество крупных моделей в стране достигло 130, что выше, чем в США, где их 114, что успешно позволяет обойти соперников на повороте, и различных мифов и легенд уже почти недостаточно для названия отечественных технологических компаний.

А за пределами США и Китая ряд более богатых стран также в значительной степени реализовали принцип "одна страна - одна модель": помимо Японии и ОАЭ, также имеются большая модель Bhashini, возглавляемая правительством Индии, и HyperClova X, созданная южнокорейской интернет-компанией.

Перед нами такая обстановка, что кажется, будто мы вернулись в ту эпоху интернет-колонизации, когда всё было наполнено пузырями, и "денежная способность" соперничала друг с другом.

Как уже упоминалось ранее, Transformer превратил большие модели в чисто инженерную задачу: стоит только иметь деньги и видеокарту, а все остальное можно отдать параметрам. Но хотя билет на вход не так сложно получить, это не означает, что у каждого есть возможность стать BAT эры ИИ.

Упомянутая в начале "Война животных" является典型案例: хотя Falcon превосходит Llama в рейтинге, трудно сказать, насколько сильно это повлияло на Meta.

Как известно, компании открывают свои научные достижения не только для того, чтобы поделиться благами науки с обществом, но и чтобы задействовать мудрость народа. С углубленным использованием и улучшением Llama со стороны университетских профессоров, исследовательских учреждений и малых и средних предприятий, Meta может применять эти достижения в своих продуктах.

Для открытых больших моделей активное сообщество разработчиков является их ключевым конкурентным преимуществом.

А еще в 2015 году, когда была создана лаборатория ИИ, Meta уже установила основную тональность открытого исходного кода; Цукерберг, который стал богат благодаря бизнесу в социальных сетях, прекрасно понимает, как "хорошо наладить отношения с общественностью".

Например, в октябре Meta организовала мероприятие "AI-версия стимулов для создателей": разработчики, использующие Llama 2 для решения социальных проблем, таких как образование и окружающая среда, получат возможность получить финансирование в размере 500000 долларов.

На сегодняшний день серия Llama от Meta явно является ориентиром для открытых LLM.

По состоянию на начало октября, в топ-10 открытых LLM по версии определенного рейтинга 8 из них были созданы на основе Llama 2 и использовали его открытый лицензионный договор. Только на этой платформе количество LLM, использующих открытый лицензии Llama 2, уже превысило 1500.

Конечно, улучшение производительности, как у Falcon, тоже возможно, но на сегодняшний день большинство LLM на рынке все еще имеют заметный разрыв в производительности по сравнению с GPT-4.

Например, несколько дней назад GPT-4 занял первое место в тесте AgentBench с результатом 4,41 балла. Стандарт AgentBench был разработан Цинхуа и Государственным университетом штата Огайо, а также Калифорнийским университетом в Беркли для оценки способности LLM к рассуждению и принятию решений в многофункциональной открытой среде генерации. Тестовое содержание включает задачи в восьми различных средах, таких как операционные системы, базы данных, графы знаний, карточные бои и другие.

Результаты тестирования показывают, что у второго места Claude всего 2.77 балла, разрыв все еще довольно заметен. Что касается громких открытых LLM, их тестовые результаты колеблются вокруг 1 балла, что менее 1/4 от GPT-4.

Следует знать, что GPT-4 был выпущен в марте этого года, и это результат работы коллег по всему миру, которые пытались догнать его более полугода. Причиной этого разрыва является команда высокоинтеллектуальных ученых OpenAI и многолетний опыт исследований в области LLM, что позволяет им всегда оставаться на шаг впереди.

Иными словами, ключевая способность больших моделей заключается не в параметрах, а в построении экосистемы (с открытым исходным кодом) или чисто в способности вывода (с закрытым исходным кодом).

С ростом активности открытого сообщества производительность различных LLM может стать схожей, поскольку все используют схожие модели архитектуры и схожие наборы данных.

Еще одна более очевидная проблема заключается в том, что, кроме Midjourney, похоже, ни одна большая модель не смогла заработать деньги.

Якорь ценности

В августе этого года статья под названием "OpenAI может обанкротиться к концу 2024 года" привлекла немало внимания. Основная идея статьи может быть изложена в одном предложении: OpenAI слишком быстро тратит деньги.

В статье упоминается, что с момента разработки ChatGPT убытки OpenAI быстро растут, и только в 2022 году они составили около 540 миллионов долларов, и им остается только ждать, когда инвесторы Microsoft покроют расходы.

Хотя заголовок статьи звучит громко, он также рассказывает о текущем состоянии множества поставщиков крупных моделей: серьезный дисбаланс между затратами и доходами.

Слишком высокие затраты привели к тому, что в настоящее время только NVIDIA смогла заработать большие деньги на искусственном интеллекте, возможно, еще и Broadcom.

Согласно оценкам консалтинговой компании, NVIDIA продала более 300 тысяч H100 во втором квартале этого года. Это ИИ-чип, эффективность обучения ИИ которого невероятно высока, и технологические компании и исследовательские учреждения по всему миру стремятся его купить. Если сложить эти 300 тысяч H100, их вес будет эквивалентен 4,5 самолетам Boeing 747.

Выручка Nvidia также стремительно выросла, увеличившись на 854% по сравнению с прошлым годом, что ввергло Уолл-Стрит в шок. К слову, в настоящее время цена H100 на вторичном рынке поднялась до 40-50 тысяч долларов, в то время как его материал成本 составляет всего около 3000 долларов.

Высокие затраты на вычислительную мощность стали в определенной степени препятствием для развития отрасли. Венчурный капитал Sequoia проводил расчеты: по оценкам, мировые технологические компании будут тратить 200 миллиардов долларов США в год на строительство инфраструктуры для крупных моделей; в то же время, крупные модели могут приносить не более 75 миллиардов долларов США в год, что создает разрыв как минимум в 125 миллиардов долларов США.

Кроме того, за исключением немногих случаев, таких как Midjourney, большинство программных компаний после понесенных огромных затрат еще не придумали, как зарабатывать деньги. Особенно два ведущих игрока в отрасли - Microsoft и Adobe - действуют несколько неуверенно.

Microsoft и OpenAI ранее сотрудничали в разработке инструмента генерации кода AI GitHub Copilot. Хотя ежемесячная плата составляет 10 долларов, из-за затрат на инфраструктуру Microsoft теряет 20 долларов, а активные пользователи могут привести к убыткам в 80 долларов в месяц. Исходя из этого, можно предположить, что Microsoft 365 Copilot с ценой 30 долларов может привести к еще большим убыткам.

Неудивительно, что только что выпустившая инструмент Firefly AI компания Adobe также быстро запустила сопутствующую систему баллов, чтобы предотвратить убытки компании из-за чрезмерного использования пользователями. Если пользователь использует больше баллов, чем выделено на месяц, Adobe замедлит обслуживание.

Необходимо отметить, что Microsoft и Adobe уже являются гигантами программного обеспечения с ясными бизнес-сценариями и большим количеством готовых платных пользователей. В то время как большинство моделей с множеством параметров в основном полагаются на небо, их наибольшее применение...

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 8
  • Поделиться
комментарий
0/400
TheShibaWhisperervip
· 07-12 03:20
Сидеть на заборе, наблюдая за соколом, разрывающим альпака.
Посмотреть ОригиналОтветить0
GasFeeTearsvip
· 07-12 03:06
Параметры полезны, но деньги полезнее.
Посмотреть ОригиналОтветить0
OnchainGossipervip
· 07-11 01:47
Думал, что два самолета дерутся, а это просто так.
Посмотреть ОригиналОтветить0
TeaTimeTradervip
· 07-09 03:48
Я хочу видеть крупную модель соло и принадлежать ей
Посмотреть ОригиналОтветить0
BlockDetectivevip
· 07-09 03:45
Большие модели в мире боевых искусств стали смешными.
Посмотреть ОригиналОтветить0
Hash_Banditvip
· 07-09 03:32
как войны по добыче в '17... но с гораздо более высокими ставками, если честно
Посмотреть ОригиналОтветить0
PonziDetectorvip
· 07-09 03:31
За рейтингом всегда стоит накрутка параметров.
Посмотреть ОригиналОтветить0
AirdropFreedomvip
· 07-09 03:29
Эти богачи запустили алгоритм.
Посмотреть ОригиналОтветить0
  • Закрепить