Cuộc chiến giữa các mô hình AI lớn: Kỹ thuật quyết định hay thuật toán lên ngôi

Cuộc chiến trăm mô hình trong lĩnh vực AI: Vấn đề kỹ thuật hay thách thức nghiên cứu?

Tháng trước, ngành công nghiệp AI đã bùng nổ một "cuộc chiến động vật".

Một bên là Llama do Meta phát hành, nhờ vào tính chất mã nguồn mở của nó, rất được cộng đồng phát triển ưa chuộng. Bên kia là một mô hình lớn có tên là Falcon. Vào tháng 5 năm nay, Falcon-40B ra mắt và đứng đầu bảng xếp hạng "LLM mã nguồn mở".

Bảng xếp hạng này được tạo ra bởi cộng đồng mô hình mã nguồn mở, cung cấp một bộ tiêu chuẩn để đánh giá khả năng của LLM và thực hiện xếp hạng. Bảng xếp hạng chủ yếu là Llama và Falcon lần lượt chiếm vị trí. Sau khi Llama 2 ra mắt, gia đình Llama đã lấy lại một trận; đến đầu tháng 9, Falcon đã ra mắt phiên bản 180B, lại đạt được xếp hạng cao hơn.

Thú vị là, nhà phát triển của "Kẻ săn mồi" là Viện Nghiên cứu Đổi mới Công nghệ có trụ sở tại Abu Dhabi, thủ đô của Các Tiểu vương quốc Ả Rập Thống nhất. Các quan chức chính phủ cho biết, "Chúng tôi tham gia trò chơi này để lật đổ những người chơi cốt lõi."

Ngày thứ hai sau khi phát hành phiên bản 180B, Bộ trưởng Trí tuệ Nhân tạo của Các Tiểu vương quốc Ả Rập Thống nhất, Omar, đã được chọn vào danh sách "100 người có ảnh hưởng nhất trong lĩnh vực AI" do tạp chí Time bình chọn.

Hiện nay, lĩnh vực AI đã bước vào giai đoạn "cuồng loạn": những quốc gia và doanh nghiệp có tài lực đều có kế hoạch phát triển phiên bản ChatGPT của riêng mình. Chỉ riêng trong vòng tròn các quốc gia Vùng Vịnh, đã có hơn một người chơi - vào tháng 8, Ả Rập Xê Út vừa mua hơn 3000 tấm H100 cho các trường đại học trong nước, nhằm huấn luyện LLM.

Nhà đầu tư Jinsha Jiang Zhu Xiao Hu từng phàn nàn: "Ngày xưa không coi trọng sự đổi mới mô hình kinh doanh của Internet, cảm thấy không có rào cản: Trận chiến trăm đội, trận chiến trăm xe, trận chiến trăm phát sóng; không ngờ khởi nghiệp mô hình lớn công nghệ cứng, vẫn là trận chiến trăm mô hình..."

Nói về công nghệ cứng khó khăn, sao lại biến thành một quốc một mô hình sản xuất một mẫu đất mười vạn cân vậy?

Transformer nuốt chửng thế giới

Các công ty khởi nghiệp Mỹ, các ông lớn công nghệ Trung Quốc và các ông trùm dầu mỏ Trung Đông có thể theo đuổi giấc mơ mô hình lớn đều phải cảm ơn bài báo nổi tiếng đó: "Attention Is All You Need".

Năm 2017, 8 nhà khoa học máy tính từ Google đã công bố thuật toán Transformer trong bài báo này đến toàn thế giới. Bài báo này hiện là bài báo đứng thứ ba về số lần được trích dẫn trong lịch sử trí tuệ nhân tạo, sự xuất hiện của Transformer đã kích hoạt làn sóng nhiệt của trí tuệ nhân tạo này.

Dù mô hình lớn hiện tại có quốc tịch gì, bao gồm cả loạt GPT gây chấn động thế giới, đều đứng trên vai của Transformer.

Trước đây, "dạy máy đọc sách" từng là một vấn đề học thuật được công nhận. Khác với nhận diện hình ảnh, khi con người đọc chữ, họ không chỉ chú ý đến các từ và câu mà họ thấy hiện tại, mà còn kết hợp với ngữ cảnh để hiểu.

Vào những năm đầu, đầu vào của mạng nơ-ron không có sự độc lập với nhau và không có khả năng hiểu một đoạn văn dài, thậm chí là toàn bộ bài viết, vì vậy mới xảy ra vấn đề dịch "开水间" thành "open water room".

Đến năm 2014, nhà khoa học máy tính Ilya, người từng làm việc tại Google và sau đó chuyển sang OpenAI, đã có những thành tựu đầu tiên. Ông đã sử dụng mạng nơ-ron hồi tiếp (RNN) để xử lý ngôn ngữ tự nhiên, giúp hiệu suất của một nền tảng dịch thuật nhanh chóng vượt trội hơn so với các sản phẩm cạnh tranh.

RNN đã đưa ra "thiết kế tuần hoàn", cho phép mỗi nơ-ron vừa nhận thông tin đầu vào tại thời điểm hiện tại, vừa nhận thông tin đầu vào của thời điểm trước đó, từ đó giúp mạng nơ-ron có khả năng "kết hợp ngữ cảnh".

Sự xuất hiện của RNN đã thắp lên niềm đam mê nghiên cứu trong giới học thuật, và sau này, tác giả bài báo về Transformer là ShaZel cũng đã từng đắm chìm trong đó. Tuy nhiên, các nhà phát triển nhanh chóng nhận ra rằng, RNN có một khiếm khuyết nghiêm trọng:

Thuật toán này sử dụng tính toán tuần tự, nó có thể giải quyết vấn đề ngữ cảnh nhưng hiệu suất hoạt động không cao, rất khó để xử lý một lượng lớn tham số.

Thiết kế phức tạp của RNN nhanh chóng khiến Shazell cảm thấy chán nản. Do đó, bắt đầu từ năm 2015, Shazell và 7 người đam mê khác đã bắt tay vào phát triển một sản phẩm thay thế cho RNN, kết quả của họ chính là Transformer.

So với RNN, sự cách mạng của Transformer có hai điểm:

Thứ nhất, đã thay thế thiết kế vòng lặp của RNN bằng cách sử dụng mã hóa vị trí, từ đó đạt được tính toán song song - sự thay đổi này đã nâng cao đáng kể hiệu suất đào tạo của Transformer, giúp nó có khả năng xử lý dữ liệu lớn, đưa AI vào kỷ nguyên mô hình lớn; thứ hai, đã tăng cường khả năng ngữ cảnh.

Khi Transformer giải quyết một loạt các thiếu sót một cách triệt để, nó dần trở thành giải pháp duy nhất cho NLP (xử lý ngôn ngữ tự nhiên), mang lại cảm giác như "nếu không có Transformer, NLP sẽ mãi mãi như một đêm dài". Đến cả Elijah cũng đã từ bỏ RNN mà ông từng nâng niu, chuyển sang sử dụng Transformer.

Nói cách khác, Transformer là tổ phụ của tất cả các mô hình lớn hiện nay, vì nó đã biến mô hình lớn từ một vấn đề nghiên cứu lý thuyết thành một vấn đề kỹ thuật thuần túy.

Năm 2019, OpenAI đã phát triển GPT-2 dựa trên Transformer, gây ấn tượng mạnh trong giới học thuật. Để đáp lại, Google đã nhanh chóng ra mắt một AI mạnh mẽ hơn, có tên là Meena.

So với GPT-2, Meena không có sự đổi mới nào về thuật toán cơ sở, chỉ đơn giản là có 8,5 lần số tham số đào tạo và 14 lần sức mạnh tính toán nhiều hơn GPT-2. Tác giả bài báo Transformer, Shahraz, rất sốc trước "sự tích lũy bạo lực" và ngay lập tức viết một ghi chú có tiêu đề "Meena nuốt chửng thế giới".

Sự ra đời của Transformer đã làm chậm lại tốc độ đổi mới của các thuật toán cơ bản trong giới học thuật. Các yếu tố kỹ thuật như kỹ thuật dữ liệu, quy mô tính toán, kiến trúc mô hình ngày càng trở thành yếu tố quyết định quan trọng trong các cuộc thi AI, chỉ cần có một chút khả năng kỹ thuật, bất kỳ công ty công nghệ nào cũng có thể tự tay tạo ra một mô hình lớn.

Do đó, khi nhà khoa học máy tính Andrew Ng có bài phát biểu tại Đại học Stanford, ông đã đề cập đến một quan điểm: "AI là một tập hợp các công cụ, bao gồm học có giám sát, học không có giám sát, học tăng cường và hiện nay là trí tuệ nhân tạo sinh sinh. Tất cả những điều này đều là công nghệ chung, tương tự như điện và Internet."

OpenAI chắc chắn vẫn là tiêu chuẩn cho LLM, nhưng các tổ chức phân tích chất bán dẫn cho rằng, sức cạnh tranh của GPT-4 đến từ các giải pháp kỹ thuật - nếu được mã nguồn mở, bất kỳ đối thủ nào cũng có thể nhanh chóng tái tạo.

Nhà phân tích này dự đoán, có thể không mất quá lâu, các công ty công nghệ lớn khác cũng có thể tạo ra các mô hình lớn có hiệu suất tương đương với GPT-4.

Hào thành được xây trên kính

Hiện nay, "cuộc chiến trăm mô hình" không còn chỉ là một biện pháp tu từ, mà là một thực tế khách quan.

Các báo cáo liên quan cho thấy, tính đến tháng 7 năm nay, số lượng mô hình lớn trong nước đã đạt 130, cao hơn so với 114 của Mỹ, thành công trong việc vượt bậc, các loại thần thoại và truyền thuyết đã gần như không đủ để các công ty công nghệ trong nước đặt tên.

Ngoài Trung-Mỹ, một số quốc gia giàu có khác cũng đã bước đầu thực hiện mô hình "mỗi quốc gia một mẫu": ngoài Nhật Bản và Các Tiểu Vương Quốc Ả Rập Thống Nhất, còn có mô hình lớn Bhashini do chính phủ Ấn Độ dẫn dắt, HyperClova X do công ty internet Hàn Quốc phát triển, v.v.

Cảnh tượng trước mắt dường như quay trở lại thời kỳ Internet khai thác, nơi mà bong bóng và "khả năng tiền tệ" đối đầu với nhau.

Như đã nói ở trên, Transformer đã biến mô hình lớn thành một vấn đề kỹ thuật thuần túy, chỉ cần có người có tiền và có card đồ họa, phần còn lại sẽ được giao cho các tham số. Nhưng vé vào không khó để có được, điều đó cũng không có nghĩa là ai cũng có cơ hội trở thành BAT trong thời đại AI.

Ví dụ điển hình được đề cập ở đầu là "Cuộc chiến động vật": Mặc dù Falcon đứng trên Llama trong bảng xếp hạng, nhưng thật khó để nói nó đã gây ra bao nhiêu cú sốc cho Meta.

Như mọi người đã biết, các doanh nghiệp mở nguồn những thành quả nghiên cứu của mình, không chỉ để chia sẻ lợi ích công nghệ với công chúng mà còn mong muốn khơi dậy trí tuệ của người dân. Khi các giáo sư đại học, các tổ chức nghiên cứu, và các doanh nghiệp vừa và nhỏ liên tục sử dụng và cải tiến Llama, Meta có thể áp dụng những thành quả này vào sản phẩm của mình.

Đối với mô hình lớn mã nguồn mở, cộng đồng nhà phát triển năng động mới là lợi thế cạnh tranh cốt lõi.

Và ngay từ khi thành lập phòng thí nghiệm AI vào năm 2015, Meta đã định hình được định hướng mã nguồn mở; Zuckerberg lại là người đã làm giàu từ kinh doanh mạng xã hội, càng hiểu rõ về việc "duy trì mối quan hệ tốt với công chúng".

Ví dụ, vào tháng 10, Meta đã tổ chức một sự kiện "Khuyến khích người sáng tạo phiên bản AI": các nhà phát triển sử dụng Llama 2 để giải quyết các vấn đề xã hội như giáo dục, môi trường sẽ có cơ hội nhận được 500.000 đô la tài trợ.

Đến nay, dòng sản phẩm Llama của Meta đã trở thành tiêu chuẩn cho các LLM mã nguồn mở.

Tính đến đầu tháng 10, trong bảng xếp hạng Top 10 LLM mã nguồn mở, có 8 cái được xây dựng dựa trên Llama 2, tất cả đều sử dụng giấy phép mã nguồn mở của nó. Chỉ riêng trên nền tảng này, đã có hơn 1500 LLM sử dụng giấy phép mã nguồn mở Llama 2.

Tất nhiên, việc cải thiện hiệu suất giống như Falcon cũng không phải là không thể, nhưng đến ngày nay, hầu hết các LLM trên thị trường vẫn có khoảng cách hiệu suất rõ ràng so với GPT-4.

Ví dụ, trước đây không lâu, GPT-4 đã đạt được điểm số 4.41 và đứng đầu trong bài kiểm tra AgentBench. Tiêu chuẩn AgentBench được Đại học Tsinghua phối hợp với Đại học Bang Ohio và Đại học California, Berkeley phát triển, nhằm đánh giá khả năng suy luận và ra quyết định của LLM trong môi trường mở với nhiều chiều kích, nội dung kiểm tra bao gồm các nhiệm vụ trong 8 môi trường khác nhau như hệ điều hành, cơ sở dữ liệu, đồ thị tri thức, và trận đấu thẻ.

Kết quả thử nghiệm cho thấy, người đứng thứ hai là Claude chỉ có 2,77 điểm, khoảng cách vẫn còn khá rõ rệt. Còn về những LLM mã nguồn mở ồn ào, điểm số thử nghiệm của chúng thường dao động quanh 1 điểm, chưa đến 1/4 điểm của GPT-4.

Cần biết rằng, GPT-4 được phát hành vào tháng 3 năm nay, đây vẫn là thành quả sau nửa năm các đồng nghiệp toàn cầu chạy đuổi theo. Nguyên nhân gây ra khoảng cách này là do đội ngũ các nhà khoa học của OpenAI có "mật độ IQ" cực cao và kinh nghiệm tích lũy lâu dài trong nghiên cứu LLM, do đó có thể luôn dẫn đầu.

Điều này có nghĩa là khả năng cốt lõi của mô hình lớn không phải là tham số, mà là xây dựng hệ sinh thái (mã nguồn mở) hoặc khả năng suy diễn thuần túy (mã nguồn đóng).

Khi cộng đồng mã nguồn mở ngày càng trở nên sôi động, hiệu suất của các LLM có thể trở nên tương đồng, vì mọi người đều đang sử dụng các kiến trúc mô hình tương tự và các tập dữ liệu tương tự.

Một vấn đề khác rõ ràng hơn là: Ngoài Midjourney, có vẻ như chưa có mô hình lớn nào khác có thể kiếm tiền.

Điểm neo giá trị

Vào tháng 8 năm nay, một bài viết có tiêu đề "OpenAI có thể sẽ phá sản vào cuối năm 2024" đã thu hút được nhiều sự chú ý. Ý chính của bài viết có thể được tóm gọn trong một câu: Tốc độ tiêu tiền của OpenAI quá nhanh.

Bài viết đề cập rằng kể từ khi phát triển ChatGPT, thua lỗ của OpenAI đang nhanh chóng mở rộng, chỉ trong năm 2022 đã lỗ khoảng 540 triệu đô la Mỹ, chỉ có thể chờ đợi các nhà đầu tư của Microsoft thanh toán.

Mặc dù tiêu đề bài viết gây sốc, nhưng nó cũng nói lên tình trạng của nhiều nhà cung cấp mô hình lớn: chi phí và doanh thu đang mất cân bằng nghiêm trọng.

Chi phí quá cao khiến hiện tại chỉ có Nvidia là kiếm được nhiều tiền nhờ vào trí tuệ nhân tạo, có thể thêm Broadcom nữa.

Theo ước tính của một công ty tư vấn, Nvidia đã bán ra hơn 300.000 chiếc H100 trong quý II năm nay. Đây là một con chip AI, hiệu quả đào tạo AI cực kỳ cao, các công ty công nghệ và các tổ chức nghiên cứu trên toàn thế giới đang tranh nhau mua. Nếu xếp chồng 300.000 chiếc H100 đã bán ra, trọng lượng tương đương với 4,5 chiếc máy bay Boeing 747.

Doanh thu của Nvidia cũng đã tăng vọt, với doanh thu tăng 854% so với cùng kỳ năm trước, khiến Phố Wall phải ngạc nhiên. Nhân tiện, hiện tại giá của H100 trên thị trường thứ cấp đã được đẩy lên 40-50 nghìn đô la Mỹ, trong khi chi phí vật liệu chỉ khoảng hơn 3000 đô la Mỹ.

Chi phí tính toán cao đã trở thành một rào cản cho sự phát triển của ngành ở một mức độ nào đó. Sequoia Capital đã thực hiện một phép tính: Các công ty công nghệ toàn cầu dự kiến sẽ chi 200 tỷ USD mỗi năm cho việc xây dựng cơ sở hạ tầng mô hình lớn; trong khi đó, mô hình lớn chỉ có thể tạo ra tối đa 75 tỷ USD doanh thu mỗi năm, có ít nhất 125 tỷ USD thiếu hụt ở giữa.

Ngoài ra, ngoài một số trường hợp cá biệt như Midjourney, hầu hết các công ty phần mềm vẫn chưa nghĩ ra cách kiếm tiền sau khi đã bỏ ra một khoản chi phí khổng lồ. Đặc biệt, hai ông lớn trong ngành - Microsoft và Adobe đều đang gặp khó khăn.

Microsoft và OpenAI đã hợp tác phát triển một công cụ tạo mã AI có tên là GitHub Copilot. Mặc dù mỗi tháng phải thu phí 10 đô la, nhưng do chi phí cơ sở hạ tầng, Microsoft lại phải chịu lỗ 20 đô la. Những người dùng sử dụng nhiều thậm chí có thể khiến Microsoft phải bù lỗ 80 đô la mỗi tháng. Theo đó, với mức giá 30 đô la của Microsoft 365 Copilot, có thể sẽ còn lỗ nhiều hơn.

Không có gì ngạc nhiên, Adobe vừa mới phát hành công cụ Firefly AI cũng đã nhanh chóng ra mắt một hệ thống điểm đi kèm, nhằm ngăn ngừa việc người dùng sử dụng quá mức gây thua lỗ cho công ty. Một khi có người dùng sử dụng vượt quá số điểm được phân bổ hàng tháng, Adobe sẽ giảm tốc độ dịch vụ.

Cần biết rằng Microsoft và Adobe đã là những ông lớn phần mềm với mô hình kinh doanh rõ ràng và có một lượng lớn người dùng trả phí sẵn có. Trong khi đó, hầu hết các mô hình lớn được xây dựng trên nhiều tham số chỉ là một ứng dụng lớn nhất.

Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Phần thưởng
  • 8
  • Chia sẻ
Bình luận
0/400
TheShibaWhisperervip
· 07-12 03:20
Cưỡi tường xem diều hâu xé lạc đà.
Xem bản gốcTrả lời0
GasFeeTearsvip
· 07-12 03:06
Tham số không có giá trị bằng tiền.
Xem bản gốcTrả lời0
OnchainGossipervip
· 07-11 01:47
Cứ tưởng hai chiếc máy bay đang đánh nhau, chỉ vậy thôi.
Xem bản gốcTrả lời0
TeaTimeTradervip
· 07-09 03:48
Muốn xem mô hình lớn solo rồi.
Xem bản gốcTrả lời0
BlockDetectivevip
· 07-09 03:45
Cái mô hình lớn trong giới tu tiên thật buồn cười.
Xem bản gốcTrả lời0
Hash_Banditvip
· 07-09 03:32
giống như những cuộc chiến khai thác vào năm '17... nhưng với mức thế chấp cao hơn nhiều thật sự
Xem bản gốcTrả lời0
PonziDetectorvip
· 07-09 03:31
Xếp hạng chiến đấu đều là chơi với các tham số thôi.
Xem bản gốcTrả lời0
AirdropFreedomvip
· 07-09 03:29
Đám đại gia này đang chơi trò thuật toán.
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)