“Chúng ta đang bước vào thời đại mà các quốc gia trên thế giới cạnh tranh gay gắt để xây dựng các mô hình AI nền tảng hàng đầu. Dù năng lực tính toán và kiến trúc đóng vai trò quan trọng, nhưng lợi thế cạnh tranh thực sự lại nằm ở dữ liệu huấn luyện.”
(Sandeep Chinchali, Giám đốc AI, Story)
Tháng này, một trong những sự kiện lớn nhất về AI là việc Meta thể hiện sức mạnh tài chính vượt trội, khi Mark Zuckerberg ráo riết tuyển dụng nhân tài nhằm xây dựng đội ngũ Meta AI đẳng cấp quốc tế, trong đó nhiều nhà nghiên cứu Trung Quốc đóng vai trò nòng cốt. Dẫn đầu xu hướng là Alexander Wang, 28 tuổi, nhà sáng lập Scale AI. Wang đã xây dựng Scale AI từ hai bàn tay trắng—nay định giá 29 tỷ USD—phục vụ các khách hàng như quân đội Mỹ, đồng thời là đối tác của các ông lớn như OpenAI, Anthropic và cả Meta. Những tập đoàn AI hàng đầu đều dựa vào dịch vụ dữ liệu của Scale AI, trong đó hoạt động trọng tâm là cung cấp lượng dữ liệu gán nhãn quy mô lớn, chất lượng cao.
Bí quyết là Scale AI sớm nhận thấy vai trò trọng tâm của dữ liệu trong ngành AI.
Năng lực tính toán, mô hình và dữ liệu là ba trụ cột của ngành AI. Hình dung mô hình là thân xác, năng lực tính toán là nguồn sống, còn dữ liệu là tri thức, trải nghiệm.
Từ khi các mô hình ngôn ngữ lớn ra đời, trọng tâm ngành đã chuyển từ kiến trúc mô hình sang hạ tầng tính toán. Đa số các mô hình chủ lực đều sử dụng transformer làm kiến trúc chuẩn, thỉnh thoảng xuất hiện các cải tiến như MoE, MoRe. Các tập đoàn lớn hoặc tự xây dựng siêu máy tính, hoặc ký hợp đồng dài hạn với các nhà cung cấp dịch vụ đám mây quy mô lớn như AWS. Khi đã đảm bảo được năng lực tính toán, dữ liệu trở thành yếu tố then chốt.
Khác biệt với các doanh nghiệp dữ liệu truyền thống như Palantir, Scale AI chú trọng xây dựng nền tảng dữ liệu vững chắc cho trí tuệ nhân tạo. Doanh nghiệp này không chỉ tận dụng bộ dữ liệu sẵn có mà ưu tiên sáng tạo dữ liệu dài hạn, huy động đội ngũ chuyên gia đào tạo AI để tạo ra dữ liệu huấn luyện chất lượng vượt trội.
Huấn luyện một mô hình AI gồm hai giai đoạn—tiền huấn luyện và tinh chỉnh.
Tiền huấn luyện như trẻ học nói: AI “ngấm” lượng lớn văn bản, mã nguồn từ internet để thấu hiểu ngôn ngữ tự nhiên và khả năng giao tiếp cơ bản.
Tinh chỉnh tương đồng với giáo dục chính quy, có chuẩn đúng sai rõ ràng. Trường học đào tạo học sinh theo chương trình, thì ta sử dụng tập dữ liệu thiết kế bài bản để huấn luyện mô hình sở hữu năng lực đặc thù.
Đến đây, bạn đã nhận ra: Chúng ta cần cả hai loại dữ liệu:
· Một loại chỉ cần qua xử lý tối thiểu—chủ yếu về số lượng. Dữ liệu này thường lấy từ các nền tảng nội dung cộng đồng lớn (Reddit, Twitter), thư viện tài liệu mở, hoặc cơ sở dữ liệu nội bộ doanh nghiệp.
· Loại còn lại giống như sách giáo khoa chuyên sâu—được thiết kế và kiểm duyệt kỹ càng để truyền đạt kỹ năng, năng lực đặc biệt. Loại này cần làm sạch, lọc, gán nhãn, phản hồi bởi con người.
Kết hợp, hai nhóm này tạo nên xương sống cho thị trường dữ liệu AI. Dù bản thân công nghệ bộ dữ liệu không phức tạp, nhưng khi quy mô tính toán chạm trần, dữ liệu chính là yếu tố tạo khác biệt cho các nhà phát triển mô hình lớn.
Cùng với sự phát triển của AI, dữ liệu huấn luyện ngày càng phải tinh xảo và chuyên biệt mới quyết định được hiệu năng mô hình. Nếu so sánh huấn luyện AI như rèn luyện một võ sư, dữ liệu là bí kíp luyện công, sức mạnh tính toán là linh đan, còn mô hình chính là tố chất sẵn có.
Xét theo chiều sâu ngành, dữ liệu AI là lĩnh vực tích lũy giá trị lâu dài. Công việc đầu tiên tích lũy, bộ dữ liệu càng nhiều tuổi càng sinh lời lớn.
So với đội quân gán nhãn từ xa quy mô lớn như ở Philippines, Venezuela mà Scale AI sử dụng, Web3 sở hữu những ưu thế riêng biệt với khái niệm DataFi.
Lợi thế của Web3 DataFi thể hiện ở:
Khi nguồn dữ liệu công khai gần như đã khai thác cạn kiệt, truy xuất dữ liệu mới, kể cả dữ liệu riêng tư, ngày càng quan trọng. Điều này tạo nên bài toán lớn: Bạn sẽ bán đứt dữ liệu cho tổ chức tập trung, hay giữ quyền IP trên blockchain, kiểm soát dữ liệu bằng hợp đồng thông minh minh bạch—rõ ai khai thác, lúc nào, với mục đích gì?
Với dữ liệu nhạy cảm, công nghệ như zero-knowledge proof hay phần cứng TEE đảm bảo chỉ máy móc tiếp cận, bảo vệ riêng tư, phòng rò rỉ thông tin.
Đã đến lúc thay đổi cách tiếp cận lao động truyền thống. Thay vì săn tìm lao động giá rẻ toàn cầu như Scale AI, Web3 với thiết kế phân tán và thưởng minh bạch từ hợp đồng thông minh cho phép cộng đồng đa dạng toàn cầu cùng đóng góp—lợi ích được trả tương xứng.
Với nhiệm vụ như gán nhãn, đánh giá mô hình, tiếp cận phân tán – phi tập trung mang lại sự đa dạng, giảm thiên lệch—rất cần với dữ liệu chất lượng cao.
Muốn loại bỏ tình trạng vận hành thiếu minh bạch? Hợp đồng thông minh blockchain xây dựng cơ chế thưởng rõ ràng, thực thi qua mã nguồn—vượt xa hệ thống truyền thống thủ công.
Khi toàn cầu hóa dần thu hẹp, mở công ty ở mọi nơi để tận dụng chênh lệch chi phí lao động khó khả thi. Thanh toán trên chuỗi giúp vượt mọi rào cản, giúp cộng đồng toàn cầu tham gia và nhận thưởng dễ dàng.
Trung gian “cắt phần” luôn là điểm nghẽn. Thay vì một doanh nghiệp dữ liệu tập trung, nền tảng on-chain có thể là sàn giao dịch tựa như Taobao, kết nối trực tiếp người mua – bán, tối ưu hóa hiệu quả thị trường.
Nhu cầu dữ liệu AI on-chain sẽ ngày càng phân tách, chuyên biệt, chỉ chợ dữ liệu phi tập trung mới đáp ứng tốt và khai thác được giá trị ở quy mô lớn.
Dù các công cụ AI giúp tiếp cận dễ hơn, AI phi tập trung kỳ vọng phá vỡ thế độc quyền, nhưng hầu hết dự án vẫn chưa phù hợp số đông. Tham gia mạng lưới tính toán phi tập trung thường yêu cầu phần cứng đắt tiền, các chợ mô hình cũng phức tạp.
Web3 mang lại cơ hội tiếp cận AI hiếm có cho người dùng phổ thông. Không cần hợp đồng lao động bất công—chỉ việc kết nối ví để tham gia. Bạn có thể đóng góp dữ liệu, gán nhãn đầu ra AI bằng trực giác, đánh giá mô hình hoặc sáng tạo – giao dịch dữ liệu bằng công cụ AI đơn giản—đặc biệt phù hợp với cộng đồng từng tham gia săn airdrop.
Dòng tiền hướng về đâu, làn sóng sẽ theo sát. Scale AI nhận khoản đầu tư Meta 14,3 tỷ USD và cổ phiếu Palantir tăng gấp 5 lần chứng tỏ DataFi cực triển vọng ở Web2; tại Web3, DataFi cũng chiếm lĩnh mảng gọi vốn. Dưới đây là một số dự án tiêu biểu:
Sahara AI, @SaharaLabsAI, gọi vốn 49 triệu USD
Sahara AI hướng đến xây dựng hạ tầng AI phi tập trung và chợ dữ liệu AI. Nền tảng Data Services Platform (DSP) bản beta sẽ ra mắt ngày 22/7, thưởng người dùng đóng góp, gán nhãn dữ liệu.
Liên kết: app.saharaai.com
Yupp, @yupp_ai, gọi vốn 33 triệu USD
Yupp là nền tảng đánh giá AI, nơi người dùng so sánh đầu ra cùng một đề bài, bình chọn kết quả tối ưu và nhận điểm Yupp có thể đổi sang USDC.
Liên kết: https://yupp.ai/
Vana, @vana, gọi vốn 23 triệu USD
Vana cho phép người dùng biến dữ liệu cá nhân—lịch sử duyệt web, hoạt động MXH—thành tài sản số. Dữ liệu được gom vào DataDAO và Data Liquidity Pool để huấn luyện AI, người đóng góp nhận thưởng token.
Liên kết: https://www.vana.org/collectives
Chainbase, @ChainbaseHQ, gọi vốn 16,5 triệu USD
Chainbase tập trung dữ liệu on-chain, chuẩn hóa hoạt động từ hơn 200 blockchain thành tài sản cho nhà phát triển DApp. Dữ liệu được lập chỉ mục với hệ Manuscript và Theia AI. Hiện người dùng cá nhân tham gia còn hạn chế.
Sapien, @JoinSapien, gọi vốn 15,5 triệu USD
Sapien chuyển đổi tri thức cộng đồng thành dữ liệu huấn luyện AI hàng đầu. Bất kỳ ai cũng có thể gán nhãn trên nền tảng; chất lượng được đánh giá cộng đồng, khuyến khích staking và xây dựng uy tín lâu dài tối đa phần thưởng.
Liên kết: https://earn.sapien.io/#hiw
Prisma X, @PrismaXai, gọi vốn 11 triệu USD
Prisma X định vị là lớp điều phối mở cho robot, lấy thu thập dữ liệu vật lý làm chủ lực. Đang ở giai đoạn đầu, người dùng có thể hỗ trợ thu thập dữ liệu, vận hành từ xa hoặc làm quiz tích điểm.
Liên kết: https://app.prismax.ai/whitepaper
Masa, @getmasafi, gọi vốn 8,9 triệu USD
Masa dẫn đầu hệ sinh thái Bittensor nhờ subnet dữ liệu và subnet tác vụ. Subnet dữ liệu lấy dữ liệu X/Twitter qua phần cứng TEE truy xuất thời gian thực. Hiện người dùng cá nhân tham gia còn khó khăn, chi phí cao.
Irys, @irys_xyz, gọi vốn 8,7 triệu USD
Irys phát triển lưu trữ, xử lý dữ liệu AI và DApp quy mô lớn, tiết kiệm chi phí. Cơ hội đóng góp dữ liệu cho người dùng còn hữu hạn, nhưng giai đoạn testnet mở nhiều hoạt động tham gia.
Liên kết: https://bitomokx.irys.xyz/
ORO, @getoro_xyz, gọi vốn 6 triệu USD
ORO cho phép ai cũng có thể đóng góp dữ liệu cho AI—kết nối tài khoản cá nhân (mạng xã hội, sức khỏe, fintech) hoặc hoàn thành nhiệm vụ dữ liệu. Testnet sẵn sàng cho cộng đồng thử nghiệm.
Liên kết: app.getoro.xyz
Gata, @Gata_xyz, gọi vốn 4 triệu USD
Là lớp dữ liệu phi tập trung, Gata hiện có 3 sản phẩm: Data Agent (AI agent kích hoạt trình duyệt), All-in-one Chat (thưởng đánh giá mô hình kiểu Yupp), GPT-to-Earn (plugin trình duyệt thu thập hội thoại ChatGPT).
Liên kết: https://app.gata.xyz/dataAgent
https://chromewebstore.google.com/detail/hhibbomloleicghkgmldapmghagagfao?utm_source=item-share-cb
Hiện các dự án này có rào cản kỹ thuật thấp, nhưng mức độ gắn kết của người dùng và hệ sinh thái tích lũy rất nhanh. Đầu tư sớm vào thưởng và trải nghiệm người dùng cực kỳ quan trọng: chỉ khi thu hút đủ lượng người dùng, nền tảng mới có thể chiếm lĩnh thị trường dữ liệu.
Với đặc thù cần nhiều lao động, các nền tảng dữ liệu phải giải quyết tối ưu quản trị nhân sự và chất lượng dữ liệu. Nhiều dự án Web3 đối mặt với thực trạng cộng đồng “farm” ngắn hạn—chỉ tập trung phần thưởng thay vì giá trị bền vững—dẫn đến dữ liệu kém chất lượng, những người đóng góp thực tâm bị đẩy ra ngoài, đánh mất uy tín và làm giảm sức hút nhà mua dữ liệu. Sahara, Sapien và một số dự án khác đã chú trọng xây dựng gắn kết cộng đồng, ưu tiên chất lượng và quan hệ hợp tác lâu dài.
Một vấn đề lớn là thiếu minh bạch. “Bộ ba bất khả thi” của blockchain khiến nhiều dự án vận hành tập trung, mang hơi hướng Web2 dù triển khai trên Web3—dữ liệu on-chain thiếu, mức độ minh bạch hạn chế. Điều này đe dọa sự phát triển bền vững DataFi. Chúng tôi kỳ vọng các nhà phát triển kiên định giá trị cốt lõi, đẩy mạnh hướng đi minh bạch, mở rộng cộng đồng.
Cuối cùng, DataFi muốn được phổ cập cần đáp ứng hai tiêu chí: thu hút đủ người dùng cá nhân để hình thành hệ sinh thái AI khép kín và chinh phục khách hàng doanh nghiệp, vốn vẫn là nguồn thu chủ đạo trong thời gian ngắn hạn. Ở khía cạnh này, Sahara AI, Vana cùng các dự án liên quan đã có nhiều bước tiến vững chắc.
Bản chất DataFi là tận dụng trí tuệ con người để xây dựng trí tuệ máy lâu dài—hợp đồng thông minh đảm bảo ai đóng góp cũng được trả công xứng đáng và mọi người cùng hưởng lợi từ sự phát triển của AI.
Với những ai còn băn khoăn trước sự nổi lên của AI, hoặc vẫn giữ vững niềm tin vào blockchain giữa lúc thị trường tiền mã hóa biến động, DataFi là cơ hội phù hợp, kịp thời để bạn tham gia.