Nguồn: Cointelegraph
Bản gốc: 《 Dữ liệu OORT AI phi tập trung đứng đầu trên Google Kaggle 》
Bộ dữ liệu hình ảnh huấn luyện trí tuệ nhân tạo do nhà cung cấp giải pháp AI phân tán OORT phát triển đã đạt được thành công đáng kể trên nền tảng Kaggle của Google.
Danh sách dữ liệu "Diverse Tools Kaggle" của OORT được phát hành vào đầu tháng 4; kể từ đó, nó đã leo lên trang chính trong nhiều thể loại. Kaggle là nền tảng trực tuyến thuộc sở hữu của Google, dành cho các cuộc thi khoa học dữ liệu và học máy, học tập và hợp tác.
Người đóng góp chính của dự án AI mã hóa OpenLedger, Ramkumar Subramaniam, đã cho Cointelegraph biết rằng, "Xếp hạng trên trang chính của Kaggle là một tín hiệu xã hội mạnh mẽ, cho thấy bộ dữ liệu này đang thu hút sự tham gia tích cực của các cộng đồng quan trọng như nhà khoa học dữ liệu, kỹ sư học máy và các chuyên gia."
Người sáng lập và Giám đốc điều hành OORT, Max Li, đã tiết lộ với Cointelegraph rằng công ty "đã quan sát thấy các chỉ số tham gia đầy hứa hẹn, điều này xác nhận rằng "dữ liệu đào tạo thu thập thông qua mô hình phân quyền" thực sự có nhu cầu và sự liên quan trên thị trường sớm." Ông bổ sung:
"Sự quan tâm tự phát từ cộng đồng, bao gồm việc sử dụng và đóng góp tích cực - đã cho thấy rõ ràng cách mà các kênh dữ liệu phân tán, do cộng đồng như OORT có thể đạt được sự phân phối nhanh chóng và sự tham gia rộng rãi mà không cần dựa vào các trung gian tập trung."
Li cũng cho biết, OORT dự định phát hành nhiều bộ dữ liệu trong vài tháng tới. Trong đó bao gồm bộ dữ liệu lệnh giọng nói trong xe, bộ dữ liệu lệnh giọng nói cho nhà thông minh, cùng với bộ dữ liệu video giả mạo sâu nhằm nâng cao khả năng xác thực tính chân thực của phương tiện do AI điều khiển.
Cointelegraph đã xác nhận một cách độc lập rằng bộ dữ liệu trên đã thành công có mặt trên trang chủ trong các danh mục AI tổng quát, bán lẻ và mua sắm, sản xuất và kỹ thuật trên Kaggle vào đầu tháng này. Tính đến thời điểm viết bài, bộ dữ liệu này không còn giữ được những vị trí xếp hạng này sau một lần cập nhật bộ dữ liệu có thể không liên quan vào ngày 6 tháng 5 và một lần cập nhật khác vào ngày 14 tháng 5.
Mặc dù công nhận thành tựu này, Subramaniam đã nói với Cointelegraph rằng, "đây không phải là chỉ số quyết định cho ứng dụng thực tế hoặc chất lượng cấp doanh nghiệp." Ông chỉ ra rằng sự đặc biệt của bộ dữ liệu OORT "không chỉ thể hiện ở thứ hạng mà còn ở các kênh nguồn gốc và cơ chế khuyến khích đứng sau bộ dữ liệu." Ông giải thích thêm:
"Khác với các nhà cung cấp tập trung có thể phụ thuộc vào quy trình không minh bạch, một hệ thống minh bạch dựa trên động lực token có thể cung cấp khả năng truy xuất nguồn gốc, quản lý cộng đồng chung và tối ưu hóa liên tục, với điều kiện là phải thiết lập một cấu trúc quản trị phù hợp."
Đối tác Lex Sokolin của tổ chức đầu tư mạo hiểm trí tuệ nhân tạo Generative Ventures cho biết, mặc dù ông tin rằng những thành quả này không khó để sao chép, "nhưng điều này thực sự chứng minh rằng các dự án tiền điện tử có thể sử dụng cơ chế khuyến khích phi tập trung để tổ chức các hoạt động có giá trị kinh tế."
Dữ liệu từ tổ chức nghiên cứu trí tuệ nhân tạo Epoch AI cho thấy dữ liệu đào tạo AI do con người tạo ra dự kiến sẽ cạn kiệt vào năm 2028. Áp lực đã lớn đến mức các nhà đầu tư hiện đang thúc đẩy giao dịch để các công ty AI có được quyền sử dụng tài liệu được bảo vệ bản quyền.
Báo cáo nghiên cứu về việc ngày càng khan hiếm dữ liệu đào tạo AI và cách điều này có thể hạn chế sự phát triển của lĩnh vực này đã được lan truyền trong nhiều năm. Mặc dù dữ liệu được tạo ra bởi AI tổng hợp ( đang được áp dụng ngày càng rộng rãi và đạt được một số thành công nhất định, nhưng dữ liệu do con người tạo ra vẫn được coi là lựa chọn tốt hơn, vì loại dữ liệu chất lượng cao này có thể nuôi dưỡng các mô hình AI có hiệu suất tốt hơn.
Trong lĩnh vực hình ảnh huấn luyện AI, tình hình trở nên ngày càng phức tạp, các nghệ sĩ đang cố ý làm hỏng công việc huấn luyện. Để bảo vệ tác phẩm của mình không bị sử dụng trái phép cho việc huấn luyện AI, công cụ Nightshade cho phép người sáng tạo "đầu độc" hình ảnh của họ, từ đó ảnh hưởng nghiêm trọng đến hiệu suất của mô hình.
Subramaniam chỉ ra: "Chúng ta đang bước vào một thời đại mà dữ liệu hình ảnh chất lượng cao ngày càng trở nên khan hiếm." Ông cũng nhấn mạnh rằng việc ứng dụng rộng rãi công nghệ tiêm hình ảnh đã làm cho thách thức này trở nên nghiêm trọng hơn:
"Với sự trỗi dậy của các phương pháp tấn công đào tạo AI như kỹ thuật ẩn hình ảnh và watermark đối kháng, các bộ dữ liệu mã nguồn mở đang đối mặt với thách thức kép về số lượng và độ tin cậy."
Đối với tình hình này, Subramaniam cho biết, các tập dữ liệu khuyến khích có thể xác minh và được cộng đồng đóng góp "có giá trị hơn bao giờ hết". Ông cho rằng, các dự án như vậy "không chỉ có thể là giải pháp thay thế mà còn sẽ trở thành trụ cột quan trọng trong việc căn chỉnh AI và truy xuất dữ liệu trong nền kinh tế dữ liệu."
Các đề xuất liên quan: Kima gia nhập hộp cát của Mastercard để thực hiện nạp tiền thẻ stablecoin.
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
Phi tập trung OORT AI dữ liệu đã lọt vào top trên Google Kaggle
Nguồn: Cointelegraph Bản gốc: 《 Dữ liệu OORT AI phi tập trung đứng đầu trên Google Kaggle 》
Bộ dữ liệu hình ảnh huấn luyện trí tuệ nhân tạo do nhà cung cấp giải pháp AI phân tán OORT phát triển đã đạt được thành công đáng kể trên nền tảng Kaggle của Google.
Danh sách dữ liệu "Diverse Tools Kaggle" của OORT được phát hành vào đầu tháng 4; kể từ đó, nó đã leo lên trang chính trong nhiều thể loại. Kaggle là nền tảng trực tuyến thuộc sở hữu của Google, dành cho các cuộc thi khoa học dữ liệu và học máy, học tập và hợp tác.
Người đóng góp chính của dự án AI mã hóa OpenLedger, Ramkumar Subramaniam, đã cho Cointelegraph biết rằng, "Xếp hạng trên trang chính của Kaggle là một tín hiệu xã hội mạnh mẽ, cho thấy bộ dữ liệu này đang thu hút sự tham gia tích cực của các cộng đồng quan trọng như nhà khoa học dữ liệu, kỹ sư học máy và các chuyên gia."
Người sáng lập và Giám đốc điều hành OORT, Max Li, đã tiết lộ với Cointelegraph rằng công ty "đã quan sát thấy các chỉ số tham gia đầy hứa hẹn, điều này xác nhận rằng "dữ liệu đào tạo thu thập thông qua mô hình phân quyền" thực sự có nhu cầu và sự liên quan trên thị trường sớm." Ông bổ sung:
"Sự quan tâm tự phát từ cộng đồng, bao gồm việc sử dụng và đóng góp tích cực - đã cho thấy rõ ràng cách mà các kênh dữ liệu phân tán, do cộng đồng như OORT có thể đạt được sự phân phối nhanh chóng và sự tham gia rộng rãi mà không cần dựa vào các trung gian tập trung."
Li cũng cho biết, OORT dự định phát hành nhiều bộ dữ liệu trong vài tháng tới. Trong đó bao gồm bộ dữ liệu lệnh giọng nói trong xe, bộ dữ liệu lệnh giọng nói cho nhà thông minh, cùng với bộ dữ liệu video giả mạo sâu nhằm nâng cao khả năng xác thực tính chân thực của phương tiện do AI điều khiển.
Cointelegraph đã xác nhận một cách độc lập rằng bộ dữ liệu trên đã thành công có mặt trên trang chủ trong các danh mục AI tổng quát, bán lẻ và mua sắm, sản xuất và kỹ thuật trên Kaggle vào đầu tháng này. Tính đến thời điểm viết bài, bộ dữ liệu này không còn giữ được những vị trí xếp hạng này sau một lần cập nhật bộ dữ liệu có thể không liên quan vào ngày 6 tháng 5 và một lần cập nhật khác vào ngày 14 tháng 5.
Mặc dù công nhận thành tựu này, Subramaniam đã nói với Cointelegraph rằng, "đây không phải là chỉ số quyết định cho ứng dụng thực tế hoặc chất lượng cấp doanh nghiệp." Ông chỉ ra rằng sự đặc biệt của bộ dữ liệu OORT "không chỉ thể hiện ở thứ hạng mà còn ở các kênh nguồn gốc và cơ chế khuyến khích đứng sau bộ dữ liệu." Ông giải thích thêm:
"Khác với các nhà cung cấp tập trung có thể phụ thuộc vào quy trình không minh bạch, một hệ thống minh bạch dựa trên động lực token có thể cung cấp khả năng truy xuất nguồn gốc, quản lý cộng đồng chung và tối ưu hóa liên tục, với điều kiện là phải thiết lập một cấu trúc quản trị phù hợp."
Đối tác Lex Sokolin của tổ chức đầu tư mạo hiểm trí tuệ nhân tạo Generative Ventures cho biết, mặc dù ông tin rằng những thành quả này không khó để sao chép, "nhưng điều này thực sự chứng minh rằng các dự án tiền điện tử có thể sử dụng cơ chế khuyến khích phi tập trung để tổ chức các hoạt động có giá trị kinh tế."
Dữ liệu từ tổ chức nghiên cứu trí tuệ nhân tạo Epoch AI cho thấy dữ liệu đào tạo AI do con người tạo ra dự kiến sẽ cạn kiệt vào năm 2028. Áp lực đã lớn đến mức các nhà đầu tư hiện đang thúc đẩy giao dịch để các công ty AI có được quyền sử dụng tài liệu được bảo vệ bản quyền.
Báo cáo nghiên cứu về việc ngày càng khan hiếm dữ liệu đào tạo AI và cách điều này có thể hạn chế sự phát triển của lĩnh vực này đã được lan truyền trong nhiều năm. Mặc dù dữ liệu được tạo ra bởi AI tổng hợp ( đang được áp dụng ngày càng rộng rãi và đạt được một số thành công nhất định, nhưng dữ liệu do con người tạo ra vẫn được coi là lựa chọn tốt hơn, vì loại dữ liệu chất lượng cao này có thể nuôi dưỡng các mô hình AI có hiệu suất tốt hơn.
Trong lĩnh vực hình ảnh huấn luyện AI, tình hình trở nên ngày càng phức tạp, các nghệ sĩ đang cố ý làm hỏng công việc huấn luyện. Để bảo vệ tác phẩm của mình không bị sử dụng trái phép cho việc huấn luyện AI, công cụ Nightshade cho phép người sáng tạo "đầu độc" hình ảnh của họ, từ đó ảnh hưởng nghiêm trọng đến hiệu suất của mô hình.
Subramaniam chỉ ra: "Chúng ta đang bước vào một thời đại mà dữ liệu hình ảnh chất lượng cao ngày càng trở nên khan hiếm." Ông cũng nhấn mạnh rằng việc ứng dụng rộng rãi công nghệ tiêm hình ảnh đã làm cho thách thức này trở nên nghiêm trọng hơn:
"Với sự trỗi dậy của các phương pháp tấn công đào tạo AI như kỹ thuật ẩn hình ảnh và watermark đối kháng, các bộ dữ liệu mã nguồn mở đang đối mặt với thách thức kép về số lượng và độ tin cậy."
Đối với tình hình này, Subramaniam cho biết, các tập dữ liệu khuyến khích có thể xác minh và được cộng đồng đóng góp "có giá trị hơn bao giờ hết". Ông cho rằng, các dự án như vậy "không chỉ có thể là giải pháp thay thế mà còn sẽ trở thành trụ cột quan trọng trong việc căn chỉnh AI và truy xuất dữ liệu trong nền kinh tế dữ liệu."
Các đề xuất liên quan: Kima gia nhập hộp cát của Mastercard để thực hiện nạp tiền thẻ stablecoin.