Cloudflare chặn các trình thu thập dữ liệu AI: cuộc cách mạng trong việc bảo vệ nội dung trực tuyến

Một sự thay đổi mang tính đột phá đến từ Cloudflare: gã khổng lồ hạ tầng Internet chặn các trình thu thập dữ liệu AI lớn để bảo vệ nội dung trực tuyến. Quyết định này định nghĩa lại sự cân bằng giữa các nhà sáng tạo, các công ty công nghệ và người tiêu dùng, hứa hẹn sẽ cách mạng hóa việc quản lý và bảo vệ dữ liệu trên web.

Chiến đấu chống lại các trình thu thập dữ liệu AI: Quyết định của Cloudflare

Cloudflare đã khởi động, từ ngày 1 tháng 7, một cuộc tấn công chống lại các công ty trí tuệ nhân tạo chính thu thập dữ liệu từ các trang web mà không có sự cho phép. Như công ty tự tuyên bố, các trình thu thập AI sẽ bị chặn mặc định trên tất cả các trang web mới áp dụng Cloudflare, trừ khi các chủ sở hữu cấp phép rõ ràng. Trong quá khứ, tuy nhiên, chính các quản trị viên trang web là những người phải chủ động loại trừ các bot AI khỏi việc thu thập dữ liệu của họ.

Sự đảo ngược logic này bảo vệ hơn 20% của web, tỷ lệ được bao phủ bởi khách hàng của Cloudflare, và phản ứng với sự gia tăng báo cáo về sự chậm trễ và gián đoạn do các luồng yêu cầu tự động bất thường đến từ các bot của những cái tên AI lớn như GPTBot từ OpenAI và ClaudeBot từ Anthropic.

Tác động của các trình thu thập dữ liệu AI: số liệu của hiện tượng

Khối lượng lưu lượng truy cập do các bot AI thu thập đã đạt đến mức ấn tượng. Ví dụ, GoogleBot đã phát hiện rằng Vercel, một dịch vụ lưu trữ đám mây, nhận được hơn 4,5 tỷ yêu cầu mỗi tháng từ các phần mềm này. Không giống như các trình thu thập thông tin của công cụ tìm kiếm thông thường, các bot AI xử lý các máy chủ một cách quyết liệt, truy cập vào cùng một trang nhiều lần trong vài giờ hoặc tấn công các trang web với hàng trăm yêu cầu mỗi giây.

Kết quả? Các trang web chậm hơn, khó khăn trong việc truy cập cho người dùng thực, và một cảm giác phổ biến về việc bị chịu đựng một "sự khai thác" thực sự của nội dung mà không có quy tắc hay bồi thường. Nhiều nhà xuất bản và công ty, từ The Associated Press đến Condé Nast đến Ziff Davis, đã lên án thực tế thu thập lớn và không được phép bởi các công ty công nghệ lớn về AI.

Các quy định và công nghệ mới để bảo vệ nội dung

Hành động của Cloudflare không chỉ giới hạn ở một lệnh cấm bề mặt. Công ty thực sự đã thông báo về việc sử dụng học máy và phân tích hành vi để phát hiện ngay cả những cái gọi là "shadow scrapers", những con bot ngụy trang cố gắng vượt qua các khối thông thường. Theo cách này, không chỉ các trình thu thập dữ liệu đã khai báo mà cả những nỗ lực thu thập dữ liệu tinh vi hơn cũng sẽ bị chặn lại.

Hơn nữa, các nhà cung cấp AI sẽ phải xin phép trước khi họ có thể truy cập dữ liệu, chỉ rõ các mục tiêu sử dụng, cho dù là để đào tạo thuật toán hay chỉ là các chức năng tìm kiếm đơn giản. Cloudflare do đó trả lại cho các nhà xuất bản khả năng quyết định ai có thể tương tác với thông tin của họ.

Các cuộc biểu tình của các nhóm xuất bản chính đã thúc đẩy sự ra đời của chính sách mới này. Các hệ thống loại trừ hiện tại, chẳng hạn như robots.txt truyền thống, thường bị các bot AI phớt lờ, những bot này có xu hướng "khai thác" web mà không tuân theo các quy tắc tôn trọng quyền sở hữu trí tuệ kỹ thuật số.

Thanh toán theo lượt thu thập: hướng tới một mô hình kinh tế mới cho nội dung

Cuộc cách mạng được ký bởi Cloudflare cũng giới thiệu một điều mới: chương trình Trả tiền theo lượt thu thập. Hệ thống này, hiện đang trong giai đoạn beta riêng, sẽ cho phép các nhà xuất bản đặt giá truy cập cho những ai muốn sử dụng nội dung của họ cho mục đích đào tạo AI. Truy cập sẽ chỉ được cấp phép khi có thanh toán, hoặc bị từ chối nếu không.

Từ góc độ kỹ thuật, Cloudflare sẽ sử dụng mã HTTP 402 "Yêu cầu thanh toán", được trả về cho các trình thu thập không được kích hoạt. Một giải pháp có thể hiệu quả, đã sẵn sàng để triển khai nhờ vào khả năng tương thích với các hệ thống web hiện có.

Phản ứng từ thế giới AI và các vấn đề quy định

Quyết định của Cloudflare ảnh hưởng trực tiếp đến các công ty AI, những công ty này từ trước tới nay vẫn ngần ngại trong việc trả phí bản quyền hoặc lệ phí. Nicholas Thompson, Giám đốc điều hành của The Atlantic, nhấn mạnh rằng cho đến nay, các công ty có thể hành động mà không bị trừng phạt, trong khi giờ đây họ sẽ phải đàm phán và công nhận quyền sở hữu nội dung. Mặt khác, một số lãnh đạo trong lĩnh vực công nghệ, như Nick Clegg của Meta, cảnh báo rằng việc giới thiệu các hạn chế nghiêm ngặt có thể đe dọa sự phát triển và đổi mới trong lĩnh vực AI.

Cuộc tranh luận cũng mở rộng đến cấp độ quản lý. Một báo cáo từ Văn phòng Bản quyền đã công nhận rằng một số cách sử dụng công nghệ sinh ra có thể được coi là "biến đổi". Tuy nhiên, việc thu thập khối lượng lớn mà không có sự đồng ý không thể được coi là sử dụng công bằng. Một lập trường đã có những hậu quả thể chế đáng kể, bao gồm việc ngay lập tức thay thế người đứng đầu Văn phòng Sở hữu trí tuệ bởi chính quyền Trump.

Tương lai của việc bảo vệ nội dung trực tuyến

Sáng kiến của Cloudflare định hình lại sự cân bằng giữa những người sáng tạo và những người khai thác nội dung trực tuyến. Khả năng chặn và kiếm tiền từ việc truy cập dữ liệu mang lại cho các nhà xuất bản quyền lực thực sự về nơi và cách mà các tác phẩm của họ được sử dụng. Kết quả là, nhiều công ty AI sẽ cần phải tổ chức lại các chiến lược và quy trình thu thập dữ liệu, thúc đẩy hướng tới sự minh bạch và hợp tác hơn với thế giới xuất bản.

Khi hệ sinh thái kỹ thuật số thích ứng với sự chuyển mình này, có khả năng rằng các nhân tố lớn khác trong lĩnh vực hạ tầng sẽ theo gương Cloudflare. Điều này có thể kích hoạt một kỷ nguyên mới trong việc bảo vệ quyền kỹ thuật số, nơi những người tạo ra giá trị được khuyến khích và bảo vệ. Vẫn còn nhiều câu hỏi về thời điểm và phương pháp áp dụng mô hình Pay Per Crawl cũng như tác động của nó đối với sự phát triển của trí tuệ nhân tạo.

Trong bối cảnh liên tục thay đổi, việc theo dõi sự phát triển của các chiến lược AI chống crawler và tham gia tích cực vào cuộc tranh luận trở nên thiết yếu đối với tất cả các thực thể liên quan. Cuộc chiến chống lại các bot không được phép có thể chỉ là khởi đầu cho một mùa mới nhằm nâng cao web như một tài sản tập thể và bền vững.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)