Cloudflare блокує AI краулери: революція в захисті онлайн-контенту

Революційна зміна від Cloudflare: інфраструктурний гігант Інтернету блокує основні AI-сканери для захисту онлайн-контенту. Це рішення переосмислює баланс між творцями, технологічними компаніями та споживачами, обіцяючи революціонізувати управління та захист даних в Інтернеті.

Боротьба з AI-краулерами: рішення Cloudflare

Cloudflare запустив, з першого липня, наступ проти основних компаній штучного інтелекту, які збирають дані з веб-сайтів без дозволу. Як стверджує сама компанія, краулери ШІ будуть заблоковані за замовчуванням на всіх нових сайтах, які приймають Cloudflare, якщо власники не нададуть явного дозволу. В минулому ж саме менеджери сайтів повинні були активно виключати ботів ШІ з збору своїх даних.

Ця інверсія логіки захищає понад 20% вебу, частка якого покривається клієнтами Cloudflare, і відповідає на зростаючі повідомлення про уповільнення та перебої, викликані надзвичайними обсягами автоматизованих запитів, що надходять від ботів великих імен ШІ, таких як GPTBot від OpenAI та ClaudeBot від Anthropic.

Вплив AI-краулеров: цифри феномену

Обсяг трафіку, який генерують боти для краулінгу на основі ШІ, досяг вражаючих рівнів. Наприклад, GoogleBot виявив, що Vercel, сервіс хостингу в хмарі, отримує понад 4,5 мільярда запитів на місяць від цих програм. На відміну від звичайних краулерів пошукових систем, боти ШІ агресивно взаємодіють з серверами, відвідуючи ті ж самі сторінки кілька разів протягом кількох годин або бомбардують сайти сотнями запитів на секунду.

Результат? Повільні сайти, труднощі з доступом для реальних користувачів і поширене відчуття підпорядкування справжньому "екстракції" контенту без правил або компенсації. Численні видавці та компанії, від The Associated Press до Condé Nast до Ziff Davis, засудили практику масового та несанкціонованого збору великими технологіями AI.

Нові правила та технології для захисту вмісту

Крок компанії Cloudflare не обмежується поверхневим забороною. Компанія справді оголосила про використання машинного навчання та поведінкового аналізу для виявлення навіть так званих "тіньових скреперів", замаскованих ботів, які намагаються обійти звичайні блокування. Таким чином, будуть перехоплені не лише заявлені краулери, але й більш складні спроби скрепінгу.

Крім того, постачальники ШІ тепер повинні будуть запитувати дозволу, перш ніж отримати доступ до даних, чітко вказуючи цілі використання, чи то для навчання алгоритмів, чи для простих функцій пошуку. Таким чином, Cloudflare повертає видавцям можливість вирішувати, хто може взаємодіяти з їхньою інформацією.

Протести основних видавничих груп сприяли народженню цієї нової політики. Поточні системи виключення, такі як традиційний robots.txt, часто ігноруються ботами ШІ, які схильні «досліджувати» веб без дотримання правил поваги до цифрової інтелектуальної власності.

Плата за краулінг: до нової економічної моделі контенту

Революція, підписана Cloudflare, також вводить ще одну новинку: програму Pay Per Crawl. Ця система, яка наразі перебуває на стадії приватного бета-тестування, дозволить видавцям встановлювати ціни доступу для тих, хто бажає використовувати їхній контент для цілей навчання штучного інтелекту. Доступ буде надано лише після оплати, в іншому випадку він буде відмовлено.

З технічної точки зору, Cloudflare буде використовувати код HTTP 402 "Потрібна оплата", який повертається неактивованим краулерам. Потенційно ефективне рішення, вже готове до впровадження завдяки своїй сумісності з існуючими веб-системами.

Реакції з боку світу ШІ та регуляторні питання

Рішення Cloudflare безпосередньо впливає на компанії в галузі штучного інтелекту, які до цього часу неохоче платили ліцензії або збори. Ніколас Томпсон, генеральний директор The Atlantic, підкреслив, що до цього моменту компанії могли діяти безкарно, тоді як тепер їм доведеться вести переговори і визнавати право власності на контент. З іншого боку, деякі лідери технологічного світу, такі як Нік Клегг з Meta, попереджають, що введення суворих обмежень може поставити під загрозу зростання та інновації в секторі штучного інтелекту.

Дебати також поширюються на регуляторний рівень. Звіт Бюро авторських прав визнав, що певне використання генеративних технологій може бути "трансформаційним". Однак масовий збір без згоди не може вважатися добросовісним використанням. Позиція, яка мала значні інституційні наслідки, включаючи негайну заміну керівника Управління інтелектуальної власності адміністрацією Трампа.

Майбутнє захисту онлайн-контенту

Ініціатива Cloudflare змінює баланс між тими, хто створює, і тими, хто експлуатує онлайн-контент. Здатність блокувати та монетизувати доступ до даних надає видавцям реальну владу над тим, де і як використовуються їхні роботи. Як результат, багатьом компаніям штучного інтелекту потрібно буде реорганізувати стратегії та процеси придбання даних, спонукання до більшої прозорості та співпраці зі світом видавництв.

Оскільки цифрова екосистема адаптується до цього парадигмального зсуву, ймовірно, що інші великі гравці в інфраструктурному секторі наслідуватимуть приклад Cloudflare. Це може дати поштовх новій епосі в захисті цифрових прав, де ті, хто створює цінність, заохочуються та захищаються. Питання залишаються щодо термінів і методів впровадження моделі Оплата за Сканування та впливу, який вона матиме на розвиток штучних інтелектів.

У постійно змінюваному контексті моніторинг еволюції стратегій проти краулінгу на основі штучного інтелекту та активна участь у дебатах стає необхідною для всіх залучених суб'єктів. Війна проти несанкціонованих ботів може бути тільки початком нового сезону для покращення вебу як колективного та стійкого активу.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити