這是用戶在 2025-7-4 23:50 為 https://36kr.com/p/3364264928806663 保存的雙語快照頁面,由 沉浸式翻譯 提供雙語支持。了解如何保存?

你的驗證碼又升級了:虐完人類不過癮,現在要收拾 AI 了

愛范兒·2025 年 07 月 04 日 14:42
既有守護互聯網內容生態的用心,也不乏精明的商業算計

沒人喜歡被白嫖,整個互聯網都一樣。

就在昨天,互聯網基礎設施巨頭 Cloudflare 宣佈了一項新舉措:預設攔截所有未經許可的 AI 網路爬蟲(crawler)對網站內容的抓取。 換言之,AI 公司想要抓取網頁數據訓練模型,必須先徵得網站擁有者的同意,否則將被擋在門外。

這一系列舉措無疑在業界引起震動——對於需要全網搜刮數據的大模型開發廠商來說,免費任吃、數據不要錢的好日子,或許沒幾天能過了。

從 7 月初開始,每一個新接入 Cloudflare 的網站都會被詢問是否允許 AI 爬蟲訪問,其預設設置為拒絕, 這等於給網站賦予了一鍵封禁 AI 抓取的權力 。 同時,Cloudflare 還推出了「按次付費爬取」的新模式,網站出版商可以選擇向 AI 爬蟲收取抓取內容的費用。  

版權的戰爭打了這麼久,憑什麼這家公司一出聲,就變得大件事了?

因為這是 Cloudfare,這是真正的互聯網「保安」。

驗證碼變形記:Cloudflare 如何攔住 AI 爬蟲

要理解 Cloudflare 此舉的意義,先得弄清它究竟在做什麼。

傳統的驗證碼(CAPTCHA)相信大家都不陌生:比如讓用戶選出圖片中所有的紅綠燈,或輸入扭曲的字元,以此區分「你是人還是機器人」。

一度,驗證碼演化到了一種複雜死人的程度,別說機器人,正常人也要花上好幾分鐘才能解完:

2022 年,Cloudflare 推出了 Turnstile 新一代的「無感驗證」方案。

當你打開某些網站時,可能會看到一句「正在驗證瀏覽器,請稍候」,幾秒後自動放行——這背後就是 Turnstile 在檢查你的瀏覽器環境、滑鼠移動軌跡、頁面操作等數據, 以確定訪問者是活生生的人類,而非腳本程式。

Cloudflare 強調,這種驗證對真人幾乎是隱形的:沒有煩人的拼圖對齊和「找不同」大戰,甚至連多餘的點擊都不需要。 2023 年時他們還宣佈要徹底淘汰視覺謎題式驗證碼,承諾「 不再以任何理由給任何人看亂七八糟的拼圖 」。  

的確,新一代的 Turnstile 驗證既保障了安全,又讓用戶幾乎無感知通過,可謂一個隱形的守門人,在真人使用者和自動程式之間築起一道分界線。

以往,驗證碼主要用來防範批量註冊、刷票、薅優惠券這種腳本行為。 但在 AI 大模型時代,驗證碼扮演的角色更加吃重,因為無處不在的 AI 爬蟲正試圖把整個互聯網當作自助餐。

各 個 AI 爬蟲爬取的數據量. 圖片來自:Cloudfare

Cloudflare 的驗證系統,因此針對性地進行了升級:它結合行為分析、瀏覽器指紋和機器學習模型,來識別訪問者是正常使用者、良性爬蟲,還是偽裝的 AI 抓取工具。

例如,真人流覽網頁往往有自然的滾動和點擊節奏,而批量爬蟲可能在毫秒間瘋狂翻頁; 又比如正常瀏覽器會暴露一些標準特徵,而某些爬蟲為了隱藏身份可能偽造 UA 或關閉腳本——這些細節都難逃 Cloudflare 的檢測演算法。

一旦判定某次訪問屬於未經授權的自動抓取,Cloudflare 要麼讓其陷入無限驗證環節,要麼乾脆直接阻斷。

技術攔不住,法庭再相見

Cloudfare 為什麼這個時候出來選邊站?

作為全球領先的 CDN 和網路安全服務商,Cloudflare 在 2023 年的報告中估計,它每天要應對萬億級別的網路請求, 直接處理了全世界約 16%的互聯網流量,佔據著全球約五分之一的網路流量。

2024 年通過 IPv4 互聯網流向 Cloudflare 的流量聚合情況

當這樣一個守門員開始對 AI 說「不」,其影響可想而知——而眼下,AI 廠商在版權戰爭中佔取上風,接二連三地贏下訴訟。

Anthropic 在使用了數百萬本書籍訓練模型后,被告上法庭。 最近出爐的裁決認為,他們的行為符合「合理使用」的原則——這項法律原則允許在某些情況下,無需獲得擁有者許可即可免費使用受版權保護的內容。

Meta 也打了勝仗。 在應對作家們的集體訴訟中,加州聯邦法庭裁定 Meta 勝訴。 不過,這個勝利來得比較僥倖,能勝主要是因為原告的「訴訟點」提得不夠好,在法律層面不夠有力,因此法官也表示「這項裁決並不代表 Meta 使用受版權保護的材料訓練其語言模型是合法的。 」 

找個好律師真是很重要啊。

在 AI 模型對網頁內容的胃口與日俱增的背景下, 驗證碼系統儼然成為抵禦「大數據採集狂魔」的一道防線。 如果沒有這層把關,AI 爬蟲們恣意爬網的行為不僅可能把網站伺服器搞得不堪重負(它們的高頻抓取甚至被比作 DDoS 攻擊),內容創作者的成果,更加是在不知情間就被拿去「喂 AI」。  

如今有了 Cloudflare 的攔截機制,網站主至少有了一套可以用來自我保護的武器。

互聯網格局如何改變

對於普通網民來說,這場關於 AI 爬蟲的風波聽上去很「大」,但日常上網時的體驗並不會有明顯變化。

Cloudflare 的 Turnstile 驗證本就以「隱身」著稱,不會像舊式驗證碼那樣頻繁跳出來考你識別交通燈和樓梯。 因此,即便現在把 AI 爬蟲視作眾矢之的,也不代表我們上網時要遭更多複雜考驗——Cloudflare 不會開倒車。

倒是那些試圖冒充人類的 AI 爬蟲們,恐怕要開始頭疼如何通過這道檢驗了——換句話說, 驗證碼系統的功能重心已經悄然轉變。

以前,網站加驗證碼主要是為把關「腳本」和惡意機器人,而現在 Cloudflare 明顯是在有意識別並阻擋特定的 AI 爬蟲。

有數據顯示,Cloudflare 的自動化識別技術可以準確地區分真人流量和 AI 爬蟲流量, 這表明其驗證碼背後的目標已從一般性防護升級為專門針對 AI 數據抓取。 可以說,原本驗證人機的「小考」,如今背後多了一層「篩查 AI」的使命。  

在我們看來頁面秒開、一片風平浪靜時,Cloudflare 早已在背景裡盤查過:「這是正常人類,通過」; 「那是 GPT 的爬蟲,攔下來」。 這種場景,如今每一分每一秒都在互聯網的底層跑道上真實上演。

這樣高調封殺未授權 AI 爬蟲,表面理由是為內容創作者討回公道——畢竟 AI 公司過去一直在大吃特吃「霸王餐」,侵佔內容卻不給創作者流量和報酬,即便後者鬧到法庭上,也不見得能求得公道。

不過,與此同時,Cloudflare 順勢推出了讓 AI 公司付費爬取內容的功能和平臺,實行按次付費爬取 (Pay Per Crawl) 的方式。 這項新功能允許特定出版商和創作者向 AI 公司收取訪問其內容的費用。 參與者可以為單個爬蟲程式設定價格,從而完全控制其作品如何以及是否用於 AI 模型訓練。

這意味著 Cloudflare 正在將自己的安全防護網,升級為 AI 時代的「收費關卡」。 以前 AI 爬蟲橫行時,內容網站幾乎無從談判,AI 公司想抓就抓,頂多背負一些道德譴責。 而現在,Cloudflare 替網站堵上了大門,讓 AI 公司不得不停下來說:能不能讓我進來抓點數據? 價格好商量。

這種轉變無疑改變了網路內容的利益分配格局,為出版社、媒體、創作者等網站主提供了籌碼。 而 Cloudflare 則居中扮演了至關重要的「基礎設施」角色。

正如 Cloudflare CEO 所說,他們希望建立的是多方共贏的新模式,幫助創作者決定是否允許所有 AI 爬蟲、允許特定的爬蟲或設置自己的訪問費用,將以前未貨幣化的內容使用轉變為新的收入來源。

當然,在這個模式里,Cloudflare 自己也扮演了角色: 一邊替內容提供方把門,一邊替 AI 公司帶路,中間這一來一回,就可以收點服務費手續費之類了。

可以預見,隨著這一機制推廣開來,AI 公司要想抓取海量網路內容訓練模型,恐怕得先準備好「買路錢」。 畢竟,手握著全球五分之一網路流量「安檢閘口」,Cloudflare 無疑已經為這筆潛在的生意打好了基礎。

眼下可以確定的是,Cloudflare 已經把「我不是機器人」升級成了 AI 爬蟲面前的一道高門檻。 這道門檻背後,既有守護互聯網內容生態的用心,也不乏精明的商業算計。

下一次你輕鬆通過自動驗證時,柵欄抬起的另一側,某個 AI 爬蟲可能正在被攔下來—— 想過,先去交個過路錢吧。

本文來自微信公眾號 “APPSO”,作者: Selina,36 氪經授權發佈。

36氪
+1
33

好文章,需要你的鼓勵

參與評論
評論千萬條,友善第一條
后參與討論
提交評論0/1000
評論區
  • 新使用者799031707 · 6小時前
    舉報3 回復

    支援,費心費力創作的東西,被 ai 白嫖,以後誰還創作

  • 校長小 · 8小時前
    举报6 回復

    好事,有進攻就會有防守的升級,需求決定的相互升級。

36氪
36氪
36氪

企服圈子

軟體選型經驗交流社區
36氪企服點評訂閱號
36氪企服點評服務號

企服軟體推薦

找軟體,先查用戶評分榜 查看
顧問1對1推薦軟體免費服務 體驗

下一篇

200 億,大學老師辭職賣魚丸,又去 IPO 了來自廈門。

9小時前

36 氪 APP讓一部分人先看到未來
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业