闽公网安备 35020302035485号
堆代码讯 人工智能产业的飞速迭代,让海量数据成为核心生产原料。各大AI企业的模型训练愈发依赖庞大的数据集支撑,随之而来的是行业无序数据抓取乱象愈演愈烈。不少AI初创公司肆意突破互联网长期通行的robots.txt爬虫协议规则,无视网站的访问限制,大规模抓取全网公开数据用于模型训练。这种无节制的“数据掠夺”,不仅挤占网站服务器资源、影响平台正常运营,也倒逼各类互联网平台纷纷收紧数据开放政策,开启一场数据权益与AI发展的博弈。知名健身社交跑步平台Strava便率先发力,通过技术防护、API规则革新、收费模式调整等一系列举措,坚决抵制未经授权的AI数据抓取,为互联网数据生态规范化发展提供了全新样本。
为从根源上阻断无序数据抓取,Strava全面升级了网站安全防护体系,彻底改变了过往公开数据的访问模式。此前,平台用户的公开个人资料、健身俱乐部列表等公开内容,无需登录验证即可被任意访问、抓取。如今,Strava将所有这类公开数据全部纳入身份验证体系之下,只有经过平台认证的合法用户才能查看相关内容,从技术层面杜绝了AI爬虫的无差别批量抓取,有效守护了用户健身社交数据的安全与专属权益。
在核心的开发者API服务层面,Strava推出了颠覆性的规则与收费调整,彻底告别了以往宽松的免费开放模式。过去,开发者可依托平台免费的分级访问计划开展应用开发,先申请基础权限,再根据应用发展需求逐步扩容权限,低成本构建相关健身社交类应用。而新规落地后,平台对所有开发者统一设置月度访问费用,标准为每月11.99美元,且明确价格会依据不同地区市场情况灵活调整。
此次规则升级并非单纯的收紧限制,Strava始终兼顾开发者生态的可持续发展。数据显示,平台开发者社区规模持续壮大,成员数量从去年的18.5万名增长至今年的24.1万名,彰显出强劲的生态活力。为持续赋能开发者,同时精准管控数据共享边界,Strava计划新增对模型上下文协议(MCP)的支持。作为新兴行业标准,该协议能够让AI助手与各类应用以标准化、结构化的方式调取外部数据,帮助Strava精细化界定数据共享范围、规范数据使用方式,实现数据保护与合规开放的平衡。
不仅如此,Strava还将通过停用部分API端点进一步筑牢数据安全防线。这些API端点是外部应用获取俱乐部详情等特定用户数据的核心通道,关停冗余、高危端点,能够大幅降低数据泄露与违规抓取风险。事实上,平台早在2024年就已启动API规则收紧工作,明确禁止将平台数据用于AI模型训练,同时限制第三方应用展示其他用户的个人数据。不过此前的政策调整曾引发大量开发者抗议,不少从业者表示新规会严重影响自有应用的正常运营与功能迭代。为最大程度降低新规对合规开发者的冲击,本次系列变更将设置90天的过渡期,为开发者预留充足的适配调整时间。
在Strava首席执行官迈克尔·马丁看来,无节制、无规则的AI数据抓取,已然成为公共互联网生态的潜在危机。他在接受TechCrunch采访时直言,AI企业对训练数据的无尽需求,驱使行业肆无忌惮地抓取公共网站数据,不仅全面拉低各类网站的运行性能,也严重破坏互联网生态秩序。过去数月,Strava平台频繁出现性能下降、服务受损的情况,除了公开数据被批量爬虫抓取外,部分AI企业还刻意无视平台API使用条款,违规通过接口窃取用户数据。
马丁进一步揭露了行业违规抓取的隐蔽乱象。Strava曾多次拒绝头部AI实验室的数据授权合作提议,其中AI搜索初创公司Perplexity在合作被拒后,并未停止违规抓取行为,而是通过聚合服务路由抓取流量、隐藏自身访问来源,变相窃取平台数据,而这也是该企业过往多次被曝光的违规操作模式。同时,大量低质量“氛围编码”应用的低效API调用,也造成了平台服务器过载,给系统带来了远超正常访问的运行负担。这一行业困境并非个例,此前Meta封禁第三方聊天机器人接入WhatsApp,核心原因也是第三方无序访问导致服务器资源被过度消耗。
值得关注的是,Strava的新规相较于2024年Reddit的API改革更具包容性。当年Reddit推行按调用次数阶梯定价的模式,大幅抬高了中小开发者的运营成本,导致大量小众应用被迫停运,开发者生态遭受重创。而Strava选择统一固定费率的收费模式,在实现数据商业化、规范化管控的同时,最大限度保留了开发者生态的完整性。