Strava在IPO前夕向数据爬虫宣战-堆代码网

Strava在IPO前夕向数据爬虫宣战

发布于 1个月前
 150 热度

 0 评论

飛雲
0 粉丝 68 篇博客

堆代码讯人工智能产业的飞速迭代，让海量数据成为核心生产原料。各大AI企业的模型训练愈发依赖庞大的数据集支撑，随之而来的是行业无序数据抓取乱象愈演愈烈。不少AI初创公司肆意突破互联网长期通行的robots.txt爬虫协议规则，无视网站的访问限制，大规模抓取全网公开数据用于模型训练。这种无节制的“数据掠夺”，不仅挤占网站服务器资源、影响平台正常运营，也倒逼各类互联网平台纷纷收紧数据开放政策，开启一场数据权益与AI发展的博弈。知名健身社交跑步平台Strava便率先发力，通过技术防护、API规则革新、收费模式调整等一系列举措，坚决抵制未经授权的AI数据抓取，为互联网数据生态规范化发展提供了全新样本。

为从根源上阻断无序数据抓取，Strava全面升级了网站安全防护体系，彻底改变了过往公开数据的访问模式。此前，平台用户的公开个人资料、健身俱乐部列表等公开内容，无需登录验证即可被任意访问、抓取。如今，Strava将所有这类公开数据全部纳入身份验证体系之下，只有经过平台认证的合法用户才能查看相关内容，从技术层面杜绝了AI爬虫的无差别批量抓取，有效守护了用户健身社交数据的安全与专属权益。

在核心的开发者API服务层面，Strava推出了颠覆性的规则与收费调整，彻底告别了以往宽松的免费开放模式。过去，开发者可依托平台免费的分级访问计划开展应用开发，先申请基础权限，再根据应用发展需求逐步扩容权限，低成本构建相关健身社交类应用。而新规落地后，平台对所有开发者统一设置月度访问费用，标准为每月11.99美元，且明确价格会依据不同地区市场情况灵活调整。

此次规则升级并非单纯的收紧限制，Strava始终兼顾开发者生态的可持续发展。数据显示，平台开发者社区规模持续壮大，成员数量从去年的18.5万名增长至今年的24.1万名，彰显出强劲的生态活力。为持续赋能开发者，同时精准管控数据共享边界，Strava计划新增对模型上下文协议（MCP）的支持。作为新兴行业标准，该协议能够让AI助手与各类应用以标准化、结构化的方式调取外部数据，帮助Strava精细化界定数据共享范围、规范数据使用方式，实现数据保护与合规开放的平衡。

不仅如此，Strava还将通过停用部分API端点进一步筑牢数据安全防线。这些API端点是外部应用获取俱乐部详情等特定用户数据的核心通道，关停冗余、高危端点，能够大幅降低数据泄露与违规抓取风险。事实上，平台早在2024年就已启动API规则收紧工作，明确禁止将平台数据用于AI模型训练，同时限制第三方应用展示其他用户的个人数据。不过此前的政策调整曾引发大量开发者抗议，不少从业者表示新规会严重影响自有应用的正常运营与功能迭代。为最大程度降低新规对合规开发者的冲击，本次系列变更将设置90天的过渡期，为开发者预留充足的适配调整时间。

在Strava首席执行官迈克尔·马丁看来，无节制、无规则的AI数据抓取，已然成为公共互联网生态的潜在危机。他在接受TechCrunch采访时直言，AI企业对训练数据的无尽需求，驱使行业肆无忌惮地抓取公共网站数据，不仅全面拉低各类网站的运行性能，也严重破坏互联网生态秩序。过去数月，Strava平台频繁出现性能下降、服务受损的情况，除了公开数据被批量爬虫抓取外，部分AI企业还刻意无视平台API使用条款，违规通过接口窃取用户数据。

马丁进一步揭露了行业违规抓取的隐蔽乱象。Strava曾多次拒绝头部AI实验室的数据授权合作提议，其中AI搜索初创公司Perplexity在合作被拒后，并未停止违规抓取行为，而是通过聚合服务路由抓取流量、隐藏自身访问来源，变相窃取平台数据，而这也是该企业过往多次被曝光的违规操作模式。同时，大量低质量“氛围编码”应用的低效API调用，也造成了平台服务器过载，给系统带来了远超正常访问的运行负担。这一行业困境并非个例，此前Meta封禁第三方聊天机器人接入WhatsApp，核心原因也是第三方无序访问导致服务器资源被过度消耗。

外界普遍认为，Strava集中发力数据保护、重构API规则的时间点颇具深意。据悉，平台今年早些时候已秘密提交IPO申请，此番一系列规范化、严格化的数据管控举措，既是整治行业乱象的主动作为，也是向资本市场传递数据治理规范、用户权益可控的积极信号，进一步提升企业合规价值与投资吸引力。

值得关注的是，Strava的新规相较于2024年Reddit的API改革更具包容性。当年Reddit推行按调用次数阶梯定价的模式，大幅抬高了中小开发者的运营成本，导致大量小众应用被迫停运，开发者生态遭受重创。而Strava选择统一固定费率的收费模式，在实现数据商业化、规范化管控的同时，最大限度保留了开发者生态的完整性。

“我们希望每一位用户都能真正拥有自己的数据，放心信任平台的数据保护与管控体系，同时也让合规开发者在生态中持续良性发展、创造价值。”马丁的表述，道出了Strava此次改革的核心初衷。在AI与互联网深度融合的当下，Strava的探索为行业提供了重要参考：数据是AI发展的基石，但无序掠夺式的数据获取终将破坏产业根基。唯有平衡好AI创新、数据保护与生态共赢的关系，建立规范化的数据使用规则，才能推动人工智能产业与互联网生态实现长效健康发展。

 用户评论

IT那些事
 350 成员 |  4716 话题
+我要提问 +随便写写

可能感兴趣的话题

谷歌对反垄断裁决提出上诉，称苹果“光明正大地”选择了其搜索引擎

Alphabet计划筹集800亿美元用于人工智能建设

谷歌首家美国外旗舰店落地东京表参道

印度马恒达未来车型将适配Apple Wallet