Anthropic称中国AI公司利用1600万次Claude查询复制模型
Anthropic指控DeepSeek、Moonshot AI和MiniMax通过24,000个欺诈账户进行大规模蒸馏攻击,非法提取Claude模型能力,生成超1600万次交互,违反服务条款和地区限制。
Anthropic周一表示,它发现了由三家人工智能(AI)公司DeepSeek、Moonshot AI和MiniMax发起的"工业级规模"行动,这些公司非法提取Claude的能力以改进自己的模型。
这些蒸馏攻击通过约24,000个欺诈账户生成了超过1600万次与其大语言模型(LLM)的交互,违反了其服务条款和地区访问限制。这三家公司均位于中国,由于"法律、监管和安全风险",该地区禁止使用其服务。
蒸馏是指通过更强大AI系统生成的输出来训练能力较弱模型的技术。虽然蒸馏是公司生产自己前沿模型的小型、低成本版本的合法方式,但竞争对手利用它从其他AI公司获取此类能力是非法的,这使他们只需花费自行开发所需时间和成本的一小部分。
"非法蒸馏的模型缺乏必要的安全保障,造成重大国家安全风险,"Anthropic表示。"通过非法蒸馏构建的模型不太可能保留这些保障措施,意味着危险能力可能在完全剥离许多保护措施的情况下扩散。"
提取美国模型的外国AI公司可以将这些未受保护的能力武器化,以促进恶意活动,无论是网络相关还是其他方面,从而为专制政府可以部署的军事、情报和监视系统提供基础,用于进行攻击性网络行动、虚假信息活动和大规模监控。
AI初创公司详述的这些活动涉及使用欺诈账户和商业代理服务大规模访问Claude同时避免被检测。Anthropic表示,它能够根据请求元数据、IP地址关联和基础设施指标将每次活动归因于特定AI实验室。
以下是三次蒸馏攻击的详情:
- DeepSeek:针对Claude的推理能力、基于评分标准的任务,并寻求其帮助生成政治敏感查询的审查安全替代方案,如关于异见人士、党领导人或专制主义的问题,超过15万次交互。
- Moonshot AI:针对Claude的代理推理和工具使用、编码能力、计算机使用代理开发和计算机视觉,超过340万次交互。
- MiniMax:针对Claude的代理编码和工具使用能力,超过1300万次交互。
"提示的数量、结构和重点与正常使用模式明显不同,反映了有意的能力提取而非合法使用,"Anthropic补充道。"每次活动都针对Claude最具差异化的能力:代理推理、工具使用和编码。"
该公司还指出,这些攻击依赖于大规模转售Claude和其他前沿AI模型访问权的商业代理服务。这些服务由"九头蛇集群"架构提供支持,包含大量欺诈账户网络,在其API上分配流量。
然后,这种访问被用来生成大量精心设计的提示,旨在从模型中提取特定能力,目的是通过收集高质量响应来训练他们自己的模型。
"这些网络的广泛性意味着没有单点故障,"Anthropic表示。"当一个账户被禁止时,新账户会取而代之。在一个案例中,单个代理网络同时管理超过20,000个欺诈账户,将蒸馏流量与无关的客户请求混合,使检测更加困难。"
为应对威胁,Anthropic表示它已经建立了多个分类器和行为指纹系统,以识别API流量中可疑的蒸馏攻击模式,加强了对教育账户、安全研究项目和初创组织的验证,并实施了增强的保障措施,以降低模型输出用于非法蒸馏的有效性。
此披露发生在Google威胁情报组(GTIG)几周前披露它识别并阻止了通过超过10万个提示针对Gemini推理能力的蒸馏和模型提取攻击之后。 "模型提取和蒸馏攻击通常不会对普通用户构成风险,因为它们不会威胁AI服务的机密性、可用性或完整性,"Google本月早些时候表示。"相反,风险主要集中在模型开发者和服务提供商中。"


评论6次
😈师夷长技以制夷😈
开源就自研,研究等开源
难道说过了若干年后会曝光出来ds也是靠“借鉴”起家的?
不得不说国外公司做的指纹收集很到位,就算是 伪造的那种ip 也识别出来了,现在国内的ai模型已经够用了,原来是这样低成本运营的啊😃
这个是怎么知道是哪个公司用的呢
结论: 该事件本质是通过大规模API滥用和欺诈性账户集群绕过服务条款限制,实现模型能力蒸馏的xi统性攻击。攻击者利用技术手段(代理服务、账户池)和业务策略(混淆流量)规避检测,核心目标是低成本复制Claude的核心能力(代理推理/编码/工具调用),最终导致模型输出数据被xi统性提取用于训练自有模型。攻击路径符合"源-汇"模型:API请求作为数据源被滥用,模型输出作为敏感数据被非法汇集。
分析路径 L1攻击面识别
L2假设验证
账户创建环节:
请求模式分析:
流量混合攻击:
L3边界/异常场景
L4防御反推与修复
验证步骤
流量镜像分析:
模型输出溯源:
代理网络测绘:
修复建议
增强账户验证:
流量行为建模:
输出污染防护:
缺失信息补充 若需进一步验证,需获取以下数据: