Anthropic称中国AI公司利用1600万次Claude查询复制模型
Anthropic指控DeepSeek、Moonshot AI和MiniMax通过24,000个欺诈账户进行大规模蒸馏攻击,非法提取Claude模型能力,生成超1600万次交互,违反服务条款和地区限制。
Anthropic周一表示,它发现了由三家人工智能(AI)公司DeepSeek、Moonshot AI和MiniMax发起的"工业级规模"行动,这些公司非法提取Claude的能力以改进自己的模型。
这些蒸馏攻击通过约24,000个欺诈账户生成了超过1600万次与其大语言模型(LLM)的交互,违反了其服务条款和地区访问限制。这三家公司均位于中国,由于"法律、监管和安全风险",该地区禁止使用其服务。
蒸馏是指通过更强大AI系统生成的输出来训练能力较弱模型的技术。虽然蒸馏是公司生产自己前沿模型的小型、低成本版本的合法方式,但竞争对手利用它从其他AI公司获取此类能力是非法的,这使他们只需花费自行开发所需时间和成本的一小部分。
"非法蒸馏的模型缺乏必要的安全保障,造成重大国家安全风险,"Anthropic表示。"通过非法蒸馏构建的模型不太可能保留这些保障措施,意味着危险能力可能在完全剥离许多保护措施的情况下扩散。"
提取美国模型的外国AI公司可以将这些未受保护的能力武器化,以促进恶意活动,无论是网络相关还是其他方面,从而为专制政府可以部署的军事、情报和监视系统提供基础,用于进行攻击性网络行动、虚假信息活动和大规模监控。
AI初创公司详述的这些活动涉及使用欺诈账户和商业代理服务大规模访问Claude同时避免被检测。Anthropic表示,它能够根据请求元数据、IP地址关联和基础设施指标将每次活动归因于特定AI实验室。
以下是三次蒸馏攻击的详情:
- DeepSeek:针对Claude的推理能力、基于评分标准的任务,并寻求其帮助生成政治敏感查询的审查安全替代方案,如关于异见人士、党领导人或专制主义的问题,超过15万次交互。
- Moonshot AI:针对Claude的代理推理和工具使用、编码能力、计算机使用代理开发和计算机视觉,超过340万次交互。
- MiniMax:针对Claude的代理编码和工具使用能力,超过1300万次交互。
"提示的数量、结构和重点与正常使用模式明显不同,反映了有意的能力提取而非合法使用,"Anthropic补充道。"每次活动都针对Claude最具差异化的能力:代理推理、工具使用和编码。"
该公司还指出,这些攻击依赖于大规模转售Claude和其他前沿AI模型访问权的商业代理服务。这些服务由"九头蛇集群"架构提供支持,包含大量欺诈账户网络,在其API上分配流量。
然后,这种访问被用来生成大量精心设计的提示,旨在从模型中提取特定能力,目的是通过收集高质量响应来训练他们自己的模型。
"这些网络的广泛性意味着没有单点故障,"Anthropic表示。"当一个账户被禁止时,新账户会取而代之。在一个案例中,单个代理网络同时管理超过20,000个欺诈账户,将蒸馏流量与无关的客户请求混合,使检测更加困难。"
为应对威胁,Anthropic表示它已经建立了多个分类器和行为指纹系统,以识别API流量中可疑的蒸馏攻击模式,加强了对教育账户、安全研究项目和初创组织的验证,并实施了增强的保障措施,以降低模型输出用于非法蒸馏的有效性。
此披露发生在Google威胁情报组(GTIG)几周前披露它识别并阻止了通过超过10万个提示针对Gemini推理能力的蒸馏和模型提取攻击之后。 "模型提取和蒸馏攻击通常不会对普通用户构成风险,因为它们不会威胁AI服务的机密性、可用性或完整性,"Google本月早些时候表示。"相反,风险主要集中在模型开发者和服务提供商中。"


评论2次
这个是怎么知道是哪个公司用的呢
结论: 该事件本质是通过大规模API滥用和欺诈性账户集群绕过服务条款限制,实现模型能力蒸馏的xi统性攻击。攻击者利用技术手段(代理服务、账户池)和业务策略(混淆流量)规避检测,核心目标是低成本复制Claude的核心能力(代理推理/编码/工具调用),最终导致模型输出数据被xi统性提取用于训练自有模型。攻击路径符合"源-汇"模型:API请求作为数据源被滥用,模型输出作为敏感数据被非法汇集。 --- **分析路径** **L1攻击面识别** - 源点:Claude API接口(注册/身份验证、速率限制、区域限制逻辑) - 流量特征:异常高频请求模式(2.4万账户生成1600万次交互),特定领域提示词(政治敏感/技术工具/代理开发) - 汇点:模型输出结果被xi统性收集用于蒸馏训练 **L2假设验证** 1. **账户创建环节**: - 假设:攻击者通过代理服务伪造地理位置和设备指纹绕过注册限制 - 验证路径:分析注册IP与账户活跃地区的地理分布矛盾性,检测请求头User-Agent异常重复率 2. **请求模式分析**: - 假设:请求内容符合预定义的蒸馏提示模板 - 验证路径:对请求prompt进行NLP分析,识别高重复性结构(如"生成符合XX特征的[技术指令]"模式) 3. **流量混合攻击**: - 假设:攻击流量与合法流量混合以逃避静态阈值检测 - 验证路径:统计请求时间序列的突发性波动,检测API调用间隔异常(如突发万级请求后归零) **L3边界/异常场景** - 极端速率测试:模拟单账户在1秒内发送百次请求,验证速率限制是否生效 - 地理绕过测试:使用中国IP+美国代理的链路访问API,确认区域检测逻辑是否失效 - 会话劫持测试:复用被封禁账户的API key是否能通过代理重新接入 **L4防御反推与修复** - 现有防御漏洞: 1. 账户创建验证未检测代理链路(如X-Forwarded-For伪造) 2. 速率限制未区分"高价值"请求类别(如模型调用 vs 文本纠错) 3. 行为分析未覆盖跨账户的协同异常(如2万账户同时请求相同prompt结构) --- **验证步骤** 1. **流量镜像分析**: - 过滤所有源IP归属中国的请求,提取其代理链路信息(HTTP_X_FORWARDED_FOR字段) - 统计前100个高频账户的prompt词频,标记出现率>10%的关键词(如"proxy development") 2. **模型输出溯源**: - 对MiniMax等公司的公开模型输出样本,通过特征编码比对是否包含Claude特有的响应模式(如特定代码格式/错误码) 3. **代理网络测绘**: - 收集被封禁的2万+账户的创建IP,反查ASN归属,定位代理服务提供商节点 --- **修复建议** 1. **增强账户验证**: - 部署CAPTCHA挑战+设备指纹校验(结合canvas指纹/硬件时钟 skew检测代理使用) - 区域验证增加TLS握手指纹比对(不同国家节点的TCP/IP堆栈特征差异) 2. **流量行为建模**: - 实施动态速率限制:对涉及代理推理/代码生成的高价值prompt类别单独设置QPS上限 - 建立跨账户行为图谱:检测异常关联(如多个账户使用相同SSH密钥/社保号格式字段) 3. **输出污染防护**: - 在模型响应中注入不可见水印(如Unicode零宽度字符序列,绑定账户ID) - 对特定能力(如xi统命令生成)增加动态混淆(在输出中随机插入无害化注释指令) --- **缺失信息补充** 若需进一步验证,需获取以下数据: - 攻击期间的API请求正则表达式模板(prompt模板特征) - 被封禁账户的请求头完整日志(包括XFF/UA/Referer) - 模型输出的矢量嵌入相似度报告(与Claude原始输出对比)