2024-11-04 21:42来源:本站编辑
距离美国总统大选仅剩几天时间,人工智能公司Anthropic正在倡导建立自己的监管机构——趁为时未晚。
周四,该公司发布了建议,建议政府实施“有针对性的监管”,同时发布了可能令人担忧的数据,显示其所谓的“灾难性”人工智能风险正在上升。该公司在业内以关注安全而著称。
Anthropic在一篇博客文章中指出,人工智能模型在短短一年内在编码和网络攻击方面取得了很大进展。该公司写道:“在sw -bench软件工程任务中,模型已经从能够解决现实世界编码问题测试集的1.96% (Claude 2, 2023年10月)提高到13.5% (Devin, 2024年3月),再到49% (Claude 3.5 Sonnet, 2024年10月)。”“在内部,我们的前沿红队已经发现,目前的模型已经可以在广泛的网络攻击相关任务中提供帮助,我们预计下一代模型——将能够规划长期的、多步骤的任务——将更加有效。”
此外,该博客文章指出,根据基准测试GPQA,仅今年6月至9月,人工智能系统的科学理解能力就提高了近18%。OpenAI 01在测试中最难的部分取得了77.3%的成绩;人类专家得分为81.2%。
该公司还引用了英国人工智能安全研究所(AI Safety Institute)对几种化学、生物、放射性和核(CBRN)滥用模型的风险测试,结果发现“模型可用于获得有关生物和化学的专家级知识。”研究还发现,一些模型对科学问题的回答“与博士级专家的回答不相上下”。
这一数据使Anthropic在2023年的预测黯然失色,即网络和CBRN风险将在两到三年内出现。该博客称:“基于上述进展,我们相信我们现在离这些风险更近了。”
该博客解释说:“明智的、有针对性的监管可以让我们两全其美:实现人工智能的好处,同时降低风险。”“拖拖拉拉可能会导致两个世界最坏的结果:设计糟糕、条件反射式的监管阻碍了进步,同时也无法发挥作用。”
Anthropic建议政府采取行动,在不阻碍科学和商业创新的情况下降低风险,使用自己的“负责任规模政策”(Responsible Scaling Policy, RSP)作为“原型”,但不是替代品。Anthropic承认很难预测何时实施护栏,将其RSP描述为一个比例风险管理框架,通过常规测试来调整人工智能不断增长的能力。
Anthropic解释说:“‘如果-那么’的结构需要应用安全和保障措施,但只有当模型变得足够有能力保证它们的时候。”
该公司确定了成功的人工智能监管的三个组成部分:透明度、激励安全性、简单性和重点。
目前,公众无法核实一家人工智能公司是否遵守了自己的安全准则。Anthropic说,为了创造更好的记录,政府应该要求公司“制定并发布类似于rsp的政策”,划定何时会触发哪些保障措施,并发布每一代系统的风险评估。当然,政府也必须有一种方法来核实所有这些公司的声明实际上是真实的。
Anthropic还建议政府鼓励更高质量的安全措施。“在某种合理的标准下,监管机构可以确定rsp必须解决的威胁模型,而将细节留给公司。或者他们可以简单地规定RSP必须满足的标准。”
即使这些激励措施是间接的,Anthropic也敦促政府保持灵活。该博客称:“重要的是,监管程序要在发展过程中学习最佳实践,而不是一成不变。”尽管这对官僚体系来说可能很难实现。
这可能是不言而喻的,但Anthropic还强调,立法应该易于理解和实施。该公司将理想的监管描述为“外科手术”,在其建议中主张“简单和专注”,鼓励政府不要给人工智能公司制造不必要的“负担”,这可能会分散注意力。
该博客称:“在预防灾难性风险的过程中,可能发生的最糟糕的事情之一是,在预防风险所需的监管与繁琐或不合逻辑的规则之间形成了联系。”
Anthropic还敦促其他人工智能公司实施支持监管的rsp。它指出了提前定位计算机安全和安全的重要性,而不是在风险造成损害之后——以及这对于实现这一目标的招聘是多么重要。
“如果实施得当,rsp会推动组织结构和优先事项。它们成为产品路线图的关键部分,而不仅仅是纸上谈兵的政策。”Anthropic表示,rsp还敦促开发人员探索和重新审视威胁模型,即使它们是抽象的。
那么下一步是什么呢?
“在接下来的一年里,政策制定者、人工智能行业、安全倡导者、民间社会和立法者共同努力,制定一个满足上述条件的有效监管框架,这一点至关重要,”Anthropic总结道。“在美国,理想情况下,这将在联邦一级发生,尽管紧迫情况可能要求各州自行制定。”