参考消息网10月29日报道 据美国趣味科学网站10月14日报道,科学家们设计了一套新的测试方案,以确定人工智能体是否会在没有人类指令的情况下自行修改代码并提高自身能力。
这个标准被称为MLE-bench,它包含75个Kaggle测试,每个测试都是针对人工智能体的考验,其中包含训练人工智能模型、处理数据集,以及运行科学实验等。
由开放人工智能研究中心(OpenAI)的科学家设计的MLE-bench可以衡量人工智能模型在“自主机器学习工程学”方面的表现——这是人工智能体可能面临的最难测试之一。
OpenAI科学家10月9日在一篇论文中透露了这套新标准的细节。该论文已上传至预印本文献库的数据库中。
科学家们说,未来的人工智能体只要在MLE-bench的75项测试中取得好成绩,就可以被认定为通用人工智能系统——即智慧与人类相当或比人类更聪慧的人工智能。
MLE-bench中的每一项测试在现实世界中都有其实用价值。其例子包括疫苗设计公开赛——即寻找对抗新冠病毒的mRNA(信使核糖核酸)疫苗的竞赛——以及解读古代卷轴的维苏威火山挑战赛。
科学家们认为,人工智能体如果能学会自主执行学习研究任务,会带来许多积极影响,包括加速医疗、气候科学和其他领域的科技进步。但是,如果不加以控制,就可能导致彻头彻尾的灾难。
科学家们在有关这套标准的文件中写道:“人工智能体从事高质量研究的能力也许标志着经济领域的革命性进步。然而,能够执行开放式机器学习任务的人工智能体拥有改进自身训练代码的能力,从而可以比人类研究人员更快地改进已经处于前沿的模型。如果人工智能体的创新速度超过了人类对其造成的影响的认知,我们就有可能面临一种风险,即开发出能够造成灾难性伤害的人工智能模型,或在没能同步监管和控制的情况下滥用这种模型。”
科学家们测试了OpenAI开发的最强人工智能模型o1。该模型在16.9%的MLE-bench测试中至少达到Kaggle铜牌水平,而且,其表现会随着挑战机会的增加而提高。
在一项挑战赛中获得一枚铜牌就相当于进入Kaggle人类参赛者排行榜的前40%。而o1模型在MLE-bench测试中获得的平均金牌数是7枚,比人类“Kaggle特级大师”的评选标准还多了两枚。
研究人员已开放MLE-bench源代码,以促进对人工智能体机器学习工程学能力的进一步研究。科学家们总结说:“最终,我们希望我们的工作有助于更深入地了解人工智能体自主执行机器学习工程学任务的能力,这对于未来安全使用更强大的人工智能模型至关重要。”(编译/潘晓燕)
人工智能字样(路透社)