【世界速看料】语言AI原来知道自己的回答是否正确
语言AI,具备了人类的自我审视能力:最近,一个来自加州大学伯克利分校和霍普金斯大学的学术团队研究表明:它不仅能判断自己的答案正确与否,而且经过训练,还能预测自己知道一个问题答案的概率。
访问:
(资料图片仅供参考)
阿里云“无影云电脑” 支持企业快速实现居家办公
研究成果一经发布,就引起热议,有人的第一反应是恐慌:
也有人认为,这项成果,对神经网络研究具有正面意义:
语言AI具备自我审视能力
研究团队认为,如果要让语言AI模型自我评估,必须有一个前提:
语言AI回答问题时,会校准自己的答案。
这里的校准,就是语言AI预测一个答案的正确概率,是否与实际发生的概率一致。
只有这样语言AI才可以运用这种校准的能力来评估自己输出的答案是否正确。
所以第一个问题是,语言AI能否对自己的答案进行校准?
为了证明这个问题,研究团队为AI准备了5个选择题:
答案选项,以A、B、C的形式给出。
如果AI模型答案的正确率超过偶然几率,那么就证明AI模型给出的答案是经过校准的。
而测试的结果是,语言AI给出的答案,正确率明显超过任意选项的偶然几率。
也就是说,语言AI模型可以对自己的答案进行很好的校准。
但研究团队发现,语言AI的校准能力,是建立在选项答案明确的前提下的。
如果在选项中加入一个“以上都不是”的不确定选项,就会损害语言AI的校准能力。
也就是说,在特定格式的选择题中,语言AI模型可以对答案进行很好的校准。
明确了这个前提之后,下一个问题是,验证语言AI模型能够判断自己的答案是否正确。
在这一轮的测试中,为了能让AI模型的预测更接近自己的有效决策边界。
研究团队仍然选择上一轮测试的问题,以及语言AI模型的答案样本。
同时让AI模型选择自己的答案真假与否,之后再针对这个“真”或“假”的答案,分析AI模型是否做出有效的校准。
问题设置举例如下:
在经过20次的真假测试之后,研究团队发现,语言AI模型对自己答案或“真”或“假”的评价,都经过明显的校准。
也就是说,如果在一个范围内,给AI模型提出若干问题,然后AI模型对这些问题的答案进行真假评价,具有合理的,且经过校准的置信度。
这也证明,语言AI模型确实可以判断自己对一个问题的主张是否正确。
最后,研究团队对语言AI模型提出了一个更难的问题:AI模型经过训练,能否预测他们是否知道任何给定问题的答案。
在这一环节,研究团引入一个数据P(IK)(我知道这个答案的概率)并在下面两种训练方式中挑选一种进行训练:
Value Head(价值导向):把P(IK)训练成为一个额外的价值导向,再添加到模型的对数(独立于语言建模的对数,这种方法的优势在于,研究团队可以很容易的探测P(IK)的一般标记位置。
Natural Language(自然语言):这种方法比较简单,就是要求AI模型从字面上回答“你知道这个答案的概率是多少”,同时输出一个百分比数据答案。
在训练初期,研究团队比较倾向于自然语言训练方式,但结果并不显著,由此转向价值导向方式,不过研究团队同时表示,最终对AI模型的训练还将回归自然语言方法。
在经过训练之后,研究团队发现,语言AI模型可以很好的预测P(IK),并且在不同类型的问题中,这种预测能力具有部分通用性。
不过,研究团队也发现,在某些类型的问题,比如算术问题,语言AI模型在OOD校准时有一些困难。
对于这一学术成果,研究团队表示,将来的方向,是将这些成果,推广到语言AI模型不模仿人类文本的前提下,自我学习和事实推理领域。
作者介绍
论文通讯作者Jared Kaplan博士,是一位理论物理学家,同时也是一位机器学习专家,现担任霍普金斯大学助理教授,主要研究领域,机器学习研究,包括神经模型的缩放规律以及GPT-3语言模型。
共同通讯作者Saurav Kadavath,Anthropic公司研究员,现在加州大学伯克利分校EECS专业攻读硕士学位,主要研究领域是机器学习,大规模语言学习等。
关键词: 人工智能 语言AI原来知道自己的回答是否正确 cnBeta
2022-07-15 15:50:41
2022-07-15 15:49:27
2022-07-15 15:48:55
2022-07-15 15:48:09
2022-07-15 15:47:01
2022-07-15 15:46:38
2022-07-15 15:46:21
2022-07-15 15:43:37
2022-07-15 15:42:11
2022-07-15 15:39:16
2022-07-15 15:37:00
2022-07-15 12:49:41
2022-07-15 09:56:45
2022-07-15 09:54:14
2022-07-15 09:46:33
2022-07-15 09:40:18
2022-07-15 09:38:51
2022-07-15 09:33:55
2022-07-15 08:52:15
2022-07-15 08:47:46
2022-07-15 08:45:45
2022-07-15 08:41:11
2022-07-15 08:39:52
2022-07-15 08:37:44
2022-07-15 08:37:02
2022-07-15 08:36:36
2022-07-15 08:35:29
2022-07-15 08:34:33
2022-07-15 08:31:37
2022-07-15 08:29:21
2022-07-15 08:24:22
2022-07-15 07:48:54
2022-07-15 07:41:13
2022-07-15 07:40:59
2022-07-15 07:33:48
2022-07-15 07:32:52
2022-07-15 05:52:48
2022-07-15 05:50:35
2022-07-15 05:41:33
2022-07-15 05:33:48
2022-07-15 05:29:12
2022-07-14 21:37:13
2022-07-14 20:57:55
2022-07-14 20:56:05
2022-07-14 20:55:05
2022-07-14 20:49:14
2022-07-14 20:49:05
2022-07-14 20:37:47
2022-07-14 19:48:34
2022-07-14 19:47:45
2022-07-14 19:42:09
2022-07-14 19:40:56
2022-07-14 19:34:49
2022-07-14 19:34:16
2022-07-14 18:47:43
2022-07-14 18:46:42
2022-07-14 18:45:29
2022-07-14 18:44:00
2022-07-14 18:38:42
2022-07-14 17:53:48
2022-07-14 17:53:47
2022-07-14 17:49:29
2022-07-14 17:47:01
2022-07-14 17:29:35
2022-07-14 16:53:04
2022-07-14 16:46:07
2022-07-14 16:44:48
2022-07-14 16:43:38
2022-07-14 16:35:31
2022-07-14 15:54:16
2022-07-14 15:52:39
2022-07-14 15:48:35
2022-07-14 15:47:04
2022-07-14 15:45:33
2022-07-14 15:43:06
2022-07-14 15:39:33
2022-07-14 15:37:35
2022-07-14 15:33:24
2022-07-14 15:33:12
2022-07-14 15:22:34
2022-07-14 15:21:39
相关新闻