给大模子评分的基准靠谱吗？Anthropic来了次大评估-元龙酱吖网

娱乐

给大模子评分的基准靠谱吗？Anthropic来了次大评估

时间：2010-12-5 17:23:32 作者：时尚来源：综合查看：评论：0

内容摘要：在大模子LLM）盛行确当下，评估 AI 零星成为了紧张的一环，在评估历程中都市碰着哪些难题，Anthropic 的一篇文章为咱们揭开了谜底。现阶段，大少数环抱家养智能 AI）对于社会影响的品评辩说可演

在大模子（LLM）盛行确当下，大估评估 AI 零星成为了紧张的模评一环，在评估历程中都市碰着哪些难题，基准Anthropic 的靠谱一篇文章为咱们揭开了谜底。

现阶段，大评大少数环抱家养智能（AI）对于社会影响的大估品评辩说可演绎为 AI 零星的某些属性，好比着实性、模评公平性、基准滥用的靠谱可能性等。但如今面临的大评下场是，良多钻研职员并无残缺意见到建树安妥坚贞的大估模子评估是何等难题。现今良多现有的模评评估套件在方方面面的展现都颇有限。

AI 独创公司 Anthropic 克日在其民间网站上贴出了一篇文章《评估 AI 零星所面临的基准挑战》。文中写道，靠谱他们花了很长的大评光阴来构建对于 AI 零星的评估，从而更好地清晰 AI 零星。

文章地址：https://www.anthropic.com/index/evaluating-ai-systems

本文主要从如下多少个方面睁开品评辩说：

多项抉择评估（Multiple choice evaluations）；
运用第三方评估框架，如 BIG-bench 以及 HELM；
让使命职员来掂量模子是有利的仍是有害的；
让规模专家对于相关劫持妨碍红队合成（red team）；
运用天生式 AI 来开拓评估措施；
与非营利机关相助，审核模子是否具备危害。

多项抉择评估面临的挑战

多项抉择评估看似重大，并否则。本文品评辩说了模子在 MMLU（Measuring Multitask Language Understanding）以及 BBQ（Bias Benchmark for QA）基准上的挑战。

MMLU 数据集

MMLU 是一个搜罗 57 个多选问答使命的英文评测数据集，涵盖数学、历史、法律等，是当初主流的 LLM 评测数据集。精确率越高，象征着模子的能耐越强。但本文发现运用 MMLU 存在四个挑战：

1. 由于 MMLU 被普遍运用，因此就不可防止的碰着这种情景，模子在磨炼历程中更易将 MMLU 数据纳入进来。这以及学生在魔难前看到问题是同样的 —— 这是做弊。

2. 对于重大的格式变更敏感，好比将选项从 (A) 变更为 (1)，概况在选项以及谜底之间削减格外的空格，这些做法都可能导致评估精确率约有 5% 的浮动。

3. 一些开拓职员有针对于性的来后退 MMLU 分数，好比少样本学习或者脑子链推理。因此，在比力各个试验室的 MMLU 分数时必需颇为留意。

4.MMLU 可能不经由子细的校对于 —— 有钻研者在 MMLU 中发现了标签过错或者无奈回覆的例子。

由于上述下场，因此在妨碍这种重大且尺度化的评估时，有需要当时做出分说以及思考。本文表明，在运用 MMLU 中碰着的挑战个别也适用于其余相似的多项抉择评估。

BBQ

多项抉择评估还可能掂量一些 AI 危害。详细而言，Anthropic 的钻研者为了在自家模子 Claude 中掂量这些危害，他们运用了 BBQ 基准（用于评估模子对于人群私见的罕用基准）。在将此基准与多少个相似的评估妨碍比力后，本文才确信 BBQ 提供了一个很好的掂量社会私见的措施。这项使命花了他们多少个月的光阴。

本文展现，实施 BBQ 比预期要困罕有多。首先是找不到一个可用的 BBQ 开源实现，Anthropic 最佳的工程师花了一个星期的光阴来实施以及测试评估。与 MMLU 中凭证精确率评估差距，BBQ 中的 bias 患上分需要细微差距以及履始终界说、合计以及批注。

BBQ bias 患上分规模从 - 1 到 1，其中 1 展现有清晰的机械私见，0 展现不私见，-1 展现有清晰的反机械私见。在实现 BBQ 之后，本文发现一些模子 bias 患上分为 0 ，这一服从也让钻研者感应悲不雅，表明他们在削减有私见的模子输入方面取患了妨碍。

第三方评估框架

最近，第三方不断在自动开拓评估套件。到当初为止，Anthropic 已经退出了其中的两个名目：BIG-bench 以及斯坦福大学的 HELM（Holistic Evaluation of Language Models）。尽管第三方评估看起来颇实用，但这两个名目都面临新的挑战。

BIG-bench

BIG-bench 搜罗 204 项评估，由 450 多名钻研者相助实现，涵盖从迷信到社会推理的一系列主题。Anthropic 展现他们在运用这个基定时碰着了一些挑战：为了装置 BIG-bench ，他们破费了大批的光阴。BIG-bench 不像 MMLU 那样即插即用 —— 它致使比运用 BBQ 更多的自动来实施。

BIG-bench 无奈实用的扩展，想要全副实现 204 项评估具备很大的挑战性。因此需要重新编写，以便与运用的根基配置装备部署很好地配合，使命量重大。

此外，在实施历程中，本文发现评估中存在一些 bug，运用起来颇为利不便，因此 Anthropic 的钻研职员在这次试验后坚持了它。

HELM：自上而下地规画一组评估

BIG-bench 是一项「自下而上」的使命，任何人都可能提交任何使命，而后由一组专家机关者妨碍有限的魔难。而 HELM 则接管「自上而下」的措施，由专家抉择用甚么使命评估模子。

详细来说，HELM 在推理场景、含虚伪信息场景等多个场景中评估模子，接管精确性、安妥性、公平性等尺度目的。Anthropic 为 HELM 开拓职员提供 API 碰头权限，以便在其模子上运行基准测试。

比照于 BIG-bench ，HELM 有两个优势：1）它不需要妨碍大批的工程使命，2）可能依靠专家来抉择以及批注特定的高品质评估。

可是，HELM 也带来了一些挑战。适用于评估其余模子的措施不用定适用于 Anthropic 的模子，反之亦然。好比，Anthropic 的 Claude 系列模子经由磨炼，凭证特定的文本格式，称为 Human/Assistant 格式。Anthropic 外部评估其模子时会凭证这种特定格式。假如不凭证这莳格式，Claude 无意就会给出不艰深的回覆，从而使尺度评估目的的服从不太可信。

此外，HELM 需要很长的光阴能耐实现，评估新模子可能需要多少个月的光阴，而且需要与外部各方妨碍协调以及相同。

家养智能零星是为了与人妨碍凋谢式动态交互而妄想的，那末若何对于模子妨碍更挨近事实运用的评估？

众包职员妨碍 A/B 测试

当初，规模内主要（但不残缺）依赖一种根基规范的人类评估 —— 在众包平台上妨碍 A/B 测试，人们在其中与两个模子妨碍凋谢式对于话，并从模子 A 或者 B 中抉择照应更有辅助或者更有害，凭证模子的实用性或者有害性对于模子妨碍排名。这种评估措施的短处是与事实情景相对于应，并应承对于差距的模子妨碍排名。

可是，这种评估措施有一些规模性，试验运行起来既高尚又耗时。

首先，这种措施需要与第三方众包平台相助并为其付费，为模子构建自界说 Web 界面，为 A/B 测试职员妄想详细的剖析，还要合成以及存储服从数据，并处置应聘众包职员带来的品格挑战。

在有害性测试情景下，试验还存在使人们打仗有害输入的危害。人类评估的服从可能还会因人类评估者的特色存在很大差距，搜罗人类评估者的缔造力水平、念头以及识别所测试零星潜在缺陷的能耐。

此外，实用以及有害之间存在固有的张力。零星可能经由提供无用的照应（好比「赔罪，我无奈辅助您」）来飞腾有害性。

实用与有害之间的精确失调是甚么？甚么目的数值表明模子饶富裕用且有害？诸多下场需要规模内钻研者做更多使命来找到谜底。

清晰更多内容，请参考原文章。

原文链接：https://www.anthropic.com/index/evaluating-ai-systems

英超综合 | 维拉力克阿森纳利物浦逆转水晶宫人和猩猩能不能生出孩子？前苏联的‘人兽杂交’实验揭秘！
帮朱丹还债2000万，母亲是火箭军上校，41岁的周一围太低调了第一次约会男子请客，女方一口没吃，看到配饰网友摇头：你养不起

最近更新

2025-03-14 19:29:46
步行者vs活塞前瞻：哈利伯顿期待魔法奇迹，20连败在向活塞招手？
2025-03-14 19:29:46
NBA前瞻篇六：夺冠窗口期已过，76人表现让人大跌眼镜伍智恒: 嫁入豪门8年色衰被抛弃，牙齿掉光胃被切除，体重只剩44斤
2025-03-14 19:29:46
欧冠分组！史上最强死亡之组诞生，四豪门欲哭无泪，诸强幸灾乐祸
2025-03-14 19:29:46
今日雄鹿击败湖人赛后字母哥以及伍德缱绻不断哈姆上前紧迫防止
2025-03-14 19:29:46
原创帕金斯：裁判会帮助勇士进入季后赛，就像当年NBA黑掉了骑士一样
2025-03-14 19:29:46
连杀鲁能上港亚冠力保中超体面保级困难户华丽转身成中超典范姜昆雕像引起巨大争议，与传统文化相背？网友：上一位还是魏忠贤
2025-03-14 19:29:46
全力巴结字母哥！雄鹿签下字母弟，3兄弟都有钱拿别去湖人好不好“中国第一胖”王浩楠：切二分之一胃，一年减400多斤，收获爱情
2025-03-14 19:29:46
三狮军团深夜狂欢，纵容饮酒+女郎相伴，惟有队长早早回家成圭表尺度

热门排行

2025-03-14 19:29:46
澳超推荐墨尔本城守门员在投掷照明弹后避免被禁赛52岁女神杨珏莹终于结婚了，新郎让人意外，整个娱乐圈都炸了锅
2025-03-14 19:29:46
父子意甲进球相隔7602天！小图拉姆传承家族荣光，国米9号不是谁都能穿杨颖、刘亦菲与谷爱凌同框，一个像网红，一个像女王，差别太明显
2025-03-14 19:29:46
夷易近警150条短信隔空教育女子逃出缅北：爬泥淖蹚河沟
2025-03-14 19:29:46
售价9.69万
2025-03-14 19:29:46
原创美媒预测东西部球队进入季后赛概率；篮网伤病报告出炉，西蒙斯缺阵
2025-03-14 19:29:46
NBA前瞻篇六：夺冠窗口期已过，76人表现让人大跌眼镜伍智恒: 嫁入豪门8年色衰被抛弃，牙齿掉光胃被切除，体重只剩44斤
2025-03-14 19:29:46
体坛联播｜王楚钦止步亚锦赛64强，内马尔称赞沙特比法甲好
2025-03-14 19:29:46
安森美半导体推出低功耗 Hyperlux LP 图像传感器：续航提升 40%

友情链接