给大模子评分的基准靠谱吗？Anthropic来了次大评估-はたばやしひろこ(畑林弘子)网

在大模子（LLM）盛行确当下，大估评估 AI 零星成为了紧张的模评一环，在评估历程中都市碰着哪些难题，基准Anthropic 的靠谱一篇文章为咱们揭开了谜底。

现阶段，大评大少数环抱家养智能（AI）对于社会影响的大估品评辩说可演绎为 AI 零星的某些属性，好比着实性、模评公平性、基准滥用的靠谱可能性等。但如今面临的大评下场是，良多钻研职员并无残缺意见到建树安妥坚贞的大估模子评估是何等难题。现今良多现有的模评评估套件在方方面面的展现都颇有限。

AI 独创公司 Anthropic 克日在其民间网站上贴出了一篇文章《评估 AI 零星所面临的基准挑战》。文中写道，靠谱他们花了很长的大评光阴来构建对于 AI 零星的评估，从而更好地清晰 AI 零星。

文章地址：https://www.anthropic.com/index/evaluating-ai-systems

本文主要从如下多少个方面睁开品评辩说：

多项抉择评估（Multiple choice evaluations）；
运用第三方评估框架，如 BIG-bench 以及 HELM；
让使命职员来掂量模子是有利的仍是有害的；
让规模专家对于相关劫持妨碍红队合成（red team）；
运用天生式 AI 来开拓评估措施；
与非营利机关相助，审核模子是否具备危害。

多项抉择评估面临的挑战

多项抉择评估看似重大，并否则。本文品评辩说了模子在 MMLU（Measuring Multitask Language Understanding）以及 BBQ（Bias Benchmark for QA）基准上的挑战。

MMLU 数据集

MMLU 是一个搜罗 57 个多选问答使命的英文评测数据集，涵盖数学、历史、法律等，是当初主流的 LLM 评测数据集。精确率越高，象征着模子的能耐越强。但本文发现运用 MMLU 存在四个挑战：

1. 由于 MMLU 被普遍运用，因此就不可防止的碰着这种情景，模子在磨炼历程中更易将 MMLU 数据纳入进来。这以及学生在魔难前看到问题是同样的 —— 这是做弊。

2. 对于重大的格式变更敏感，好比将选项从 (A) 变更为 (1)，概况在选项以及谜底之间削减格外的空格，这些做法都可能导致评估精确率约有 5% 的浮动。

3. 一些开拓职员有针对于性的来后退 MMLU 分数，好比少样本学习或者脑子链推理。因此，在比力各个试验室的 MMLU 分数时必需颇为留意。

4.MMLU 可能不经由子细的校对于 —— 有钻研者在 MMLU 中发现了标签过错或者无奈回覆的例子。

由于上述下场，因此在妨碍这种重大且尺度化的评估时，有需要当时做出分说以及思考。本文表明，在运用 MMLU 中碰着的挑战个别也适用于其余相似的多项抉择评估。

BBQ

多项抉择评估还可能掂量一些 AI 危害。详细而言，Anthropic 的钻研者为了在自家模子 Claude 中掂量这些危害，他们运用了 BBQ 基准（用于评估模子对于人群私见的罕用基准）。在将此基准与多少个相似的评估妨碍比力后，本文才确信 BBQ 提供了一个很好的掂量社会私见的措施。这项使命花了他们多少个月的光阴。

本文展现，实施 BBQ 比预期要困罕有多。首先是找不到一个可用的 BBQ 开源实现，Anthropic 最佳的工程师花了一个星期的光阴来实施以及测试评估。与 MMLU 中凭证精确率评估差距，BBQ 中的 bias 患上分需要细微差距以及履始终界说、合计以及批注。

BBQ bias 患上分规模从 - 1 到 1，其中 1 展现有清晰的机械私见，0 展现不私见，-1 展现有清晰的反机械私见。在实现 BBQ 之后，本文发现一些模子 bias 患上分为 0，这一服从也让钻研者感应悲不雅，表明他们在削减有私见的模子输入方面取患了妨碍。

第三方评估框架

最近，第三方不断在自动开拓评估套件。到当初为止，Anthropic 已经退出了其中的两个名目：BIG-bench 以及斯坦福大学的 HELM（Holistic Evaluation of Language Models）。尽管第三方评估看起来颇实用，但这两个名目都面临新的挑战。

BIG-bench

BIG-bench 搜罗 204 项评估，由 450 多名钻研者相助实现，涵盖从迷信到社会推理的一系列主题。Anthropic 展现他们在运用这个基定时碰着了一些挑战：为了装置 BIG-bench，他们破费了大批的光阴。BIG-bench 不像 MMLU 那样即插即用 —— 它致使比运用 BBQ 更多的自动来实施。

BIG-bench 无奈实用的扩展，想要全副实现 204 项评估具备很大的挑战性。因此需要重新编写，以便与运用的根基配置装备部署很好地配合，使命量重大。

此外，在实施历程中，本文发现评估中存在一些 bug ，运用起来颇为利不便，因此 Anthropic 的钻研职员在这次试验后坚持了它。

HELM：自上而下地规画一组评估

BIG-bench 是一项「自下而上」的使命，任何人都可能提交任何使命，而后由一组专家机关者妨碍有限的魔难。而 HELM 则接管「自上而下」的措施，由专家抉择用甚么使命评估模子。

详细来说，HELM 在推理场景、含虚伪信息场景等多个场景中评估模子，接管精确性、安妥性、公平性等尺度目的。Anthropic 为 HELM 开拓职员提供 API 碰头权限，以便在其模子上运行基准测试。

比照于 BIG-bench，HELM 有两个优势：1）它不需要妨碍大批的工程使命，2）可能依靠专家来抉择以及批注特定的高品质评估。

可是，HELM 也带来了一些挑战。适用于评估其余模子的措施不用定适用于 Anthropic 的模子，反之亦然。好比，Anthropic 的 Claude 系列模子经由磨炼，凭证特定的文本格式，称为 Human/Assistant 格式。Anthropic 外部评估其模子时会凭证这种特定格式。假如不凭证这莳格式，Claude 无意就会给出不艰深的回覆，从而使尺度评估目的的服从不太可信。

此外，HELM 需要很长的光阴能耐实现，评估新模子可能需要多少个月的光阴，而且需要与外部各方妨碍协调以及相同。

家养智能零星是为了与人妨碍凋谢式动态交互而妄想的，那末若何对于模子妨碍更挨近事实运用的评估？

众包职员妨碍 A/B 测试

当初，规模内主要（但不残缺）依赖一种根基规范的人类评估 —— 在众包平台上妨碍 A/B 测试，人们在其中与两个模子妨碍凋谢式对于话，并从模子 A 或者 B 中抉择照应更有辅助或者更有害，凭证模子的实用性或者有害性对于模子妨碍排名。这种评估措施的短处是与事实情景相对于应，并应承对于差距的模子妨碍排名。

可是，这种评估措施有一些规模性，试验运行起来既高尚又耗时。

首先，这种措施需要与第三方众包平台相助并为其付费，为模子构建自界说 Web 界面，为 A/B 测试职员妄想详细的剖析，还要合成以及存储服从数据，并处置应聘众包职员带来的品格挑战。

在有害性测试情景下，试验还存在使人们打仗有害输入的危害。人类评估的服从可能还会因人类评估者的特色存在很大差距，搜罗人类评估者的缔造力水平、念头以及识别所测试零星潜在缺陷的能耐。

此外，实用以及有害之间存在固有的张力。零星可能经由提供无用的照应（好比「赔罪，我无奈辅助您」）来飞腾有害性。

实用与有害之间的精确失调是甚么？甚么目的数值表明模子饶富裕用且有害？诸多下场需要规模内钻研者做更多使命来找到谜底。

清晰更多内容，请参考原文章。

原文链接：https://www.anthropic.com/index/evaluating-ai-systems