在大模子(LLM)盛行确当下 ,大估评估 AI 零星成为了紧张的模评一环,在评估历程中都市碰着哪些难题,基准Anthropic 的靠谱一篇文章为咱们揭开了谜底。
现阶段,大评大少数环抱家养智能 (AI)对于社会影响的大估品评辩说可演绎为 AI 零星的某些属性,好比着实性、模评公平性 、基准滥用的靠谱可能性等。但如今面临的大评下场是,良多钻研职员并无残缺意见到建树安妥坚贞的大估模子评估是何等难题。现今良多现有的模评评估套件在方方面面的展现都颇有限。
AI 独创公司 Anthropic 克日在其民间网站上贴出了一篇文章《评估 AI 零星所面临的基准挑战》 。文中写道,靠谱他们花了很长的大评光阴来构建对于 AI 零星的评估,从而更好地清晰 AI 零星。
文章地址:https://www.anthropic.com/index/evaluating-ai-systems
本文主要从如下多少个方面睁开品评辩说:
多项抉择评估(Multiple choice evaluations);
运用第三方评估框架,如 BIG-bench 以及 HELM;
让使命职员来掂量模子是有利的仍是有害的;
让规模专家对于相关劫持妨碍红队合成(red team);
运用天生式 AI 来开拓评估措施;
与非营利机关相助 ,审核模子是否具备危害 。
多项抉择评估面临的挑战
多项抉择评估看似重大