智谱 GLM 大模型在模型幻觉排行榜中居首,事实一致性达98.7%

441次阅读  |  发布于17天以前

近日,一项基于HHEM-2.1-Open评估体系的测试结果显示,智谱AI旗下的GLM-4-9B模型交出了一份令人瞩目的成绩单。GLM-4-9B模型以 1.3% 的幻觉率排名第一,超过OpenAI GPT 系列和 Google Gemini 系列在内的一众世界顶尖模型。具体来看,智谱GLM-4-9B 模型事实一致性率高达 98.7%,回答率 100%,幻觉率则仅有 1.3%,在参评的 85 个模型中排名第一。

自2023年3月智谱 AI 推出千亿开源基座对话模型ChatGLM系列以来,GLM大模型经历四个大版本迭代,共发布了超过20款 AI 模型技术和产品。2024年六月初,智谱推出了第四代 GLM 系列开源模型 GLM-4-9B。在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B及其人类偏好对齐的版本GLM-4-9B-Chat均表现出较高的性能,其通用能力评测结果甚至超越了Llama-3-8B开源大模型,多模态版本也与GPT-4版本齐平。

Copyright© 2013-2019

京ICP备2023019179号-2