智谱 GLM 大模型在模型幻觉排行榜中居首，事实一致性达98.7%

852次阅读 | 发布于2月以前

近日，一项基于HHEM-2.1-Open评估体系的测试结果显示，智谱AI旗下的GLM-4-9B模型交出了一份令人瞩目的成绩单。GLM-4-9B模型以 1.3% 的幻觉率排名第一，超过OpenAI GPT 系列和 Google Gemini 系列在内的一众世界顶尖模型。具体来看，智谱GLM-4-9B 模型事实一致性率高达 98.7%，回答率 100%，幻觉率则仅有 1.3%，在参评的 85 个模型中排名第一。

自2023年3月智谱 AI 推出千亿开源基座对话模型ChatGLM系列以来，GLM大模型经历四个大版本迭代，共发布了超过20款 AI 模型技术和产品。2024年六月初，智谱推出了第四代 GLM 系列开源模型 GLM-4-9B。在语义、数学、推理、代码和知识等多方面的数据集测评中，GLM-4-9B及其人类偏好对齐的版本GLM-4-9B-Chat均表现出较高的性能，其通用能力评测结果甚至超越了Llama-3-8B开源大模型，多模态版本也与GPT-4版本齐平。