猎户星空推出微调大模型,多项测评霸榜,开源免费!

2023-11-23 11:48

11 月 20 日,猎户星空推出了一款基于零一万物开源的Yi-34B模型微调后的chat模型——OrionStar-Yi-34B-Chat。

为了验证模型的各项能力,OrionStar-Yi-34B-Chat一经推出,在C-Eval和C-MMLU两个最具影响力的中文指标评估中,就以显著优势领先于Qwen-14B-Chat、Baichuan2-13B-Chat等国产大模型,在OpenCompass权威大模型测评榜单上,中文数据集的综合能力更是位居全球首位。

目前 OrionStar-Yi-34B-Chat大模型已在 Hugging Face、Github 以及 Model Scope 平台发布。

01

OrionStar-Yi-34B-Chat

多个评估基准表现最佳

作为国产优质大模型,OrionStar-Yi-34B-Chat更懂中文。为了验证模型的各项能力,我们在C-Eval(val)、MMLU 、CMMLU评测集上做了测试,超过了同为国产大模型的 Qwen-14B-Chat、Baichuan2-13B-Chat,效果显著。

11-5.jpg


同时,OrionStar-Yi-34B-Chat 在最具影响力的中文评估基准 C-Eval上,综合评分位居第二。

11-6.png

榜单链接:https://cevalbenchmark.com/static/leaderboard.html

C-Eval 评测基准由上海交通大学、清华大学以及爱丁堡大学联合创建,是面向中文语言模型的综合考试评测集,覆盖了 52 个来自不同行业领域的学科。


在权威大模型测评榜单OpenCompass上,OrionStar-Yi-34B-Chat 在中文数据集的综合能力方面位居全球第一。

11-7.png

榜单链接:https://opencompass.org.cn/leaderboard-llm

OpenCompass是一个开源开放的大模型评测平台,构建了包含学科、语言、知识、理解、推理五大维度的通用能力评测体系,支持了超过50个评测数据集和30万道评测题目,支持零样本、小样本及思维链评测,是目前最全面的开源评测平台。


综合来讲,凸显中文的优异能力,可以更好的满足国内市场的需求。


从更为全面的评估来看,OrionStar-Yi-34B-Chat不仅在中文方面表现优异,在英文上表现同样亮眼。在全球大模型各项评测中最关键的 MMLU 英文权威评测榜单上,OrionStar-Yi-34B-Chat综合评分高达78.3,仅略逊色于 ChatGPT4 ,而比LLaMA-2-70B-Chat等某些参数规模更大的模型还要出色。


02

OrionStar-Yi-34B-Chat

是如何打造的?

此前,董事长傅盛曾公开表达过,以AI机器人业务为基本盘,聚焦大模型应用开发,凭借七年AI研发经验的积累,推出猎户星空自研AI原生应用“聚言”并作为公司创新增长引擎。基于对大模型应用的效果负责,猎户星空一直对市面上广泛的开源模型做测评,近期,发现零一万物开源的Yi-34B模型表现优异,并在大模型应用“聚言”上进行实际的效果验证,Yi-34B模型在基于文本的理解能力、交互准确率及逻辑推理能力的效果最强。


那么,猎户星空在大模型领域具备什么独有核心能力呢?


首先,在微调数据上,众所周知,高质量、多样性的微调数据是大模型训练的重要“燃料”,对大语言模型的对齐效果至关重要,猎户星空在微调数据上花了大量时间和精力,使用了多种构建方案和人工精标及筛选。第一,我们基于数万条种子数据参考SELF-INSTRUCT、WizardLM、Orca、Backtranslation等基于大模型的方案去自动化构建一批初始数据,这些数据经过一个专门的数据质量模型进行评分和筛选,最终仅保留高质量数据,第二,参考 Platypus论文上方法做了数据去重、去污,保证数据严谨、有效。最后经过严格的人工精标,将这些数据被进一步精炼,确保其无害性、真实性和实用性,最终形成了15W+高质量的微调语料。这些数据质量高、通用性强、覆盖面广、具备真实交互语料基础,对大型语言模型整个生命周期都有重要的影响,有助于大模型更好地适配实际的应用场景,实现人工智能赋能千行百业的愿景。

另外,在数据筛选过程中,我们特别强调数据的安全性,加入了大量与安全相关的数据,以保证模型与人类价值观的一致性。

备注:关于数据的详细构建过程在猎户星空即将发布的自研大模型的技术报告里会详细说明,可以持续关注!


其次,在微调方法上,LORA和全参数量更新的微调,实际效果上基本也是全参数微调效果好于LORA。我们用DeepSpeed框架在4卡80G A100上使用ZERO3+Offload 策略,对这15W+数据进行了3个epoch的训练,分别在主观和客观测试集以及我们聚言业务的测试集上进行评测,给出了OrionStar-Yi-34B-Chat模型。这一过程不仅展示了猎户星空在大模型技术上的创新和专业性,也体现了我们对质量和安全的不懈追求。


03

OrionStar-Yi-34B-Chat

示例案例效果展示

OrionStar-Yi-34B-Chat在对话交互、知识问答、语义理解、摘要生成和信息提取等多个方面都展现出卓越的性能。OrionStar-Yi-34B-Chat在语义理解任务中表现出色,能够准确把握文本的核心含义,为后续处理提供了可靠的基础,在交互中保障了流畅而自然的对话体验。

在线体验地址:https://modelscope.cn/studios/OrionStarAI/OrionStar-Yi-34B-Chat/summary

对话交互

11-1.png

知识问答

11-2.png

语义理解

11-3.png

“猎户星空发布OrionStar-Yi-34B-Chat模型,这代表了公司在大模型领域的首次重要突破,展现了我们在人工智能前沿技术的深度参与和创新能力。除了本次发布的微调模型之外,猎户星空还在积极筹备开源我们全链条自研的预训练大模型,预计在下个月发布,敬请关注。”猎户星空董事长傅盛表示。

日前,猎户星空已推出了大模型深度应用“聚言”,并陆续面向行业客户提供了定制化AI大模型咨询与服务解决方案。凭借猎户星空全链条大模型应用能力的核心优势,具备包括从海量数据处理、大模型预训练、二次预训练、微调(Fine-tune)、Prompt Engineering 、Agent开发的全链条能力和经验积累;拥有完整的端到端模型训练能力,包括系统化的数据处理流程和数百张GPU的并行模型训练能力,现已在大政务、云服务、出海电商、快消等多个行业场景落地,真正帮助客户实现企业经营效率领先同行目标