国产大模型新品已超70家 大模型"炼制"工艺待精进
ChatGPT席卷全球已有半年,国内科技圈在这期间争相发展大模型业务,发展路径可以简单描述为:起初企业家们从讨论“为什么中国没造出ChatGPT”,到开始下场做大模型;如今,业内人士已经从“国产大模型何时能追赶上ChatGPT”转向“冷思考”,即国内大模型在未来竞争中如何形成行业壁垒、明确差异化优势。
行业发展演变背后,有一个原因值得被提及,那就是目前国内企业宣布的大模型数量已超过70余家。
“据不完全统计,中国10亿以上参数规模的大模型已经发布了79个,从地区来看北京和广东最多,自然语言处理是大模型研发最活跃的领域。”在5月28日举办的中关村论坛人工智能大模型发展分论坛上,中国科学技术信息研究所所长,科技部新一代人工智能发展研究中心主任赵志耕披露中国人工智能大模型的情况时说道。
(相关资料图)
期间,多名业内专家在中关村论坛上提到,在推动开源开放的同时,中国还需要加强基础研究,“自主创新是发展大模型的必经之路。”
已有79个国产大模型发布
赵志耕在会上表示,从全球已经发布的大模型分布来看,中国和美国超过全球总数的80%,美国在大模型数量上居全球之首,中国从2020年进入大模型快速发展期,目前与美国保持同步增长态势。据不完全统计,目前中国10亿参数规模以上的大模型已发布79个,这些大模型主要集中在北京和广东,其中北京有38个,广东有20个。
根据中关村论坛上发布的《中国人工智能大模型地图研究报告》,目前中国在14个省市/地区均有团队在开展大模型研发,北京、广东两地最多,地域集中度相对较高。从领域分布来看,自然语言处理仍是目前大模型研发最为活跃的重点领域,其次是多模态领域,在计算机视觉和智能语音等领域的大模型还较少。国内大学、科研机构、企业等不同创新主体都在积极参与大模型研发,学术界与产业界之间的联合开发相对较少。
在发表相关论文方面,中国大模型通过学术论文发表方式已经形成一定学术影响力。其中北京、广东、上海三地无论是论文发表量还是引用量都居国内前列,体现出明显的人才储备优势,江苏、广东、上海也是大模型人才相对较多的地区。
上述研究报告还显示,开源创新生态方面,目前已经有超过半数大模型实现开源。北京、广东、上海三地开源数量和开源影响力均居国内前三,这背后主要是高校和机构在推动,如清华大学的ChatGLM-6B、复旦大学的MOSS以及百度的文心系列大模型开源等。
大模型"炼制"工艺待精进
国内企业发布大模型时,总喜欢对标ChatGPT,有的企业家公开表示自家大模型与前者的差距在数月间;有的企业家表示中美大模型差距接近数年,还有的企业家称自家的大模型实力已经追赶上ChatGPT。
不过最近,据《第一财经》报道,在百度内部一个颁奖活动上,百度董事长李彦宏再次提起与OpenAI差距的时间问题时,他称自己前段时间接受采访时说跟ChatGPT的差距大约是两个月,有点断章取义,因为自己后面紧接着说:“这不是重点,重点是这两个月的差距我们要用多长时间才能赶上,也许很快,也许永远也赶不上。”
对于百度文心一言能否追赶上ChatGPT这个问题,李彦宏表示这取决于百度自身的努力、把握机会的能力和执行力,“我们的战略、人才、组织机制和文化能不能适应新的形势,我们在新的环境下能不能持续创新,生死攸关。”
中国大模型如今热闹似百家争鸣、百花齐放,但热闹之中也有挑战。这些挑战是技术实力和技术差距的挑战。
在谈到当前AI大模型面临的挑战时,除了提到需要质量更高的数据、更多的AI工程师与AI科学家等外,李开复还表示,中国大模型公司需要有自己的技术护城河。
“支持开源,但不能过度依赖开源模型”,李开复分析称,首先,开源模型无法达到国外大厂自研模型的性能,开源模型的能力会成为“天花板”;其次,海外大厂的开源技术有关闭风险;此外,由于国内外文化、用户习惯和法律法规不同,将在国外训练好的模型带到国内进行微调是存在风险的。
技术护城河到底是指什么,国内大模型与国外相比存在哪些不足?
复旦大学教授、上海市数据科学重点实验室主任肖仰华接受媒体采访时表示,与国际同行相比,模型、数据和算力并不是中国最大的劣势,真正的短板在于对大模型"炼制"工艺的掌握,包括数据配方、数据清洗和参数设置等。因为大模型"炼制"工艺从根本上决定了大模型的效果。
数据配方,指的是根据模型的学习目标,确定不同领域、不同类型、不同模态数据的配比;数据清洗,指的是对原始语料进行去噪、去重、过滤、规范化等操作,提高语料一致性、多样性与完整性;参数设置,是根据模型的架构和规模,选择合适的超参数,如学习率、批次大小、优化器、激活函数等,这些选择将影响模型训练的效率和效果;流程设计,是根据模型的训练目标和资源限制,设计各相关组件之间的流程排布、目标设定、训练策略等,提高模型的泛化能力和适应性;质量控制,指的是对模型的训练过程和结果进行监控和评估,通过准确率、困惑度等关键指标监测,通过对比不同模型或版本的表现,以保障大模型训练的质量和稳定性。
肖仰华表示,上述的每一个具体模块,国内其实都知道怎么做,但是将它们整合在一起,总体效果和国外是存在差距的,“不是能做还是不能做的问题,而是做出来的效果是70分与100分的差别。”肖仰华还强调,我们要赶上最后这几十分,要不断试错、评测和改进。
商业化落地仍需时间
赵志耕在上述会议中介绍道,“目前,中国大模型的产业化应用沿着两条技术路线发展,第一条路线是通用类大模型,正不断打造跨行业的通用化人工智能能力平台,其行业应用正在从办公、生活、娱乐等方向向医疗、工业、教育等领域加速拓展。另一条路线是针对垂直领域的专业类大模型,有大批针对生物制药、遥感、气象等垂直领域的专业大模型,正发挥其在领域内的纵深应用效果。同时,我们也看到许多企业提供针对特定业务场景的高质量专业化解决方案,不断扩大大模型产业化应用的市场空间和水平。”
无论是通用型还是垂直型大模型,场景落地是目前行业的共识,但有业内人士指出,大模型距离真正落地还有较大差距。
“在过去的几个月,有十几个大语言模型的发布会,这些模型都大同小异,现状就是,在全球范围内只有OpenAI能够达到通用人工智能的商业化,并且有绝大部分用户的市场。”在长三角科技产业创新论坛上,竹间智能创始人兼CEO简仁贤认为,几乎除OpenAI以外的AGI大语言模型都只是发布会的阶段,没有达到可商用化的程度。从发布会到可商用化,中间有很大一段距离,这个差距还很大。
复旦大学计算机科学技术学院教授、MOSS系统负责人邱锡鹏在接受媒体采访时表示,作为聊天软件,国产大模型或许与ChatGPT差别不太大,但作为生产力工具,两者能力仍然存在代差,这个代差不是几个月就能追上的。
据了解,按照参数量和应用领域的不同,大模型市场正迅速分化为通用大模型与专业性大模型两种路径。
一个成功的且可对外商业化输出的通用大模型,要求厂商拥有全栈大模型训练与研发能力、业务场景落地经验、AI安全治理举措、以及生态开放性等核心优势。所以企业在布局发展大模型时,难免会遇到面临算力需求大、训练和推理成本高、数据质量不佳等挑战。
但训练领域(垂类)模型所需要的代价和资源远远小于前者,因为垂类大模型以深度解决行业需求为主,即企业在自己擅长的领域训练适合自己的“产业版GPT”。这意味着,相比通用大模型需要高昂的开发训练成本,基于开源模型进行垂类模型开发可兼顾开发成本和数据安全。
“在垂直领域,我们有可能追上,在通用这块还会有一段时间。”谈及差距,深思考创始人、AI算法科学家杨志明表示,从通用层面来说,国内大模型与OpenAI大概有1-2代的代差,这个代差代表了整个模型层的技术,包括学习的知识、能力等方面的差距。
关键词: