大模型时代,生产力变革的“幕后英雄”

2023-06-10 08:40:39

来源:创投视界

ChatGPT是革命性的数据模型,给我们带来惊喜不仅仅是内容的生产方式的变化,更让人们看到了通用人工智能的希望,推动AI大模型和新应用不断涌现。随着通用人工智能和人类真实的需求对齐,超大模型正在成为人工智能撬开广大应用市场的利器。


(资料图片仅供参考)

大模型可以将复杂问题泛化成一个通用问题,极大缩短产业应用的周期。不过,另一个方面,大模型对于算力的要求将会更高,需要AI基础设施的支撑。

当前针对大模型和基础设施,国内外巨头均已展开布局。收购OpenAI后,微软对于其全力的支持,才成功研发出ChatGPT,让微软重回科技之巅。同时,微软的智能云Azure是OpenAI的重要合作伙伴,为其提供了重要算力和云等基础服务。

商汤早在2018年就开始大模型相关探索,当时叫做预训练模型。2023年,商汤科技连续推出了多模态多任务通用大模型“书生(INTERN)2.5”和大模型体系“日日新SenseNova”。在商汤大模型的背后,是商汤科技新型AI基础设施——商汤大装置SenseCore。

2023年6月2日,临港智能算力产业峰会中,临港新片区智算产业联盟正式成立,作为“新片区智算产业链链主”企业和联盟的算力提供企业,商汤科技将与智算产业上下游及高校与科研院所共同开展资源共享、技术交流和项目合作。

可见,无论国外还是国内,众多科技巨头都已将大算力+大模型作为长期的战略方向。

01

大模型时代,

算力到底有多重要?

2023年,国内外众多科技巨头纷纷布局大模型,比如谷歌发布了PaLM-E、阿里发布大模型“通义千问”、百度推出“文心一言”。

商汤科技4月发布“日日新SenseNova”大模型体系之后,在大装置的赋能下实现了日新月异的飞速发展:开源了“书生2.5”多模态大模型,以及发布遥感大模型SenseEarth3.0、通才AI智能体GITM等等。近日,商汤科技、上海AI实验室联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。“书生·浦语”具有1040亿参数,是在包含1.6万亿token的多语种高质量数据集上训练而成。

全面评测结果显示,“书生·浦语”不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀,而且具备很强的综合能力,因而在综合性考试中表现突出,在多项中文考试中取得超越ChatGPT的成绩,其中就包括中国高考各个科目的数据集(GaoKao)。

“书生·浦语”联合团队选取了20余项评测对其进行检验,其中包含全球最具影响力的四个综合性考试评测集:

由伯克利加州大学等高校构建的多任务考试评测集MMLU;

微软研究院推出的学科考试评测集AGIEval(含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等);

由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval;

以及由复旦大学研究团队构建的高考题目评测集Gaokao;

实验室联合团队对“书生·浦语”、GLM-130B、LLaMA-65B、ChatGPT和GPT-4进行了全面测试,针对上述四个评测集的成绩对比如下(满分100分)。

△评测成绩

“书生·浦语”不仅显著超越了GLM-130B和LLaMA-65B等学术开源模型,还在AGIEval、C-Eval,以及Gaokao等多个综合性考试中领先于ChatGPT;在以美国考试为主的MMLU上实现和ChatGPT持平。这些综合性考试的成绩反映出“书生·浦语”扎实的知识掌握程度和优秀的综合能力。

商汤科技联合创始人、大装置事业群总裁杨帆表示,在接下来2~3年之后,人工智能研究可能80%、90%都将转向大模型。很多方向产业人工智能研发或将被大模型所替换,这也符合自然的技术研发进步延伸的过程,我们正奔向大模型时代。

大模型如火如荼,算力重要性同样不言而喻。OpenAI作为微软的子公司,背后对于算力或许不焦虑。可对于国内很多公司来说,背后或许并无微软、谷歌、亚马逊这样的巨头支撑,又该如何应对呢?

众所周知,大模型需要在海量数据上进行训练和优化,才能达到更高的预测准确性和泛化能力,随着数据处理量增大,对于算力的需求也越高。比如,在ChatGPT的研发上,微软就在Azure的六十多个数据中心部署了几十万张GPU,为OpenAI单独使用。

△商汤科技人工智能计算中心

如今,中国科技巨头已经开始肩负AI基础设施建设的责任。比如,2021年,世界人工智能大会期间,商汤正式推出新型AI基础设施——商汤大装置SenseCore;2022年9月,商汤大装置AI云也对外发布,并于2023年2月25日正式上线。商汤大装置SenseCore在千卡集群上达到了90%的利用率,远远领先行业平均水准。

未来,是否拥有大模型与大算力是衡量一家人工智能企业能力的主要标准。也是打破国外“算力垄断”,打造高效率、低成本、规模化的下一代AI基础设施与服务的关键所在。

在算法层面,不管是商汤科技,又或者是其他AI科技公司,都在从小模型到大模型转型。

在算力层面,经过5年探索,商汤科技人工智能计算中心(AIDC)去年在上海临港正式投用,成为商汤大装置SenseCore的重要算力基座,是亚洲目前最大的智能计算平台之一,也是国内为数不多接近GPT所需算力的重要基础设施。

临港新片区党工委副书记吴晓华在算力大会上表示,临港新片区算力产业已在上游软硬件、中游的数据中心、调度平台,下游应用进行了相应布局。

上海临港自贸区计划到2025年,形成以智算算力为主、基础算力和超算算力协同的多元算力供给体系,算力产业总体规模突破100亿元;与此同时,总算力超过5EFLOPS(FP32),AI算力占比达到80%,建成公共算力服务平台。商汤科技联盟重要参与者,将会为临港自贸区提供重要算力基础服务。

未来,无论在政府和政策端,还是企业和应用端,算力都是AI技术发展的重要基础设施。

李开复多次在公开活动中强调,不要忽视在基础设施领域的投资,尤其是算力领域。能提高算力或者带来新算法、新芯片等类型的企业,也是创新工场着重关注的领域。

IDC的数据,预计到2023年全球AI芯片市场规模将达到710亿美元。

奇绩创坛创始人兼CEO陆奇认为,大模型为先的新一代基础设施是新时代早期的好“工具生意”。

AI的巨变前夕,率先掌握底层算力提供能力,或许可以在资本市场和应用市场双线开花,实现名利双收。

02

商汤大装置的三大核心优势

算力、数据、算法是AI传统三要素,三者的结合造就了人工智能的广泛应用。只不过,伴随着通用人工智能时代(AGI)到来,数据量的攀升,市场对于算力和算法的要求越来越高。

未来,谁能为AI三要素提供更好地整合能力,以及更低成本、更低门槛的能力是决定其市场地位的关键。

在深潜atom看来,企业选择人工智能基础服务时,成本、性能和差异性都是重要参考目标,在选择众多之时,差异化服务或是决定企业选择的关键。

提到人工智能基础设施的差异化服务上,商汤科技也是绕不开的一家科技公司。其很早预见了AGI时代的到来,针对AI基础设施展开了布局,并且推出商汤大装置SenseCore——融合了算力、算法和数据处理能力,致力于打造高效率、低成本,规模化的新型人工智能基础设施。

△商汤大装置SenseCore

行业普遍认为算力就是基础设施,但实际上人工智能基础设施是算力、数据、算法(包括基础算法和算法相关的工具)三位一体。算力不仅是硬件的资源,还包括上面一整套的基础软件体系;数据也不仅是数据本身的积累,还包括处理数据的能力、整合数据的能力、使用数据的know-how……谁能把这三者的整合能力提供得好,提供更低成本、更低门槛的能力是决定整个竞争的关键,也是商汤大装置想去做的。

在AI基础设施的扩建中,有效算力的提升是个挑战。有时候并行500P算力的GPU,实际上有效算力可能只有200P或者300P,GPU的利用效率并不高。因此,如何实现高性能计算优化,以及异构网络的调试是核心关键。

当前,商汤科技大模型并行训练服务支持单集群3200卡5000亿稠密参数模型训练,在千卡集群上达到了90%的利用率,远远领先行业平均水准。

商汤大装置SenseCore已经完成2.7万块GPU的部署并实现了5.0exaFLOPS的算力输出能力。目前,商汤大装置SenseCore可最多支持20个千亿参数量大模型(以千卡并行)同时训练,最高可支持万亿参数超大模型的训练。

更为关键的是,商汤大装置SenseCore有三大差异性优势。

首先,商汤科技是AI原生,熟悉各个环节。从芯片、服务器、基础软件、工具软件、算法生产到应用,商汤科技都有布局和成就,沉淀了大量的专家认知和工具,对每个环节的困难、挑战都有足够的经验。因此,在硬件服务器的配置,训练类型的配置,推理类型的配置,训练和推理之间的关系分析,以及集群内部的网络调度等领域,都可以更好地为用户提供关键性建议。

其次,商汤有成熟的端到端应用解决方案。商汤科技很早就针对“一平台四支柱”(AI大装置+智能汽车、智慧生活、智慧商业、智慧城市)进行前瞻性战略布局,并拥有丰富的AI产业应用经验,更了解不同行业对于AI的需求,从而可以更好地提供端到端综合服务。

比如,商汤科技已经构建的业界首个感知决策一体化的端到端自动驾驶解决方案UniAD,在多项关键数据集与指标上超越了SOTA方法。使得车道线的预测准确率提升了30%,预测运动位移的误差降低了近40%,规划误差降低了近30%。

△商汤大模型赋能绝影“驾舱云”三位一体

马化腾表示,要把底层的算法、算力和数据扎扎实实做好十分关键,更关键的是场景落地。对于用户来说,可选择性或许很多,真正要做产业落地的时候,AI是要拿端到端价值说话的。

在开源生态的建设上,商汤也有独特的优势。在人工智能时代,最重要的不是框架,真正的核心价值全都沉淀在算法和模型里。基于商汤长期的开源生态积累,商汤大装置的算法模型层,提供OpenMMLab、OpenGVLab、OpenDILab三套开箱即用的开源算法体系。其中人工智能算法开源体系OpenMMLab在GitHub上已获得超7.5万多个星标,用户遍及超过110个国家和地区,是深度学习时代极受欢迎的计算机视觉开源算法平台之一。

商汤科技还被授予“新片区智算产业链链主”企业,将基于商汤人工智能计算中心(AIDC)积极参与临港智算产业链的协同融合和集聚发展。

03

大装置+大模型

“引爆”大规模场景应用

通用大语言模型成熟之前,我们和算法的交流需要通过一些标准句式,体验感并不好。现如今,伴随着通用大语言模型成熟,我们可以采取和正常人沟通的方式和算法沟通,并且得到正确的回应。大模型带来的不光是效率的提升,更让原来一些体验不够好形成大规模应用的场景,到今天可以形成大规模应用。

临港算力大会上,上海市经济信息化委副主任汤文侃表示,希望临港新片区探索将“网络、数据、算力、安全”联动创新的合作模式,利用AI算法将行业数据转化为产业知识,从而赋能千行百业。

落地永远是对研发的最重要检验标准。作为临港新片区智算产业联盟重要成员,商汤科技正在用实际行动回应算力在落地中的重要价值。

截至今年5月,商汤大装置已累计服务超40个核心客户,其中大模型客户10家以上,涵盖智能驾驶、生物制药、芯片设计、智慧商业、高校科研等前沿领域,并已在超过20个落地场景中实现大模型交付。

例如,2023年5月,商汤科技在CHIMA2023公布了全新升级“SenseCare?智慧医院”综合解决方案,在“大模型+大算力”的驱动下,SenseCare?智慧诊疗平台已经搭载20余款AI辅助诊断应用。

商汤科技董事长、CEO徐立表示,通用人工智能时代,模型的能力可以用算力来衡量。商汤大装置SenseCore已经打造通用人工智能时代的基础设施,在模型的迭代速度及处理问题的能力上日日更新。商汤科技十分期待与更多同行者建立纵深合作,共商行业新模式,共探未来新方向。

毫无疑问,AI产业即将迎来一个更加繁荣的大航海时代。以商汤科技为代表的企业,正在为人工智能提供强大的计算和存储能力,让AI技术更加低成本、低门槛、高效率地进入到各个场景里面,推动未来产业生态的百花齐放。

关键词: