在大模型赛道话不太多的腾讯,派出腾讯云向行业交出了自己的一份答卷。
2023年6月19日,腾讯云举办行业大模型及智能应用技术峰会,公布腾讯云在B端方向的MaaS(modle-as-a-service,模型及服务)技术方案,以及多款SaaS智能应用升级、产业客户应用落地进展。
(资料图)
其中最值一提的是腾讯云并未选择认知更为广泛的通用大模型,而是选择了基于腾讯云AI技术底座而预训练的行业大模型,也就是垂直领域大模型。据了解,目前腾讯云业已发布的垂类领域包含金融、政府、文旅、传媒、教育等,企业客户只需要以上述预训练模型为基础,使用行业数据训练,即可获得具备业务能力的专属大模型。
换句话说,腾讯云在发布会上展示的能力不在于模型本身,而在于大模型的部署与应用。
实际上,早在今年大模型全面爆发前,推进模型的垂直领域应用便已成为玩家们的共识,高校与业界都积累了不少垂直领域中小模型。只是在缺乏相应技术基底的情况下,即使这些模型的执行效率、安全性、可解释性都差强人意,但其训练与部署应用的边际成本迟迟难以降低,预留的创新空间难以支撑其商业化。
而今得益于由OpenAI发现的模型涌现能力以及以此为基础而衍生的训练策略,通用模型能力加速拓展,也为垂直模型快速训练与部署打下基础。基于这些成功经验,腾讯云正在迈出大模型落地探索和市场教育的第一步。
行业大模型正当时
现代教育中普遍采取的人才培养模型是T字型模式。我们往往会进行长时间的通识学习,在打牢基础并发展出一定个人思维能力后参加高等教育,深入专研某个领域。人工智能集大成者的大模型似乎也是如此,在T字形发展的往复周期中,进入了竖向周期,而信号枪则由腾讯云率先打响。
腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生于技术峰会上表示,比起通用大模型,企业更需要针对具体行业的大模型,并结合企业自身的数据进行训练和精调,以打造出更实用的智能服务。企业对提供的专业服务要求高且容错性低,因此使用的大模型必须具备可控、可追溯和可修正的特点,并经过反复充分的测试。
众所周知,通用大模型话题度满满,但在能力上过于泛化,仅凭借通识能力难以解决业务方面的现实问题,以至于通用大模型的训练与调优更多地是在探索大模型的产出边界,而非落地,从而解锁其下一个价值级别。
与之相比,行业大模型最为明显的优势在于其聚焦专业领域的对齐能力,即模型的输出与使用者的目标和兴趣相对应的程度。
一个典型的例子是AGI,谷歌旗下人工智能前沿部门DeepMind研究员RohinShah认为,不正确的微调或错误泛化可能会导致AGI追求一个不正确的目标,未对齐的AGI将会产生灾难性的后果。换句话说,即使是通用大模型,其外部输出与内部微调都需要与人类的普世价值观对齐,遑论有强烈落地需求的垂直专业领域。
即使是写代码这样通用大模型普遍发力的高需求高价值垂直领域,目前在通用模型中所展现的能力也难言靠谱。无数利用已开放测试的大模型进行代码测试的程序员们对此应该有更深刻的认知。
何况行业大模型针对的是特定领域任务,不涉及更多泛化通识,因此不需要庞大的通用模型为基底来进一步训练,也不需要在推理和内存上进行过多的堆砌,追求“大力出奇迹”。
腾讯云副总裁、腾讯云智能负责人、优图实验室负责人吴运声在与我们对话时提到,虽然业内的大模型在参数规模上不断上涨,但腾讯云更关注的是如何以最有效、最低成本的手段去解决客户的问题。相比之下,参数量其实没那么重要。因为参数规模越大,其价值体现与解决问题的能力需要更多算力与数据集的支撑,其训练与推理的成本无论是对腾讯云还是对企业客户而言都难以承担。
技术的价值体现在于落地,而无法落地的技术只是空中楼阁,在业界春秋笔法中等待价值虚像被打破。大模型之前的元宇宙、区块链等风口已然是最佳例证。
行业模型显然是更适合的解决方案,无论是腾讯云还是企业客户。那么,需要深究的问题便是腾讯云的解决方案,即经由行业数据训练的行业大模型能否在行业理解中展现比同参数通用大模型更强的能力。
技术底座决定上下限
大模型时代,自然语言处理、计算机视觉、语音识别等AI需求井喷,只是这些基于大模型的应用通常需要庞大的计算资源和存储空间,以及高效的部署和管理机制。为避免企业普遍需求下“重复造轮子”的资源浪费,模型即服务(MaaS)作为一种新兴的技术服务模式应运而生。
也就是说,MaaS服务的核心能力实际上是帮助企业完成AI应用从“手工作坊”向“工厂模式”的跃升。
而腾讯云的解决方案如下全景图所示,以“一站式行业大模型精选商店”的形式为企业客户提供包含模型的预训练、精调、应用开发等能力的工具链,帮助企业高效率、高品质、低成本地创建和部署AI应用。其中对垂直领域能力起决定作用的是部署模型的基础架构,也就是技术底座部分。
其中的基础设施部分分别对应AI三要素中的算力与数据两方面,其一是智能算力支撑——高性能计算集群HCC,这项腾讯云于4月最新发布的技术可以使算力性能较前代提升3倍,为大模型训练提供高性能、高带宽和低延迟的智算能力支撑,配合自研星脉高性能计算网络,可以为HCC计算集群带来3.2Tbps业界最高互联网带宽;其二是数据检索支撑——向量数据库TencentCloudVectorDB,经腾讯海量业务场景验证,在提供高吞吐、低延迟、低成本、高可用、弹性扩展能力的前提下,日均处理向量检索千亿次,更是同时支持标量+向量的混合检索。
如果说基础设施为企业打造的专属模型提供上限,那么行业大模型便是企业专属模型的下限。据汤道生介绍,腾讯云打造的行业精选模型商店覆盖金融、文旅、政务、传媒、教育等10大行业,提供超过50个解决方案,包含了智能客服、ORC识别、政务咨询、教育咨询、媒介管理等场景。
以文旅场景为例,腾讯云的某位头部文旅客户的传统智能客服需要人工进行对话配置且知识维护量大、耗时长,但运营人力有限、人力配置成本高,且涉及订单等复杂业务场景,长期未能完成业务闭环。但凭借长期业务积累的in-house数据,结合腾讯云文旅行业大模型能力,通过腾讯云TI平台精调并构建了专属文旅客服大模型,相比传统职能客服增加了意图识别、长文本识别与答案生成能力,让该文旅企业无需人工配置对话流程,即可端到端解决业务问题。
除了客户企业的成本控制与应用优化外,腾讯云以行业大模型为基础,辅以行业数据精调的落地路径恰好可以盘活当下经济生态中多个行业与企业占有的沉默行业数据,让数据价值得以展现。
曾经,许多行业的in-house数据被视作资产的原因在于大数据之下的用户画像等基础运用,其价值红利已逐渐出尽。而今,行业数据可以被用作企业专属模型的养料,这不仅让数据资产重回价值高地,更为行业带来了新的想象空间。
值得一提的是,企业敝帚自珍的大量数据在模型训练中使用也意味着曾经对精调(Finetune)的固有印象被打破,即精调不再局限于小规模数据集,而是规模更大且兼具纵深的行业数据集。作为大模型最重要的“手艺活儿”,腾讯云的解决方案中自然也不乏数据相关的方案。
数据仍是落地关键
在数据标注方面,高质量的标注数据集相对数据规模对大模型训练的影响更大。除了业内尚未攻破的OpenAI神话外,谷歌于5月意外泄漏的内部研究人员文章也证实了这一点。
中文互联网中广告等干扰信息进一步加剧了数据清洗难度,中文大模型训练对数据服务的要求也水涨船高。在腾讯云看来,大模型训练和优化所需的高质量数据集必须经过清洗和预处理,以消除噪声、填补缺失值并确保数据质量。如果导入的数据质量低,那么训练出来的模型也会有问题,即“garbagein,garbageout”。
数据的训练和应用同样重要。要知道,垂直领域模型的构建并非简单地向通用模型投喂行业数据,而是牵涉多方面技术与技巧的“手艺活儿”。例如epoch(训练样本在神经网络中完整传递一次)值设置,如果epoch设置过高,将导致模型的灾难性遗忘,丧失既有能力;而epoch设置过低,模型很可能根本学不到新知识,相当于白跑一趟。
这三项服务均在腾讯云的行业大模型案例中有所体现,比较典型的是与不同行业伙伴训练出的多场景智能客服。金融、政府、教育等不同的行业数据在标注后结合对应行业大模型精调,即可展现业务所需的模型能力。
例如知识维护量大,冷启动知识配置耗时长,且运营方面需要持续投入的金融客服场景,某国家首批股份制商业银行便在腾讯云的技术与平台支持下,运用积累的行业数据构建了专属大模型并进行私有化部署。
至于中间层的数据平台之下的加速组件,其功能在于模型训练与精调的增效。据了解,太极加速组件在传统CV、NLP算法模型的基础上,通过异步调度优化、显存优化、计算优化等方式为模型构建增速,相比行业常用方案性能提升30%以上。
只是在模型落地中,模型的归属权以及数据安全问题仍难以避免。
以腾讯云所在的云计算行业为例,早在MaaS模式兴起前,云端部署便是云计算产业亟待解决的行业问题。巨头企业可以豪掷千金做私有化部署,而中小企业却只能采取公有云托管的形式,即使如此,巨头企业也必须面对私有部署后高昂的迁移成本。
大模型的部署、归属以及更基础的数据安全在企业客户看来,自然也是重中之重。比较典型的便是ChatGPT的API接口模式,导致不少企业遭遇数据泄露,以三星、苹果为首多家巨头企业内部早早便禁用了ChatGPTAPI能力。
因此,腾讯云在全景图之外更可贵的服务在于针对客户需求提供私有化部署、公有云托管、混合云部署等灵活部署方案,而算力使用、模型的知识产权归属等问题同样是casebycase,让企业客户在享有高质量数据与模型服务的同时保障了私有数据stayin-house,真正做到了“量体裁衣、普惠适用”。
结语
“对于工业革命来讲,早一个月把电灯泡拿出来,在长的时间跨度上来看是不那么重要的。关键还是要把底层的算法、算力和数据扎扎实实做好。”
自马化腾在2023Q1财报会议上回应腾讯在大模型赛道“失声”起已有一个月,腾讯云加码行业大模型“先声夺人”,这折射了大模型赛道中,互联网大厂在商业化落地的一次转向。在媒体热潮逐渐过去,通用大模型发展进入平稳期的当下,落地才是行业应该为模型需求者提供的能力。
那么,垂直与通用是否是截然相反的路径?
在大模型领域内,答案当然是否定的。因为垂直模型与通用模型的训练方法基本相通,即使是在代码层面也是如此。
大模型“炼丹”的特殊性,决定大模型赛道中可以同时存在两种路径,典型的就是在100B参数下探索人工智能边界以及在7B参数下进行快速落地部署和应用,两者殊途同归,均以落地为目的,只是目前7B走在了通用的前面。可以肯定的是,大模型赛道中“两条腿走路”的现象将持续存在。腾讯云凭借MaaS方案,已经成为行业内首个成功迈出了右脚的玩家。
关键词: