2026-01
通过亚马逊 SageMaker 驱动大规模高级分析成果,助力 PwC 的机器学习运维加速器 机器学习
使用亚马逊 SageMaker 实现大规模高级分析结果的 PwC 机器学习运营加速器
by Ankur Goyal Karthikeyan Chokappa Kiran Kumar Ballari Rama Lankalapalli 和 Jeejee Unwalla 于2023年12月19日在 亚马逊机器学习 发表
关键要点
人工智能和机器学习正在成为组织决策的核心,推动企业收入和效率提升。将机器学习模型投入生产并在大规模下维护存在挑战,传统手段往往导致开发流程缓慢、成本高昂、产品质量下降。PwC开发的机器学习运营加速器基于亚马逊SageMaker,旨在简化模型从开发到生产的全生命周期管理,提升团队协作。通过七大集成功能,支持持续集成、持续交付和模型持续监控,确保模型随着数据更新而不断优化。引言
人工智能AI和机器学习ML正逐渐成为各类系统和流程的重要组成部分,有助于实时决策,从而推动企业的收入和利润增长。然而,将机器学习模型大规模投入生产的过程充满挑战,必须遵循一套最佳实践。尽管许多企业已经拥有能够构建先进模型的数据科学家和机器学习工程师,但将模型推向生产并在大规模上进行维护依然困难。手动流程往往制约了机器学习生命周期的运营,使得开发速度缓慢、成本增加,并降低成品质量。
机器学习运营MLOps将DevOps原则应用于机器学习系统。就如同DevOps在软件工程中融合了开发和运维,MLOps将机器学习工程与IT运维相结合。随着机器学习系统的快速发展,MLOps提供了迎接实际应用中独特复杂性的能力。总的来说,机器学习用例需要一种随时可用的集成解决方案,以工业化和简化从模型开发到生产部署的流程。
为了应对这些客户挑战,PwC Australia开发了机器学习运营加速器,建立了一套标准化的流程和技术能力,提高AI/ML模型的运营效率,实现跨团队的协作。PwC机器学习运营加速器基于AWS原生服务,提供适合的解决方案,易于集成到各种行业的机器学习用例中。本文将重点介绍构建和部署一个集成若干生命周期组件的机器学习用例,支持持续集成CI、持续交付CD、持续训练CT和持续监控CM。
解决方案概述
在MLOps中,从数据到机器学习模型再到业务系统和流程中的推荐和预测的成功旅程涉及若干关键步骤。这包括将实验或原型的结果转化为有标准控制、质量和反馈循环的生产系统。这远不止是自动化,更重要的是改善组织实践,以便在规模上实现可重复和可重现的结果。

现实世界的机器学习用例只有一小部分是模型本身。所需的各种组件用于构建一套集成的高级机器学习能力并持续大规模运营,如图1所示。PwC MLOps加速器包括七个关键集成功能和迭代步骤,支持机器学习用例的CI、CD、CT和CM。该解决方案利用亚马逊SageMaker的原生功能,围绕其构建一个灵活和可扩展的框架。
图1 PwC机器学习运营加速器能力
在真实的企业场景中,可能还会存在额外的测试步骤和阶段,以确保在不同环境中对模型的严格验证和部署。
数据和模型管理:提供一个中心能力,管理机器学习文档的整个生命周期,确保可审计性、可追溯性和合规性。机器学习模型开发:支持不同角色开发出稳健和可重现的模型训练管道,包括从数据验证和转换到模型训练和评估的一系列步骤。持续集成/持续交付:支持自动化构建、测试和打包模型训练管道,并将其部署到目标执行环境,促进MLOps最佳实践。机器学习模型持续训练:自动化执行训练管道以响应重新训练触发器,如新数据可用或模型性能下降。模型部署:访问注册的训练模型,批准生产释放,并将模型打包、测试和部署到生产环境中。预测服务:启动已部署的模型,通过在线、批处理或流处理模式提供预测。持续监控:监测模型的预测效果,以检测模型降低和服务效果延迟、流程吞吐量和执行错误。PwC机器学习运营加速器架构
该解决方案基于AWS原生服务,使用亚马逊SageMaker和无服务器技术,以保持高性能和可扩展性并降低运行成本。
图2 PwC机器学习运营加速器架构
PwC机器学习运营加速器提供基于角色的访问权限,使机器学习工程师和数据科学家能够自动化管道训练和服务的部署,并快速响应模型质量变化。解决方案使用客户已有的模型创建资产,并围绕其构建灵活可扩展的框架,集成了亚马逊S3、Git和AWS CodeCommit以实现数据集版本控制。通过AWS云开发工具包AWS CDK生成AWS CloudFormation模板,提供了管理整个解决方案变化的能力,自动化管道包括即用型模型存储和指标跟踪。PwC MLOps加速器设计为模块化,并作为代码基础设施IaC交付,以实现自动部署。 通过一系列IaC模板,部署三个明显的组件:模型构建、模型部署,和模型监控与预测服务。模型构建管道自动化模型的训练和评估过程,并支持已训练模型的批准和注册。模型部署管道为批处理和实时推理部署所需的基础设施。模型监控与预测服务管道部署所需基础设施,用于提供预测和监控模型性能。该解决方案对机器学习模型、框架和运行时环境保持中立,允许使用Python和R等编程语言,以及Jupyter Notebook等开发工具。解决方案内建集成,以使用预构建或自定义工具分配标签任务,通过Amazon SageMaker Ground Truth实现训练数据集的持续训练和监控。端到端的机器学习管道使用SageMaker原生功能构架,包括 Amazon SageMaker Studio 和 Amazon SageMaker模型构建管道。解决方案使用亚马逊SageMaker内建功能来进行模型版本控制、模型血统追踪、模型共享和无服务器推理。一旦模型投入生产,解决方案将实时持续监控机器学习模型的质量,采用 Amazon SageMaker模型监控 。解决方案演示
以下演示详细介绍了使用PwC MLOps加速器创建MLOps流程的标准步骤。演示描述了一名MLOps工程师希望使用一个简单直观的定义文件配置文件部署最近开发的机器学习模型的用例。
图3 PwC机器学习运营加速器处理生命周期
首先,注册 PwC MLOps加速器 以获取解决方案文档。整个解决方案由每个模型的一个配置YAML文件configyaml驱动。生成该配置文件所需的所有详细信息将包含在此文件中,并与模型一起存储在Git库中。配置文件将作为输入,自动化工作流程步骤,外部化重要参数和设置。ML工程师需要填写configyaml文件并触发MLOps管道。客户可以配置AWS账户、库、模型、使用的数据、管道名称、训练框架、用于训练的实例数量、推理框架,以及任何预处理和后处理步骤等多个配置,以检查模型质量、偏见和可解释性。图4 机器学习运营加速器配置YAML
鲸鱼官方正版官方入口简单的YAML文件用于配置每个模型的训练、部署、监控和运行时要求。一旦configyaml文件适当配置并与模型保存在自己的Git库中,就会调用模型构建调度器。随后的所有步骤都由解决方案自动完成,无需ML工程师或数据科学家的干预。负责构建机器学习模型的管道包括数据预处理、模型训练、模型评估和后处理。如果模型通过了自动质量和性能测试,该模型保存在注册表中,工件根据YAML文件的定义写入亚马逊S3存储。这会触发该机器学习模型的模型部署管道的创建。图5 示例模型部署工作流程
接下来,自动化部署模板在预生产环境中提供活跃的模型端点。经过批准后,模型会自动无缝地部署到生产环境中。解决方案部署两个相互关联的管道。预测服务通过提供的活跃端点提供预测。模型监控创建一个持续监控工具,计算关键模型性能和质量指标,并在检测到显著变化时触发模型重新训练。完成模型创建和初步部署后,MLOps工程师可以配置故障警报,例如当管道未能完成预期任务时将其提醒。MLOps不再仅仅是将云服务组件打包、测试和部署,类似于传统CI/CD部署的过程;它是一个应自动部署另一个服务的系统。例如,模型训练管道会自动部署模型部署管道,以启用预测服务,进而启用模型监控服务。结论
总而言之,MLOps对任何希望在生产系统中大规模部署机器学习模型的组织至关重要。PwC开发了一种加速器,以通过将DevOps工具集成到模型开发流程中来自动化构建、部署和维护机器学习模型。
本文探讨了基于AWS原生机器学习服务的PwC解决方案,如何帮助企业采用MLOps实践,加速其人工智能之旅,从而从机器学习模型中获得更多价值。我们走过了用户如何访问PwC机器学习运营加速器、运行管道以及部署集成多个生命周期组件的机器学习用例的步骤。
想要开始在大规模下运行您的机器学习生产工作负载并进行MLOps旅程,请注册 PwC机器学习运营。
关于作者
Kiran Kumar Ballari 是亚马逊网络服务AWS的首席解决方案架构师,他热衷于帮助客户利用新技术并构建可重复的行业解决方案。他尤其对软件工程、生成性AI以及协助公司进行AI/ML产品开发充满热情。
Ankur Goyal 是PwC Australia云与数字业务的董事,专注于数据、分析与AI。他在支持公共和私营部门组织推动技术转型和设计创新解决方案方面经验丰富。
Karthikeyan Chokappa (KC) 是PwC Australia云与数字业务的经理,专注于数据、分析与AI。他热衷于设计、开发和部署终端到终端的分析解决方案,将数据转化为有价值的决策资产,以提高性能和利用率并降低总拥有人成本。
Rama Lankalapalli 是AWS的高级合作伙伴解决方案架构师,与PwC合作,促进客户向AWS的迁移与现代化,他在推动客户应用程序的创新和现代化方面拥有丰富的经验。
Jeejee Unwalla 是AWS的资深解决方案架构师,热衷于指导客户解决挑战和进行战略性思考,对技术和数据充满激情,推动创新。