博客

ML-Ops:大规模生产机器学习

在facebook上分享
在twitter上分享
分享在linkedin
在whatsapp分享

在机器学习中采用DevOps原则

最近,我和我的客户一起参加了在拉斯维加斯举行的2019年AWS re: Invent峰会,AWS在其云平台上提供的服务规模之大令我着迷。我们的客户是德国领先的媒体公司,在云上展示了他们的ML之旅(官方视频链接:https://www.youtube.com/watch?v=2RSCsgqyKmU).此外,关于5G无线、新的硬件功能和云安全特性有很多令人兴奋的声明,但我观察到所有AI和ML演讲者的一个共同趋势是出现了ML-Ops.AWS一直遵循“直接来自客户”的反馈方式来决定他们应该推出的下一条服务线,今年他们为数据科学和机器学习从业者解决的一个共同问题是机器学习算法的操作化。如果你或你的团队建立ML-Ops模型,你可能会同意,在机器学习的世界里,开发容易,操作难

尽管机器学习已经存在了50多年,但机器学习应用的大部分进展都是围绕ide、包/库和统计技术等开发工具进行的,而很少关注算法的部署和维护。部署新模型的能力仍然是一个挑战,因为部署新模型的管道可能需要几周或几个月,许多模型永远无法投入生产。因为过去的十年里看见一个广泛适应数据科学和机器学习在日常业务活动在一些组织中,构建和部署的机器学习模型变得越来越频繁,需要有一个成熟的平台来处理这些频繁的部署。一个解决方案是在机器学习中采用DevOps原则(MLOps)及应用AWS Sagemaker在将DevOps概念引入机器学习方面做得非常出色。它为数据科学家提供了更多的时间,让他们从事模型改进和业务增强等重复性任务,而不是建立管道、测试和定期维护模型,从而弥合了数据科学家和数据工程师在组织内运作方式的差异。

今年的Re: invent是AWSSagemaker宣布作为“完全管理的端到端”ML-Ops服务这使得数据科学家、开发人员和机器学习专家能够大规模快速构建、培训和托管机器学习模型。”

那么,这对数据科学家来说意味着什么呢?

它转化为快速成型,部署和易于监控的ML-Ops的规模。让我们看看机器学习模式的典型生命周期l,包括以下几个阶段:

在传统的设置中,数据科学家以循环的方式遍历每一个步骤,以将新模型实现到生产中。如果部署周期是一个月或一个季度,那么这种技术很适用,但在当今世界,组织都在朝着DevOps模式前进,每次部署都要等上几个月看起来很原始。如果你从数据科学家的角度来看,核心步骤(特性工程,模型的发展,和评估)只占整个努力的5-10%,这就是机器学习的魔力所在。如果您的目标是生产级的可伸缩性,那么数据科学家应该在这些核心操作上投入最大的精力。

此外,如果我们需要每天对这个模型进行重新训练并实时进行预测,那么这种循环方法可能是不可行的。

那么,AWS sagemaker服务的应用如何以最小的努力帮助ML-Opson规模化生产呢?

这可以通过拆分上述循环进程并将其编排为不同的管道和组合来实现模型开发步骤如下:

编制管道

模型开发

利用这种方法,我们将机器学习算法解耦开发过程来自于编制和部署过程。数据科学家编写机器学习代码。ML代码放在AWS Sagemaker培训作业,可以在新数据到达时独立地根据所需的频率运行。一个单独的作业(推理管道)通过使用由培训作业创建的模型工件独立地运行预测。

当你使用Glue、Code Commit、CloudFormation模板等服务混合引入CI-CD管道和连续部署框架时,我们最终复制了DevOps的概念ML-Ops.这种松散耦合的体系结构帮助我们实现持续的开发和部署ML-Ops没有任何业务停机和维护计划。它为我们提供了在数小时内构建新模型、更新或调整现有模型并在生产中部署更改的灵活性。此外,我们还可以利用新推出的功能f AWS SageMakerstudio-like实验,Autopilot, Debugger和Model Monitor来加速过程。

根据行业趋势和云技术的广泛应用,LatentView将数据工程作为一个独立的实践,帮助我们的客户咨询、架构和实施这些类型的云解决方案。金博宝188可靠吗我们的解决方案的独特主张是,以业务为中心的数据工程方法,使分析和技术解决方案与客户的整体业务目标产生共鸣。金博宝188可靠吗