使用Dockers在Kubernetes上部署Spark/ML作业
ApacheSpark是一个数据处理框架,它可以在非常大的数据集上快速执行复杂的处理任务,并且它还可以在多台计算机上分发这些任务,可以单独分发,也可以与其他分布式计算工具一起分发。它的速度、易用性以及对多种数据源的支持使它成为一种流行的框架选择。
Kubernetes为您提供了一个可移植、可扩展、开源的框架,以弹性地运行分布式系统。它负责应用程序的扩展和故障切换,提供部署模式等。
Docker是一个用于开发、发布和运行应用程序的开放平台。它使您能够将应用程序与基础架构分离,以便快速交付软件。它有助于快速、一致地交付应用程序,具有响应迅速的部署和扩展能力,而且是轻量级的。
所有这三种力量融合在一起,形成了一个在可靠集群/基础设施上运行的Spark/ML作业的弹性生态系统。