特色图片2

设计理想数据生态系统的尺度分析

在脸书上分享
在twitter上分享
分享在linkedin
在whatsapp分享

重新思考数据平台以实现数字转换:第2部分

在我们的以前的文章在同一系列中,我们仔细考虑了各种挑战工程分析平台。我们研究了多个用户PersonAs,可以在组织内消耗数据及其多样化的分析工作负载要求。我们确定了数据孤岛,并且缺乏工作量特定于当代数据工程景观中的核心问题。金博宝188可靠吗然后,我们的目标是建立一个核心地面真理,可以适应任何类型的计算要求,以满足业务用例。为了扩展基础设施和用户消费,我们还应该注入责任并强制执行整体设置。在本博客中,我们将进一步分析深入的问题,并提出理想的工程栈来解决数据,基础设施和治理相关问题。

当在生态系统中从不同的来源收集数据时,它带来了四个主要的挑战——速度各种卷和准确性。应构建任何分析基础架构以处理这四个问题。这些挑战的解决程度定性决定了基础设施的成功。不同的企业专注于解决不同的优先事项。随着组织在分析和业务流程中成熟,他们必须在某些时候总是满足所有四个问题。话虽如此,所有问题的核心是诚实

构建一个真实数据的单一来源

为了建立分析能力,不同的团队倾向于从不同的来源收集数据,在他们的领域进行特定的预处理、过滤和后处理,应用规则,分析,甚至最终构建机器学习模型回答他们的业务优先事项。在这个过程中,总的来说,不同的业务团队倾向于建立他们的版本“真实”的来源,并继续构建和基准测试结果的“真实”数据版本。这导致不同商业领域的数据碎片。这种碎片问题是看不见的,直到需要进入统一业务流程,协作和构建跨越不同商业域的数据解决方案。

所有的组织都在努力将客户置于其核心,以驱动业务和开发过程,已经开始统一领域并促进协作,以构建和交付客户的360度视图。在这种观点下,不存在碎片化数据的空间,也不存在建立中央数据存储库的坚定要求,该存储库将作为所有分析操作的基础。其想法是建立一个聚合的数据存储,将保持基本的事实,然后将能够满足不同的流和需求的业务需求交付价值。

中央数据存储库的起源:

让我们尝试定义中央数据存储库的特征。

工作负载/计算不可知论者 指标计算,报告
特别的分析
先进的分析
实时系统
获得通过 客户特定的集成身份验证/授权
地面真实数据集可用 最新版本的数据
累积的历史(不可变)
优化的计算和存储为 柱状
压缩
分区
可发现的VIA 元数据标记
系统通过刷新 可配置输入
高级分析工作台 在尺度原型
持续集成和部署机器学习模型
A / B测试和将AI / ML结果集成到应用中
直观的总结和易用性 统计摘要和异常鉴定
直观的交互式可视化

数据生态系统设计模式:

在La188bet金宝搏彩票tentView Analytics,我们与银行、金融、CPG、能源、零售、医疗保健、媒体、电信、技术等领域的客户合作,并与全球学术机构合作,构建与商业相关的最新解决方案。为了推动下一波大规模的分析驱动决策制定,我们确实看到了许多客户对有组织和管理良好的数据存储库的强烈需求。通过考虑上述理想的中央数据仓库的特点和评估分析成熟的前景和客户,我们已经建立了一个工程堆栈,将klotski风格的理想数据,管理和运行现代分析引擎推动组织的发展。金博宝188可靠吗

潜

我们设计一个理想的堆栈的方法取决于我们客户组织中的分析成熟度水平。的分析成熟度评估是为不同的垂直业务定制设计的,在提出正确的方法、适当的技术组件和基于短期和长期战略目标的结果约束优先级时非常有用。

统一的数据结构将是中央数据存储库,这些存储库将从各种内部和外部源周期性地刷新。通过设计刷新是配置驱动的,以最大限度地提高代码和环境设置的重复使用。这里注意的关键方面是积极孤立生产和开发环境。这通常被忽略在许多数据工程设置中,最终导致无效的分析和不完整的基准金博宝188可靠吗测试。随着数据生态系统的发展,需要更丰富的功能来支持更容易的采用。曝光业务和技术元数据使数据可在搜索和附加信息上发现,例如谱系和定义,帮助在数据基础架构和数据消费者之间建立信任。

在当代设置中,对每天决策的组织内的数千个用户都有很大的自助分析。对于那些饥饿的用户来说,在这种情况下,为这些方案提供有关异常的描述性统计和暗示来帮助他们对数据进行更好的直接,这是非常重要的。它将通过暗示报告和摘要预期的潜在数据差异和度量偏差,节省几小时分析。除数据统计外,还对公开基础设施和操作指标进行分析和微调整个摄入和分析过程的性能也是非常重要的。

有三个主要的数据供电的动作,被命令出了一个新的年龄分析系统。它们如下:

  • 高级分析Workbenches用于用户在尺度上接近原型方法
  • 交互式分析(基于GUI,语音支持和会话)
  • 数据作为服务(DAAS)以安全且可扩展的方式

这些正是打破传统单片仓库的需求。为了适应同样的情况,我们必须投资建立一个持续的代码集成、测试和部署平台,使整个过程在规模上可靠和可管理。对于全新的设置和流程,更难处理的问题是在不影响业务连续性的情况下推出和采用。这可以通过与业务优先级紧密一致并将所有业务代表作为设计和实现的一部分来实现。在用户入门和技术采用方面可能存在陡峭的学习曲线。这种担忧可以通过开展深入的和实际操作的研讨会来缓解。最后但并非最不重要的是,通过公开认可采用来激励用户,记录和促进必要的内容,并清楚地解释组织通过转移到一个更干净和可扩展的工程分析堆栈所获得的整体业务利益。