第1部分

数据科学和分析框架

在facebook上分享
在twitter上分享
在linkedin上分享
分享whatsapp

解读数据科学领域:第1部分

数据和分析是一个庞大而复杂的领域,从地图开始是有意义的。我的同事,Karthikeyan Sankaran,创建了一个综合思维导图数据科学。

我想为一个技术不可知论的框架创建一个实用指南,帮助商业用户、数据科学家和技术专业人士理解难以置信的复杂的分析世界。下面是这个框架的示意图:

掩蔽

数据和分析框架

如上图所示,该框架由六层组成——用例、数据集、数据收集、数据准备、学习和智能操作。在本博客中,我们将深入了解这些层,了解技术、原理和实现。我们还将研究这些层面如何在市场营销、客户管理、欺诈管理、制造、风险管理、个性化、消费者洞察、医疗保健和政府等部门和职能中结合在一起。

在我们开始之前,让我们看看推动数据科学应用的三个潜在原因:

  1. 财务:计算、存储和软件的成本大幅下降。开源软件是控制数据科学景观,而云服务,开创了通过亚马逊网络服务,大大减少了成本的关键技术(初始资本支出和持续维护成本)通过规模经济和自动化,从而使其创业公司和大公司一样的。
  2. 技术的:许多技术正在融合在一起——人工智能、数据处理能力和大量数字数据的生成。如果没有数据、处理数据的能力和从中学习的能力,数据科学就不会腾飞。
  3. 社会:作者尤瓦尔·诺亚·哈拉里(Yuval Noah Harari)在书中指出,人类已经成功地征服了饥荒、疾病和战争的祸害,现在可以将注意力集中在“寻求幸福和不朽……将自己提升为神。”虽然我不知道哈拉里描绘的反乌托邦世界是否会实现,人工智能、机器学习,等等,帮助我们每个人以自己的方式扮演上帝的角色。

既然我们已经看到了为什么数据科学在今天变得如此重要,让我们简要地看看它的发展。正如我所说的,数据科学是三种技术趋势的汇合,所以进化应该着眼于三个领域:人工智能(AI),数据生成和数据处理。显然,每个领域都有相应的书籍,所以我不打算详细介绍这些领域的发展。

从广义上讲,在20世纪90年代和21世纪初,大大小小的企业都实现了业务流程的自动化。这导致了业务流程的数字化,产生了大量结构化企业数据,并出现了存储和处理技术。

在此之后,互联网公司将人与人之间的交流数字化。这导致了数据量的爆炸式增长,并出现了一类新技术(如Hadoop生态系统)管理和处理所有这些数据。

这一演变的下一步是物联网的出现。这些是大量(根据Gartner的数据,到2020年将达到200亿件)非常健谈的东西,它们不断地从网络边缘传输大量数据。管理这一点的技术现在才慢慢出现。还有基于GPU的计算和TensorFlow等框架的发展。

现在,有了所有可用的数据和计算能力,亚马逊、百度、Facebook、谷歌和微软等领先公司的研究人员,以及大学人工智能系的研究人员,对旧算法进行了改进,并发明了新的算法(深度卷积神经网络和循环网络)。应用这些算法导致的结果,竞争对手,有时甚至超过人类的任务,传统上被认为是超出了机器的能力(任务涉及到专家人工判断),比如癌症识别、图像分类和识别、语言翻译、玩游戏等,开车等等。

为了更好地理解所有这些,我们需要一个技术不可知的框架。让我们简要地看一下我们的技术不可知数据科学和分析框架中的各层:

  1. 用例:我们要解决什么问题?我们想要达到什么样的结果?数据科学将如何帮助我们(问题/结果)?解是什么样的?
  2. 数据集:这是所有数据科学的起点。我们可以访问哪些数据?它们是结构化的,还是非结构化的,还是介于两者之间的?它们是静态的还是流动的?他们来自哪里?
  3. 数据收集:我们应该如何收集数据?它们应该存储在哪里(云、内部部署、混合)?什么类型的存储最适合数据?我们应该预先定义模式吗?
  4. 数据准备:我们应该怎样做才能使数据准备好进行分析?我们如何从各种来源摄取它?应用的不同处理技术有哪些?我们如何管理数据管道的运行?
  5. 学习:我们的生意怎么了?为什么会发生什么事?可能会发生什么?鉴于我们对发生的事情、可能发生的事情以及我们有限的资源的了解,最好的决策是什么?
  6. 智能操作:我们如何将分析结果嵌入到业务流程中?我们如何设计能够在日常决策中采用该技术的用户界面?我们如何使制定运营、洞察驱动决策的过程自动化?

工程基础设施是一个复杂的分层框架,为了更好地理解它,我们需要一次剥离一层!期待在随后的讨论中一块一块地突破数据工程的壁垒。金博宝188可靠吗

点击这里阅读我们博客系列的第2部分,标题为“解码数据科学地形”!