数据中心 频道

敲黑板:区分数据科学、ML和AI没那么难

  【IT168 资讯】有不少人不太明白数据科学、机器学习、AI之间的区别,今天,小编就做个简单的科普。

敲黑板:区分数据科学、机器学习和人工智能没那么难!

  首先,我们看一下它在定义方面的不同:

  ·数据科学产生见解

  ·机器学习产生预测

  ·人工智能产生行动

  但这并不是唯一的准确的标准,不是所有符合每个定义的东西都属于这个领域。这也不是一个确定职业的好标准,比如,很多人会表示写作是他们生活中的一部分,但他们却不是作家。

  但是这个定义可以是区分这三种类型的工作的一个有用的方法,并且让你在别人面前谈到这些的时候显得不那么不专业。值得注意的是,这里采取的是描述主义而不是规定主义的方法。

  数据科学产生洞察力

  数据科学与其他两个领域是有区别的,因为它的目标是特别是关于人类的目标:获得洞察力和理解。杰夫·李克(Jeff Leek)对数据科学所能达到的见解类型有一个很好的定义,包括描述性(“普通客户有70%的更新机会”)、探索性(“不同的销售人员有不同的更新率”)、 “一个随机的实验表明分配给Alice的客户比分配给Bob的客户更有可能更新”。

  再次,并非所有产生洞察力的资料都被认为是数据科学(数据科学的经典定义是它涉及统计学、软件工程和领域专业知识的组合)。但是我们可以用这个定义来区分ML和AI。主要的区别是,在数据科学中,循环中总是存在着一个人:有人正在理解洞察力,看到数字,或从结论中受益。

  数据科学的这个定义因此强调:

  ·统计推断

  ·数据可视化

  ·实验设计

  ·领域知识

  ·通讯

  数据科学家可能会使用简单的工具:他们可以报告百分比,并根据SQL查询制作线形图。他们还可以使用非常复杂的方法:使用分布式数据存储来分析数以万亿计的记录,开发尖端的统计技术,并构建交互式可视化。无论他们使用什么,目标是更好地了解他们的数据。

  机器学习产生预测

  我认为机器学习是一个预测领域:“给定具有特定特征的实例X,然后预测Y”。这些预测可能是关于未来(“预测这个病人是否会有败血症”),但是它们也可能是关于计算机不明显的特性(“预测这个图像是否有鸟”)。几乎所有的Kaggle比赛都被认为是有关机器学习的问题。他们提供一些训练数据,然后看看竞争对手是否可以对新的例子做出准确的预测。

  数据科学和机器学习之间有很多重叠。例如,逻辑回归可以用来得出有关关系的见解(“用户越丰富,他们会购买产品的可能性越大,所以应该改变相应的营销策略”),并做出预测(“这个用户有一个购买我们产品的机会有53%,所以我们应该向他们建议“)。

  像随机森林这样的模型可解释性稍差,而且更适合“机器学习”的描述,而深度学习等方法则正如大家熟知的难以解释。

敲黑板:区分数据科学、机器学习和人工智能没那么难!

  大多数从业者会非常舒适地在两个任务之间来回切换。作者在工作中同时使用了机器学习和数据科学:他可能会在Stack Overflow流量数据上安装一个模型来确定哪些用户可能正在寻找工作(机器学习),然后总结和可视化来检验模型的工作原理(数据科学)。这是发现模型中的缺陷并对抗算法偏差的重要方法。同时也是数据科学家经常负责开发产品的机器学习组件的原因之一。

  人工智能产生行动

  人工智能是迄今为止这三种标识中最古老也是最广泛认可的,因此定义最具挑战性。这个术语被大量的炒作所包围,这要归功于研究人员、记者以及正在寻找金钱或关注的创业公司。

敲黑板:区分数据科学、机器学习和人工智能没那么难!

  在“人工智能”定义中,一个共同的点是自主代理人执行或推荐操作(即Poole,Mackworth和Goebel 1998,Russell and Norvig 2003)。其实可以将一些系统描述为AI,包括:

  ·游戏规则(Deep Blue,AlphaGo)

  ·机器人技术和控制理论(运动规划,走路双足机器人)

  ·优化(Google地图选择路线)

  ·自然语言处理(机器人)

  ·强化学习

  再次,我们可以看到很多与其他领域的重叠。深度学习对于跨越ML和AI领域来说特别有意思。典型的用例是对数据进行训练,然后进行预测,但在AlphaGo等游戏算法中取得了巨大的成功。(这与之前的游戏系统形成了鲜明的对比,比如深蓝(Deep Blue),它更专注于探索和优化未来的解决方案空间。)

  但也有区别。如果分析一些销售数据,发现特定行业的客户比其他行业的客户更新更多(提取洞察力),则输出是一些数字和图表,而不是一个特定的操作。(主管人员可能会用这些结论来改变销售策略,但这种行为不是自主的)。这意味着如果说正在使用AI来提高销售额,就可以将自己的工作形容为数据科学。

敲黑板:区分数据科学、机器学习和人工智能没那么难!

  人工智能和机器学习之间的区别有点微妙,历史上ML经常被认为是AI的一个子领域(计算机视觉,尤其是AI经典问题)。但是作者认为ML领域在很大程度上已经从AI中断了,部分原因在于上面所说的反弹:大多数从事预测问题的人不喜欢把自己形容为AI研究人员。(这有助于许多重要的ML突破来自统计学,在AI领域的其余部分中的存在较少)。这意味着如果你可以将问题描述为“从Y预测X”,我建议可以避免使用AI这个词。

敲黑板:区分数据科学、机器学习和人工智能没那么难!

  案例分析:三者如何结合使用

  假设我们正在建造一辆自动驾驶汽车,并正在研究停车标志停车的具体问题。我们需要从这三个领域抽取技能。

  机器学习:汽车必须使用摄像头识别停车标志。我们构建了数百万个街景对象照片的数据集,并训练一个算法来预测哪些有停止迹象。

  人工智能:一旦我们的车能识别停车标志,就需要决定何时采取刹车的动作。过早使用它们是危险的,我们需要它来处理不同的道路条件(例如,认识到在一条光滑的道路上它不会很快减速),这是一个控制理论问题。

  数据科学:在街头测试中,我们发现这款车的表现不够好,有一些错误的消极因素,就是停车标志。在分析街道测试数据后,了解到,在日出之前或日落之后,更有可能错过停车标志。我们意识到,大部分的训练数据仅包含全天候的对象,因此我们构建了包含夜间图像的更好的数据集然后返回到机器学习步骤。

0
相关文章