数据中心 频道

解读数据科学家“可复制”的成功之道!

  【IT168 资讯】很多拥有计算机科学、统计学、工程学、经济学背景的人会疑惑,我怎样才能开始数据科学? 我如何建立自己的技能和知识,才能把数据科学作为职业呢?

  所以今天这篇文章希望帮助到那些试图转型的人,使他们的经历中拥有数据科学技能、知识库存的标签。

  从宏观角度来看,现展示下面的维恩图给大家,以帮助理解所需的技能/知识。  

解读数据科学家“可复制”的成功之道!

  从上面的维恩图可以看到有三个组成部分:

  1-数据和IT管理

  2-数学模型

  3-领域的专业知识

  ·数据和IT管理

  先来解释下为什么是这些组件。作为一名数据科学家,我们必须就IT和数据基础设施中的一些领域提出建议,例如如何处理缺失值,能否更细致地捕获数据,如何提高数据质量,如何实施记分卡到现有的系统等。通过对数据和IT基础设施的深入了解,我们可以提出建设性的管理数据并使用我们建立的模型的建议。通过实际的建议,数据科学可以在组织中不断增值和蓬勃发展。

  ·数学模型

  数学模型不需要数据科学家知道它的重要性。但是,有必要考虑计算的复杂性,而不是只有单向的街道进入“最高精度”的城市。

  ·领域专长

  那么,域名专业知识呢?以前作者把这个圈子当做商业专业知识,不过随着经验的积累,发现非政府组织和慈善机构已经开始利用他们现有的数据来使这些捐赠或者事业更长久。因此,这儿想改为“专业领域”,以正确地反映当前的数据科学环境。

  一般来说,当我们决定建立任何模型时,数据科学家应该考虑利益相关者对它的反应。例如,如果我们建立一个模式,将学生细分,并为可能在分班后取得成功的学生提供资源,这将在学生中引起轩然大波,特别是那些被归类为“穷人”的学生。因此,我们希望以真正符合业务目标的方式来构建业务/组织目标和模型,而不会将“损害”带给业务的其他方面。这需要对商业模式、流程和运营等商业专业知识有很好的了解。

  另一个例子是,如果我们需要建立一个推荐系统,精确度永远不会是选择非常好的模型的唯一考虑因素。作为一名数据科学家,我们也必须确定所选模型的计算复杂性。

  结论

  对于任何想要学习数据科学的人来说,他们可以从两个主要领域着手,即“数据与IT管理”和“数学模型”。

解读数据科学家“可复制”的成功之道!

  以上是一个数据科学家所需要的技能和知识的全面观点。以下的内容将重点解读维恩图中的一个内容:数学模型

  介绍

  如果你对数据科学稍有了解,就可以发现我们实际上是使用数学模型来模拟(并希望通过模型来解释我们已经看到的一些事物)如一些业务、环境等,并通过这些模型,我们可以得到更多的见解,如我们做决定的结果,下一步应该做什么,或者我们应该怎样做才能提高胜算。所以数学模型很重要,选择正确的答案能够为企业带来巨大的价值。

  1.线性代数与微积分

  首先是最重要的,就像大多数的功夫电影,主角总是会被一个不好的老板击败的时候,然后继续在外面打拼的时候,遇到了一个聪明的老师教功夫,逆袭击败了那个大坏的老板。在这个过程中,你可以看到,老师们总是从基础的东西开始教起比如:蹲马步。

  线性代数和微积分将被认为是最基本的。鉴于我们所处的“深度学习”环境,尤其如此。深度学习需要我们理解线性代数和微积分,理解它是如何工作的,例如向前传播,反向传播,参数设置等。我们了解这些模型是如何工作的,做出了什么假设以及如何得出参数。

  那么潜在的数据科学家应该学习什么?

  对于线性代数,有矩阵运算(加,减,乘,除)、标量积、点积、特征向量和特征值。

  对于微积分,数据科学家需要了解各种微分(到二阶导数)、积分、偏微分。在阅读一些材料时,他们确实触及了像泰勒级数等数学系列。

  在设计机器学习/统计模型的损失函数、正则化和学习率时,微积分和线性代数的应用非常广泛。

  2.统计数据

  那么在分析的时候如何能逃离统计而不需要进一步的介绍呢?根据经验,当我们打算做市场营销等实验和测试时,需要理解统计,我们有A / B测试。我们通常想了解两个样本之间是否存在统计学差异,或者在某些“治疗”之后是否产生统计学显著效应。

  所以统计学领域就是简单的统计学,比如测量中心性、分布和不同的概率分布(威布尔,泊松等)、贝叶斯定理(后来学习人工智能时非常重视)、假设检验等。

  3.机器学习/统计模型

解读数据科学家“可复制”的成功之道!

  计量经济学,可能是最接近机器学习/统计模型的。在这项研究中,还有线性和逻辑回归需要注意。该模块在回归模型的假设中涵盖非常大,即异方差性、自相关性、E(e)= 0和多重共线性。为什么这些假设是重要的,因为在训练模型中,我们试图实现所谓的BLUE(非常好的线性无偏估计)参数,即包括截距的系数。

  但是当学习机器学习模型时,发现对于回归模型的课程,不再强调这些假设,而是强调设置损失函数、正则化背后的原理、梯度下降和学习率。

  回顾一下,对于任何数据科学家来说,了解机器学习模型是必须的,因为他们需要提出可以帮助为组织提供见解的机器学习模型。数据科学家需要转换业务目标,并将其转化为机器学习模型,以获得答案和见解。

  通常有两种类型的机器学习模型,有监督和无监督学习模型。

  ·监督学习模型

  假设你有两组数据。设置A的行为数据在第1期和第二阶段的结果。集合B仅具有第三阶段(或2)中的行为数据,但是在第四期(或3)中没有任何结果。

  使用集合A,你将训练一个模型,通过观察行为,就能“预测”(或给出概率)结果。随着模型的训练,你将“评分”行为数据,并试图“预测”(或有概率)结果。

  可以使用的模型被称为监督学习模型。它的监督是因为A组“监督”模型的结果提出了很好的预测指标。

  ·无监督的学习模式

  所以你可能已经猜到了,对于无监督学习模型,A组数据没有“结果”,它通常不用于B组数据。实际上,无监督学习模型只是试图找出集合A中的模式,这些模式是由模型的训练算法识别的。

  ·从业务目标转向建模目标

  对监督型和无监督型模型有很好的理解,数据科学家需要知道每个业务目标,使用哪种机器学习模型,如何使用它们,按照何种顺序使用它们以实现业务目标。很多的培训课程通常都是使用单一模型来实现商业目标,例如创建电子邮件营销响应模型,选择逻辑回归或决策树或支持向量机来构建它。这就造成了一个盲点,即它将成为每个业务目标的一个机器学习模型,而这并不是必要的。

  根据业务目标推荐使用哪些模型并构建建模目标的能力来自经验。所以对于潜在的数据科学家来说,开始研究它吧。

  ·模型训练

  在机器学习中,你遇到的每种机器学习模型都有许多“旋钮”和“开关”,供你在模型训练过程中调整或翻转。这些“旋钮”和“开关”被称为超参数。具有良好数学背景的数据科学家对于如何将这些“旋钮”和“开关”变成“非常好的”模型有着很高的理解。事实上,如果他们有一个良好的背景,他们可能会提出自己的损失函数,并建立自己的随机梯度下降法,这是训练不同机器学习模型(主要是监督)的两个关键组成部分。

  ·模型选择度量

  大多数情况下,我们可以训练几个不同的模型(给定目标和超参数),然后我们需要了解模型选择指标是如何计算的以及他们喜欢哪种模型。

  选择非常好的模型不一定总是基于准确性,因为在现实生活中,预测错误的成本可能与错误预测的负面成本大不相同。例如,在一个流行病中,一个可以减少假阴性的测试比一个高度准确的测试更为重要。

  4.运营研究

  我们都在需要不断作出决定的环境中工作。能够部署数学模型来帮助做出更好的决定是运营研究的关键。运筹学的一些例子是什么?他们是优化、博弈论、预测、排队论、模拟、图论等等。当然,运筹学也包括统计/机器学习模型来帮助模拟商业环境,从而做出合理的决策。这是一个数学领域,需要大量的非统计学研究。

  我相信数据科学家应该能够使用这些模型,以及数据支持的参数,以便做出“更好的”决策,帮助企业组织实现其业务目标。

  结论

  分析了这么多,我们发现,数据科学家应该精通数学和统计学,为他们建立数据科学事业打好基础。笔者的观点是,数据科学家最基本的技能是数学知识,能够将业务目标或挑战转化为数学模型,并将这些模型作为基础的一部分,以做出非常好的决策。

  还有一些人认为编程是一项基本技能,不否认,它很重要,因为我们现在正在使用计算机来处理我们拥有的大量数据。但想象一下,如果没有数学知识,要了解如何为环境建模,那么,编程技能对数据科学家又有多大用处呢?后续的文章中,我们将继续介绍有关数据和IT管理领域的知识。

0
相关文章