复杂的人工智能如何用大数据来创造之说-数据中心专区

复杂的人工智能如何用大数据来创造之说

作者：机房360 编辑：白孟洁 2013-08-16 10:03 来源：机房360

　　【IT168 技术】不当电脑根据程序编写的明确要求遵循系列指令，比如IBM在1954年发展的将俄语翻译为英语的程序，人可以轻易理解为什么软件会用一个词代替另一个词。但谷歌翻译在判断英语单词“light”是该翻译成法语的“lumière”还是“léger”时(即描述“光”还是“重量”)，却动用了数十亿页的翻译资料。

　　一个电脑系统的运行是因为它是在根据编写程序时，就被明确要求它们遵循的规则来进行运算。就算是遇到一些不可避免的错误，我们也大可回去查看，看看电脑是如何得出这个结果的。虽然电脑代码可以被打开检查，人们可以追踪并理解运算的基础，无论这个基础如何复杂。但有了大数据分析之后，这种追踪就会变得困难许多。算法预言的基础可能会复杂得让常人难以理解。

　　大数据的“不可解释”性

　　当电脑根据程序编写的明确要求遵循系列指令，比如IBM在1954年发展的将俄语翻译为英语的程序，人可以轻易理解为什么软件会用一个词代替另一个词。但谷歌翻译在判断英语单词“light”是该翻译成法语的“lumière”还是“léger”时(即描述“光”还是“重量”)，却动用了数十亿页的翻译资料。一个人不可能追踪到程序作出最后选择的准确原因，因为这些选择是基于海量的数据和大量的统计运算的。

　　大数据运作的规模也超乎我们的想象。比如，谷歌分辨几个搜寻关键词和流感的关联是测试4.5亿个数学模型的结果。相对地，麻省理工学院统计学助理教授辛西娅?鲁丁(CynthiaRudin)，为检修孔是否会着火设计了106个预测指标，而且她可以向联合爱迪生电力公司的经理们解释，为什么她的程序优先了某些检查位置。

　　人工智能界所说的“可解释性”，对于我们常人来说是很重要的，我们总是想知其所以然，而不仅是知其然。可是，如果系统自动生成了601个预报，而不是106个呢?如果这601个中大多数都不是特别重要，但把它们放在一起，就会提升模型的精确性?任何预报的基础都可能非常复杂。要说服经理们重新分配有限的预算，她该告诉他们什么呢?

　　在这个情景中，我们可以看到，大数据预报的风险，及其背后的算法和数据集，可以变成不可说明、不可追踪，甚至不可信的黑匣子。要防止这样的事情发生，大数据需要监控和透明，这就要求新的专业知识和机构。这些新成员会帮助社会仔细检查某些领域的大数据预报，会让被数据伤害的人得到平反。

　　大数据会需要新的一群人来担当这个角色。也许他们会被称为“算法师”。他们可能分两类——从外部监测公司的独立实体，或从内部监测公司的雇员或部门——就像公司有内部会计师和外来审计师来检查财务一样。

　　这些专业人士会是计算机科学、数学和统计学方面的专家;他们会检查大数据的分析和预报。算法师必须中立并保密，就像会计师和其他一些职业现在所做的那样。他们会评价数据源的选择，分析和预报工具的选择，包括算法和模型，以及对结果的阐释。在有争议时，他们会获取得出某个结果的算法、统计方法和数据集。

关注我们