数据中心 频道

一文就读懂机器学习及其在遥感中的应用

  【IT168 资讯】一直以来,从遥感数据进行信息提取是一个长期的遥感科学难题。遥感图像分类是遥感图像信息处理中最基本的问题之一,其分类技术是遥感应用系统中的关键技术,遥感图像分类方法的精度直接影响着遥感技术的应用发展。许多研究者一直在尝试、改进,探索新的方法,以不断提高遥感图像自动分类算法的精度和速度。

  本文基于机器学习,细细研读了其在遥感中的应用。

  1 .工作介绍

  机器允许我们在短时间内进行复杂的计算。这导致出现了一个完全不同的研究领域,这个领域没有被探索:教学机器通过观察模式来预测可能的产生的结果。机器学习正在被用来解决各种各样的问题,从股票市场预测到医疗配方的合成。

  现在有很多著名的机器学习算法,每隔一天就会出现新的算法。一些广为人知的算法是:

  支持向量机

  神经网络

  随机森林

  再邻居

  决策树

  K最近邻算法

  主成分分析

  不同的重要步骤是让机器预测可靠并产生可靠的数据。

  2.遥感机器学习

一文读懂机器学习及其在遥感中的应用

  遥感机器学习的根源可以追溯到上世纪90年代。它最初被引入作为一种自动化知识基础建设的远程感知的方法。在他们的论文中,黄和延森(1997)讨论了如何利用人类专家的最低输入来建立一个知识基础,然后创建决策树来从专家系统的人工输入中推断规则。生成的规则被用于萨凡纳河上的一个研究地点。结论详细说明了与当时的传统方法相比,机器学习辅助专家系统方法的准确度是最高的。在类似的发展之后,机器学习很快成为遥感社区的一个重要工具。现在它被用于各种各样的项目,从无监督的卫星图像场景分类(Li,et al. 2016)到澳大利亚本土森林的分类(Shang & Chisholm,2014)。现在我们来看看典型的机器学习工作流。

  3 .项目机器学习工作流程

  让自己熟悉所涉及的工作流是很重要的。机器学习也有一个工作流,这在所有基于机器学习的项目中都是常见的。

一文读懂机器学习及其在遥感中的应用

  收集数据

  清理数据

  模型构建&选择正确的算法

  从结果中获得真知灼见

  可视化的数据

  在遥感技术中,人们主要利用卫星或无人机采集数据。数据清理是在我们的数据集不完整或缺少值的时候出现的,而算法的选择涉及到要了解其中一个要解决的问题(稍后再讨论)。如果一个人只是为了预测而做模型,而不是为了获得真知灼见,那么这个工作流就会在这里结束,一个人开始在生产中实现训练的模型。然而,如果一个人正在写一篇研究论文,或者想要获得真知灼见,那么你就可以用图形库绘制出结果,并从图表数据中得出真知灼见。我们将对数据清洗和模型构建部分进行分析。

  3.1数据清理

  这个过程包括清理文本或基于图像的数据,并使数据易于管理(有时可能涉及减少与记录相关的变量的数量)。

  3.1.1文本数据

  通常情况下,可能会在数据集中遇到丢失的值。一个人必须决定是否尝试使用邻近的数据“猜测”丢失的数据,或者完全删除这个特定的记录。删除记录似乎是一个可行的选择,但如果数据集已经很小,那么它可能不可行。因此,人们不得不求助于填充不完整的数据单元。有多种方法可以做到这一点,但最简单的方法是取相邻的值并计算平均值。

  3.1.2图像数据

  数据清理还涉及操纵图像,这些图像可能包含一些可能干扰一个人的分类算法的工件。Nath et al .(2010)在他们的论文中关于水体区域的提取解决了这个问题。它们所包含的图像可以很容易地与水体混淆。他们通过计算图像的熵来部分地解决了这个问题,然后用它来分割图像。熵指的随机性。与周围环境相比,水体的随机性较小,因此可以根据像素颜色的差异来分割图像,从而提取水体面积。在其他实例中,图像数据集可能包含一些模糊的图像,这些图像会严重影响训练阶段算法的准确性。需要在数据清理步骤中去掉这些图像。

  3.1.3多个特性

  当人们在遥感领域记录数据时,基本上是记录多光谱或高光谱数据(商,et al. 2014)。这意味着每个记录将有很多变量。如果一个人试图绘制数据集,你可能无法理解它,因为如果一个人绘制了过多的变量,就会有很多成对的相关性。为了更有意义地解释数据,我们需要一些方法来减少变量的数量。这就是主成分分析(PCA)出现的地方——它将把变量的数量减少到几个可解释的线性的数据组合。每一个线性组合都对应一个主成分。有许多可用的工具可以帮助PCA。如果使用著名的scikit-学习库,就可以使用PCA功能。

  3.2机器学习算法的类型

  机器学习算法有三大类。一是监督机器学习,二是无监督机器学习,三是加强学习。监督和非监督的区别在于使用监督算法,有一个数据集包含的输出列而在使用无监督算法,一个只有一个巨大的数据集,它的职责是集群算法基于关系数据集到各种不同的类之间已经确定不同的记录。强化学习略有不同。在强化学习中,一个提供环境的算法,算法在该环境中做出决策。它不断改进自己的每一个决定,根据它最后决定 反馈。我们现在将讨论在遥感中使用的三种著名算法。

  3.2.1随机森林

  由于其分类的准确性,随机森林算法在遥感社区(比利时,et al. 2016)越来越受欢迎。这些是集成分类器,基本上意味着他们利用下面的多个决策树。RF分类器受欢迎的一个主要原因是它们有助于缓解高维问题。它们提供了一个可变的重要性(VI),可以减少高光谱数据的维数。变量的重要性本质上是衡量一个特定输入的变化对输出的影响。

  3.2.2支持向量机

  SVMs是监督学习模型,可用于回归和分类问题。它们主要用于分类问题。他们的工作方式是在一个n维空间(特征)中绘制的点(特征),然后用一个超平面来划分这些点。从森林分类(商,X & Chisholm,2014)到多光谱遥感图像分割(Mitra,et al. 2004),在遥感中几乎所有类型的分类问题都使用SVMs。就像其他算法一样,他们的成功取决于问题的性质,一个人必须分别测试每个算法,然后根据每个算法的性能做出决定。

  3.2.3人工神经网络

  神经网络是一种机器学习算法,它试图模仿我们大脑工作的方式。神经网络(NN)在遥感上的第一个应用于1988年完成(Kanellopoulos和Wilkinson 1997)。人工神经网络是一种神经网络。ANNs是在计算机上进行的生物激发的模拟,在计算机上执行某些特定的任务,如模式识别、聚类、分类等。由于人工神经网络技术上的进步,它们的受欢迎程度增加了很多,一个例子是AlphaGo击败了世界围棋冠军。这是以前从未做过的,而且被认为是一个伟大的壮举。精确的土地覆盖分类主要是由统计分类器来完成的,但现在人工神经网络已经取代了它们的位置,因为它提供了一种准确的方法来对土地覆盖和地球物理特征进行分类,而不必依赖于统计假设或程序。人工神经网络以最少的输入集“学习”不同的图像模式。它们也被称为黑盒算法,因为通常很难弄清楚人工神经网络是如何计算输出的。

  4.过度拟合和偏见

  大多数时候,当你在开发一个模型来预测、分类图像时,你有一个大数据集来训练和测试你的算法。我们将数据集分成大约75:25的比例,其中75%的数据用于培训,25%用于评估模型经过培训后的性能。75:25不是硬比;您可以使用任何其他数据集来实现您的想象。您需要注意的惟一问题是,数据集的训练部分应该对整个数据集有一个不带偏见的表示,并且与数据集的测试部分相比,它不应该太小。无偏见意味着它不应该只有一种类型的记录从数据集,而且应该有几乎所有类型的记录,这是数据集的一部分,这样模型就会接受不同类型的输入。如果训练数据集太小,那么您可能无法得到可靠的预测,因为模型并没有针对每种不同类型的输入进行培训。

  过度拟合是另一个你需要注意的问题。过度拟合模型通常需要建立一个过于复杂的模型来解释研究数据中的特性和异常值。这意味着,如果你使用相同类型的数据(它的数据类型已经训练)评估模型,你会得到一个非常高的预测、分类精度。然而,如果你只是修改一些输入,(这模型没有见过),那么,预测、分类精度就会下降。你可以通过使用更大的数据集来修复过度拟合,并适当地分割数据集。此外,减少模型定义的复杂性是有益的,这样就不会对所有极端的边界情况进行分类。

  5.哪个算法是最好的?

  这个问题的答案取决于一个人想要解决的问题。在某些情况下,当您有多个维度但记录有限时,SVM可能会更好地工作。如果你有很多的记录,但很少的维度(特性),神经网络(NN)可能产生更好的预测/分类精度。人们经常需要在你的数据集上测试多种算法,然后选择最有效的算法。通常,需要为不同的算法调整各种参数(i)。对射频、隐藏层数、神经网络神经元的数量以及对SVMs的“决策函数形状”等进行了研究。很多时候,将多个算法组合在一起可以获得更好的准确性,这就是所谓的合奏。还可以将SVM和神经网络、SVM和RF(可能性无穷)组合起来,以提高预测精度。再次,须测试多个合奏以选择最好的合奏。

  同样重要的是要注意,预测精度可能会改变根据特定功能试图使用分类、预测的目的而改变。例如,Shang和Chisholm(2014)讨论了如何将澳大利亚本土森林物种分类,他们决定使用非常先进的遥感算法。在树叶、树冠和社区层面对树木进行分类。他们测试了各种算法(SVM、AdaBoost和Random Forest),并发现每种算法在不同级别上都优于其他算法。在叶级,随机森林获得了非常好的分类精度(94.7%),支持向量机在冠层(84.5%)和社区水平(75.5%)的表现优于其他算法。

  另一个影响算法选择的因素是数据是否线性可分。例如,线性分类算法(SVM,logistic回归等)期望数据可以被线性空间中的直线分割。假设数据是线性可分的,可能适用于大多数情况,但在某些场景下是正确的,并会降低预测/分类精度。因此,我们需要确保使用的算法能够处理可用的数据。

  不可能只看一种算法,从理论上决定它是否会为你的数据集产生最好的结果,因为很多机器学习算法都是黑盒算法。这意味着很难看出算法是如何达到特定的结果的。因此,首先根据问题的类型来缩小算法选择的范围,然后在数据集的一部分应用缩小算法,看看哪一种性能较好。

  6.结论

 一文读懂机器学习及其在遥感中的应用

  在本文中,我们研究了机器学习是什么,它是如何首先被引入到远程感知的世界,典型的工作流是什么样的,以及如何使用机器学习来解决什么样的问题。机器学习有着光明的未来,因为越来越多的人正在学习机器学习的基本知识,并将其应用于日常工作和研究中。新的算法每隔一天就会出现,分类的准确率也随之提高。这些问题在遥感(测绘地皮)中似乎很困难,有时甚至是不可能的,但每天都被新出现的算法解决。在不久的将来,世界上大多数的分析工作将由机器学习算法完成。

5
相关文章