数据中心 频道

Windows HPC 2008如何实现高性能

  应用程序开发

  我们核心软件开发过程依赖于 Visual Studio Professional 2008,提供能够开发控制台,Windows,和 Web 应用程序。 Visual Studio 使开发人员能够同时处理基础的业务逻辑,在相同项目内部时设计外观漂亮的图形用户界面。

  为我们项目,我们开发了基于相同的核心业务逻辑的几个应用程序满足不同需求。 我们启动 Windows Presentation Foundation (WPF) 应用程序用于处理我们输入的 Excel 电子表格,从而使我们研究人员手动测试不同的初始调整参数,以确定是否实验 (基于类似的调整参数) 一大组未能将处理自动在 HPC 上计算群集。

  接下来,我们构建控制台应用程序实际运行 HPC 计算群集 ; 它接受参数,包括文件路径输入的电子表格,以及种子调整参数数目。 Windows PowerShell 提供参数为应用程序同时提交在 HPC 任务时计算群集通过命令行。 控制台应用程序运行在每个单独的计算节点上处理还生成的输出电子表格包含解决方案,并同时执行 SQL Server INSERT 查询跟踪的所有实验的结果时输入的电子表格。 .NET Framework 3.0 System.IO.Packaging API 被利用处理该电子表格及其内容的每个节点上。 值是从输入表获得的 C# 用于处理其余部分。

  我们还开发了多图形 WPF 应用程序,使研究人员查看结果发送到 SQL Server 在 HPC 计算群集。 在我们的实验室中执行的实验的子集执行通常采用结构 biology,标准 96 和印版中,并 WPF 应用程序的用户界面反映实际的印版配置 (请参见 图 5 )。 用户只需要单击一个和检索单个实验试用版的结果中。 单击对检索结果的几个数据库表的和启动 SQL Server 查询以前 HPC 计算群集上处理,并提交给表。 我们还用于存放 GridView 控件的 ListView 控件提供单个的试验的所有 96 试验的高级概述。 研究人员可以获得排序表显示所有调整参数和对其处理的实验的统计分析。 在 HPC 计算群集完成处理各自的电子表格,此表立即成为可用。 最后,我们进行使用 SSH 在应用程序使最终用户能够安全地跟踪从外部实验室其实验结果中的隧道。

 图 5 该应用程序已经图形界面

  电子服务器 / 群集端处理的表格

  在我们的实验室中的研究人员是 keen 观察在 96 的 wells 在实验中使用的每个非常简短的时间刻度上的条件中的更改。 使用数字照相机连接到 microscopes 记录条件的更改。 软件然后将数字的影像信息转换为数字的亮度级别,在时间的基础上然后 Excel 电子表格中存储的。 并手动处理这些电子表格并生成的数据拟合,通过精心制作的数学函数的非线性回归分析。

  容纳下回归曲线实验性数据的点是确定可以 shed 实验性更改条件中的灯的调整参数。 但是,该 painstaking 过程计算和曲线配件要求,至少,10 分钟,每次和和实施的人为错误,以及在烦闷与剪切和粘贴操作。

  任务计划程序 (管理单元替换 Windows Server 2008 中的计划的任务) 中,我们使服务器端应用程序预定义的时间间隔运行。 如果主的 Windows PowerShell 脚本文件服务器上发现未处理的电子表格,则它将生成作业提交脚本然后部署作业计划程序然后调用对应用服务器端处理程序 (位于通过共享文件夹的每个计算节点) 用于处理未处理的数据。

  在远程的服务器上运行 SQL Server,来组织处理 Excel 电子表格数据,每个实验每后所获得的结果 (这就是每个印版和)。 我们的科学家感兴趣查看我们提供一个用户友好格式中同时原始电子表格输出和实验结果的直观可视化表示形式。 服务器端应用程序不只生成包含非线性回归参数,相关的统计信息 (的拟合优度调整等) 和曲线绘制的结果电子表格,它还执行 SQL 查询存储到关联的数据库表中包含的所有实验的数据相同的信息。 这将允许最终用户查询信息更有效地 (通过 GUI) 而不是 laboriously 搜索的电子表格的很多文件价值。

  处理过的数据的客户端访问

  我们开发了以便最终用户查看处理过的数据图形应用程序用于执行远程查询对包含处理的结果的 SQL Server,以及向最终用户友好的格式显示查询结果。 此外,最终用户可以结果从导出 SQL Server 要直接从使他们能够将其结果合并到出版物和演示文稿的在 GUI 的 Excel 电子表格。 将结果导出到一个新的 Excel 电子表格在能力取决于 SQL Server 绑定到数据集数据结构到应用程序中的 ListView 控件的结果。 研究人员可以立即查看尝试未能够利用之前的合并视角的结果。 而它通常会需要实验室成员来处理单个的 96 和印版 (在和每 10 分钟) 16 小时,现在花的时间。

  一个很大的数据集

  除了可以自动从我们的图像处理系统生成的 Excel 电子表格的处理过程中利用 HPC 2008,我们还使用针对数据集包含上万个内容丰富的 XML 文件的进程查询 Windows 计算群集。 我们 XML 库包含 300GB 值得的 XML 文件包含 100 多个节点或对我们可以执行查询的字段。 清楚地,与数据类大型集,它将成为 unfeasible 同时也保持其当前,将我们的 XML 库导入到一个 SQL Server 数据库实例。

  数据库性能存在为数据库文件超过特定大小阈值 (超过 100GB)。 因此,跨大量的计算节点共享我们 XML 库和我们的查询的总和分布所有请这样的较大的搜索空间的最小的查询周期时间计算群集节点的结果。 与的同时通过在单个文件服务器共享上存储库的内容我们保留数据集维护开销最少。

0
相关文章