1. 首页
  2. 开放平台

IBM Platform Cluster Manager 部署概述

  对于多种技术和高性能计算 (HPC)
数据中心,管理当前复杂的集群环境需要大量时间而且开销极大。随着数据中心规模的发展,管理多个集群也成为一项挑战。

  本文将介绍IBM Platform Cluster Manager Advanced
Edition的架构概述、部署、使用示例,回顾如何安装本产品并创建IBM Platform Load Sharing Facility(简称LSF)集群,IBM
Platform Symphony集群以及物理与虚拟设备集群,此外本文还将关注自助网络门户接口如何帮助用户实现集群配置任务。

  IBM Platform Cluster Manager Advanced
Edition提供一整套综合性高性能计算(HPC)集群管理方案,允许用户进行多集群环境配置,从而在尽量减少管理员干预的前提下实现自助式环境。下图1展示了IBM
Platform Cluster Manager Advanced Edition的重要产品功能与相关优势。

  

IBM Platform Cluster Manager Advanced Edition部署概述
图1

  统一网络门户

  在产品首次完成安装与配置之后,用户即可访问网络门户,管理服务器的默认TCP端口为8080,登录后,门户中的第一个页面显示的是Resources
Cockpit,如图2所示,界面左侧有四个主要标签可供选择:

  

IBM Platform Cluster Manager Advanced Edition部署概述
图2

  Resources

  允许用户管理集群中的主机与集群。此外,也可以在这里查看相关元素,例如资源组容量报告、资源政策(例如虚拟机更替政策)、警报配置与显示、虚拟机IP池以及硬件资源库。

  Clusters

  允许用户管理集群定义与集群。部分与集群相关的警报与政策也可以在这里管理。

  Accounts

  允许用户使用并管理门户账户。对于每个已定义账户,系统都会提供用于显示账户配置及设定的链接(其中包括子账户),从而启用多租户环境。

  System

  允许用户管理Platform Cluster Manager Advanced Edition的安装与系统配置。

  物理与虚拟资源配置

  IBM Platform Cluster Manager Advanced
Edition能够利用预定义资源适配器对物理及虚拟机进行配置:Platform Cluster
Manager(简称PCM)与基于内核的虚拟机(简称KVM)。用户可以通过指定Media Access Control(简称MAC)地址或者监

  听私有网络的自动检测方式添加物理设备。

  对于虚拟机来说,应首先通过PCM适配器KVM管理程序主机进行添加与配置。接下来,在基于KVM集群定义的集群实例创建完成之后,管理程序即可开始进行虚拟机托管。可以通过门户对设备进行添加、删除、启动/关闭以及SHH指定。举例来说,通过Resources
Cockpit中的Machines标签,可以看到一套包含所有物理及虚拟资源的列表以及KVM管理程序主机(如图2所示)。这里还提供用于各类管理任务的对应菜单。如果该设备为虚拟设备,用户还可以打开其远程控制台。

  

IBM Platform Cluster Manager Advanced Edition部署概述
图3

  集群管理

  在Clusters主标签的cockpit中,可以查看集群对象并执行管理任务,例如开启/关闭集群、删除过期或者作废的集群、从活动集群中添加或者移除设备。如图3所示,还可以查看集群的配置状态、各集群到期关闭并将资源返还资源池的具体时间,此外,管理员可以对用户的集群进行实例化。

  HPC集群自助服务

  管理员可以创建并管理集群定义,定义的起效方式与模板类似,用户需要在对集群进行实例化时选择合适的定义。要创建一套集群定义,用户需要在Cluster
Designer窗口中点击Cluster
Definition链接(如图4所示)并选择New。通过ClusterDesigner可以对集群进行多种定义,例如为定义指定名称、用户以及部署变量
,调节政策,集群过期选项等。

  在Cluster Designer当中,可以指定一个或多个与集群相适应的层(例如LSF Master层或者LSF
Compute层)。每个层定义都拥有与以下内容相关的属性:

  主机名称

  每层设备数据(例如一套LSF集群中只能容纳一台主控主机)

  操作系统类型

  IP分配

  服务器选择政策

  管理员/root密码生成

  

IBM Platform Cluster Manager Advanced Edition部署概述
图4

  在集群定义发布之后,用户即可加以使用从而实现新集群的实例化,集群实例如图5所示。

  

IBM Platform Cluster Manager Advanced Edition部署概述
图5

  集群使用报告

  为了追踪资源使用情况,用户可以如图6所示生成集群配置报告。还可以根据账户或者用户的分组使用情况生成对应报告,Report标签会显示各账户或子账单的具体情况,Report标签能够方便地显示特定子账户以及所有层次结构中分支账户的资源使用情况。从管理员的角度出发,资源配置报告可以作为资源回收计划当中的组成部分。

  

IBM Platform Cluster Manager Advanced Edition部署概述
图6

  部署拓朴结构

  为了部署IBM Platform Cluster Manager Advanced
Edition,必须确保自己的环境拥有相应的网络拓朴结构,图7显示的即是典型使用情况,用户需要一套公共网络与一套私有网络,从而完成配置过程。

  

IBM Platform Cluster Manager Advanced Edition部署概述
图7

  集群资源在私有网络(eth0)当中进行配置,配置引擎与管理服务器与私有网络连接,而后与公共网络(eth1)连接,客户机借此与门户对接从而实现集群创建与监控。

  在这个环境下,安装过程会有轻微变化,主要涉及针对所有设备的公共与私有网络接口数量:eth0用于公共网络,eth1用于私有网络。集群中的所有设备都具备InfiniBand接口,因此整个拓朴结构如图8所示。

  

IBM Platform Cluster Manager Advanced Edition部署概述
图8

  此外,在我们的测试环境中,管理服务器与配置引擎被安装在同一台服务器当中。

  Platform Cluster Manager Advanced Edition
利用自服务和管理功能优化了计算密集型环境,支持用户请求定制集群,指定规模、类型和时间范围。Advanced
Edition还能够在共享云资源池中快速部署集群和网格,包括混合技术。