扫一扫关注我们

业务咨询

业务咨询×

怎么称呼您:

您的单位是:

您的手机号:

您的邮箱:

您对哪款产品感兴趣:

您想咨询的内容:

异构计算云平台SC-HCCP

2017年7月,国务院发布《新一代人工智能发展规划》重磅文件,将人工智能定位成国家战略,其中第四条加快培养聚集人工智能高端人才又着重提到:建设人工智能学科。完善人工智能领域学科布局,设立人工智能专业,推动人工智能领域一级学科建设,尽快在试点院校建立人工智能学院,增加人工智能相关学科方向的博士、硕士招生名额。鼓励高校在原有基础上拓宽人工智能专业教育内容,形成“人工智能+X”复合专业培养新模式,重视人工智能与数学、计算机科学、物理学、生物学、心理学、社会学、法学等学科专业教育的交叉融合。加强产学研合作,鼓励高校、科研院所与企业等机构合作开展人工智能学科建设。

为了更好的推动人工智能学科建设,加速云推出了异构计算云平台SC-HCCP(Speed-Clouds Heterogeneous Computing Cloud Platform),是针对高校人工智能教学和科研的端到端解决方案,SC-HCCP提供全虚拟化云服务,预装tensorflow、caffe、MXnet等常见深度学习框架和百种常见数据集,提供强大的运维工具,能够动态分配计算资源,随时按需分配教学与科研的计算资源,最大化计算资源利用率;支持课堂管理,支持FPGA与GPU多种硬件加速设备,支持SCALE-OUT扩展,是人工智能教学和科研场景的优质解决方案。


系统架构图

硬件构架图

HCCP.png

(硬件架构图)


系统由计算节点(GPU服务器、FPGA服务器)、存储节点和管理节点组成。其中计算节点可以完成神经网络训练(GPU服务器),神经网络推理(GPU服务器、FPGA服务器),云计算加速(FPGA服务器),大数据分析加速(FPGA服务器),存储加速(FPGA服务器);存储节点完成大数据的存储;管理节点完成系统的管理和资源动态分配;用户通过客户端登录到系统中完成各种应用的开发和部署,SC-HCCP系统可以根据部署要求动态完成业务分布式部署和调度。

SC-HCCP系统分为四层,分别为:硬件资源层、资源管理层、服务管理层、服务门户层。如下图所示。


HCCP 软件架构图.png

(软件架构图)


硬件资源层

包含1到多台CPU服务器、GPU服务器、FPGA服务器和存储服务器,通过以太网交换机互联,利用虚拟化/容器、SDN(软件定义网络)、分布式存储等技术,转化计算、存储、网络三种虚拟资源,提供给上层使用。

2)资源管理层

由资源申请与部署、资源变更与回收、资源统计与监控、资源调度自动化四个服务构成,通过API接口对外提供资源管理服务,实现资源动态分配、支持水平扩展和容灾备份。

3)服务管理层

包含大数据平台、深度学习平台、虚拟化云计算平台三部分。提供全虚拟化云服务,预装Tomcat、Apache、nginx、MySQL、Hadoop、Spark、TensorFlow、Caffe、MXNet等多种应用部署环境、深度学习框架和百种常见数据集,提供强大的运维工具,随时按需分配教学与科研的计算资源,最大化计算资源利用率;为方便教学管理提供课堂管理等功能;,为了能实现高性能低延时的系统特性,我们在服务管理层增加了算法加速服务,包括深度学习加速、大数据分析加速、存储加速,支持CPU、FPGA与GPU多种硬件加速设备,为云计算、大数据、物联网和人工智能教学和科研场景的提供综合解决方案支持。

4)服务门户

在服务管理之上可以提供了各种应用集成和管理集成,从而给人工智能和大数据应用提供了集成开发平台。


应用场景 

深度教学与实践

完整的软、硬件解决方案

独立的虚拟机账号,登录即用,内置常用深度学习框架

虚拟机硬件资源可配,CPU、内存、硬盘、GPU、FPGA全部可配

虚拟机账号具备独立的存储空间

内置常用数据集,可直接访问共享数据节点随取随用

HCCP 1.png


神经网络模型训练

在大数据集上训练的现代神经网络模型在许许多多领域都取得了显著的效果,从语音和图像识别到自然语言处理,再到工业界的应用,比如欺诈检测和推荐系统。但是这些神经网络的训练过程非常耗时。尽管近些年GPU的硬件技术、网络模型结构和训练方法均取得了很大的突破,但是单机训练耗时过久的事实仍无法回避。

SC-HCCP支持计算资源按需分配,让您教学科研两不误;支持分布式训练,支持模型并行化、数据并行化两种分布式训练方法,支持SCALE-OUT扩展,训练性能线性增长;支持TensorFlow/caffe/torch等常见的深度学习框架,能够满足各类CNN/DNN/RNN网络大数据集的分布式训练任务,为您在计算机视觉、语音识别、自然语言处理等关键领域的科研任务提供强大的算力支撑。

HCCP 2.png


基于FPGA神经网络推理

FPGA在神经网络推理上的优势主要体现在高性能功耗比,低延时,支持更多应用场景以及灵活性和扩展性更高等特点。加速云推出的FPGA加速卡支持与TensorFlow/caffe框架无缝对接,支持参数可配的深度学习加速库FDNN,支持常见的各种模型如VGG16,GoogleNet,LeNet,YOLO,ResNet等,为您提供优秀的FPGA神经网络异构加速平台。

HCCP 3.png

FPGA软件架构图


高性能计算

HPC(高性能计算)允许各行业(例如,制造业、石油和天然气、生命科学及高等教育、电网加速)中的技术计算用户通过易于使用的基于 Web 的界面来部署、管理和使用其 HPC(高性能计算) 集群。这最大限度地缩短了为最终用户设置和管理集群所需的时间,并允许这些用户专注于运行应用程序而非管理基础架构。SC-HCCP是CPU,GPU,FPGA多种计算资源的异构计算平台,可提供全面的集群管理功能 - 从集群供应、监控和管理到工作负载规划和报告。操作和使用高性能计算集群管理所需的所有功能同时安装并紧密集成。该产品旨在加快系统准备速度、提升易用性和改善应用程序吞吐量。


系统特性:


  • 采用成熟的云计算技术对CPU/GPU/FPGA/存储资源虚拟化,方便资源共享和调度,实现无缝扩展

  • 采用成熟的云计算技术对系统进行管理调度,方便系统扩展和管理

  • 在虚拟化资源之上预装深度学习相关软件(Caffe/TensorFlow/MXNET),大数据相关软件(Spark),FPGA开发软件(QUARTUSII/OpenCL),方便相关资源快速部署

  • 支持常见GPU:P4/P40/1080TI/1060

  • 支持加速云各种FPGA卡:SC-OPM/SC-OPS

  • 提供分布式神经网络训练,方便大规模神经网络训练,提升科研效率

  • 提供FPGA加速库(深度学习加速库、高性能数学加速库、云计算相关加速库),方便实现高性能低延时的异构加速,实现高性能神经网络推理、大数据加速、高性能计算,提升系统性能,降低开发周期

  • 提供教学相关支撑功能(快速批量配置深度学习虚机、数据集、计费功能、角色管理、课件发布共享、学习资料发布共享等),方便老师教学,提高教学效率

  • 教学和科研共享硬件资源,提升设备利用率,避免重复建设

  • 完善的软硬件系统,快速部署,解放科研工作者工作,使其聚焦到核心算法开发,大大提高科研效率