半岛体育在深圳搞研发的第三年,每天在躺平和卷之间疯狂仰卧起坐,终于还是下定决心润回了武汉,在人工智能计算中心开始了新的生活。
作为人工智能计算中心的技术支持人员,在听过了大小客户各种剑走偏锋的吐槽、咬牙切齿的控诉之后,那么第一篇文章,就先从一篇人工智能计算中心的轻松上手开始,那么话不多说,各位看官咱们请。
作为全国首个面向产业开放的人工智能计算平台,武汉人工智能计算中心由华为提供全栈的人工智能算力服务,面向大大小小的玩家提供训练算力。
当然,随着越来越多的企业在人工智能计算中心完成解决方案的迁移,也收到了各种各样的吐槽,包括但不限于:
Q1:花几千块买张1060就可以解决的事情,为啥要用人工智能计算中心的算力呢?
A1:呃...如果是一张1060就可以解决的训练任务,那确实没啥必要用人工智能计算中心的算力...不过首月免费,白嫖使用个把月,岂不美哉。
Q2:花万把块钱买几张卡就可以解决的事情,为啥要用人工智能计算中心的算力呢?
A2:花万把块钱买几张卡,用人工智能计算中心,花几块钱拉着好几张卡嗷嗷跑,岂不美哉。
A3:有一说一,确实,但是花几块钱万一能触发一个bug,就可以拉好几个月薪好几万的专家定位,岂不美哉。
A4:您先爽到位,我们再说钱的事儿,政府补贴力度大,创新中心活动多,四舍五入差不多免费,放心大胆敞开了用。
A6:200P训练算力任君采撷,爽完了训练想要继续尝鲜华为硬件上的原生推理,尽管计算中心目前阶段以训练算力为主,但是也有一定数量的推理硬件和服务器可以白嫖,欢迎来撩。
言归正传,所有问题中,最备受吐槽的就是计算中心的使用过程中太多“鲲鹏”、“昇腾“之类的名词,这些到底是些啥东西。用一种通俗易懂的说法解释下:
美国码农John今天上班的工作是配置新到的训练服务器,配置了最新的英特尔CPU+英伟达最新训练卡,快速安装了一个centos操作系统,确认一切正常后,John部署了CUDA、TensorRT等一系列驱动、固件和依赖库,并安装好了最新的tensorflow、pytorch,随后运行了一个简短的resnet测试用例,突然有一个鬼畜的bug,在翻阅了几个英伟达开发者社区上的帖子后John终于顺利解决了问题。
中国码农小明今天上班的工作是配置新到的训练服务器,配置了最新的华为鲲鹏CPU+华为昇腾训练卡/推理卡,快速安装了一个OpenEuler操作系统,确认一切正常后,小明部署了acl等一系列驱动、固件和依赖库,并安装好了最新的mindspore,随后运行了一个简短的resnet测试用例,突然有一个鬼畜的bug,在翻阅了几个昇腾开发者社区的帖子后小明终于顺利解决了问题。
昇腾训练卡/推理卡:异构计算硬件(NPU),对标英伟达专用深度学习领域的训练卡/推理卡,提供训练/推理算力;
ACL(Ascend Computing Language):昇腾上的C++异构计算编程接口,包括计算资源生命周期管理、模型推理等,python上亦有对应的pyACL借口。
Mindspore:深度学习AI框架,对于初学者而言非常友好,对于tensorflow半岛体育、pytorch的高阶玩家花个几天也基本可以上手;
昇腾开发者社区:一个活跃的异构计算开发者社区,在这上面基本上各种常见的问题都可以找到答案,找不到的话发帖喷喷研发,舒服。
对于上述的基本概念有了一个认识之后,我们来解释一些和武汉人工智能计算中心(下称“计算中心”)相关的名词以及释义:
HCSO云平台:简称HCSO(HUAWEI CLOUD Stack Online),是华为云推出的混合云解决方案,计算中心提供前台界面和费用管理等,实际计算中心算力使用时,用户会被重定向到此界面完成交互和操作。
事实上,计算中心---即前面提到的运营平台,只负责基本的用户管理、费用管理等,虽然底层算力由建设在武汉的机房提供,但是事实上云服务本身涉及非常繁多的组件,难以全部由计算中心独立完成,所以中间用华为云的相关组件进行了一定的封装,并通过这种方式来使用计算中心算力
OBS:对象存储服务,可以理解为一个可以被训练服务器高速访问的X度云盘半岛体育,创建一个训练作业时,需要指定OBS上的存储的数据集路径、训练代码路径、生成的checkpoint文件路径等,训练作业完成后,可以通过OBS将训练完毕的模型下载回本地。
用户可以自行搜索安装OBS Browser+,目前已经支持了windows/Mac操作系统(笔者是Mac操作系统)。
首先,在计算中心运营平台通过运营平台-侧边栏-云资源-ModelArts-访问密钥-创建(屏幕右侧)即可获取密钥,密钥会以csv文件形式给出,请妥善保存本密钥文件。
由于计算中心整体面向产业以及科研用户,所以需要完成对应的注册和认证流程才能进行使用,计算中心的网址是/半岛体育,具体注册过程中如果有遇到其他困难,欢迎戳
好了,以上就是基本的关于计算中心基本功能和概念的介绍了,希望这些内容能够帮助读者更好的理解武汉人工智能计算中心和生态创新中心,并且将在下一篇文章中将会带来一个训练流程的端到端的打通。