《中关村导刊》对一流科技进行报道

导语:今天(2020年1月21日)的《中关村导刊》采访了一流科技创始人袁进辉并以《一流科技破局AI框架“卡脖子”技术》题报道了一流科技不算肉麻的心路历程。

记者余婧雯 

上承算法应用,下接底层硬件,深度学习框架被称为“人工智能操作系统”。如同个人电脑时代的计算机操作系统Windows,在人工智能领域,如果可以掌握操作系统技术并建立起围绕操作系统的生态系统,就能在全球竞争下牢牢掌握主动权。这也是国内外科技巨头纷纷研发、开源深度学习框架的主要原因之一。   

然而,“人工智能操作系统”这个让创业企业想都不敢想的“蛋糕”,却被袁进辉看中。2017年1月,袁进辉成立北京一流科技有限公司(下称“一流科技”)。这家成立之初只有3人的企业,却喊出了“立志做业界最先进的深度学习框架OneFlow,打造人工智能引擎的事实工业标准”的决心。但想要在这条路上走下去,无疑困难重重,想要看见曙光,不知要经历多久的黑暗。这些未知与艰难,在袁进辉眼里却都是机会,“开始做别人不敢做的事情,啃下巨头都无法解决的难题,路就会越来越清晰,越来越平坦。”

OneFlow横向扩展解决AI框架算力问题  

凭借Google在深度学习领域的巨大影响力和强大的推广能力,TensorFlow一经推出就获得了极大的关注,并迅速成为如今用户最多的深度学习框架,但TensorFlow易用性过于低下,这给Facebook的PyTorch留下了可乘之机,PyTorch一经开源,以简洁优雅的用户接口和让用户快速上手的优点,迅速占领GitHub(知名开发者社区)热度榜榜首,大有赶超TensorFlow之势。袁进辉认为,“大公司的品牌优势及市场推广力度固然在短时间之内可以帮助框架快速扩张,但产品优势才是最终决定人工智能框架建立持久生态的必要条件。可以看到,TensorFlow自身的技术性缺陷,给了其他公司重新定义深度学习框架的机会。PyTorch的成功也给其它框架一个启示:唯有产品和技术创新才有可能脱颖而出。”   

2019年,一流科技历时两年完全自主研发的深度学习框架——OneFlow问世,框架首创的静态调度和流式架构技术彻底解决了制约深度学习计算力的横向扩展难题,是目前世界上唯一一个专为深度学习打造的流式系统。目前,OneFlow已经达到市场产品级应用水平。   袁进辉表示,以提高单颗芯片计算力为目标的纵向扩展方法遇到了物理限制的天花板,通过多芯片协同并行计算的横向扩展方法理论上不存在天花板,然而在异构集群上横向扩展的高效性和易用性却是公认的技术挑战。OneFlow创造性地通过一系列新的技术思路,彻底解决了制约深度学习计算力的横向扩展难题,使得深度学习可使用的算力大大超越了单颗AI芯片的计算上限。

传统大数据处理多属于批式计算,对全体数据扫描处理后才获得结果,与此相反,基于随机梯度下降算法的深度学习训练是典型的流式计算,每扫描和处理一小部分数据后,就开始调整和更新内部参数,如果是分布式计算,还会引起全局通信,因此深度学习训练作业由成千上万、高度并行的百毫秒级别的细粒度任务构成,软件系统级别的挑战前所未见。袁进辉解释道,以前的批式大数据处理,就像以前的绿皮火车,每一站停车让乘客上下的时间相对于火车缓慢的运行速度来说可以忽略不计,现在的深度学习系统就像复兴号高铁,本身速度极快,即使停靠站时间比以前少很多,但相对于其运行速度来说,停站都会显得格外漫长。OneFlow框架相当于在技术上实现了“高铁运行过程从不停车,但乘客也可以随时上下车”的效果,极大优化了深度学习计算时间。   

静态调度和流式执行系统是实现高效率深度学习计算的关键。“数据在深度学习系统中流动,就像一辆辆汽车行进在公路交通体系中,现实中的交通调度体系是一种动态调度,司机根据路况自主决策选择路线和车速,因为安全车间距的原因,马路面积的利用率并不高,还经常发生拥堵,静态调度相当于根据每辆车的行程需求提前对所有车辆的行进策略进行了规划,既能让汽车以最优路线到达终点,又能充分利用每条道路,不是运行中再做决策,这也是称为‘静态’的原因。流式执行架构则解决了计算和芯片之间数据搬运速度匹配问题,流式架构有助于让GPU感知不到跨设备数据存取的瓶颈,每次需要什么数据时发现它已经在‘身边’了。”

入局AI框架百家争鸣时代  

黎明前的曙光划破了持续了两年的黑暗。究竟是什么原因让袁进辉放弃薪资优越的工作,笃定去与科技巨头抗衡,甚至想要引领行业标准?   袁进辉说:“技术较成熟领域的竞争就像百米赛跑一样,终点明确,赛道固定,谁跑得快以及谁出发得早,一定会先跑到终点取胜。但是像人工智能和深度学习框架这种新产品技术,大家都在摸索、寻找,像在森林里探险寻宝一样,宝藏在哪里?去哪个方向寻找?不同的人会有不同的判断。这种情况下,最终谁能脱颖而出,关键在于谁看得准,少走弯路,能披荆斩棘把这条道路开拓出来,巨头不一定能取胜。”

目标远大,但并非是堂吉诃德式的妄想。袁进辉将OneFlow的愿景分解成几个关键节点,只要做到中间的一步,下一步的成功就在可控范围内。“我们想让OneFlow有足够的影响力,就反推出要能做到最流行,产品品质一定要最好;最好的产品有若干关键维度,速度快是其中最挑战和重要的维度,只要做到最快,距离最好就更近;最快的深度学习框架,我们今天已经做到了,我们认为做好易用性、模型丰富度是工作量的问题。”袁进辉说。   

但与大企业自带“流量”不同,一流科技走的每一步,袁进辉都要从零开始,“两年的研发是最苦的,没有收益,没有客户鼓励,资本寒冬让投资机构也变得更加谨慎,对团队的信念和韧性提出了极高挑战。”早期阶段,白天袁进辉去见投资人,晚上,还要扎进办公室写代码。两年时间,底层基础架构代码从0写到数十万行。与已开源的深度学习框架相比更简约,OneFlow在资源有限的情况下,必须找到最正确的路径才能做到又快又好。   

对于未来,袁进辉充满信心:“外人看上去成功率很低,我们却看到了深度学习框架对整个产业生态所产生的影响,坚信OneFlow出现的必然性。第一阶段,一流科技实现了产品的研发,下一步,我们希望可以将OneFlow打造成业界最流行的深度学习框架,让它成为事实工业标准,从‘百家争鸣’时代向终局收敛。”

原文链接

http://www.haidian001.com:88/hdyzk/html/2020-01/21/content_127000.htm?div=-1

原创文章,作者:afeng135,如若转载,请注明出处:https://www.c2xe.com/215497.html