morinson 发表于 2015-10-11 09:32:13

阿里云人工智能平台DTPAI研发

阿里云人工智能平台DTPAI研发
发布时间:2015-10-10 16:10:00                  来源:比特网                  作者:互联网



  韦啸:阿里云人工智能平台DTPAI研发理念与技术解读
  在2015高性能计算用户大会深度学习分论坛上,阿里云技术专家透露了开放HPC集群及开放深度学习Docker镜像的消息,实际上,阿里云在此之前已经推出了人工智能产品DTPAI,其支撑技术包括了ODPS和iDST的研究工作,CSDN记者近日采访了阿里巴巴ODPS和iDST产品经理韦啸(花名龙场),就DTPAI的核心技术和理念进行了探讨。
  韦啸认为,各个领域对人工智能和机器学习的技术都开始有了越来越多的需求,云服务则代表了人工智能或者机器学习作为一种计算能力的未来。他表示,希望DTPAI是阿里云产品线上的一块重要拼图,把释放人脑智能的人工智能和机器学习服务作为一种普适的计算能力。
  DTPAI非常注重产品的易用性,目前主要支持鼠标拖拽的编程可视化(Visual Programming),也支持的据可视化和模型可视化,并且广泛与MapReduce、Spark、DMLC、R等开源技术对接。DTPAI已经开放Kmeans、逻辑回归、随机森林、GBDT等分类和聚类的算法,未来还提供通用的深度学习框架。韦啸强调,这些算法都是经过阿里巴巴内部大规模和复杂的数据场景锻炼的,有效性、算法能力和计算规模都得到了很好的验证。
  以下为韦啸采访实录:
  CSDN:能否介绍推出DTPAI的初衷,面向哪些用户,以及DTPAI对标的产品是什么?
  韦啸:我们正面临从IT时代到DT时代的跨越,一方面各个领域对人工智能和机器学习的技术都开始有了越来越多的需求,另外一方面这些技术由于较高的门槛,也并没有出现一些普适化的解决方案来应对这些需求。大家知道阿里云的愿景是希望计算成为中国经济的力量,所以我们希望DTPAI是阿里云产品线上的一块重要拼图,把释放人脑智能的人工智能和机器学习服务作为一种普适的计算能力,提供给我们的用户。我们相信需要DTPAI的用户群将会很广泛,包括有数据场景需求的政企、金融业、科技产业等和其他的一切数据创业者,例如物联网、智能硬件的创客等。
  关于对标:目前人工智能和机器学习服务只是刚刚开始发展,所以阿里云专注于自己在这个领域做出自己的贡献,并不存在和谁对标。
  CSDN:您认为云服务会是人工智能未来吗?Google、Amazon、Azure的机器学习云服务其实还只能做一些不是很复杂的模型。
  韦啸:我们相信云服务代表了人工智能或者机器学习作为一种计算能力的未来。我们知道(包括Wired去年的文章也持同样观点)这个领域的突破需要有一个平台或者生态很好的联通大规模并行计算能力、大数据和数据人(数据科学家等),而阿里云拥有建立这个生态所需要的三个要素。
  至于第二点刚才也提到目前整个领域还是只是刚刚开始发展,而最大的推动力将来自于云计算平台和用户的联通。
  CSDN:可视化是DTPAI的一个卖点,也是现在的大数据/数据挖掘工具的一个重要特性,阿里如何理解可视化对人工智能发展的作用?DTPAI实现的可视化有什么不同?
  韦啸:DTPAI非常注重产品的易用性,因为我们的愿景是要将大家认为的高深莫测和遥不可及的机器学习等技术变为一种唾手可得的普适资源,产品需要简单易用。可视化是我们提升易用性的一种重要手段。DTPAI目前主要支持鼠标拖拽的编程可视化(Visual Programming),用户可以实现0代码的算法应用开发。同时我们也支持的据可视化和模型可视化,让用户更直观的了解数据与算法。
  CSDN:能否介绍DTPAI在机器学习、深度学习算法所使用的开发语言和框架,框架是采用开源产品还是自主研发的?如果开发者需要利用一些可视化工具无法实现的功能,DTPAI的使用对开发者有什么门槛?
  韦啸:DTPAI是基于阿里云搭建的平台。除了刚才提到的可视化编程以外,用户还可以基于阿里云计算平台提供的开发语言和框架来搭建应用或者组件。阿里云计算平台提供我们自研的计算框架例如ODPS(SQL、open MapReduce等)和一些常见的开源产品例如Spark。同时针对机器学习,我们也对接了开源的例如DMLC等框架,和自研的Parameter Server开发框架。
  Parameter Server主要特性如下:
  模型、数据分片,支持超大模型
  利用稀疏特性减小通信
  支持异步迭代
  各个角色有完善的Failover机制

  CSDN:深度学习很重要的是GPU加速,DTPAI投入的GPU大概是什么情况?单机多卡或者多机多卡的并行计算上,有哪些独到的经验,在运行多个深度学习任务的时候,如何实现智能的调度?
  韦啸:如章文嵩提到,我们将在最近推出GPU的服务。而GPU在大数据和机器学习领域目前也有很多应用,特别是在计算和数据密集型的场景。DTPAI也会专注在这些场景提供包含GPU加速的算法和应用,我们会按照从应用到框架,从单机单卡到多机多卡的节奏来发布成熟的服务。
  CSDN:在机器学习任务中,对数据的理解是很重要的,关系到特征的质量和最终的结果,能否介绍DTPAI的特征工程采用的具体方法,如何保证得出的是最合适的特征?
  韦啸:我们知道数据探索是非常灵活的,在DTPAI之上支持的方式如下:
  首先用户可以基于像ODPS这样的计算框架(SQL、MR等)来灵活的探索和理解数据,或者开发自己的特征工程应用,总之前面提到DTPAI是完全架构在阿里云的计算体系上的,阿里云提供非常丰富的数据探索工具。
  其次,对于一些常见的特征工程和数据探索算法,例如统计,例如一些特征离散化,标准化的算法,我们也会封装让用户直接调用。
  最后,我们在不远的将来也会提供通用的深度学习框架,也可以作为用户自动构建筛选特征的高级的手段。

  CSDN:DTPAI核心智能算法库首批能使用的算法有哪些?DTPAI集成的算法库和阿里巴巴正在使用的算法相比,会有一个是时间上的滞后吗?
  韦啸:首先我们计划持续的发布第一方核心算法库。首批开放的算法支持对ODPS上的数据集上的数据处理和分析的一些基本功能,包括统计,采样,拆分,标准化等。在机器学习建模和预测的算法我们有分类和聚类的算法,包括Kmeans、逻辑回归、随机森林、GBDT等。另外用户也可以使用R脚本来封装一个节点逻辑。

  CSDN:DTPAI将开放算法库,数据科学家也可以提交算法给开发者使用,请问接收新的算法有什么要求?会一些激励机制来收集更多的算法吗?
  韦啸:除了阿里巴巴提供的第一方的算法库,我们还支持ISV或者用户提供自己开发的第二方或者第三方的算法。我们希望搭建一个能把有数据智能需求的用户和有数据智能开发能力的用户连接在一起的健康生态,所以我们会提供公平成熟,市场驱动的算法及应用额分享机制,来激励创新。
  CSDN:最佳算法的选择其实和数据集本身是有关系的,阿里双11算法未必适合所有的数据,文本、图像和语音处理可能都比较偏向于电商数据,那么DTPAI如何根据数据快速帮助开发者确定最高效的算法?
  韦啸:好的算法不能脱离大数据产生。所以DTPAI的一个核心优势就是阿里巴巴在零售、广告、物流、金融、影视领域中遇到的复杂的数据场景和沉淀下来的数据智能。
  DTPAI的核心算法库中我们提供的通用的算法都是经过阿里巴巴内部大规模和复杂的数据场景锻炼的,有效性、算法能力和计算规模都得到了很好的验证。
  我们在这些数据场景上也孵化出了一些走在业界前段的技术,包括深度学习和Parameter Server等。我们也希望把这些数据技术分享到整个生态。

  CSDN:能否介绍开发背后的故事,DTPAI从立项到产品发布,我们克服了哪些障碍?
  韦啸:不光是在中国,我们的愿景是打造一个世界领先真正的DT时代的人工智能平台,虽然我们只是刚刚开始。打造每一款产品都会遇到很多困难,但是我们认为真正的障碍在于这些技术因为过高的门槛,还没有成为用户可以唾手可得的普适服务,所以我们会尽全力按照我们的愿景走下去。
  CSDN:谈谈DTPAI未来的研发路线。我了解到DTPAI的很多基础工作来自于iDST,这个团队之前由漆远博士带领,现在漆远已经调到蚂蚁金服,这是否意味着阿里的人工智能研发方向的某些变化?
  韦啸:iDST团队一直以来都希望基于阿里巴巴的数据场景,沉淀先进的数据智能产品,通过阿里云计算让这些产品成为普适的服务。
  CSDN:DTPAI之外,阿里未来还会推出其他的人工智能产品吗?
  韦啸:基于人工智能技术的产品将会继续井喷,我们最近也看到了支付宝的刷脸,阿里妈妈的魔镜等。而DTPAI将是阿里巴巴和阿里云丰富产品线上的重要拼图,致力于向数据创业者提供一个基于与计算的、简单易用的一站式的数据智能应用的开发、发布和服务的平台。
页: [1]
查看完整版本: 阿里云人工智能平台DTPAI研发