北京大学-腾讯协同创新实验室关于分布式机器学习体系Angel的研究取得紧张进展-北京大学

北京大学-腾讯协同创新实验室关于分布式机器学习体系Angel的研究取得紧张进展

时间：2017年06月27日信息来源：北京大学点击：次【加入收藏】【字体：大中小】

日前，《国家科学评论》（National Science Review，NSR）在线发表了由北京大学信息科学技术学院、高可信软件技术教育部重点实验室崔斌教授课题组与腾讯数据平台部合作撰写的论文《一种新型大规模分布式机器学习体系Angel》（Angel: a new large-scale machine learning system，DOI: 10.1093/nsr/nwx018）。这是首篇刊登在NSR的信息科学领域研究论文。

文章回顾了学术界和工业界近期共同关注的机器学习体系，偏重介绍了Angel体系的设计思想和实现细节，并通过对多个大规模数据集上不同机器学习算法和体系的比较，验证了Angel体系在分布式机器学习方面的有用性。

现有的机器学习体系都是针对不同类型的机器学习义务而搭建的。数据流体系Hadoop和Spark适用于通用的数据处理义务和构建机器学习流水线，但缺乏参数共享机制，存在单点瓶颈性能题目；图计算体系GraphLab、GraphX和Tux2等将机器学习计算抽象成图结构，可行使图结构的特征加速，但只适合具有稀少图结构的算法；深度学习体系TensorFlow、MXNet和Caffe2等行使参数服务器或全局归约进行分布式神经网络的训练，可行使GPU对神经网络的计算加速，但缺乏对稀少图结构的优化和支撑。

由北京大学-腾讯协同创新实验室开发的开源体系Angel（源代码见https://github.com/Tencent/angel）兼顾工业界的高可用性和学术界的创新性，集成和优化多种机器学习算法，是一个基于参数服务器理念的分布式机器学习框架，使机器学习算法在高维度模型上轻松运行。它围绕模型共享的核生理念，将高维度的大模型合理地切分到多个参数服务器节点，并通过高效的模型更新接口、运算函数和多变的同步协议实现各种高效的机器学习算法。得益于优秀的设计，Angel既能自力运行、高效实行多种机器学习算法，也能作为参数服务器服务，支撑Spark和现有深度学习框架，并为其加速。联合课题组基于工业界的海量数据，反复实践和调优，使得Angel具有广泛的适用性和稳固性，模型维度越高，上风越显明。经过在真实数据集上的对比，Angel在多种机器学习算法上的性能优于XGBoost、Spark、Petuum、TensorFlow等常用机器学习体系，已被应用于腾讯视频点击展望和广告保举等现实营业中。

Angel体系框架

Angel目前基于Java和Scala开发，将来还将加入Python等多种语言接口，使用更便捷，且参数服务器服务能力会进一步提拔，支撑图计算和深度学习框架。

编辑：山石

北京大学函授报名、北京大学成人高考报名

(作者：佚名编辑：南开大学)

文章热词：　北京北京大学大学腾讯协同同创创新实验

上一篇：：分子医学研究所程和平课题组发现“线粒体炫”调控神经元突触水平的长时程记忆
下一篇：：北京大学邓宏魁及柴真研究组在Cell Stem Cell杂志上发表紧张研究成果建立细胞谱系重编程的新方法

我有话说

成人高考

: 湖南成人高考,湖南继续教育; 河北成人高考,河北继续教育; 北京成人高考,北京继续教育; 天津成人高考,天津继续教育; 山西成人高考,山西继续教育; 内蒙古成人高考,内蒙古继续教育; 辽宁成人高考,辽宁继续教育; 吉林成人高考,吉林继续教育; 黑龙江成人高考,黑龙江继续教育; 上海成人高考,上海继续教育; 江苏成人高考,江苏继续教育; 浙江成人高考,浙江继续教育; 安徽成人高考,安徽继续教育; 福建成人高考,福建继续教育; 江西成人高考,江西继续教育; 山东成人高考,山东继续教育; 河南成人高考,河南继续教育; 湖北成人高考,湖北继续教育; 广东成人高考,广东继续教育; 海南成人高考,海南继续教育; 重庆成人高考,重庆继续教育; 四川成人高考,四川继续教育; 贵州成人高考,贵州继续教育; 云南成人高考,云南继续教育; 西藏成人高考,西藏继续教育; 陕西成人高考,陕西继续教育; 甘肃成人高考,甘肃继续教育; 青海成人高考,青海继续教育; 宁夏成人高考,宁夏继续教育; 新疆成人高考,新疆继续教育; 广西成人高考,广西继续教育