博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
《大数据日知录》读书笔记-ch15机器学习:范型与架构
阅读量:5323 次
发布时间:2019-06-14

本文共 1031 字,大约阅读时间需要 3 分钟。

机器学习算法特点:迭代运算

损失函数最小化训练过程中,在巨大参数空间中迭代寻找最优解

比如:主题模型、回归、矩阵分解、SVM、深度学习

 

分布式机器学习的挑战:

- 网络通信效率

- 不同节点执行速度不同:加快慢任务

- 容错性

 

 

机器学习简介:

 

数据并行vs模型并行:

数据并行

 

模型并行

 

分布式机器学习范型:

其他情形

MPI:容错性差、集群规模小、扩展性低

GPU:目前处理规模中等(6-10GB)

 

1. 同步范型(严格情形每轮迭代进行数据同步)

快等慢,计算资源浪费;网络通信多

eg:MapReduce迭代计算、BSP模型属于严格同步范型

 

2. 异步范型(任意时刻读取更新全局参数)

若部分任务迭代严重落后会拉低效果

 

3. 部分同步范型(主要研究方向)

eg:SSP模型

 

MapReduce迭代计算模型

 

 

BSP(Bulk Synchronous Parallel)计算模型

“桥接模型”:介于纯硬件、纯编程模式之间的模型

许多相关工作已验证BSP模型的健壮性、性能可预测性和可扩展性

 优点:

缺点:

资源利用率低、网络通信多、计算效率低

图计算框架也用BSP:比如Pregel、Giraph

 

SSP(Stale Synchronous Parallel)计算模型

阈值s=0时,SSP退化为BSP同步模型;s=+inf时,SSP演化为完全异步模型

 

分布式机器学习架构:

MapReduce系列架构:

Cloudera Oryx、Apache Mahout,两者类似。

 

Spark及MLBase:

Spark

 

2. MLBase

 

参数服务器(Parameter Server):

比如:Google能处理百亿参数的深度机器学习框架DistBelief

 

1. 架构

 

2. 一致性模型

需要设计新型的参数副本一致性均衡正确性和并发度。往往通过受限的异步并行方式(类似于部分同步并行)

 

1)时钟界异步并行(Clock-bounded Asynchronous Parallel,CAP)

 

2)值界异步并行(Value-bounded Asynchronous Parallel,VAP)

不考虑时钟值而是参数的更新积累数值。

也可以集成CAP和VAP。有理论可以证明:对于随机梯度下降等常见机器学习算法,VAP可以保证算法收敛性。

 

3. SSPTable

 

 

 

 

转载于:https://www.cnblogs.com/yaoyaohust/p/10680216.html

你可能感兴趣的文章
ACM常用算法及练习(1)
查看>>
JDK中注解的底层实现
查看>>
BGP路由控制属性
查看>>
深度揭秘:伪基站短信诈骗产业传奇始末!
查看>>
9. KNN和Sparse构图
查看>>
for循环
查看>>
Java之美[从菜鸟到高手演变]之设计模式
查看>>
J2EE 项目 org.apache.jasper.JasperException: 解决方法
查看>>
卸载TwinCat3之后vs未能正确加载包错误解决
查看>>
AQS学习笔记之独占锁
查看>>
正则的分组
查看>>
PAT乙级 解题目录
查看>>
设置debian6源
查看>>
JS 设计模式八 -- 发布订阅者模式
查看>>
Ubuntu 12.04安装bochs 2.3.5
查看>>
【LeetCode】124. Binary Tree Maximum Path Sum
查看>>
AS ShortCut
查看>>
Sql Server 存储过程
查看>>
POJ 1062 昂贵的聘礼
查看>>
computed 计算属性
查看>>