热门文档
- 2023-10-13 17:09:40 楚辞 中华传统诗词经典 可复制-李山-9787101097528
- 2023-04-19 15:04:26 《千家妙方 上册 1982年》(李文亮等编)
- 2022-09-18 20:22:00 中国人为什么看不起中国人 张鸣
- 2022-09-18 20:22:00 中国兵法之起源 编委会
- 2023-10-13 17:09:40 超速学习:我这样做,一个月学会素描,一年学会四种语言,完成MIT四年课程-斯科特·扬著,林慈敏译-9789861755533
- 2022-11-24 16:17:09 《性体验与性爱心理》尤里-谢尔巴特赫
- 2022-11-24 16:17:09 《性爱健康指南》石四维编著
- 2023-10-13 17:09:40 初中诗词格律读本 可复制-周建忠 徐乃为 王业强编著-9787101121704
- 2023-10-13 17:09:40 曾国藩家书 中华经典藏书(升级版)可复制-檀作文译注-9787101115482
- 2023-10-13 17:09:40 菜根谭 中华经典藏书(升级版)可复制-杨春俏译注-9787101115611
- 2022-09-18 19:48:57 心理催眠术 迈克尔.赫普,温迪.德雷顿著
- 2023-10-13 17:09:40 崇祯帝大传-晁中辰著 可复制-9787101114935
1、本文档共计 354 页,下载后文档不带www.pdfdz.com水印,支持完整阅读内容。
2、古籍基本都为PDF扫描版,所以文档不支持编辑功能,即不支持文档内文字的复制粘贴。
3、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
4、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
5、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
2、古籍基本都为PDF扫描版,所以文档不支持编辑功能,即不支持文档内文字的复制粘贴。
3、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
4、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
5、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
前言前言起源于美国加州大学伯克利分校AMP实验室的Spak是当今大数据领域最活跃、最热门的大数据计算处理框架,2009年Spark诞生于AMP实验室,2010年Spark正式成为开源,2013年Spark成为Apache基金,2014年Spark成为Apache基金的顶级。Spark成功构建了一体化、多元化的大数据处理体系,成功使用Spark L、Spark Streaming、MI山ib、GraphX解决了大数据领域的Batch Processing、Stream Processing、Adhoc Query等核心问题,Spark L、Spark Streaming、Mllib、GraphX四个子框架和Spark核心库之间互相共享数据及相互操作,Spk生态系统强大的集成能力是其他大数据平台无可匹敌的。本书主要面向的对象是广大的Spark爱好者和大数据开发者,以Spark内核解析及性能调优为主导,由浅入深,对Spak内核运行机制从源代码角度加以详细解析,全书共分9章,分别是:RDD的功能解析、RDD的运行机制、部署模式(Deploy)解析、Spark调度器(Scheduler)运行机制、执行器(Executor)、Spark的存储模块(Storage)、Shuffle机制、钨丝计划(Project Tungsten)以及性能优化。读者通过对这些内容的深人学习,将能够较为透彻地掌握Spark这一大数据计算框架的应用方法。参与本书编写的有王家林、段智华、张敏等。在本书阅读过程中,如发现任何纰漏或有任何疑问,可以加入本书的阅读群(QQ:284078981)提出问题,会有专人答疑。同时,该群也会提供本书所用案例源代码。如果读者想要了解或者学习更多大数据相关技术,可以关注DT大数据梦工厂微信公众号DT_Spark及QQ群284078981,或者扫描下方二维码咨询,也可以通过YY客户端登录68917580永久频道直接体验。王家林老师的新浪微博是://weibo/ilovepains/,欢迎大家在微博上与作者进行互动。由于时间仓促,书中难免存在不妥之处,请读者谅解,并提出宝贵意见。可王家林2016.10.8日于深圳●●●●●Spark内核机制解析及性能调优目录前言第1章RDD功能解析1.1DD产生的技术背景及功能…11.2BDD的基本概念…1.2.】DD的定义……21.2.3RDD弹性特性的7个方面…71.3创建RDD的方式…....131.3.1通过已经存在的Scala创建RDD…13131.3.4其他的RDD的创建…20211.5RDD的Transfortion算子…24241.5.4通过实践说明Transfortion的Lazy特性…251.6RDD的Aci0n算子…25251.6.2 Action在RDD中的角色定位及功能…2527第2章DD的运行机制…282.1RDD依赖关系…28282.l.2宽依懒(Shuffle Dependency)…302.2有向无环图(Directed Acyclic Graph,DAG)…312.2.1什么是DAG…312.2.2DAG的生成机制……322.2.3DAG的逻辑视图……332.3BDD内部的计算机制…............342.3.1RDD的计算任务(Task)…342.3.2RDD的计算过程………35