8 在天庭当托塔李天王的日子

尚未进行身份认证

在天庭当托塔李天王的日子

等级
TA的下载次数 375

kafka-demo.rar

使用java客户端, kafka-producer, kafka-consumer进行kafka的连接 注: 0.10 版本之后, 连接kafka只需要brokerip即可, 不需要zookeeper的信息

2018-01-28

CustomClassLoader源码

利用JAVA中的ClassLoader实现热部署

2017-06-28

sqoop测试数据

mysql数据库商品表、品牌和品牌分类表数据,该数据完全是个人自己创建的数据。

2016-06-01

SQLyog可视化MySQL工具

免安装绿色版,非常好用的SQL。SQLyog 是一个易于使用的、快速而简洁的图形化管理MYSQL数据库的工具,它能够在任何地点有效地管理你的数据库。

2016-05-30

input_data.txt

input_data.txt 用户数据

2016-03-12

Hadoop 自定义 Partitioner JAR

Hadoop 自定义 Partitioner 实现

2016-03-12

Hadoop 自定义 Partitioner 源代码

Hadoop 自定义 Partitioner 源代码

2016-03-12

hadoop技术内幕:深入解析YARN架构设计与实现原理

前 言 第一部分 准备篇 第1章 环境准备 2 1.1 准备学习环境 2 1.1.1 基础软件下载 2 1.1.2 如何准备Linux环境 3 1.2 获取Hadoop源代码 5 1.3 搭建Hadoop源代码阅读环境 5 1.3.1 创建Hadoop工程 5 1.3.2 Hadoop源代码阅读技巧 8 1.4 Hadoop源代码组织结构 10 1.5 Hadoop初体验 12 1.5.1 搭建Hadoop环境 12 1.5.2 Hadoop Shell介绍 15 1.6 编译及调试Hadoop源代码 16 1.6.1 编译Hadoop源代码 17 1.6.2 调试Hadoop源代码 18 1.7 小结 20 第2章 YARN设计理念与基本架构 21 2.1 YARN产生背景 21 2.1.1 MRv1的局限性 21 2.1.2 轻量级弹性计算平台 22 2.2 Hadoop基础知识 23 2.2.1 术语解释 23 2.2.2 Hadoop版本变迁 25 2.3 YARN基本设计思想 29 2.3.1 基本框架对比 29 2.3.2 编程模型对比 30 2.4 YARN 基本架构 31 2.4.1 YARN基本组成结构 32 2.4.2 YARN通信协议 34 2.5 YARN工作流程 35 2.6 多角度理解YARN 36 2.6.1 并行编程 36 2.6.2 资源管理系统 36 2.6.3 云计算 37 2.7 本书涉及内容 38 2.8 小结 38 第二部分 YARN核心设计篇 第3章 YARN基础库 40 3.1 概述 40 3.2 第三方开源库 41 3.2.1 Protocol Buffers 41 3.2.2 Apache Avro 43 3.3 底层通信库 46 3.3.1 RPC通信模型 46 3.3.2 Hadoop RPC的特点概述 48 3.3.3 RPC总体架构 48 3.3.4 Hadoop RPC使用方法 49 3.3.5 Hadoop RPC类详解 51 3.3.6 Hadoop RPC参数调优 57 3.3.7 YARN RPC实现 57 3.3.8 YARN RPC应用实例 61 3.4 服务库与事件库 65 3.4.1 服务库 66 3.4.2 事件库 66 3.4.3 YARN服务库和事件库的使用方法 68 3.4.4 事件驱动带来的变化 70 3.5 状态机库 72 3.5.1 YARN状态转换方式 72 3.5.2 状态机类 73 3.5.3 状态机的使用方法 73 3.5.4 状态机可视化 76 3.6 源代码阅读引导 76 3.7 小结 77 3.8 问题讨论 77 第4章 YARN应用程序设计方法 78 4.1 概述 78 4.2 客户端设计 79 4.2.1 客户端编写流程 80 4.2.2 客户端编程库 84 4.3 ApplicationMaster设计 84 4.3.1 ApplicationMaster编写流程 84 4.3.2 ApplicationMaster编程库 92 4.4 YARN 应用程序实例 95 4.4.1 DistributedShell 95 4.4.2 Unmanaged AM 99 4.5 源代码阅读引导 100 4.6 小结 100 4.7 问题讨论 100 第5章 ResourceManager剖析 102 5.1 概述 102 5.1.1 ResourceManager基本职能 102 5.1.2 ResourceManager内部架构 103 5.1.3 ResourceManager事件与事件处理器 106 5.2 用户交互模块 108 5.2.1 ClientRMService 108 5.2.2 AdminService 109 5.3 ApplicationMaster管理 109 5.4 NodeManager管理 112 5.5 Application管理 113 5.6 状态机管理 114 5.6.1 RMApp状态机 115 5.6.2 RMAppAttempt状态机 119 5.6.3 RMContainer状态机 123 5.6.4 RMNode状态机 127 5.7 几个常见行为分析 129 5.7.1 启动ApplicationMaster 129 5.7.2 申请与分配Container 132 5.7.3 杀死Application 134 5.7.4 Container超时 135 5.7.5 ApplicationMaster超时 138 5.7.6 NodeManager超时 138 5.8 安全管理 139 5.8.1 术语介绍 139 5.8.2 Hadoop认证机制 139 5.8.3 Hadoop授权机制 142 5.9 容错机制 144 5.9.1 Hadoop HA基本框架 145 5.9.2 YARN HA实现 148 5.10 源代码阅读引导 149 5.11 小结 151 5.12 问题讨论 152 第6章 资源调度器 153 6.1 资源调度器背景 153 6.2 HOD调度器 154 6.2.1 Torque资源管理器 154 6.2.2 HOD作业调度 155 6.3 YARN资源调度器的基本架构 157 6.3.1 基本架构 157 6.3.2 资源表示模型 160 6.3.3 资源调度模型 161 6.3.4 资源抢占模型 164 6.4 YARN层级队列管理机制 169 6.4.1 层级队列管理机制 169 6.4.2 队列命名规则 171 6.5 Capacity Scheduler 172 6.5.1 Capacity Scheduler的功能 172 6.5.2 Capacity Scheduler实现 176 6.6 Fair Scheduler 179 6.6.1 Fair Scheduler功能介绍 180 6.6.2 Fair Scheduler实现 182 6.6.3 Fair Scheduler与Capacity Scheduler对比 183 6.7 其他资源调度器介绍 184 6.8 源代码阅读引导 185 6.9 小结 186 6.10 问题讨论 187 第7章 NodeManager剖析 188 7.1 概述 188 7.1.1 NodeManager基本职能 188 7.1.2 NodeManager内部架构 190 7.1.3 NodeManager事件与事件处理器 193 7.2 节点健康状况检测 194 7.2.1 自定义Shell脚本 194 7.2.2 检测磁盘损坏数目 196 7.3 分布式缓存机制 196 7.3.1 资源可见性与分类 198 7.3.2 分布式缓存实现 200 7.4 目录结构管理 203 7.4.1 数据目录管理 203 7.4.2 日志目录管理 203 7.5 状态机管理 206 7.5.1 Application状态机 207 7.5.2 Container状态机 210 7.5.3 LocalizedResource状态机 213 7.6 Container生命周期剖析 214 7.6.1 Container资源本地化 214 7.6.2 Container运行 218 7.6.3 Container资源清理 222 7.7 资源隔离 224 7.7.1 Cgroups介绍 224 7.7.2 内存资源隔离 228 7.7.3 CPU资源隔离 230 7.8 源代码阅读引导 234 7.9 小结 235 7.10 问题讨论 236 第三部分 计算框架篇 第8章 离线计算框架MapReduce 238 8.1 概述 238 8.1.1 基本构成 238 8.1.2 事件与事件处理器 240 8.2 MapReduce客户端 241 8.2.1 ApplicationClientProtocol协议 242 8.2.2 MRClientProtocol协议 243 8.3 MRAppMaster工作流程 243 8.4 MR作业生命周期及相关状态机 246 8.4.1 MR作业生命周期 246 8.4.2 Job状态机 249 8.4.3 Task状态机 253 8.4.4 TaskAttempt状态机 255 8.5 资源申请与再分配 259 8.5.1 资源申请 259 8.5.2 资源再分配 262 8.6 Container启动与释放 263 8.7 推测执行机制 264 8.7.1 算法介绍 265 8.7.2 推测执行相关类 266 8.8 作业恢复 267 8.9 数据处理引擎 269 8.10 历史作业管理器 271 8.11 MRv1与MRv2对比 273 8.11.1 MRv1 On YARN 273 8.11.2 MRv1与MRv2架构比较 274 8.11.3 MRv1与MRv2编程接口兼容性 274 8.12 源代码阅读引导 275 8.13 小结 277 8.14 问题讨论 277 第9章 DAG计算框架Tez 278 9.1 背景 278 9.2 Tez数据处理引擎 281 9.2.1 Tez编程模型 281 9.2.2 Tez数据处理引擎 282 9.3 DAG Master实现 284 9.3.1 DAG编程模型 284 9.3.2 MR到DAG转换 286 9.3.3 DAGAppMaster 288 9.4 优化机制 291 9.4.1 当前YARN框架存在的问题 291 9.4.2 Tez引入的优化技术 292 9.5 Tez应用场景 292 9.6 与其他系统比较 294 9.7 小结 295 第10章 实时/内存计算框架Storm/Spark 296 10.1 Hadoop MapReduce的短板 296 10.2 实时计算框架Storm 296 10.2.1 Storm编程模型 297 10.2.2 Storm基本架构 302 10.2.3 Storm On YARN 304 10.3 内存计算框架Spark 307 10.3.1 Spark编程模型 308 10.3.2 Spark基本架构 312 10.3.3 Spark On YARN 316 10.3.4 Spark/Storm On YARN比较 317 10.4 小结 317 第四部分 高级篇 第11章 Facebook Corona剖析 320 11.1 概述 320 11.1.1 Corona的基本架构 320 11.1.2 Corona的RPC协议与序列化框架 322 11.2 Corona设计特点 323 11.2.1 推式网络通信模型 323 11.2.2 基于Hadoop 0.20版本 324 11.2.3 使用Thrift 324 11.2.4 深度集成Fair Scheduler 324 11.3 工作流程介绍 324 11.3.1 作业提交 325 11.3.2 资源申请与任务启动 326 11.4 主要模块介绍 327 11.4.1 ClusterManager 327 11.4.2 CoronaJobTracker 330 11.4.3 CoronaTaskTracker 333 11.5 小结 335 第12章 Apache Mesos剖析 336 12.1 概述 336 12.2 底层网络通信库 337 12.2.1 libprocess基本架构 338 12.2.2 一个简单示例 338 12.3 Mesos服务 340 12.3.1 SchedulerProcess 341 12.3.2 Mesos Master 342 12.3.3 Mesos Slave 343 12.3.4 ExecutorProcess 343 12.4 Mesos工作流程 344 12.4.1 框架注册过程 344 12.4.2 Framework Executor注册过程 345 12.4.3 资源分配到任务运行过程 345 12.4.4 任务启动过程 347 12.4.5 任务状态更新过程 347 12.5 Mesos资源分配策略 348 12.5.1 Mesos资源分配框架 349 12.5.2 Mesos资源分配算法 349 12.6 Mesos容错机制 350 12.6.1 Mesos Master容错 350 12.6.2 Mesos Slave容错 351 12.7 Mesos应用实例 352 12.7.1 Hadoop On Mesos 352 12.7.2 Storm On Mesos 353 12.8 Mesos与YARN对比 354 12.9 小结 355 第13章 YARN总结与发展趋势 356 13.1 资源管理系统设计动机 356 13.2 资源管理系统架构演化 357 13.2.1 集中式架构 357 13.2.2 双层调度架构 358 13.2.3 共享状态架构 358 13.3 YARN发展趋势 359 13.3.1 YARN自身的完善 359 13.3.2 以YARN为核心的生态系统 361 13.3.3 YARN周边工具的完善 363 13.4 小结 363 附录A YARN安装指南 364 附录B YARN配置参数介绍 367 附录C Hadoop Shell命令介绍 371 附录D 参考资料 374

2015-11-24

Hadoop技术内幕 深入理解MapReduce架构设计与实现原理.pdf

Hadoop技术内幕:深入解析MapReduce架构设计与实现原理 目录 前言 第一部分 基础篇 第1章 阅读源代码前的准备 1.1 准备源代码学习环境 1.1.1 基础软件下载 1.1.2 如何准备Windows环境 1.1.3 如何准备Linux环境 1.2 获取Hadoop源代码 1.3 搭建Hadoop源代码阅读环境 1.3.1 创建Hadoop工程 1.3.2 Hadoop源代码阅读技巧 1.4 Hadoop源代码组织结构 1.5 Hadoop初体验 1.5.1 启动Hadoop 1.5.2 Hadoop Shell介绍 1.5.3 Hadoop Eclipse插件介绍 1.6 编译及调试Hadoop源代码 1.6.1 编译Hadoop源代码 1.6.2 调试Hadoop源代码 1.7 小结 第2章 MapReduce设计理念与基本架构 2.1 Hadoop发展史 2.1.1 Hadoop产生背景 2.1.2 Apache Hadoop新版本的特性 2.1.3 Hadoop版本变迁 2.2 Hadoop MapReduce设计目标 2.3 MapReduce编程模型概述 2.3.1 MapReduce编程模型简介 2.3.2 MapReduce编程实例 2.4 Hadoop基本架构 2.4.1 HDFS架构 2.4.2 Hadoop MapReduce架构 2.5 Hadoop MapReduce作业的生命周期 2.6 小结 第二部分 MapReduce编程模型篇 第3章 MapReduce编程模型 3.1 MapReduce编程模型概述 3.1.1 MapReduce编程接口体系结构 3.1.2 新旧MapReduce API比较 3.2 MapReduce API基本概念 3.2.1 序列化 3.2.2 Reporter参数 3.2.3 回调机制 3.3 Java API解析 3.3.1 作业配置与提交 3.3.2 InputFormat接口的设计与实现 3.3.3 OutputFormat接口的设计与实现 3.3.4 Mapper与Reducer解析 3.3.5 Partitioner接口的设计与实现 3.4 非Java API解析 3.4.1 Hadoop Streaming的实现原理 3.4.2 Hadoop Pipes的实现原理 3.5 Hadoop工作流 3.5.1 JobControl的实现原理 3.5.2 ChainMapper/ChainReducer的实现原理 3.5.3 Hadoop工作流引擎 3.6 小结 第三部分 MapReduce核心设计篇 第4章 Hadoop RPC框架解析 4.1 Hadoop RPC框架概述 4.2 Java基础知识 4.2.1 Java反射机制与动态代理 4.2.2 Java网络编程 4.2.3 Java NIO 4.3 Hadoop RPC基本框架分析 4.3.1 RPC基本概念 4.3.2 Hadoop RPC基本框架 4.3.3 集成其他开源RPC框架 4.4 MapReduce通信协议分析 4.4.1 MapReduce 通信协议概述 4.4.2 JobSubmissionProtocol通信协议 4.4.3 InterTrackerProtocol通信协议 4.4.4 TaskUmbilicalProtocol通信协议 4.4.5 其他通信协议 4.5 小结 第5章 作业提交与初始化过程分析 5.1 作业提交与初始化概述 5.2 作业提交过程详解 5.2.1 执行Shell命令 5.2.2 作业文件上传 5.2.3 产生InputSplit文件 5.2.4 作业提交到JobTracker 5.3 作业初始化过程详解 5.4 Hadoop DistributedCache原理分析 5.4.1 使用方法介绍 5.4.2 工作原理分析 5.5 小结 第6章 JobTracker内部实现剖析 6.1 JobTracker概述 6.2 JobTracker启动过程分析 6.2.1 JobTracker启动过程概述 6.2.2 重要对象初始化 6.2.3 各种线程功能 6.2.4 作业恢复 6.3 心跳接收与应答 6.3.1 更新状态 6.3.2 下达命令 6.4 Job和Task运行时信息维护 6.4.1 作业描述模型 6.4.2 JobInProgress 6.4.3 TaskInProgress 6.4.4 作业和任务状态转换图 6.5 容错机制 6.5.1 JobTracker容错 6.5.2 TaskTracker容错 6.5.3 Job/Task容错 6.5.4 Record容错 6.5.5 磁盘容错 6.6 任务推测执行原理 6.6.1 计算模型假设 6.6.2 1.0.0版本的算法 6.6.3 0.21.0版本的算法 6.6.4 2.0版本的算法 6.7 Hadoop资源管理 6.7.1 任务调度框架分析 6.7.2 任务选择策略分析 6.7.3 FIFO调度器分析 6.7.4 Hadoop资源管理优化 6.8 小结 第7章 TaskTracker内部实现剖析 7.1 TaskTracker概述 7.2 TaskTracker启动过程分析 7.2.1 重要变量初始化 7.2.2 重要对象初始化 7.2.3 连接JobTracker 7.3 心跳机制 7.3.1 单次心跳发送 7.3.2 状态发送 7.3.3 命令执行 7.4 TaskTracker行为分析 7.4.1 启动新任务 7.4.2 提交任务 7.4.3 杀死任务 7.4.4 杀死作业 7.4.5 重新初始化 7.5 作业目录管理 7.6 启动新任务 7.6.1 任务启动过程分析 7.6.2 资源隔离机制 7.7 小结 第8章 Task运行过程分析 8.1 Task运行过程概述 8.2 基本数据结构和算法 8.2.1 IFile存储格式 8.2.2 排序 8.2.3 Reporter 8.3 Map Task内部实现 8.3.1 Map Task整体流程 8.3.2 Collect过程分析 8.3.3 Spill过程分析 8.3.4 Combine过程分析 8.4 Reduce Task内部实现 8.4.1 Reduce Task整体流程 8.4.2 Shuffle和Merge阶段分析 8.4.3 Sort和Reduce阶段分析 8.5 Map/Reduce Task优化 8.5.1 参数调优 8.5.2 系统优化 8.6 小结 第四部分 MapReduce高级篇 第9章 Hadoop性能调优 9.1 概述 9.2 从管理员角度进行调优 9.2.1 硬件选择 9.2.2 操作系统参数调优 9.2.3 JVM参数调优 9.2.4 Hadoop参数调优 9.3 从用户角度进行调优 9.3.1 应用程序编写规范 9.3.2 作业级别参数调优 9.3.3 任务级别参数调优 9.4 小结 第10章 Hadoop多用户作业调度器 10.1 多用户调度器产生背景 10.2 HOD 10.2.1 Torque资源管理器 10.2.2 HOD作业调度 10.3 Hadoop队列管理机制 10.4 Capacity Scheduler实现 10.4.1 Capacity Scheduler功能介绍 10.4.2 Capacity Scheduler实现 10.4.3 多层队列调度 10.5 Fair Scheduler实现 10.5.1 Fair Scheduler功能介绍 10.5.2 Fair Scheduler实现 10.5.3 Fair Scheduler与Capacity Scheduler对比 10.6 其他Hadoop调度器介绍 10.7 小结 第11章 Hadoop安全机制 11.1 Hadoop安全机制概述 11.1.1 Hadoop面临的安全问题 11.1.2 Hadoop对安全方面的需求 11.1.3 Hadoop安全设计基本原则 11.2 基础知识 11.2.1 安全认证机制 11.2.2 Kerberos介绍 11.3 Hadoop安全机制实现 11.3.1 RPC 11.3.2 HDFS 11.3.3 MapReduce 11.3.4 上层服务 11.4 应用场景总结 11.4.1 文件存取 11.4.2 作业提交与运行 11.4.3 上层中间件访问Hadoop 11.5 小结 第12章 下一代MapReduce框架 12.1第一代MapReduce框架的局限性 12.2 下一代MapReduce框架概述 12.2.1 基本设计思想 12.2.2 资源统一管理平台 12.3 Apache YARN 12.3.1 Apache YARN基本框架 12.3.2 Apache YARN工作流程 12.3.3 Apache YARN设计细节 12.3.4 MapReduce与YARN结合 12.4 Facebook Corona 12.4.1 Facebook Corona基本框架 12.4.2 Facebook Corona工作流程 12.4.3 YARN与Corona对比 12.5 Apache Mesos 12.5.1 Apache Mesos基本框架 12.5.2 Apache Mesos资源分配 12.5.3 MapReduce与Mesos结合 12.6 小结 附录A 安装Hadoop过程中可能存在的问题及解决方案 附录B Hadoop默认HTTP端口号以及HTTP地址 参考资料

2015-11-24

Hadoop技术内幕 深入解析Hadoop Common和HDFS架构设计与实现原理.pdf

前 言 第一部分 环境准备 第1章 源代码环境准备 1.1 什么是Hadoop 1.1.1 Hadoop简史 1.1.2 Hadoop的优势 1.1.3 Hadoop生态系统 1.2 准备源代码阅读环境 1.2.1 安装与配置JDK 1.2.2 安装Eclipse 1.2.3 安装辅助工具Ant 1.2.4 安装类UNIX Shell环境Cygwin 1.3 准备Hadoop源代码 1.3.1 下载Hadoop 1.3.2 创建Eclipse项目 1.3.3 Hadoop源代码组织 1.4 小结 第二部分 Common的实现 第2章 Hadoop配置信息处理 2.1 配置文件简介 2.1.1 Windows操作系统的配置文件 2.1.2 Java配置文件 2.2 Hadoop Configuration详解 2.2.1 Hadoop配置文件的格式 2.2.2 Configuration的成员变量 2.2.3 资源加载 2.2.4 使用get*和set*访问设置配置项 2.3 Configurable接口 2.4 小结 第3章 序列化与压缩 3.1 序列化 3.1.1 Java内建序列化机制 3.1.2 Hadoop序列化机制 3.1.3 Hadoop序列化机制的特征 3.1.4 Hadoop Writable机制 3.1.5 典型的Writable类详解 3.1.6 Hadoop序列化框架 3.2 压缩 3.2.1 Hadoop压缩简介 3.2.2 Hadoop压缩API应用实例 3.2.3 Hadoop压缩框架 3.2.4 Java本地方法 3.2.5 支持Snappy压缩 3.3 小结 第4章 Hadoop远程过程调用 4.1 远程过程调用基础知识 4.1.1 RPC原理 4.1.2 RPC机制的实现 4.1.3 Java远程方法调用 4.2 Java动态代理 4.2.1 创建代理接口 4.2.2 调用转发 4.2.3 动态代理实例 4.3 Java NIO 4.3.1 Java基本套接字 4.3.2 Java NIO基础 4.3.3 Java NIO实例:回显服务器 4.4 Hadoop中的远程过程调用 4.4.1 利用Hadoop IPC构建简单的分布式系统 4.4.2 Hadoop IPC的代码结构 4.5 Hadoop IPC连接相关过程 4.5.1 IPC连接成员变量 4.5.2 建立IPC连接 4.5.3 数据分帧和读写 4.5.4 维护IPC连接 4.5.5 关闭IPC连接 4.6 Hadoop IPC方法调用相关过程 4.6.1 Java接口与接口体 4.6.2 IPC方法调用成员变量 4.6.3 客户端方法调用过程 4.6.4 服务器端方法调用过程 4.7 Hadoop IPC上的其他辅助过程 4.7.1 RPC.getProxy()和RPC.stopProxy() 4.7.2 RPC.getServer()和Server的启停 4.8 小结 第5章 Hadoop文件系统 5.1 文件系统 5.1.1 文件系统的用户界面 5.1.2 文件系统的实现 5.1.3 文件系统的保护控制 5.2 Linux文件系统 5.2.1 Linux本地文件系统 5.2.2 虚拟文件系统 5.2.3 Linux文件保护机制 5.2.4 Linux文件系统API 5.3 分布式文件系统 5.3.1 分布式文件系统的特性 5.3.2 基本NFS体系结构 5.3.3 NFS支持的文件操作 5.4 Java文件系统 5.4.1 Java文件系统API 5.4.2 URI和URL 5.4.3 Java输入输出流 5.4.4 随机存取文件 5.5 Hadoop抽象文件系统 5.5.1 Hadoop文件系统API 5.5.2 Hadoop输入输出流 5.5.3 Hadoop文件系统中的权限 5.5.4 抽象文件系统中的静态方法 5.5.5 Hadoop文件系统中的协议处理器 5.6 Hadoop具体文件系统 5.6.1 FileSystem层次结构 5.6.2 RawLocalFileSystem的实现 5.6.3 ChecksumFileSystem的实现 5.6.4 RawInMemoryFileSystem的实现 5.7 小结 第三部分 Hadoop分布式文件系统 第6章 HDFS概述 6.1 初识HDFS 6.1.1 HDFS主要特性 6.1.2 HDFS体系结构 6.1.3 HDFS源代码结构 6.2 基于远程过程调用的接口 6.2.1 与客户端相关的接口 6.2.2 HDFS各服务器间的接口 6.3 非远程过程调用接口 6.3.1 数据节点上的非IPC接口 6.3.2 名字节点和第二名字节点上的非IPC接口 6.4 HDFS主要流程 6.4.1 客户端到名字节点的文件与目录操作 6.4.2 客户端读文件 6.4.3 客户端写文件 6.4.4 数据节点的启动和心跳 6.4.5 第二名字节点合并元数据 6.5 小结 第7章 数据节点实现 7.1 数据块存储 7.1.1 数据节点的磁盘目录文件结构 7.1.2 数据节点存储的实现 7.1.3 数据节点升级 7.1.4 文件系统数据集的工作机制 7.2 流式接口的实现 7.2.1 DataXceiverServer和DataXceiver 7.2.2 读数据 7.2.3 写数据 7.2.4 数据块替换、数据块拷贝和读数据块检验信息 7.3 作为整体的数据节点 7.3.1 数据节点和名字节点的交互 7.3.2 数据块扫描器 7.3.3 数据节点的启停 7.4 小结 第8章 名字节点实现 8.1 文件系统的目录树 8.1.1 从i-node到INode 8.1.2 命名空间镜像和编辑日志 8.1.3 第二名字节点 8.1.4 FSDirectory的实现 8.2 数据块和数据节点管理 8.2.1 数据结构 8.2.2 数据节点管理 8.2.3 数据块管理 8.3 远程接口ClientProtocol的实现 8.3.1 文件和目录相关事务 8.3.2 读数据使用的方法 8.3.3 写数据使用的方法 8.3.4 工具dfsadmin依赖的方法 8.4 名字节点的启动和停止 8.4.1 安全模式 8.4.2 名字节点的启动 8.4.3 名字节点的停止 8.5 小结 第9章 HDFS客户端 9.1 认识DFSClient 9.1.1 DFSClient的构造和关闭 9.1.2 文件和目录、系统管理相关事务 9.1.3 删除HDFS文件目录的流程 9.2 输入流 9.2.1 读数据前的准备:打开文件 9.2.2 读数据 9.2.3 关闭输入流 9.2.4 读取HDFS文件数据的流程 9.3 输出流 9.3.1 写数据前的准备:创建文件 9.3.2 写数据:数据流管道的建立 9.3.3 写数据:数据包的发送 9.3.4 写数据:数据流管道出错处理 9.3.5 写数据:租约更新 9.3.6 写数据:DFSOutputStream.sync()的作用 9.3.7 关闭输出流 9.3.8 向HDFS文件写入数据的流程 9.4 DistributedFileSystem的实现 9.5 HDFS常用工具 9.5.1 FsShell 9.5.2 DFSAdmin 9.6 小结

2015-11-24

Hadoop权威指南.pdf

第1章 初识Hadoop 第2章 MapReduce简介 第3章 Hadoop分布式文件系统 第4章 Hadoop的I/O 第5章 MapReduce应用开发 第6章 MapReduce的工作原理 第7章 MapReduce的类型与格式 第8章 MapReduce特性 第9章 Hadoop集群的安装 第10章 Hadoop的管理 第11章 Pig简介 第12章 Hbase简介 第13章 ZooKeeper简介 第14章 案例研究 附录A Apache Hadoop的安装 附录B Cloudera的Hadoop分发包 附录C 预备NCDC气象资料

2015-11-24

鸟哥的Linux私房菜基础篇-第三版.pdf

《鸟哥的Linux私房菜:基础学习篇》是最具知名度的Linux入门书《鸟哥的Linux私房菜基础学习篇》的最新版,全面而详细地介绍了Linux操作系统。全书分为5个部分:第一部分着重说明Linux的起源及功能,如何规划和安装Linux主机;第二部分介绍Linux的文件系统、文件、目录与磁盘的管理;第三部分介绍文字模式接口shell和管理系统的好帮手shell脚本,另外还介绍了文字编辑器vi和vim的使用方法;第四部分介绍了对于系统安全非常重要的Linux账号的管理,以及主机系统与程序的管理,如查看进程、任务分配和作业管理;第五部分介绍了系统管理员(root)的管理事项,如了解系统运行状况、系统服务,针对登录文件进行解析,对系统进行备份以及核心的管理等。

2015-11-14

Scala编程(中文版).pdf

简介 第1章 可伸展的语言 第2章 Scala入门初探 第3章 Scala入门再探 第4章 类和对象 第5章 基本类型和操作 第6章 函数式对象 第7章 内建控制结构 第8章 函数和闭包 第9章 控制抽象 第10章 组合与继承 第11章 Scala的层级 第12章 特质 第13章 包和引用 第14章 断言和单元测试 第15章 样本类和模式匹配 第16章 使用列表 第17章 集合类型 第18章 有状态的对象 第19章 类型参数化 第20章 抽象成员 第21章 隐式转换和参数 第22章 实现列表 第23章 重访For表达式 第24章 抽取器(Extractors) 第25章 注解 第26章 使用XML 第27章 使用对象的模块化编程 第28章 对象相等性 第29章 结合Scala和Java 第30章 Actor和并发 第31章 连结符解析 第32章 GUI编程 第33章 Scell试算表 附录AUnix和Windows的Scala脚本 术语表 参考文献 关于作者 索引

2015-11-12

快学Scala.pdf

Scala是一门以Java虚拟机(JVM)为目标运行环境并将面向对象和函数式编程语言的最佳特性结合在一起的编程语言。你可以使用Scala编写出更加精简的程序,同时充分利用并发的威力。由于Scala运行于JVM之上,因此它可以访问任何Java类库并且与Java框架进行互操作。本书从实用角度出发,给出了一份快速的、基于代码的入门指南。Horstmann以“博客文章大小”的篇幅介绍了Scala的概念,让你可以快速地掌握和应用。实际上手的操作,清晰定义的能力层次,从初级到专家级,全程指导。 《快学Scala》适合有一定的Java编程经验、对Scala感兴趣,并希望尽快掌握Scala核心概念和用法的开发者阅读。

2015-11-12

Scala编程中文版.pdf

简介 第1章 可伸展的语言 第2章 Scala入门初探 第3章 Scala入门再探 第4章 类和对象 第5章 基本类型和操作 第6章 函数式对象 第7章 内建控制结构 第8章 函数和闭包 第9章 控制抽象 第10章 组合与继承 第11章 Scala的层级 第12章 特质 第13章 包和引用 第14章 断言和单元测试 第15章 样本类和模式匹配 第16章 使用列表 第17章 集合类型 第18章 有状态的对象 第19章 类型参数化 第20章 抽象成员 第21章 隐式转换和参数 第22章 实现列表 第23章 重访For表达式 第24章 抽取器(Extractors) 第25章 注解 第26章 使用XML 第27章 使用对象的模块化编程 第28章 对象相等性 第29章 结合Scala和Java 第30章 Actor和并发 第31章 连结符解析 第32章 GUI编程 第33章 Scell试算表 附录AUnix和Windows的Scala脚本 术语表 参考文献 关于作者 索引

2015-11-12

查看更多

勋章 我的勋章
    暂无奖章