joshua_qi-CSDN博客

原创 Azkaban安装部署&邮箱配置详细教程

一、环境信息系统：centos7+ mysql：5.7+ azkaban：3.77.0 安装方式：编译安装二、介绍Azkaban是LinkedIn开源的任务调度框架，用于调度任务，常用于大数据离线任务调度。例如：每天晚上1：00定时执行ELT任务。三、架构分析Relational Database：存储元数据，如项目名称、项目描述、项目权限、任务状态、SLA规则等。Azkab...

2021-08-12 14:57:44 1200

原创摩托车/电动车/汽车等加装射灯控制电路

需求： 1、灯光需要用电瓶供电。 2、灯光开关和大灯同步优点：本电路图不用连接ACC取电，因为是继电器控制也不会造成电瓶亏电。成本：除灯外，继电器等材料自己买差不多成本20左右。...

2021-01-06 17:08:49 2925

原创 Flink1.11从0到1：（七）Flink 常用 API 详解

前言：因flink升级至1.11，故后期版本至1.11一、简介 Flink 根据抽象程度分层，提供了三种不同的 API 和库。每一种 API 在简洁性和表达力上有着不同的侧重，并且针对不同的应用场景。 ProcessFunction：是 Flink 所提供最底层接口。ProcessFunction 可以处理一或两条输入数据流中的单个事件或者归入一个特定窗口内的多个事件。它提供了对于时间和状态的细粒度控制。开发者可以在其中任意地修改状态，也能够注册定时器用以在未来的某一时...

2020-10-28 14:42:34 442

原创 Flink1.10从0到1：（六）Flink的并行度和Slot

一、简介 Flink中每一个worker(TaskManager)都是一个JVM进程，它可能会在独立的线程（Solt）上执行一个或多个 subtask。Flink 的每个 TaskManager 为集群提供 Solt。Solt 的数量通常与每个 TaskManager 节点的可用 CPU 内核数成比例，一般情况下 Slot 的数量就是每个节点的 CPU 的核数。Slot的数量由集群中flink-conf.yaml配置文件中设置taskmanager.numberOfTaskSlots 的...

2020-07-07 15:44:26 874 2

原创 Flink1.10从0到1：（五）Flink的HA

一、简介默认情况下，每个 Flink 集群只有一个 JobManager，这将导致单点故障（SPOF），如果这个 JobManager 挂了，则不能提交新的任务，并且运行中的程序也会失败。使用JobManager HA，集群可以从 JobManager 故障中恢复，从而避免单点故障。用户可以在Standalone 或 Flink on Yarn 集群模式下配置 Flink 集群 HA（高可用性）。 Standalone 模式下，JobManager 的高可用性的基本思想...

2020-07-07 11:55:25 205

原创 Flink1.10从0到1：（四）Flink On Yarn 和命令详解

一、简介 Flink on Yarn 模式的原理是依靠 YARN 来调度 Flink 任务，目前在企业中使用较多。这种模式的好处是可以充分利用集群资源，提高集群机器的利用率，并且只需要 1 套 Hadoop集群，就可以执行 MapReduce 和 Spark 任务，还可以执行 Flink 任务等，操作非常方便，不需要维护多套集群，运维方面也很轻松。Flink on Yarn 模式需要依赖 Hadoop 集群，并且Hadoop 的版本需要是 2.2 及以上。PS：本人运行环境是基于clo...

2020-07-07 10:53:26 704

原创 Flink1.10从0到1：（三）安装和部署

一、介绍 Flink 的安装和部署主要分为本地（单机）模式和集群模式，其中本地模式只需直接解压就可以使用，不以修改任何参数，一般在做一些简单测试的时候使用。集群模式包含： Standalone Flink on Yarn Mesos Docker Kubernetes AWS Goole Compute Engine目前在企业中使用最多的是 Flink o...

2020-07-06 18:08:53 730

原创 Flink1.10从0到1：（三）WordCount

一、开发环境语言：Scala_2.11.12 Apache Flink：1.10二、开发工具官方建议使用 IntelliJ IDEA，因为它默认集成了 Scala和 Maven 环境，使用更加方便，当然使用 Eclipse 也是可以的。开发 Flink 程序时，可以使用 Java、Python 或者 Scala 语言，本人使用 Scala，因为使用 Scala 实现函数式编程会比较简洁。三、配置依赖开发 Flink 应用程序...

2020-07-02 17:45:02 281

原创 Flink1.10从0到1：（二）初识Flink

一、Flink是什么 Apache Flink is a framework and distributed processing engine for stateful computations overunbounded and boundeddata streams. Flink has been designed to run inall common cluster environments, perform computations atin-memory speed...

2020-06-30 18:40:46 178

原创 Flink1.10从0到1：（一）为什么要学习Flink

前言：本博客用于监督记录本人学习Flink。会从0开始分享一些学习过程。思考: 目前实时框架有老牌Strom，也有Strom的升级版Trident，还有应用广泛的Spark Streaming。为什么又出了个Flink？与其他两者相比Flink有什么优势？解答：不多哔哔直接对比！！！框架处理机制 API 保证次数容错状态管理延时吞吐量 Storm Native(数据进入...

2020-06-30 17:18:44 196

原创 CDH整合Flink1.10(小白教程)

Flink1.10一个划时代的版本，它标志着对 Blink[1] 的整合宣告完成。而且随着对 Hive 的生产级别集成及对 TPC-DS 的全面覆盖，Flink 在增强流式 SQL 处理能力的同时也具备了成熟的批处理能力。众所周知，Apache Flink官网下载安装包不能支持CDH，需要编译后进行安装，参照网上很多资料，尝试了多天，终于成功，供大家参考。一、环境准备1、环境：Jdk 1.8、centos7.6、Maven 3.6.3和Scala-2.112、源...

2020-05-09 11:21:45 6826

原创 CDH版本Flume报错：java.lang.NoSuchMethodError

问题：用Flume同步mysql数据到kafka的时候，会导入一个flume-ng-sql-souce.jar的插件。但开源社区的插件是apache flume版本的，与CDH版本的不兼容，会报如下错误：java.lang.NoSuchMethodError20/4/16 15:40:23 ERROR node.PollingPropertiesFileConfigurationP...

2020-04-19 21:30:45 577

原创基于flume同步mysql数据至kafka(小白入手超详细)

一、前言：现在需要经mysql的数据定时同步到kafka，一开始用的canal但是不知道为啥没成功，启动起来了但就是数据过去不，查看log也不报错，所以转到flume。发现flume挺好用的，而且灵活。二、同步原理： Flume原理就不多介绍了，文章一大把，我说一下，连接sql的原理。我调的是网上的开源插件，看了一下log日志，特意分享一下原理，有错误的希望指出，大...

2020-04-18 11:50:03 1617

原创重启cloudera报错：ERROR main:com.cloudera.server.cmf.Main: Server failed.

2020-04-13 16:44:27,218 ERROR main:com.cloudera.server.cmf.Main: Server failed.org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'com.cloudera.server.cmf.TrialSta...

2020-04-13 17:00:02 3548

原创 spark的宽依赖和窄依赖

我们都知道依赖分为两种：宽依赖和窄依赖。如图所示一个方框表示一个RDD，实心蓝底的框表示partition，从图中可以看出，宽依赖与窄依赖的区分主要是父partition与子partition的对应关系。窄依赖（图左）：父partition对子partition是一对一或多对一。宽依赖（图右）：父partition对子partition是一对多。窄依赖一般是对RDD进行

2017-01-17 22:42:50 2604

安卓反编译工具(APKDB.2.0.2)

APKDB版是一款针对Android OS系统的APK文件编译程序，直接反编译修改的工具包。APKDB 中文版集合了当今最强悍，最犀利的APK及Dex文件编译工具;正常装后，APKDB软件会在鼠标右键创建快捷菜单，非常方便者使用。 APKDB 中文版执行安装后，直接在【鼠标右键】生成快捷键，自动关联APK、DEX、Odex、zip文件。只要在电脑任意非C盘根目录，【鼠标右键】点击相关文件，即可编译操作。如，反编译APK及DEX文件，反编译后生成可编译的同名文件夹，修改完成后，对文件夹点击【鼠标右键】根据文件夹反编译前的文件类型，现在【回编译XXX文件】即可! 同时，针对apk和zi

2020-08-19

基于CDH安装部署的flume导入mysql数据到kafak的jar包

利用flume将mysql的数据同步到kafak，flume是基于CDH6.2.0安装的。解决已下问题：java.lang.NoSuchMethodError: org.apache.flume.Context.getSubProperties(Ljava/lang/String;)Lcom/google/common/collect/ImmutableMap;

2020-04-18

flume-mysql.zip

里面由三部分组成 1、flume连接mysql的jar，可用于同步至kafka，数据格式：json格式 2、mysql的jar，flume需要这个 3、1.9版本的flume的tar包

2020-04-18

flume-mysql.zip

里面由两部分组成 1、flume连接mysql的jar，可用于同步至kafka，数据格式：json格式 2、mysql的jar，flume需要这个

2020-04-18

hadoop.dll

解决：java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(II[BI[BIILjava/lang/String;JZ)V 改异常是由于hadoop.dll 版本问题出现的，2.4之前的和之后的需要的不一样，需要选择正确的版本(包括操作系统的版本),并且在 Hadoop/bin上将其替换。

2018-09-03

人工智能标准化白皮书（2018）

最新版的人工智能标准化，2018版，高清版，开发必备，由阿里、腾讯、华为、中科院等编写

2018-01-25

Tensorflow实战Google深度学习框架(高清)

TensorFlow是谷歌2015年开源的主流深度学习框架，目前已在谷歌、优步（Uber）、京东、小米等科技公司广泛应用。《TensorFlow：实战Google深度学习框架》为使用TensorFlow深度学习框架的入门参考书，旨在帮助读者以更快、更有效的方式上手TensorFlow和深度学习。书中省略了深度学习繁琐的数学模型推导，从实际应用问题出发，通过具体的TensorFlow样例程序介绍如何使用深度学习解决这些问题。《TensorFlow：实战Google深度学习框架》包含了深度学习的入门知识和大量实践经验，是走进这个更新、更火的人工智能领域的推荐参考书。作者简介

2018-01-17

Java从入门到精通第三版

《软件开发视频大讲堂 Java从入门到精通（第3版）》从初学者角度出发，通过通俗易懂的语言、丰富多彩的实例，详细介绍了使用Java语言进行程序开发需要掌握的知识。全书分为28章，包括初识Java，熟悉Eclipse开发工具，Java语言基础，流程控制，字符串，数组，类和对象，包装类，数字处理类，接口、继承与多态，类的高级特性，异常处理，Swing程序设计，集合类，I/O（输入/输出），反射，枚举类型与泛型，多线程，网络通信，数据库操作，Swing表格组件，Swing树组件，Swing其他高级组件，高级布局管理器，高级事件处理，AWT绘图与音频播放，打印技术和企业进销存管理系统等。书中所有知识都结合具体实例进行介绍，涉及的程序代码给出了详细的注释，可以使读者轻松领会Java程序开发的精髓，快速提高开发技能。另外，本书除了纸质内容之外，配书光盘中还给出了海量开发资源库，主要内容如下：　　◆语音视频讲解：总时长32小时，共312段　　◆实例资源库：732个实例及源码详细分析　　◆模块资源库：15个经典模块开发过程完整展现　　◆项目案例资源库：15个企业项目开发过程完整展现　　◆测试题库系统：616道能力测试题目　　◆面试资源库：369个企业面试真题　　◆PPT电子教案　　《Java从入门到精通（第3版）》适合作为软件开发入门者的自学用书，也适合作为高等院校相关专业的教学参考书，也可供开发人员查阅、参考。

2018-01-17

UNIX网络编程卷1：套接字联网API（第3版）

《UNIX网络编程卷1 套接字联网API（第3版）》是一部UNIX网络编程的经典之作！书中全面深入地介绍了如何使用套接字API进行网络编程。全书不但介绍了基本编程内容，还涵盖了与套接字编程相关的高级主题，对于客户/服务器程序的各种设计方法也作了完整的探讨，还深入分析了流这种设备驱动机制。　　本书几乎每章都提供精选的习题，并提供了部分习题的答案，是网络研究和开发人员理想的参考书

2018-01-17

机器学习实战中文版+英文版+源码

机器学习是人工智能研究领域中一个极其重要的研究方向，在现今的大数据时代背景下，捕获数据并从中萃取有价值的信息或模式，成为各行业求生存、谋发展的决定性手段，这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。　　《机器学习实战》主要介绍机器学习基础，以及如何利用算法进行分类，并逐步介绍了多种经典的监督学习算法，如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树（CART）算法等。第三部分则重点介绍无监督学习及其一些主要算法：k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。　　《机器学习实战》通过精心编排的实例，切入日常工作任务，摒弃学术化语言，利用高效的可复用Python代码来阐释如何处理统计数据，进行数据分析及可视化。通过各种实例，读者可从中学会机器学习的核心算法，并能将其运用于一些策略性任务中，如分类、预测、推荐。另外，还可用它们来实现一些更高级的功能，如汇总和简化等。

2018-01-17

精通Nginx（第2版）

Nginx是一个高性能的轻量级Web服务器，本书从配置文件的角度出发，介绍了多种关于Nginx配置的技巧。本书以模块化风格写成，几乎每一章都是一个独立的模块，读者将能够自由地在各个模块间切换阅读。全书分两部分，第1部分用9章内容介绍了安装Nginx及第三方模块、配置向导、使用mail模块、Nginx作为反向代理、Nginx Http服务器、Nginx的开发、在Nginx中集成Lua以及故障排除技巧；第二部分用4个附录的形式介绍了指令参考、Rewrite规则指南、Nginx社区以及Solaris系统下的网络调优。本书适合在安装和配置服务器方面有经验的系统管理员或系统工程师，阅读本书不需要任何Nginx使用经验，相信这本书会帮助读者更好地完成任务。

2018-01-15

图解网络硬件完整版

《图灵程序设计丛书：图解网络硬件》详细介绍了网络硬件的相关知识。在对硬件设备、相关技术及规范详尽考据的同时，侧重实践，重点介绍了在实际网络建设工程中使用的硬件设备，辅以丰富的图例，使网络硬件的真实情况一目了然，并深入浅出地解释了复杂的网络术语，因此对于想了解实际网络设备的读者来说是不可或缺的参考资料，也可作为大学课程《计算机网络》的扩展读物。《图灵程序设计丛书：图解网络硬件》还介绍了大量非思科设备和数据通信领域的知识，对于学习CCNA、CCIE等的读者和相关工程技术人员也很具有参考价值。

2018-01-15

TensorFlow实战

Google近日发布了TensorFlow 1.0候选版，这个稳定版将是深度学习框架发展中的里程碑的一步。自TensorFlow于2015年底正式开源，距今已有一年多，这期间TensorFlow不断给人以惊喜，推出了分布式版本，服务框架TensorFlow Serving，可视化工具TensorFlow，上层封装TF.Learn，其他语言（Go、Java、Rust、Haskell）的绑定、Windows的支持、JIT编译器XLA、动态计算图框架Fold，以及数不胜数的经典模型在TensorFlow上的实现（Inception Net、SyntaxNet等）。在这一年多时间，TensorFlow已从初入深度学习框架大战的新星，成为了几近垄断的行业事实标准。, 《TensorFlow实战》希望用简单易懂的语言带领大家探索TensorFlow（基于1.0版本API）。在《TensorFlow实战》中我们讲述了TensorFlow的基础原理，TF和其他框架的异同。并用具体的代码完整地实现了各种类型的深度神经网络：AutoEncoder、MLP、CNN（AlexNet，VGGNet，Inception Net，ResNet）、Word2Vec、RNN（LSTM，Bi-RNN）、Deep Reinforcement Learning(Policy Network、Value Network)。此外，《TensorFlow实战》还讲解了TensorBoard、多GPU并行、分布式并行、TF.Learn和其他TF.Contrib组件。《TensorFlow实战》希望能帮读者快速入门TensorFlow和深度学习，在工业界或者研究中快速地将想法落地为可实践的模型。

2018-01-15

利用Python进行数据分析

【名人推荐】, “科学计算和数据分析社区已经等待这本书很多年了：大量具体的实践建议，以及大量综合应用方法。本书在未来几年里肯定会成为Python领域中技术计算的权威指南。”, ——Fernando Pérez　加州大学伯克利分校研究科学家， IPython的创始人之一, 【内容简介】, 还在苦苦寻觅用Python控制、处理、整理、分析结构化数据的完整课程？本书含有大量的实践案例，你将学会如何利用各种Python库（包括NumPy、pandas、matplotlib以及IPython等）高效地解决各式各样的数据分析问题。, 由于作者Wes McKinney是pandas库的主要作者，所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。, •将IPython这个交互式Shell作为你的首要开发环境。, •学习NumPy（Numerical Python）的基础和高级知识。, •从pandas库的数据分析工具开始。, •利用高性能工具对数据进行加载、清理、转换、合并以及重塑。, •利用matplotlib创建散点图以及静态或交互式的可视化结果。, •利用pandas的groupby功能对数据集进行切片、切块和汇总操作。, •处理各种各样的时间序列数据。, •通过详细的案例学习如何解决Web分析、社会科学、金融学以及经•济学等领域的问题。

2018-01-10

算法分析导论（美）塞奇威克

在有关算法的书中，有一些叙述非常严谨，但不够全面；另一些涉及了大量的题材，但又缺乏严谨性。《算法导论（原书第3版）/计算机科学丛书》将严谨性和全面性融为一体，深入讨论各类算法，并着力使这些算法的设计和分析能为各个层次的读者接受。全书各章自成体系，可以作为独立的学习单元；算法以英语和伪代码的形式描述，具备初步程序设计经验的人就能看懂；说明和解释力求浅显易懂，不失深度和数学严谨性。　　《算法导论（原书第3版）/计算机科学丛书》全书选材经典、内容丰富、结构合理、逻辑清晰，对本科生的数据结构课程和研究生的算法课程都是非常实用的教材，在IT专业人员的职业生涯中，《算法导论（原书第3版）/计算机科学丛书》也是一本案头必备的参考书或工程实践手册。　　第3版的主要变化：　　·新增了van Emde Boas树和多线程算法，并且将矩阵基础移至附录。　　·修订了递归式（现在称为“分治策略”）那一章的内容，更广泛地覆盖分治法。　　·移除两章很少讲授的内容：二项堆和排序网络。　　·修订了动态规划和贪心算法相关内容。　　·流网络相关材料现在基于边上的全部流。　　·由于关于矩阵基础和Strassen算法的材料移到了其他章，矩阵运算这一章的内容所占篇幅更小。　　·修改了对Knuth-Morris-Pratt字符串匹配算法的讨论。　　·新增100道练习和28道思考题，还更新并补充了参考文献。

2018-01-10

算法（第四版）高清完整版pdf

《算法（第4版）》全面讲述算法和数据结构的必备知识，具有以下几大特色。　　1、算法领域的经典参考书：Sedgewick畅销著作的新版，反映了经过几十年演化而成的算法核心知识体系　　2、内容全面：全面论述排序、搜索、图处理和字符串处理的算法和数据结构，涵盖每位程序员应知应会的50种算法　　3、全新修订的代码：全新的Java实现代码，采用模块化的编程风格，所有代码均可供读者使用　　4、与实际应用相结合：在重要的科学、工程和商业应用环境下探讨算法，给出了算法的实际代码，而非同类著作常用的伪代码　　5、富于智力趣味性：简明扼要的内容，用丰富的视觉元素展示的示例，精心设计的代码，详尽的历史和科学背景知识，各种难度的练习，这一切都将使读者手不释卷　　6、科学的方法：用合适的数学模型讨论算法性能，这些模型是在真实环境中得到验证的　　7、与网络相结合：配套网站algs4.cs.princeton.edu提供了本书内容的摘要及相关的代码、测试数据、编程练习、教学课件等资源

2018-01-10

tesseract-ocr-setup-4.00.00dev

****版本：4.00，内涵简体中文翻译**** Tesseract，一款由HP实验室开发由Google维护的开源OCR（Optical Character Recognition , 光学字符识别）引擎，与Microsoft Office Document Imaging（MODI）相比，我们可以不断的训练的库，使图像转换文本的能力不断增强；如果团队深度需要，还可以以它为模板，开发出符合自身需求的OCR引擎

2018-01-10

js特效打雷闪电效果

js代码，有打雷和闪电的特效，亲测可用，内有注释，根据注释使用

2018-01-08

鸟哥的Linux私房菜

本书是最具知名度的Linux入门书《鸟哥的Linux私房菜基础学习篇》的最新版，全面而详细地介绍了Linux操作系统。全书分为5个部分：第一部分着重说明Linux的起源及功能，如何规划和安装Linux主机；第二部分介绍Linux的文件系统、文件、目录与磁盘的管理；第三部分介绍文字模式接口 shell和管理系统的好帮手shell脚本，另外还介绍了文字编辑器vi和vim的使用方法；第四部分介绍了对于系统安全非常重要的Linux账号的管理，以及主机系统与程序的管理，如查看进程、任务分配和作业管理；第五部分介绍了系统管理员(root)的管理事项，如了解系统运行状况、系统服务，针对登录文件进行解析，对系统进行备份以及核心的管理等。, 本书内容丰富全面，基本概念的讲解非常细致，深入浅出。各种功能和命令的介绍，都配以大量的实例操作和详尽的解析。本书是初学者学习Linux不可多得的一本入门好书。

2018-01-05

Hadoop Operations

If you've been tasked with the job of maintaining large and complex Hadoop clusters, or are about to be, this book is a must. You'll learn the particulars of Hadoop operations, from planning, installing, and configuring the system to providing ongoing maintenance. Hadoop is being adopted by more and more Fortune 500 companies, and the demand for operations-specific material has skyrocketed. This book - written by Eric Sammer, Principal Solution Architect at Cloudera - is the definitive operations guide for administrators. Developers who want to improve MapReduce jobs by learning how Hadoop works in large production environments will also benefit. Application administrators responsible for the health and operation of large distributed applications or systems will find this guide extremely useful.

2018-01-05

Learning Hadoop2

If you are a system or application developer interested in learning how to solve practical problems using the Hadoop framework, then this book is ideal for you. You are expected to be familiar with the Unix/Linux command-line interface and have some experience with the Java programming language. Familiarity with Hadoop would be a plus.

2018-01-05

Learning Spark

Data in all domains is getting bigger. How can you work with it efficiently? Recently updated for Spark 1.3, this book introduces Apache Spark, the open source cluster computing system that makes data analytics fast to write and fast to run. With Spark, you can tackle big datasets quickly through simple APIs in Python, Java, and Scala. This edition includes new information on Spark SQL, Spark Streaming, setup, and Maven coordinates. Written by the developers of Spark, this book will have data scientists and engineers up and running in no time. You'll learn how to express parallel jobs with just a few lines of code, and cover applications from simple batch jobs to stream processing and machine learning. Quickly dive into Spark capabilities such as distributed datasets, in-memory caching, and the interactive shell Leverage Spark's powerful built-in libraries, including Spark SQL, Spark Streaming, and MLlib Use one programming paradigm instead of mixing and matching tools like Hive, Hadoop, Mahout, and Storm Learn how to deploy interactive, batch, and streaming applications Connect to data sources including HDFS, Hive, JSON, and S3 Master advanced topics like data partitioning and shared variables

2018-01-05

Spark GraphX In Action

Spark GraphX in Action starts out with an overview of Apache Spark and the GraphX graph processing API. This example-based tutorial then teaches you how to configure GraphX and how to use it interactively. Along the way, you'll collect practical techniques for enhancing applications and applying machine learning algorithms to graph data. Purchase of the print book includes a free eBook in PDF, Kindle, and ePub formats from Manning Publications.

2018-01-05

Spark大数据处理：技术、应用与性能优化

《Spark大数据处理：技术、应用与性能优化》根据最新技术版本，系统、全面、详细讲解Spark的各项功能使用、原理机制、技术细节、应用方法、性能优化，以及BDAS生态系统的相关技术。, 作为一个基于内存计算的大数据并行计算框架，Spark不仅很好地解决了数据的实时处理问题，而且保证了高容错性和高可伸缩性。具体来讲，它有如下优势：, 打造全栈多计算范式的高效数据流水线, 轻量级快速处理, 易于使用，支持多语言, 与HDFS等存储层兼容, 社区活跃度高, ……, Spark已经在全球范围内广泛使用，无论是Intel、Yahoo!、Twitter、阿里巴巴、百度、腾讯等国际互联网巨头，还是一些尚处于成长期的小公司，都在使用Spark。本书作者结合自己在微软和IBM实践Spark的经历和经验，编写了这本书。站着初学者的角度，不仅系统、全面地讲解了Spark的各项功能及其使用方法，而且较深入地探讨了Spark的工作机制、运行原理以及BDAS生态系统中的其他技术，同时还有一些可供操作的案例，能让没有经验的读者迅速掌握Spark。更为重要的是，本书还对Spark的性能优化进行了探讨。

2018-01-05

大数据-Storm实时数据处理

在大数据领域，Hadoop无疑是最炙手可热的技术。作为分布式系统架构，Hadoop具有高可靠性、高扩展性、高效性、高容错性和低成本的优点。然而随着数据体积越来越大，实时处理能力成为了许多机构需要面对的首要挑战。Hadoop是一个批处理系统，在实时计算处理方面显得十分乏力。storm是一个类似于Hadoop勺实时数据处理框架，也是一个非常有效的开源实时计算工具，通常被比作“实时的Hadoop”。　　《大数据技术丛书：Storm实时数据处理》通过丰富的实例，系统讲解Storm的基础知识和实时数据处理的最佳实践方法，内容涵盖Storm本地开发环境搭建、日志流数据处理、Trident、分布式远程过程调用、Topology在不同编程语言中的实现方法、Storm与Hadoop的集成方法、实时机器学习、持续交付和如何在AWS上部署Storm。此外，《大数据技术丛书：Storm实时数据处理》旨在围绕Storm技术促进DevOps实践，使读者能够开发Storm解决方案，同时可靠地交付有价值的产品。　　《大数据技术丛书：Storm实时数据处理》适合想学习实时处理技术或者想通过Storm实现实时处理方法的开发者阅读。

2018-01-05

Storm实战：构建大数据实时计算

随着大数据实时处理需求的强劲增长，Storm的出现填补了大数据处理生态系统的缺失，并被越来越多的公司所采用。阿里巴巴集团数据平台事业部商家数据业务部正是最早使用Storm的技术团队之一。　　《Storm实战：构建大数据实时计算》是一本系统并且具有实践指导意义的Storm工具书和参考书，对Storm整个技术体系进行了全面的讲解，不仅包括对基本概念、特性的介绍，也涵盖了一些原理说明。　　实战性很强，各章节都提供了一些小案例，同时对于本地，以及集群环境的部署有详细介绍，易于理解，操作性强。　　《Storm实战：构建大数据实时计算》一共分为10章：第1章全面介绍了Storm的特性、能解决什么问题，以及和其他流计算系统的对比；第2章通过实际运行一个简单的例子，以及介绍本地环境和集群环境的搭建，让读者对Storm有了直观的认识；第3章深入讲解了Storm的基本概念，同时实现一个Topology运行；第4章和第5章阐述了Storm的并发度、可靠处理的特性；第6章~第8章详细而系统地讲解了几个高级特性：事务、DRPC和Trident；第9章以实例的方式讲解了Storm在实际业务场景中的应用；第10章总结了几个在大数据场景应用过程中遇到的经典问题，以及详细的排查过程。

2018-01-05

大数据-大数据挑战与NoSQL数据库技术

《大数据挑战与NoSQL数据库技术》共分为三部分。理论篇重点介绍大数据时代下数据处理的基本理论及相关处理技术，并引入NoSQL数据库；系统篇主要介绍了各种类型NoSQL数据库的基本知识；应用篇对国内外几家知名公司在利用NoSQL数据库处理海量数据方面的实践做了阐述。　　《大数据挑战与NoSQL数据库技术》对大数据时代面临的挑战，以及NoSQL数据库的基本知识做了清晰的阐述，有助于读者整理思路，了解需求，并更有针对性、有选择地深入学习相关知识。

2018-01-05

大数据-高可用性的HDFS——Hadoop分布式文件系统深度实践

高可用性的HDFS：Hadoop分布式文件系统深度实践专注于Hadoop分布式文件系统（HDFS）的主流HA解决方案，内容包括：HDFS元数据解析、Hadoop元数据备份方案、Hadoop Backup Node方案、AvatarNode解决方案以及最新的HA解决方案Cloudrea HA Name Node等。其中有关Backup Node方案及AvatarNode方案的内容是本书重点，尤其是对AvatarNode方案从运行机制到异常处理方案的步骤进行了详尽介绍，同时还总结了各种异常情况下AvatarNode的各种处理方案。高可用性的HDFS：Hadoop分布式文件系统深度实践从代码入手并结合情景分析、案例解说对HDFS的元数据以及主流的HDFS HA解决方案的运行机制进行了深入剖析，力求使读者在解决问题时做到心中有数，不仅知其然还知其所以然。高可用性的HDFS：Hadoop分布式文件系统深度实践主要为云计算相关领域的研发人员、云计算系统管理维护人员，也适合作为高校研究生和高年级本科生的专业课辅助教材。

2018-01-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

安卓反编译工具(APKDB.2.0.2)

基于CDH安装部署的flume导入mysql数据到kafak的jar包

flume-mysql.zip

flume-mysql.zip

hadoop.dll

人工智能标准化白皮书（2018）

Tensorflow实战Google深度学习框架(高清)

Java从入门到精通 第三版

UNIX网络编程卷1：套接字联网API（第3版）

机器学习实战中文版+英文版+源码

精通Nginx（第2版）

图解网络硬件完整版

TensorFlow实战

利用Python进行数据分析

算法分析导论（美）塞奇威克

算法（第四版）高清完整版pdf

tesseract-ocr-setup-4.00.00dev

js特效打雷闪电效果

鸟哥的Linux私房菜

Hadoop Operations

Learning Hadoop2

Learning Spark

Spark GraphX In Action

Spark大数据处理：技术、应用与性能优化

大数据-Storm实时数据处理

Storm实战：构建大数据实时计算

大数据-大数据挑战与NoSQL数据库技术

大数据-高可用性的HDFS——Hadoop分布式文件系统深度实践

思维脑图软件

接口压力测试工具jmeter

基于逆波兰表达式的科学计算机源码

可用的dubb.sxd

FreeMind-win

空空如也

Java从入门到精通第三版