Jonathan-Wei-CSDN博客

原创重磅消息-Apache Flink1.7中文官方文档GitBook大公开

大家好，最近一段时间没有更新公众号，还请大家见谅！现在给大家带来一个好消息，我将公开近期我一直在努力翻译的Apache Flink中文官方文档的GitBook，希望能帮助大家一起学习Flink，一起提升！本文档由我个人耗费2个月时间翻译，个人英语能力有限，有翻译不好的地方希望大伙多加指正。谢谢！！！Flink介绍Apache Flink是一个面向数据流处理和批量数据处理的可分布...

2019-03-21 10:55:47 3047

原创 2018年20个主要的大数据认证

“大数据”一词反映了一个非常实际的增长趋势。到2020年，每个人每秒将产生1.7MB数据。根据调研机构IDC公司的调查，2020年全球数据量将增加到44万亿GB。数以亿计的智能手机和数十亿台物联网（IoT）设备每分钟产生的近300万个Facebook帖子和近300万个视频，每秒约有40,000次谷歌搜索查询。而大数据认证的数量也在不断增加，尽管不尽相同。这些资格来自供应商、教育机构、独立或行业机...

2018-12-18 09:22:28 4787

原创 Flink源码解析 | 从Example出发：理解Flink启动流程

从《Apache Flink本地部署》这篇文章中可以看到，我们启动集群都是通过脚本start-cluster.sh开始执行。我们的源码解析之路就从flink的bash脚本入手。start-cluster.shbin=`dirname "$0"`bin=`cd "$bin"; pwd`. "$bin"/config.sh# Start the JobManager instance...

2018-12-12 21:35:16 2129

原创 Apache Flink本地模式部署

Apache Flink部署模式有好几种，本文主要介绍Apache Flink的本地部署模式。本地部署模式主要用于开发者程序调试测试使用。先决条件运行系统：系统方面没有过多要求，Linux、Mac、Windows均可Java 1.8.x以上，Apache Flink不支持1.8.x以下的版本。检查系统的Java版本$ java -versionjava version "1.8...

2018-12-12 21:28:30 3218

原创 Spark集成TensorflowOnSpark standalone模式下测试mnist

微信公众号(SZBigdata-Club)：后续博客的文档都会转到微信公众号中。 1、公众号会持续给大家推送技术文档、学习视频、技术书籍、数据集等。 2、接受大家投稿支持。 3、对于各公司hr招聘的，可以私下联系我，把招聘信息发给我我会在公众号中进行推送。技术交流群：59701880 深圳广州hadoop好友会预先条件安装tensorflow环境下载tensorfl...

2018-11-12 15:28:54 1167

原创 Carbondata 1.4.0+Spark 2.2.1 On Yarn集成安装

微信公众号(SZBigdata-Club)：后续博客的文档都会转到微信公众号中。 1、公众号会持续给大家推送技术文档、学习视频、技术书籍、数据集等。 2、接受大家投稿支持。 3、对于各公司hr招聘的，可以私下联系我，把招聘信息发给我我会在公众号中进行推送。技术交流群：59701880 深圳广州hadoop好友会由于项目需要，近期一直在研究华为开源的carbondata项目，...

2018-11-12 15:26:35 927

翻译【Apache Beam系列】Apache Beam Pipeline设计

微信公众号(SZBigdata-Club)：后续博客的文档都会转到微信公众号中。 1、公众号会持续给大家推送技术文档、学习视频、技术书籍、数据集等。 2、接受大家投稿支持。 3、对于各公司hr招聘的，可以私下联系我，把招聘信息发给我我会在公众号中进行推送。技术交流群：59701880 深圳广州hadoop好友会本文主要介绍开发者在开发Apache Beam管道的时候，...

2018-11-12 15:22:26 528

原创 julia第三方包引入方法及JDBC操作

微信公众号(SZBigdata-Club)：后续博客的文档都会转到微信公众号中。 1、公众号会持续给大家推送技术文档、学习视频、技术书籍、数据集等。 2、接受大家投稿支持。 3、对于各公司hr招聘的，可以私下联系我，把招聘信息发给我我会在公众号中进行推送。技术交流群：59701880 深圳广州hadoop好友会第三方包引入引入Pkgimport Pkg引入第...

2018-11-09 15:40:18 4907

原创大数据生态圈之流式数据处理框架选择(Storm VS Kafka Streams VS Spark Streaming VS Flink VS Samza)

微信公众号(SZBigdata-Club)：后续博客的文档都会转到微信公众号中。 1、公众号会持续给大家推送技术文档、学习视频、技术书籍、数据集等。 2、接受大家投稿支持。 3、对于各公司hr招聘的，可以私下联系我，把招聘信息发给我我会在公众号中进行推送。技术交流群：59701880 深圳广州hadoop好友会随着新设备，传感器和技术的出现，数据增长率在不断加速，根据...

2018-11-08 17:09:48 2209

原创 Google黑科技，浏览器上的机器学习框架--Tensorflow.js

Google黑科技，浏览器上的机器学习框架–Tensorflow.js2018年3月30日，谷歌 TenosrFlow 开发者峰会 2018 在美国加州石景山开幕，来自全球的机器学习用户围绕 TensorFlow 展开技术演讲与演示。今年，Tensorflow做的一件很好意思的事情，发布了面向JavaScript开发者全新的学习框架Tensorflow.js，将机器学习搬上了浏览器这个...

2018-04-12 10:20:14 2511

翻译【Apache Samza 系列】实时流数据处理框架Samza中文教程（三）-- 概念

概念本章介绍在Samza高层次的概念。Streams（流）Samza处理流。流则是由一系列不可变相似类型的消息组成。举个例子，一个流可能是网站所有的点击事件，或者到一个特定数据库的所有更新操作，或者一个服务产生的所有日志，或者其他类型的时间数据。消息可以附加到流或从流中读取。一个流可以拥有任意数量的消费者，且从一个流读取消息不能删除消息（所以每个消息能有效的广播到所有消费者）。消息可以选择具有相关联

2015-02-12 16:14:11 2628

翻译【Apache Samza 系列】实时流数据处理框架Samza中文教程（二）-- 背景

背景本章介绍了关于流式计算的一些背景，描述了什么是samza，以及samza为什么会被构建出来。什么是消息？消息系统是实现近实时的异步计算的流行方式。当有消息产生时可以被放入一个消息队列（ActiveMQ，RabbitMQ）、发布-订阅系统（Kestrel，Kafka）或者日志聚合系统（Flume、Scribe）。下游消费者从这些系统中读取信息，并对其进行处理，或基于该消息的内容执行下一步操作。假设

2015-02-10 17:53:05 2397

翻译【Apache Samza 系列】实时流数据处理框架Samza中文教程（一）-- 介绍

What is Samza？Apache Samza 是一个分布式流处理框架。它使用 Apache Kafka 用于消息发送，采用 Apache Hadoop YARN 来提供容错，处理器隔离，安全性和资源管理。专用于实时数据的处理，非常像Twitter的流处理系统Storm。近日，从Apache官方博客中得知，开源的分布式流处理框架Samza历经18个月的孵化期后终于升级成为Apache的顶级项目

2015-02-10 16:50:12 3685

原创【Apache Flume系列】Flume-ng案例分享及source编码格式问题

流式分析案例场景分析；以及相关的编码处理

2014-12-09 13:51:41 10405 5

原创【apache solr系列】jcseg与pinyinTokenFilter实现中文缩写查找

结合jcseg以及pinyinTokenFilter实现搜索系统常见功能缩写搜索。

2014-10-27 11:02:32 4925 2

原创【Apache Solr系列】Solr QueryElevationComponent--实现竞价排名（手动干预）

solrconfig.xml<searchComponent name="elevator" class="org.apache.solr.handler.component.QueryElevationComponent"> string elevate.xml<requestHandler name="/elevate" class="org.apache.solr.h

2014-09-25 17:57:07 4473

原创【Apache Flume系列】Flume-ng failover 以及Load balance测试及注意事项

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。这里我主要讲述我测试flume failover（容错）和load balance（负载均衡）的几个场景以及注意的点。

2014-08-14 15:40:31 9192 3

原创【Twitter Storm系列】Storm环境配置及吞吐量测试调优--个人理解

针对当前热门实时计算技术storm的参数设置总结，已经性能测试！

2014-08-13 15:21:42 7790 7

原创【Apache Storm系列之四】Storm Topology生命周期【翻译】

前阵子写的文章大部分都是以实践为主，接下来我们来看下Topology生命周期，也就是实现流程这层的东西；

2014-01-26 15:23:30 3810

原创【Apache Storm系列之五】Stream Grouping：不同组件之间的tuples传递

在详细讲解Storm不同组件之间的tuples传递之前，我们先看下我们的结构图从上面的结构图，我们可以看到。一个topology是spouts和bolts组成的图，而Spout与Blot以及Blot与Blot之间的传递是通过Stream Grouping来完成的。定义一个topology的其中一步是定义每个bolt接收什么样的流作为输入。stream grouping就是用来定义一

2014-01-17 16:51:20 6444

原创【Apache Solr系列】使用IKAnalyzer中文分词以及自定义分词字典

之前写的Apache Solr只介绍了简单的搭建以及导入数据等功能，最近由于项目要求，添加索引分词和搜索分词功能；分词的项目有包括好几个：

2014-01-16 15:05:43 7396

原创【Twitter Storm系列】flume-ng+Kafka+Storm+HDFS 实时系统搭建

技术交流群：59701880 深圳广州hadoop好友会微信公众号：后续博客的文档都会转到微信公众号中。一直以来都想接触Storm实时计算这块的东西，最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档，自己也跟着整了一遍，之前罗宝的文章中有一些要注意点没提到的，以后一些写错的点，在这边我会做修正；内容应该说绝大部分引用罗宝的文章的，这里要谢谢罗宝兄弟，还有...

2014-01-15 09:59:05 47733 31

原创【Apache KafKa系列之一】KafKa安装部署

kafka是一种高吞吐量的分布式发布订阅消息系统，她有如下特性：通过O(1)的磁盘数据结构提供消息的持久化，这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。高吞吐量：即使是非常普通的硬件kafka也可以支持每秒数十万的消息。支持通过kafka服务器和消费机集群来分区消息。支持Hadoop并行数据加载。卡夫卡的目的是提供一个发布订阅解决方案，它可以处理消费者规模的网站中

2014-01-10 10:37:50 29168

原创【Apache Storm系列之二】Storm-0.9.0.1版本安装部署

Twitter Storm更新0.9.0.1之后，安装部署变得容易得多了，比起Storm0.8.x的版本，Storm少了zeromq和jzmq的安装，也省去了很多编译这些插件时出现的bug。

2014-01-03 11:32:22 16078 3

原创【Apache Solr系列】SolrCloud+Tomcat7多核安装配置

最近部署正式环境有这样的一个需求，使用SolrCloud部署多核。网上找了很多资料都找不到，自己查了一些资料倒腾倒腾。结果真的被我倒腾出来了！这里会涉及到solr的分布式部署，也就是SolrCloud，以及Solr Replication、Solr分片1、准备工作：环境：两台服务器10.68.237.21 website110.68.237.22 website2

2013-12-30 10:12:26 4237

原创【HBase运维系列】集群间的数据拷贝-copytable

场景：数据从老环境拷贝到新环境，两个集群建是可以通讯的集群间数据备份包括两种，一种是全停止拷贝，一种是动态备份。动态备份还包括replication、copytable以及export import这里主要讲下copytable的使用。CopyTable是可以复制的部分或全部的表中，既可以在同一个群集或另一个集群的实用程序。用法如下：$ bin/hbase or

2013-12-24 16:33:18 8470

原创【Twitter Storm系列之三】 storm简单实例分析

Storm实时流计算系统实例讲解

2013-12-18 19:22:39 6865

原创【Apache Storm系列之一】Storm介绍

接触大数据有一段时间了，大部分使用hadoop比较多，但是hadoop主要的使用场景在于离线系统。现实生活中，一些场景是不允许你有那么长时间的延迟时间，都需要实时数据展示的，显而易见，hadoop是无法满足这种场景下的要求的。Storm 是Twitter的一个开源框架。Storm一个分布式的、容错的实时计算系统，它被托管在GitHub上，遵循 Eclipse Public License

2013-12-16 22:00:49 6245

原创【Apache Solr系列之五】使用Solr客户端SolrJ实现多层面统计

【Apache Solr系列】使用Solr客户端SolrJ实现多层面统计

2013-12-06 16:17:01 5134

原创【Apache Solr系列之四】Solr客户端SolrJ API使用文档-查询实例

【Apache Solr系列】Solr客户端SolrJ API使用文档-查询实例

2013-11-27 16:31:46 9204 2

原创【Apache Solr系列之三】Solr客户端SolrJ API使用文档-增删改

Apache Solr JAVA客户端SolrJ Api使用文档：增删改操作！

2013-11-26 14:41:20 13126

原创【Apache Solr系列之二】Apache Solr 4.5.1及MYSQL数据增量索引

介绍apache增量索引配置。

2013-11-26 11:58:13 4895

原创【Apache Solr系列之一】Apache Solr 4.5.1环境搭建及MYSQL数据导入

介绍Apache Solr4.5.1版本的环境搭建，以及利用SOLR导入mysql数据建立索引。

2013-11-26 11:38:55 9128 1

原创【Apache HBase系列】HBase ORM框架GORA使用文档

HBase ORM框架GORA使用文档：开源框架 Apache GORA 提供了一个内存中的大数据的数据模型和持久性。Gora 支持列存储，关键值存储，文档存储和关系数据库管理系统，具有广泛的Apache Hadoop的MapReduce的支持和分析数据。本文主要介绍了GORA 基于HBase的使用方法，主要参考文献来自于GORA官网。

2013-11-21 17:09:29 4914

原创【Apache HBase系列】HBASE之RowKey排序解析

HBase RowKey排序ASCII对照表。对于rowkey设计有很大帮助，帮助你选择分隔符和查询条件。

2013-11-15 15:23:53 4353

原创【Apache Hadoop】MapReuce 编程总结-多MapReduce执行

学习hadoop，必不可少的就是写MapReduce程序，当然，对于简单的分析程序，我们只需一个MapReduce就能搞定，但是对于比较复杂的分析程序，我们可能需要多个Job或者多个Map或者Reduce进行分析计算。多Job或者多MapReduce的编程形式有以下几种：1、迭代式MapReduce2、依赖关系式MapReuce3、链式MapReduce4、子Job式MapReduce

2013-10-11 09:37:14 6936 1

原创【Apache Nutch系列】Nutch2.2+hadoop+hbase+zookeeper环境部署

1、下载数据包wget http://archive.apache.org/dist/hbase/hbase-0.90.4/hbase-0.90.4.tar.gzwget http://archive.apache.org/dist/hadoop/common/hadoop-0.20.2/hadoop-0.20.2.tar.gzwget http://mirrors.ust

2013-08-22 13:26:28 5251 1

原创【HTTPClient 系列】HttpClient4.2.5上传文件，无中文文件名问题

HttpClient4.2.5实现文件上传，无需修改即可实现中文文件名上传，无异常。看了源码之后写的，确实有用。无用可吐槽！

2013-07-15 10:54:22 7395 4

原创【Apache Nutch系列】Nutch2.0配置安装异常集锦

1、java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration at org.ap

2013-06-28 15:54:26 8233 5

原创【Apache Hadoop系列】Hadoop1.0.4+zookeeper3.5.4+hbase0.94.5分布式部署

一、HADOOP安装配置步骤1.1、服务器的准备四台Redhat服务器192.168.130.170 master192.168.130.168 dd1192.168.130.162 dd2192.168.130.248 dd31.2、安装和配置JDK环境安装JDK1.6，并在/etc/profile设置好环境变量具体步骤：1.2.1、下载地址：http://ww

2013-02-19 14:57:03 4813

HttpClient4.2.5上传文件，无中文文件名乱码问题

hadoop-1.0.4 ecipse插件（并解决0700问题）

解决hadoop 0700Bug 的hadoop-core-1.0.4.jar

hadoop-eclipse-1.0.4.jar eclipse插件

空空如也