10 停不下的脚步

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 9w+

spark structure streaming

国内关于flink的demo较多,我是工作中选择的是spark structure streaming,watermark、append模式、update模式、检查点、sink、source基本都有涵盖。下面的示例主要讲的是消费kafka的数据,根据不同的维度计算度量值。package cn.swiftpass.spark.streaming;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import o

2020-09-14 00:23:49

kerberos关键知识点

参考以下资料,及《OReilly.Architecting.Modern.Data.Platforms》https://www.cnblogs.com/wn1m/p/10700466.htmlhttps://www.jianshu.com/p/fc2d2dbd510bhttps://help.aliyun.com/document_detail/89886.html?spm=a2c4g.11186623.4.1.37a6b019HkcGLQkerberos是一个网络通信身份认证,包含u.

2020-09-14 00:10:29

零拷贝

本文原自知乎文章总结,建议大家看原文。https://zhuanlan.zhihu.com/p/83398714这是正常的非零拷贝,需要四次复制:传统的数据IO传输分为两部分,读操作和写操作:基于传统的 I/O 读取方式,read 系统调用会触发 2 次上下文切换,1 次 DMA 拷贝和 1 次 CPU 拷贝,发起数据读取的流程如下: 用户进程通过 read() 函数向内核(kernel)发起系统调用,上下文从用户态(user space)切换为内核态(kernel spa..

2020-09-14 00:07:25

zookeeper知识点

https://zhuanlan.zhihu.com/p/24996631https://www.cnblogs.com/raphael5200/p/5285583.htmlzk=注册监听通知+文件系统注册监听通知客户端注册监听它关心的目录节点,当目录节点发生变化,如数据改变,被删除,子目录节点增加删除时,zk会通知客户端。这时客户端就可以根据传过来的信息采取一系列的操作。文件系统zk维护一个如下图的文件结构1、每个子目录项如NameService都被称为znode,有四种类

2020-09-14 00:05:47

kafka知识点

kafka要点 创建一条记录,记录中一个要指定对应的topic和value,key和partition可选。 先序列化,然后按照topic和partition,放进对应的发送队列中。 kafka,从逻辑上划分,分为多个topic,每个topic由一个或多个partition组成,多个partition分布在不同的机器上,每个partition都有自己的1个或多个备份,每组partion都有一个leader负责接收信息,其他的follower负责复制信息,每个partition内部的记录是有序

2020-09-14 00:04:53

HDFS知识点

初始化注册:当Datanode启动或重启时,将向NameNode进行注册,告知NameNode其可以处理HDFS的读写操作。 周期性心跳:所有的DataNode周期性(默认是每3秒)地向NameNode发送包含该节点使用统计的心跳信息,让NameNode知道DataNode活着。NameNode收到心跳后会给DataNode一个返回值,这个返回值里就包含对DataNode的指令,比如将数据块复制到另外一台节点上或删除某个块。一个DataNode如果超过10分钟没有发送心跳,此时NameNode..

2020-09-10 16:22:41

hadoop文件格式

按行存储:sequenceFile、mapfile、avro sequenceFile:hadoop api提供的一种二进制文件,数据以<key,value>的形式序列化到文件中。不是很常用,一般用来合并小文件。 mapfile:带索引的sequenceFile avro:数据序列化框架,类似protocol buffers,thrift,avro有自己的文件格式.avro结尾,avro依赖shema实现数据结构定义。avro类似于序列文件,但是sequenceFile

2020-09-10 16:21:20

hadoop集群部署之benchmark

当我们部署完一个新的集群,或者对集群做了升级,或调整集群中的性能参数后,想观察集群性能的变化,那么我们就需要一些集群测试工具。hadoop自带测试包,在这个测试包下我们也看到了很多测试工具,其中DFSCIOTest、mrbench、nnbench应用广泛。$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.3.jarAn example program must be given as the

2020-09-10 16:19:02

hadoop集群安装部署之操作系统调优

部署hadoop之前对操作系统的修改:1.disable 磁盘的access time 这个将显著提升磁盘IO:https://www.cnblogs.com/sunss/archive/2010/09/09/1822300.html2.对于非系统磁盘,设置不给系统盘保留磁盘空间:#set space during file system creation$mkfs.ext3 -m 0 /dev/sdb#or tune the filesystem afterwards..

2020-09-10 16:18:25

hadoop集群安装部署之硬件选择

1、不可选择刀片服务器,因为他们与其他服务器共享资源,当刀片服务器机箱出现故障时,将导致几个DataNode不可用。而且刀片服务器的磁盘和RAM容量太低,无法支持大量的处理。2、选择x86架构的机架式服务器。通常一个机架可安置18-20台机架式服务器。所以对我们小集群而言一台机架即可。机架中配备一对10GbE交换机,对于大集群只需扩展机架即可。对于中、大集群的网络配置在《OReilly.Architecting.Modern.Data.Platforms》书中的network篇章有详细介绍。另外对于

2020-09-10 16:17:08

免匙SSH登录失败问题(非常规)

问题描述:上周给公司搭建大数据平台,选取三台机器,安装配置一切顺利。后来发现/home目录的挂载盘容量不够用,所以就扩容了,在扩容之前将/home/hadoop文件夹复制到其他地方,扩容后再复制回来,现在问题来了,hadoop文件夹迁移回来后,发现免匙SSH无用了。问题排查:1.检测权限chmod 600 ~/.ssh/authorized_keyschmod 70

2017-05-31 10:43:51

es通过JDBC导数测试

硬件环境: 1、mac 10.12 2、8G内存、256G SSD 3、2.4GHz I5测试数据 50G CSV格式 每行6个字段测试一:使用es默认配置 es版本2.3.4 es-jdbc版本2.3.4.0 通过es-jdbc方式耗时40小时+ 索引建立完成12亿+ 索引所占空间为52G左右测试二:使用es默认配置 es版本5.3.0 logstash版本5.3.1 通

2017-05-10 09:19:47

新版flume+kafka+storm安装部署

去年写了篇flume+kafka+storm的文章,最近重新回顾发现改动挺大的,就重新整理这篇文章。希望能帮上大家。架构图、组件介绍就不重复了,这篇文章重点将如何安装部署。需要源码的请留言。顺便打个广告:大数据工作室接活我们的团队leader是北京某金融公司的大数据负责人,带过hadoop spark impala storm等多个银行项目。团队成员现就职HP,vmware等企业。

2015-08-27 16:43:43

调试spark源码

目标:可以在spark源码内打断点调试,比如我们可以看flatMap方法内部运行。环境:spark 1.4intellij ideamac os第一步:下载spark源码url:http://spark.apache.org/downloads.html第二步:编译spark进入下载好的spark的根目录执行:./sbt/sbt gen-idea

2015-06-22 20:17:41

spark常用RDD介绍及Demo

Transformation:map(func): Return a new distributed dataset formed by passing each element of the source through a function func.val list=sc.parallelize(List(('a',1),('a',2),('b',3),('b',4)))

2015-06-02 20:47:18

MapReduce之自定义partitioner

partitioner定义:partitioner的作用是将mapper(如果使用了combiner的话就是combiner)输出的key/value拆分为分片(shard),每个reducer对应一个分片。默认情况下,partitioner先计算key的散列值(通常为md5值)。然后通过reducer个数执行取模运算:key.hashCode%(reducer个数)。这种方式不仅能够随机地将

2015-02-02 10:59:54

MapReduce之distinct

适用场景:当我们希望去除数据集中的重复数据或者某些字段重复的数据就可以使用这个模式。结构:这个模式使用了MapReduce框架的功能,将相同的key分组到一起来实现去重。这个模式使用mapper做数据的转换,在reducer中不需要做太多工作。在这个模式中可以使用combiner,如果有大量重复的数据,combiner将非常有用。重复的记录在数据集中经常会相对邻近,因此comb

2015-01-29 19:35:39

MapReduce之topN

适用场景:1.这个模式需要一个比较两条记录的比较函数。也就是说,我们必须得通过比较确认两条记录中哪一个更大一些。2.输出记录数相对于输入记录数将会是异常的小,否则获得整个数据集的全排序将会更有意义。结构:这个模式同时使用了mapper和reducer。mapper任务找出其本地的top K,然后所有独立的top K集合在reducer中做最后的top K运算。因为在mapp

2015-01-29 15:38:07

布隆过滤器

目的:过滤器使我们可以保留属于某个预定义值集合的记录。如果输出的结果有小的误判也不会是问题(只可能误判,绝不会漏判,失误率取决于hash算法),因为我们会在后续的操作中做进一步的检查。这里的预先确定的值列表称为热门值(hot values)集合。对每条记录抽取其中一个特征。如果抽取的特征是布隆过滤器中所表示的值集合的成员,则保留这条记录;否则丢弃这条记录(或者做相反的处理)。适用场景:

2015-01-29 10:02:26

mapreduce实现倒排索引

目的:产生一个数据集的索引以便提供更快的搜索或数据丰富能力。动机:对大的数据集建立一个关键字的索引,通常可以方便通过指定关键字搜索到其包含特定值的对应记录。尽管创建倒排索引的过程需要预先进行额外的处理,但花费时间做预处理可以极大地缩减查询时所需要的时间。适用场景:倒排索引通常用在需要快速搜索查询响应的场景。可以对一个查询的结果进行预处理并存入数据库中。

2015-01-27 20:59:28

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享学徒
    分享学徒
    成功上传1个资源即可获取