自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 收藏
  • 关注

原创 streaming-kafka:streaming消费kafka数据

Kafka-消费模型High Level Consumer API不需要自己管理offset默认实现最少一次消息传递语义(At least once)comsumer数量 大于 partiton数量, 浪费。comsumer数量 小于 partiton数量, 一个comsumer对应多个partiton最好partiton数目是consumer数目的整数倍Low Level Cons...

2019-01-10 20:29:08 1980 1

原创 Spark零碎知识点

RDD的概念:RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。个人注释(非官方):不可变:每一个算...

2019-01-06 15:37:16 1582

原创 hive及hbase常见问题汇总

2018.11.261、HDFS读写流程(1)写数据流程1).客户端发出请求 hdfs dfs -put /etc/profile /qf/data2).namenode查看维护的目录结构,检查/qf/data是否存在,如不存在直接报错”no such file or directory“,如存在返回给客户端同意上传文件请求,将操作写入日志文件3).客户端请求上传第一个块,询问name...

2018-11-27 13:10:09 778

原创 hadoop知识点汇总

1.HDFS读写流程2.namenode的启动过程3.HDFS不适合存储小文件,如果生成场景中还必须将这些小文件进行存储(比如,每天产生的日志,数据量很小,但是必须存储)4.什么情况下会进入安全模式,安全模式的解决办法5.说一下HDFS的可靠性策略6.HDFS的优缺点7.datanode宕机后,集群能否立即将宕机的datanode下线,datanode下线后,集群将进行什么工作。8....

2018-11-27 13:05:50 541

原创 大数据Hadoop面试题整理

2018.10.221.抽象类与接口的区别?1.语法层面上的区别  1)抽象类可以提供成员方法的实现细节,而接口中只能存在public abstract 方法;  2)抽象类中的成员变量可以是各种类型的,而接口中的成员变量只能是public static final类型的;  3)接口中不能含有静态代码块以及静态方法,而抽象类可以有静态代码块和静态方法;  4)一个类只能继承一个抽象类...

2018-10-25 11:58:12 2633

原创 java选择题错题集锦(持续更新)

关于以下application,说法正确是什么? public class Test {static int x=10;static {x+=5;}public static void main(String[] args) //4 { System.out.println("x="+x);}sta

2018-09-17 13:22:50 3602 1

原创 ElasticSearch操作RDD获取字段

import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import org.elasticsearch.spark._/** * @Description :es操作RDD获取字段 * @Author: lyw * @Date: 2019/1/16 11:04 * @V...

2019-02-23 22:22:28 1446 1

原创 ElasticSearch常用操作Java api

import org.elasticsearch.action.admin.indices.mapping.put.PutMappingRequest;import org.elasticsearch.action.get.GetResponse;import org.elasticsearch.action.get.MultiGetItemResponse;import org.elast...

2019-02-23 22:06:18 577

原创 ElasticSearch优化

目录:1.ElasticSearch生产集群配置优化2.Spark整合Elasticsearch优化ElasticSearch生产集群配置优化集群主机(节点)配置相近集群中主机最好配置相近,集群的性能符合木桶定律,即集群的查询性能是由集群中性能最差的主机决定的。建议使用SSD硬盘替换传统的机械硬盘ES对IO的性能要求比较高。ES内存配置不要超过32G指定的堆内存可以是节点总内存的...

2019-02-23 19:53:46 1236

原创 streaming消费kafka的两种方式Receiver/Direct优缺点

streaming消费kafka的两种方式的优缺点的总结Receiver方式:Receiver从Kafka中获取数据都是存储在Spark Executor内存中的,然后Spark Streaming启动的job会去处理那些数据。优点:操作简单方便,不用自己管理offset。缺点:各方面都不如Direct方式。Direct方式:它会周期性的查询kafka,来获取每个topic + par...

2019-02-23 16:18:11 1450

原创 Kafka常见问题

kafka常见问题目录:1、如果想消费已经被消费过的数据2、如何自定义去消费已经消费过的数据3、kafka partition和consumer数目关系4、kafka topic 副本问题5、kafka如何设置生存周期与清理数据6、zookeeper如何管理kafka7、SparkStreaming之Kafka的Receiver和Direct方式讲解1、如果想消费已经被消费过的数...

2019-02-23 11:54:55 454

原创 Spark Stream之DStream的三个特殊原语updateStateByKey、transform、window operations

updateStateByKey:将历史结果应用到当前批次。import org.apache.spark.{HashPartitioner, SparkConf}import org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}/**...

2019-01-22 15:44:39 480

原创 剑指offer编程题个人笔记(持续更新)

知识点——树jz_01_19_shu二叉树的下一个结点题目描述给定一个二叉树和其中的一个结点,请找出中序遍历顺序的下一个结点并且返回。注意,树中的结点不仅包含左右子结点,同时包含指向父结点的指针。/*public class TreeLinkNode { int val; TreeLinkNode left = null; TreeLinkNode right ...

2019-01-03 22:32:49 216

原创 hive对json数据的几种处理方法

1.get_json_object函数2.json_tuple函数3.使用JsonSerde(需导入jar包)ps:以上三种方法参见此博客https://www.cnblogs.com/qiaoyihang/p/8729368.html4.书写MR代码,在MR中对json数据进行处理,再将MR处理/清洗后的数据导入到hive中。处理方法可参考如下代码:String line = va...

2018-12-27 19:24:09 1390

原创 HQL语句练习题(hive练习题)

说明:以下50题为hive的写法,与mysql写法有一定差别,可供练习hive语句使用。数据student01 赵雷 1990-01-01 男02 钱电 1990-12-21 男03 孙风 1990-05-20 男04 李云 1990-08-06 男05 周梅 1991-12-01 女06 吴兰 1992-03-01 女07 郑竹 1989-07-01 女08 王菊 1990...

2018-12-27 17:44:05 6226

原创 大数据面试题——场景题

有如下场景:某公司网站每日访问量达到10亿级别的访问量,每次访问记录一条数据,数据包含如下字段:用户ID,访问时间(毫秒级),访问页面。要求使用hive求出所有在5分钟内访问次数达到100次的用户(求出用户ID即可)思路:利用窗口函数Lag详细思路:1.选出当天访问次数达到100次的用户(即当天有100及以上条数据的用户):根据用户ID分组,count2.在每个 用户ID小组内(步骤1...

2018-12-26 22:30:26 2408 1

原创 大数据离线分析Hadoop项目(待完善)

项目流程1.数据产生JsSdk和javaSdk。数据怎么到达nginx服务器上的?Uri、拼接,然后http带着这些信息,请求访问nginx服务器,nginx就可以获取采集这些信息,产生的日志规则自己定义。要注意高可用(根据实际业务场景,比如只统计pv等指标的话,丢点数据关系不大可以不配置HA,但是如果是采集后台用户订单信息时,数据不能丢就要配置HA)和负载均衡。2.数据采集利用flu...

2018-12-08 00:37:25 1862

原创 大数据面试技巧——个人总结(持续更新)

说明:以下内容仅为个人观点,仅供参考。说期望薪资一定要说具体值,不要说区间。问题尽可能回答的详细一点。面试官问的一个问题,你回答的越细(比较问你shuffle流程你跟他说一个小时,甚至画张图出来),他后面越问的越少。 一方面是因为你一个问题都能答的那么细,他就觉得你其它方面也还可以。另一方面,面试也有时间限制的,后面的人可能还在等着呢。于是可能你答完这个问题,他随便再问一两个问题基本就可...

2018-11-27 13:26:10 2511

原创 大数据面试真题整理

蚂蚁金服面试题小文件的合并MR与Spark的区别关注哪些名人的博客对大数据领域有什么自己的见解平常怎么学习大数据的StringBuilder与StringBuffer的区别HashMap与Hashtable的区别谈谈你对数的理解数据库索引的实现jvm的内存模型jvm的垃圾收集器jvm的垃圾收集算法HDFS架构HDFS读写流程Hadoop3.0做了哪些改进谈谈YAR...

2018-11-21 17:53:28 1694 1

原创 Scala元组中别名.x的含义

Scala元组知识点(大神请直接跳过此部分,查看后文)4.3. 元组(Tuple)映射:映射是K/V对的集合。元组:K/V对是元组的最简单形式,元组可以装着多个不同类型的值,是不同类型的值的聚集。4.3.1. 创建访问元组a、创建元素的一种方式b、创建元组的第二种方式目前 Scala 支持的元组最大长度为 22。对于更大长度你可以使用集合,或者扩展元组4.3.2. 创建访问元...

2018-11-20 21:58:00 801

原创 Scala可变数组与不可变数组的区别、可变集合与不可变集合的区别、Array与ArrayBuffer的区别、List与ListBuffer的区别

不可变数组与可变数组的区别Array与ArrayBuffer的区别Array为不可变数组,ArrayBuffer为可变数组,两则的区别比较好理解:不可变指的是长度不可变。Array不能添加或删除元素,没有+=和-=方法;而ArrayBuffer可以添加或删除元素。注意点:Array和ArrayBuffer都可以修改元素,修改方法:array(0)=12,0为下标,12为新值。测试如下图:...

2018-11-20 21:33:27 1198 3

原创 Hadoop搭建完全分布式环境

在搭建集群中,常见的错误1)格式化首先要记住,不要频繁的格式化namenode, 如果非要格式化namenode,先删除tmp目录中的内容 ,清空之前,最好把所有的进程jps 中的残存的服务关掉,如果不关闭的话会存在遗留的进程,就有可能占用之前的端口号。2)端口可能被占用3)避免多用户的使用,多用户的时候会造成pid的冲突4)最好fsimage edites 存储的目录也清空一下Ha...

2018-10-27 17:25:49 231 2

原创 Linux基础04:本地yum源配置,局域网yum源配置

本地yum源的配置:1.准备一个软件仓库(准备软件包,解决依赖关系----记录依赖关系的文件)1)创建一个挂载点 mkdir /mnt/centos2)将镜像文件挂载到挂载点 mount -t iso9660 -o loop /dev/cdrom /mnt/centos3)做成永久挂载 vi /etc/fstab说明:临时挂载和镜像挂载2选1,但机器重启后临时挂机失效,所以建议永久挂...

2018-10-17 22:14:37 700

原创 Linux基础03:配置局域网

局域网配置规划192.168.91.2 网关192.168.91.1 主机虚拟网卡三台虚拟机ip及名称:192.168.91.7 hadoop01192.168.91.8 hadoop02192.168.91.9 hadoop03说明:以上各项需在同一网段,前三位相同,即192.168.91相同,最后一位合理规划。1.克隆虚拟机(选择完整克隆)2.修改网卡设备信息 vi /e...

2018-10-17 21:47:23 954

原创 Linux基础02:磁盘操作,文件权限、文件及文件夹操作、网络服务

1.Linux磁盘与U盘操作1.1 显示系统的磁盘空间用量##du命令也是查看使用空间的,但是与df命令不同的是Linux du命令是对文件和目录磁盘使用的空间的查看du -sh ##查目录使用大小(-s表示总结)## du -sh /bin##df命令用于显示磁盘分区上的可使用的磁盘空间。默认显示单位为KB。可以利用该命令来获取硬盘被占用了多少空间,目前还剩下多少空间等信息。df ...

2018-10-16 20:46:06 835

原创 Linux基础01:基本命令操作

linux的命令帮助命令man + COMMAND 按q退出(mini版没有man这个命令)info + COMMAND 按q退出COMMAND + -help 或者 --helppwd:打印当前工作目录cd 切换工作目录cd+新的路径 ----切换到新的目录下(如果新的路径不存在,报错no such file or directory)cd : 返回到当前用户的家目录cd ~...

2018-10-16 20:35:50 158

原创 java反射机制

创建一个Person类 package com.qianfeng.test;public class Person { private String name; public String getName() { return name; } public void setName(String name) { this.name = name; } public...

2018-10-06 17:09:50 100

原创 java网络通信之Socket通信:TCP/UDP

网络通信三要素:协议,IP,端口。七层协议。package com.qianfeng.test;/* * 网络编程基础: * 网络的通信:三要素:协议,IP,端口 * 1.IP:在网络上唯一的标记一台主机 127.0.0.1 :保留地址/本地地址 java将IP面向对象了形成的类叫InetAddress * 2.端口:一台主机上的多个服务器 取值范围(0,655...

2018-09-27 18:51:58 289

原创 java编码,解码。乱码原因及解决办法

转换流的编码,常见的出现乱码组合package com.qianfeng.test;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStreamReader;import java.io.OutputStreamW...

2018-09-27 18:43:10 3451

原创 java序列化流:序列化与逆序列化

package com.qianfeng.test;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.ObjectInputStream;import ...

2018-09-26 19:11:12 360

原创 java之Properties类

package com.qianfeng.test;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;import java.util.Iterator;import java.util.Properties;import java.util.Set;/* * Prope...

2018-09-26 19:10:02 86

原创 java流:打印流,序列流,数据流,内存流

打印流:字节打印流PrintStreampackage com.qianfeng.test;import java.io.File;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.PrintStream;/*...

2018-09-26 19:08:29 145

原创 java流:转换流,设备之间数据的传输,更换输入源、输出源

转换流InputStreamReader、OutputStreamWriterpackage com.qianfeng.test;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.IOException;import java.io.InputStreamReader;import j...

2018-09-26 19:00:29 372

原创 java流:字符缓冲流,装饰设计模式,适配器设计模式,字节流

字符缓冲流之缓冲写出流BufferedWriterpackage com.qianfeng.test;import java.io.BufferedWriter;import java.io.FileWriter;import java.io.IOException;/* * 字符缓冲流:又叫字符缓冲区,是为了提高读写的能力,本身没有读写的能力,要想进行读写必须依靠字符流来实现。...

2018-09-25 20:49:54 655

原创 java之File文件类、递归

File文件类基本操作package com.qianfeng.test;import java.io.File;import java.io.IOException;import java.text.SimpleDateFormat;import java.util.Date;/* * File:文件类,用来操作文件或文件夹(目录/路径) * * 创建文件 * 创建单层...

2018-09-25 20:41:11 243

原创 java流(IO流)的分类,文件续写、读入

流(IO流)的分类,写出流FileWriterpackage com.qianfeng.test;import java.io.FileWriter;import java.io.IOException;/* * 流(IO流):input-output-stream。作用:实现两个设备之间的通信。 * 设备:内存,硬盘(磁盘 ),控制台,键盘,文件,网络。 * 网络:在网络上,你...

2018-09-25 20:32:13 692

原创 java多线程:线程的通信、唤醒等待机制、生产消费者模式、Lock

线程的通信:打印机打印–不断的输入输出package com.qianfeng.test;/* * 线程的通信: * 分析: * 需要两个线程--输入线程和输出线程 * 需要两个任务--输入任务和输出任务 * 需要一份数据 * * 实现:打印机打印--不断的输入不断的输出 * */public class Demo2 { public static void mai...

2018-09-19 19:34:12 141

原创 java多线程:线程安全问题,synchronized关键字,同步锁,线程停止方式。

线程安全问题,synchronized,同步锁package com.qianfeng.test;/* 线程安全问题:* 分析:4个线程共用了一个数据,出现了-1,-2,-3等错误的数据* * 具体分析:1.共用了一个数据* 2.共享语句有多条,一个线程使用cpu,没有使用完,cpu被抢走,当再次抢到cpu的时候,直接执行后面的语句,造成了错误的发生.* * 解决:* 在代码中使...

2018-09-18 18:32:16 618

原创 java多线程:程序、进程、线程概念。创建线程的两种方式。

package com.qianfeng.test;/* * 多线程: * * 程序:是一个可执行文件。 * 进程:是一个正在运行的程序,在内存中开辟了一块空间。 * 线程:负责程序的运行,可以看作是程序运行的一条通道或者一个执行单元。所以我们通常将进程的工作理解成线程的工作。 * * 进程中可不可以没有线程? * --必须有线程,至少有一个,当(一个进程)有一个线程存在的时...

2018-09-18 17:55:28 230

原创 java可变参数、数组工具类Arrays、集合工具类Collections

package com.qianfeng.test;/**可变参数:参数的个数可以改变*作用:简化代码,方便操作。*/public class Demo5 {public static void main(String[] args) { // 值传递 int he1 = sum(2, 2, 4); System.out.println(he1); // 址传递 int[...

2018-09-17 19:32:50 282

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除