自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

碣石观海的博客

幸甚至哉,歌以咏志

  • 博客(106)
  • 资源 (2)
  • 收藏
  • 关注

原创 Spark 循环迭代式作业与作业间结果传递测试

package com.fw.sparktestimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object TestDAGsBC { def main(args: Array[String]): Unit = { val sparkConf: SparkCo...

2020-04-19 09:54:43 764

原创 Mongo部署笔记

1. MongoDB 下载 Chrome访问:https://www.mongodb.com/download-center/community (注:Edge浏览器不兼容) 下载版本:https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-4.0.17.tgz (注:src的是源代码文件,不要下载)【hadoop...

2020-04-12 15:33:21 254

原创 Java中32位无符号数的取法

场景描述: Java 中基本类型都是有符号数值,如果接收到了 C/C++ 处理的无符号数值字节流,将出现转码错误。解决方式: 使用 long 型的 64 位十六进制数 0xFFFFFFFFL,对取得的 32 位(4字节)的整型数值,做按位与(&)操作, 并以 long 型保存这个无符号数值,如下: long vUnsigned = bf.getInt() & ...

2019-08-05 22:05:20 5582

翻译 SBT安装配置

1. 【Windows系统】下载最新安装包:sbt-1.2.8.msi,直接安装即可。2. 配置仓库位置(默认为:~/.ivy2,"~" 为用户目录,如:C:\Users\zhangsan\.ivy2) 创建自定义仓库位置:D:/myRepository/sbt-repository3.设置aliyun镜像库 在D:\myPrograms\sbt-1.2.8\conf...

2019-07-20 16:49:58 1629

原创 《Spark用户评论监控实时报警系统》

------此项目整理自《Spark Streaming 实时流式大数据处理实战》肖力涛 第10章 监控报警系统实战原书源码地址:https://github.com/xlturing/spark-streaming-action/tree/master/code/第10章本文源码地址:https://...

2019-07-16 22:07:15 2558 1

原创 中文字符用java.lang.String转码的小结(Java/Scala)

先给出最保险的转码操作,既无视平台编码,也无视字符编码:/** 保证接收到的字符串转为 UTF-8 格式 * 以 UTF-8 格式编码,再以 UTF-8 格式解码 */val strUTF8 = new String(strGBK.getBytes("UTF-8"), "UTF-8")1. 对字符串的编解码使用了如下四个方法( java.lang.String ),还有其它的...

2019-07-10 18:45:17 1505

原创 Spark作业计算结点并发运行验证

一、双核 CPU 的情况验证方式: | 在作业主程序中的 rdd.foreachPartition()中加入如下代码: | 使当前线程睡眠1000ms,前后都打印当前线程信息 | 数据自行准备,大量即可rdd.foreachPartition(partition => { println("[partition] Current thread " ...

2019-07-06 16:47:42 218

原创 《Spark用户行为统计系统》

------此项目整理自《Spark Streaming 实时流式大数据处理实战》肖力涛 第9章 用户行为统计系统原书源码地址:https://github.com/xlturing/spark-streaming-action/tree/master/code/第9章本文源码地址:https://gi...

2019-07-05 23:57:24 795

原创 《Spark实时词频统计处理系统》

------此项目整理自《Spark Streaming 实时流式大数据处理实战》肖力涛 第8章 实时词频统计处理系统实战原书源码地址:https://github.com/xlturing/spark-streaming-action/tree/master/code/第8章本文源码地址:https:...

2019-06-28 23:52:06 1779

原创 MySQL中 insert into ... on duplicate key update ... values() 的使用笔记

**说明:1. on duplicate key update 含义: 1)如果在INSERT语句末尾指定了 on duplicate key update, 并且插入行后会导致在一个UNIQUE索引或PRIMARY KEY中出现重复值, 则在出现重复值的行执行UPDATE; 2)如果不会导致唯一值列重复的问题,则插入新行。2. values(col_nam...

2019-06-26 19:43:10 24126 6

原创 Spark Streaming日志分析

一、环境开发环境: 系统:Win10 开发工具:scala-eclipse-IDE 项目管理工具:Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark (Streaming & SQL) 2.4.3 MySQL:mysql-connector-java-5.1.47作业运行环境: 系统:Li...

2019-06-23 00:23:08 1318

原创 Redis安装及Jedis使用笔记

一、部署单机模式(standalone)部署1. Linux下安装gcc,(用于编译c文件),root用户执行 $ yum install gcc2. 在/opt下安装redis $ cd /opt $ wget http://download.redis.io/releases/redis-5.0.5.tar.gz $ tar xzf redis-5.0.5.tar....

2019-06-21 17:41:37 377

原创 Spark Streaming输出至HBase

一、环境开发环境: 系统:Win10 开发工具:scala-eclipse-IDE 项目管理工具:Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark 2.4.3 HBase 1.2.9作业运行环境: 系统:Linux CentOS7(两台机:主从节点,2核) master : 19...

2019-06-20 22:33:58 2281

原创 HBase相关概念笔记

1. HBase多角度描述: 1)HBase是一种数据库:Hadoop数据库、无模式(schema)数据库; 2)描述为:稀疏的、分布式的、持久化的、多维有序映射; 3)基于行键(rowkey)、列键(column key)和时间戳(timestamp)建立索引; 4)一种键值存储、面向列族的数据库,一种存储多时间戳版本映射的数据库; 5)根本上:一个支持随机访问的存储和检索...

2019-06-20 21:57:41 148

原创 Spark Streaming输出至MySQL

一、环境开发环境: 系统:Win10 开发工具:scala-eclipse-IDE 项目管理工具:Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark 2.4.3 MySQL 5.1.47 MySQL c3p0 0.9.1.2 连接池作业运行环境: 系统:Linux CentOS7(两台机:...

2019-06-18 21:17:18 2016 1

原创 Spark Streaming输出至Kafka

1. 由Spark Streaming 向Kafka写数据,没有现成的官方接口,需要利用Kafka提供的底层接口。2. 第一种写法,如下,会报错:nameAddrPhoneStream.foreachRDD(rdd => { //在Driver中执行 //初始化生产者配置 val props = new Properties() props.setProperty...

2019-06-17 17:55:21 2365 15

转载 【转】8种常见SQL错误用法

【文章转载自】:https://mp.weixin.qq.com/s/CvJQrdsCO1KlJAjSpy1Ibw1、LIMIT 语句分页查询是最常用的场景之一,但也通常也是最容易出问题的地方。比如对于下面简单的语句,一般 DBA 想到的办法是在 type, name, create_time 字段上加组合索引。这样条件排序都能有效的利用到索引,性能迅速提升。SELECT * FR...

2019-06-14 20:07:36 114

原创 Spark Streaming分析Kafka数据

一、环境开发环境: 系统:Win10 开发工具:scala-eclipse-IDE 项目管理工具:Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark 2.4.3 spark-streaming-kafka-0-10_2.11 (Spark Streaming 提供的Kafka集成接口) 注1....

2019-06-13 15:04:28 755

原创 Kafka部署及相关概念笔记

一、部署部署Kafka前需先部署Zookeeper,上篇博文:ZooKeeper部署两台虚拟机(CentOS Linux 7): 192.168.190.200 master 192.168.190.201 slave1所有节点都执行(hadoop用户)1. 下载 Kafka,安装版本:kafka_2.11-2.2.1.tgz,放于 /opt/ 目录下2. 解压...

2019-06-12 00:14:42 221

原创 ZooKeeper部署及相关概念笔记

一、部署两台虚拟机(CentOS Linux 7): 192.168.190.200 master 192.168.190.201 slave1 创建两个zookeeper服务,最好是奇数个节点,原因: 3个节点和4个节点时,允许节点宕机数目都为1个(需保证集群一半以上节点存活,才能正常工作), 所以从可靠性角度,3个和4个效果一样。所有节点都执行...

2019-06-11 17:16:42 232

原创 Spark Streaming之流式黑名单词汇统计(广播变量、累加器实现)

一、案例介绍1. 在上篇博文 Socket数据源流式词频统计 的基础上,使用广播变量和累加器,实现对输入数据进行黑名单统计。2. 使用 wordCounts.foreachRDD() 对流数据中黑名单词汇统计,并输出至控制台: 1)方法定义:def foreachRDD(foreachFunc: (RDD[(String, Int)], Time) => Unit): Uni...

2019-06-09 18:45:14 410

原创 书籍分享

链接:https://pan.baidu.com/s/1JKmcgpyBBcrvhT7h8ZK3Pw提取码:pzqa

2019-06-08 11:51:03 424

原创 Spark Streaming之流式词频统计(Socket数据源)

一、环境Spark、Hadoop环境搭建可参看之前文章。开发环境: 系统:Win10 开发工具:scala-eclipse-IDE 项目管理工具:Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark 2.4.3Spark运行环境: 系统:Linux CentOS7(两台机:主从节点) m...

2019-06-05 20:39:16 1716

转载 【转】Linux中管道符"|"

利用Linux所提供的管道符“|”将两个命令隔开,管道符左边命令的输出就会作为管道符右边命令的输入。连续使用管道意味着第一个命令的输出会作为 第二个命令的输入,第二个命令的输出又会作为第三个命令的输入,依此类推。下面来看看管道是如何在构造一条Linux命令中得到应用的。1.利用一个管道# rpm -qa|grep licq这条命令使用一个管道符“|”建立了一个管道。管道将rpm -qa...

2019-06-05 16:53:39 474

原创 Spark之Join和聚合操作实例

一、环境Spark、Hadoop环境搭建可参看之前文章。开发环境: 系统:Win10 开发工具:scala-eclipse-IDE 项目管理工具:Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark 2.4.3Spark运行环境: 系统:Linux CentOS7(两台机:主从节点) m...

2019-06-04 18:06:42 971

原创 GitHub下载Spark源码失败的解决方法

参考自:github下载失败的问题解决方法一、问题描述(尝试的几种下载方式)1. 从Spark官网(http://spark.apache.org/downloads.html)下载失败;2. 从github下载Spark源码( .ZIP 下载)十分慢(17KB/s左右),并且下载到一般就异常结束;3. 先将项目Fork到自己仓库后下载,也是一样慢,且异常结束;4. 通过 ...

2019-06-04 14:47:15 932

原创 Spark之入门单词统计

一、环境Spark、Hadoop环境搭建可参看之前文章。开发环境: 系统:Win10 开发工具:scala-eclipse-IDE 项目管理工具:Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark 2.4.3Spark运行环境: 系统:Linux CentOS7(两台机:主从节点) m...

2019-06-02 23:59:13 512

转载 【转】Maven设置镜像库

转自:1.最快的 maven repository--阿里镜像仓库 2.国内maven库镜像(阿里云) 方法一:修改 Maven根目录/conf/settings.xml,添加如下配置信息:<mirrors> <mirror> <id>alimaven</id> <name>aliyun mav...

2019-06-02 17:18:04 677

原创 Spark安装笔记

本机环境: CentOS7(虚拟机:1核、2GB内存) JDK1.8 Spark2.4 Scala2.12 使用的静态IP:(在 /etc/hosts 中配置) 192.168.190.200 master (主节点) 192.168.190.201 slave1 (从节点) 下载Scala版本:scala-2.12.6.tgz 地址:https://www.scala-l...

2019-05-30 23:06:05 283 3

原创 《在线图书销售商业智能系统》流程框架实现

项目整理自:《Hadoop海量数据处理:技术详解与项目实战》范东来对应的电子书地址:https://pan.baidu.com/s/1JKmcgpyBBcrvhT7h8ZK3Pw 提取码:pzqa 所在目录:"我的书籍\大数据生态\Hadoop\Hadoop海量数据处理 技术...

2019-05-29 00:16:10 468

原创 实现MapReduce作业的分布式缓存加载到本地计算节点

一、问题场景MapReduce任务是在独立的计算节点运行的。因此,对于作业提交节点上的某些文件,在计算节点本地是不存在的,会导致MapReduce任务失败(找不到文件)。二、使用Hadoop分布式缓存(推荐)1. 将计算结点需要的“边数据”(当前为"qqwry.dat"文件)上传到HDFS分布式文件系统中;2. Job任务设置其(HDFS路径)为分布式缓存;(缓存文件会默认下载到每...

2019-05-28 17:24:37 361

原创 MapReduce任务是多进程单线程模式验证

一、验证MapReduce任务是多进程的1. 实现MyMapper代码,Reducer可相同处理。如下:package com.mapreduce;import java.io.IOException;import java.lang.management.ManagementFactory;import java.lang.management.RuntimeMXBean;...

2019-05-22 23:43:40 721

转载 Java并发编程的volatile关键字(收藏)

Java并发编程:volatile关键字解析

2019-05-22 15:51:02 108

原创 日志解析LogParser类的工厂注册单例模式实现(线程安全)

一、LogParserFactory的实现1.为每个调用线程分配一个唯一的LogParser(日志解析)对象,以使在线程内部重复使用;以键值对<Thread, LogParser>形式注册到同一内存的Map中。2.为每个调用对象(如:MR中的Mapper处理类)分配一个唯一的LogParser(日志解析)对象,以使在对象内部重复使用;以键值对<Object, LogPa...

2019-05-22 15:32:31 199

原创 Apache服务器日志Log解析

------------本文笔记整理自《Hadoop海量数据处理:技术详解与项目实战》范东来一、Apache服务器日志信息组成说明1. group-0 是一条初始的log日志信息;2. group-1 ~ group-15 是对该条日志正则解析后的结果。一条原始log日志: group-0 : 120.196.145.58 - - [11/Dec/2013:10:00:32 +...

2019-05-22 00:37:22 2781

原创 利用纯真IP数据库解析IP地址位置信息

------------本文笔记整理自《Hadoop海量数据处理:技术详解与项目实战》范东来1.代码文件 IpParser.java 编码方式为 UTF-8,而纯真数据库文件qqwry.dat编码为GBK,故把getStr()方法的返回参数设置为GBK,否则乱码。2. 最后main()中有测试用例,可直接运行。3. 纯真IP地址数据库下载地址:http://www.cz88.net/...

2019-05-22 00:08:31 2240 6

转载 Linux添加 PYTHONPATH 环境变量的3种方法

Linux下设置PYTHONPATH环境变量有三种方法:一种作用于当前终端,一种作用于当前用户,一种作用于所有用户。1.作用于当前终端,直接当前终端输入命令 $ export PYTHONPATH=$PYTHONPATH:<你的要加入的路径> $ export PYTHONPATH=$PYTHONPATH:/home/hadoop/MyBI 注1:'/home/had...

2019-05-17 11:06:13 18213 1

转载 Python执行shell命令的几种方式笔记

1.使用os.system执行 import os os.system('pwd') 输出内容:/home/hadoop os.system('cat chinese.txt') 输出内容:中文2.使用os.popen执行(打开命令管道) import os output = os.popen('cat chinese.txt') print output ...

2019-05-17 10:35:38 202

转载 Sqoop命令参数大全(收藏)

http://sqoop.apache.org/docs/1.4.5/SqoopUserGuide.html

2019-05-16 16:16:18 1434

转载 MySQL日期-字符串-时间戳互转

------转载自:1.MySQL日期 字符串 时间戳互转平时比较常用的时间、字符串、时间戳之间的互相转换,虽然常用但是几乎每次使用时候都喜欢去搜索一下用法;本文将作为一个笔记,整理一下三者之间的 转换(即:date转字符串、date转时间戳、字符串转date、字符串转时间戳、时间戳转date,时间戳转字符串)用法,方便日后查看。涉及的函数日期转字符串:date_format(dat...

2019-05-16 16:06:33 223

Pdf标签目录格式化工具(txt目录)

参考博文使用:https://blog.csdn.net/weixin_39469127/article/details/86658604 免费资源下载地址: 链接:https://pan.baidu.com/s/14fFRL0siT7YMs1qAOTgBaw 提取码:6ojk

2019-01-26

Hadoop技术内幕(三册 手动制作完整目录)

Hadoop技术内幕(三册 手动制作完整目录) 1.Hadoop技术内幕:深入解析HADOOP COMMON和HDFS架构设计与实现原理; 2.Hadoop技术内幕:深入解析MapReduce架构设计与实现原理; 3.Hadoop技术内幕:深入解析YARN架构设计与实现原理。

2019-01-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除