碣石观海-CSDN博客

原创 Spark 循环迭代式作业与作业间结果传递测试

package com.fw.sparktestimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object TestDAGsBC { def main(args: Array[String]): Unit = { val sparkConf: SparkCo...

2020-04-19 09:54:43 764

原创 Mongo部署笔记

1. MongoDB 下载 Chrome访问：https://www.mongodb.com/download-center/community （注：Edge浏览器不兼容）下载版本：https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-4.0.17.tgz （注：src的是源代码文件，不要下载）【hadoop...

2020-04-12 15:33:21 254

原创 Java中32位无符号数的取法

场景描述： Java 中基本类型都是有符号数值，如果接收到了 C/C++ 处理的无符号数值字节流，将出现转码错误。解决方式：使用 long 型的 64 位十六进制数 0xFFFFFFFFL，对取得的 32 位(4字节)的整型数值，做按位与(&)操作，并以 long 型保存这个无符号数值，如下： long vUnsigned = bf.getInt() & ...

2019-08-05 22:05:20 5582

翻译 SBT安装配置

1. 【Windows系统】下载最新安装包：sbt-1.2.8.msi，直接安装即可。2. 配置仓库位置（默认为：~/.ivy2，"~" 为用户目录，如：C:\Users\zhangsan\.ivy2）创建自定义仓库位置：D:/myRepository/sbt-repository3.设置aliyun镜像库在D:\myPrograms\sbt-1.2.8\conf...

2019-07-20 16:49:58 1629

原创《Spark用户评论监控实时报警系统》

------此项目整理自《Spark Streaming 实时流式大数据处理实战》肖力涛第10章监控报警系统实战原书源码地址：https://github.com/xlturing/spark-streaming-action/tree/master/code/第10章本文源码地址：https://...

2019-07-16 22:07:15 2558 1

原创中文字符用java.lang.String转码的小结（Java/Scala）

先给出最保险的转码操作，既无视平台编码，也无视字符编码：/** 保证接收到的字符串转为 UTF-8 格式 * 以 UTF-8 格式编码，再以 UTF-8 格式解码 */val strUTF8 = new String(strGBK.getBytes("UTF-8"), "UTF-8")1. 对字符串的编解码使用了如下四个方法（ java.lang.String ），还有其它的...

2019-07-10 18:45:17 1505

原创 Spark作业计算结点并发运行验证

一、双核 CPU 的情况验证方式： | 在作业主程序中的 rdd.foreachPartition()中加入如下代码： | 使当前线程睡眠1000ms，前后都打印当前线程信息 | 数据自行准备，大量即可rdd.foreachPartition(partition => { println("[partition] Current thread " ...

2019-07-06 16:47:42 218

原创《Spark用户行为统计系统》

------此项目整理自《Spark Streaming 实时流式大数据处理实战》肖力涛第9章用户行为统计系统原书源码地址：https://github.com/xlturing/spark-streaming-action/tree/master/code/第9章本文源码地址：https://gi...

2019-07-05 23:57:24 795

原创《Spark实时词频统计处理系统》

------此项目整理自《Spark Streaming 实时流式大数据处理实战》肖力涛第8章实时词频统计处理系统实战原书源码地址：https://github.com/xlturing/spark-streaming-action/tree/master/code/第8章本文源码地址：https:...

2019-06-28 23:52:06 1779

原创 MySQL中 insert into ... on duplicate key update ... values() 的使用笔记

**说明：1. on duplicate key update 含义： 1）如果在INSERT语句末尾指定了 on duplicate key update，并且插入行后会导致在一个UNIQUE索引或PRIMARY KEY中出现重复值，则在出现重复值的行执行UPDATE； 2）如果不会导致唯一值列重复的问题，则插入新行。2. values(col_nam...

2019-06-26 19:43:10 24126 6

原创 Spark Streaming日志分析

一、环境开发环境：系统：Win10 开发工具：scala-eclipse-IDE 项目管理工具：Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark (Streaming & SQL) 2.4.3 MySQL：mysql-connector-java-5.1.47作业运行环境：系统：Li...

2019-06-23 00:23:08 1318

原创 Redis安装及Jedis使用笔记

一、部署单机模式（standalone）部署1. Linux下安装gcc，（用于编译c文件），root用户执行 $ yum install gcc2. 在/opt下安装redis $ cd /opt $ wget http://download.redis.io/releases/redis-5.0.5.tar.gz $ tar xzf redis-5.0.5.tar....

2019-06-21 17:41:37 377

原创 Spark Streaming输出至HBase

一、环境开发环境：系统：Win10 开发工具：scala-eclipse-IDE 项目管理工具：Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark 2.4.3 HBase 1.2.9作业运行环境：系统：Linux CentOS7（两台机：主从节点，2核） master : 19...

2019-06-20 22:33:58 2281

原创 HBase相关概念笔记

1. HBase多角度描述： 1）HBase是一种数据库：Hadoop数据库、无模式（schema）数据库； 2）描述为：稀疏的、分布式的、持久化的、多维有序映射； 3）基于行键（rowkey）、列键（column key）和时间戳（timestamp）建立索引； 4）一种键值存储、面向列族的数据库，一种存储多时间戳版本映射的数据库； 5）根本上：一个支持随机访问的存储和检索...

2019-06-20 21:57:41 148

原创 Spark Streaming输出至MySQL

一、环境开发环境：系统：Win10 开发工具：scala-eclipse-IDE 项目管理工具：Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark 2.4.3 MySQL 5.1.47 MySQL c3p0 0.9.1.2 连接池作业运行环境：系统：Linux CentOS7（两台机：...

2019-06-18 21:17:18 2016 1

原创 Spark Streaming输出至Kafka

1. 由Spark Streaming 向Kafka写数据，没有现成的官方接口，需要利用Kafka提供的底层接口。2. 第一种写法，如下，会报错：nameAddrPhoneStream.foreachRDD(rdd => { //在Driver中执行 //初始化生产者配置 val props = new Properties() props.setProperty...

2019-06-17 17:55:21 2365 15

转载【转】8种常见SQL错误用法

【文章转载自】：https://mp.weixin.qq.com/s/CvJQrdsCO1KlJAjSpy1Ibw1、LIMIT 语句分页查询是最常用的场景之一，但也通常也是最容易出问题的地方。比如对于下面简单的语句，一般 DBA 想到的办法是在 type, name, create_time 字段上加组合索引。这样条件排序都能有效的利用到索引，性能迅速提升。SELECT * FR...

2019-06-14 20:07:36 114

原创 Spark Streaming分析Kafka数据

一、环境开发环境：系统：Win10 开发工具：scala-eclipse-IDE 项目管理工具：Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark 2.4.3 spark-streaming-kafka-0-10_2.11 （Spark Streaming 提供的Kafka集成接口）注1....

2019-06-13 15:04:28 755

原创 Kafka部署及相关概念笔记

一、部署部署Kafka前需先部署Zookeeper，上篇博文：ZooKeeper部署两台虚拟机（CentOS Linux 7）： 192.168.190.200 master 192.168.190.201 slave1所有节点都执行（hadoop用户）1. 下载 Kafka，安装版本：kafka_2.11-2.2.1.tgz，放于 /opt/ 目录下2. 解压...

2019-06-12 00:14:42 221

原创 ZooKeeper部署及相关概念笔记

一、部署两台虚拟机（CentOS Linux 7）： 192.168.190.200 master 192.168.190.201 slave1 创建两个zookeeper服务，最好是奇数个节点，原因： 3个节点和4个节点时，允许节点宕机数目都为1个（需保证集群一半以上节点存活，才能正常工作），所以从可靠性角度，3个和4个效果一样。所有节点都执行...

2019-06-11 17:16:42 232

原创 Spark Streaming之流式黑名单词汇统计（广播变量、累加器实现）

一、案例介绍1. 在上篇博文 Socket数据源流式词频统计的基础上，使用广播变量和累加器，实现对输入数据进行黑名单统计。2. 使用 wordCounts.foreachRDD() 对流数据中黑名单词汇统计，并输出至控制台： 1）方法定义：def foreachRDD(foreachFunc: (RDD[(String, Int)], Time) => Unit): Uni...

2019-06-09 18:45:14 410

原创书籍分享

链接：https://pan.baidu.com/s/1JKmcgpyBBcrvhT7h8ZK3Pw提取码：pzqa

2019-06-08 11:51:03 424

原创 Spark Streaming之流式词频统计（Socket数据源）

一、环境Spark、Hadoop环境搭建可参看之前文章。开发环境：系统：Win10 开发工具：scala-eclipse-IDE 项目管理工具：Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark 2.4.3Spark运行环境：系统：Linux CentOS7（两台机：主从节点） m...

2019-06-05 20:39:16 1716

转载【转】Linux中管道符"|"

利用Linux所提供的管道符“|”将两个命令隔开，管道符左边命令的输出就会作为管道符右边命令的输入。连续使用管道意味着第一个命令的输出会作为第二个命令的输入，第二个命令的输出又会作为第三个命令的输入，依此类推。下面来看看管道是如何在构造一条Linux命令中得到应用的。1.利用一个管道# rpm -qa|grep licq这条命令使用一个管道符“|”建立了一个管道。管道将rpm -qa...

2019-06-05 16:53:39 474

原创 Spark之Join和聚合操作实例

一、环境Spark、Hadoop环境搭建可参看之前文章。开发环境：系统：Win10 开发工具：scala-eclipse-IDE 项目管理工具：Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark 2.4.3Spark运行环境：系统：Linux CentOS7（两台机：主从节点） m...

2019-06-04 18:06:42 971

原创 GitHub下载Spark源码失败的解决方法

参考自：github下载失败的问题解决方法一、问题描述（尝试的几种下载方式）1. 从Spark官网（http://spark.apache.org/downloads.html）下载失败；2. 从github下载Spark源码（ .ZIP 下载）十分慢（17KB/s左右），并且下载到一般就异常结束；3. 先将项目Fork到自己仓库后下载，也是一样慢，且异常结束；4. 通过 ...

2019-06-04 14:47:15 932

原创 Spark之入门单词统计

一、环境Spark、Hadoop环境搭建可参看之前文章。开发环境：系统：Win10 开发工具：scala-eclipse-IDE 项目管理工具：Maven 3.6.0 JDK 1.8 Scala 2.11.11 Spark 2.4.3Spark运行环境：系统：Linux CentOS7（两台机：主从节点） m...

2019-06-02 23:59:13 512

转载【转】Maven设置镜像库

转自：1.最快的 maven repository--阿里镜像仓库 2.国内maven库镜像（阿里云）方法一：修改 Maven根目录/conf/settings.xml，添加如下配置信息：<mirrors> <mirror> <id>alimaven</id> <name>aliyun mav...

2019-06-02 17:18:04 677

原创 Spark安装笔记

本机环境： CentOS7（虚拟机：1核、2GB内存） JDK1.8 Spark2.4 Scala2.12 使用的静态IP：（在 /etc/hosts 中配置） 192.168.190.200 master （主节点） 192.168.190.201 slave1 （从节点）下载Scala版本：scala-2.12.6.tgz 地址：https://www.scala-l...

2019-05-30 23:06:05 283 3

原创《在线图书销售商业智能系统》流程框架实现

项目整理自：《Hadoop海量数据处理：技术详解与项目实战》范东来对应的电子书地址：https://pan.baidu.com/s/1JKmcgpyBBcrvhT7h8ZK3Pw 提取码：pzqa 所在目录："我的书籍\大数据生态\Hadoop\Hadoop海量数据处理技术...

2019-05-29 00:16:10 468

原创实现MapReduce作业的分布式缓存加载到本地计算节点

一、问题场景MapReduce任务是在独立的计算节点运行的。因此，对于作业提交节点上的某些文件，在计算节点本地是不存在的，会导致MapReduce任务失败（找不到文件）。二、使用Hadoop分布式缓存（推荐）1. 将计算结点需要的“边数据”（当前为"qqwry.dat"文件）上传到HDFS分布式文件系统中；2. Job任务设置其（HDFS路径）为分布式缓存；（缓存文件会默认下载到每...

2019-05-28 17:24:37 361

原创 MapReduce任务是多进程单线程模式验证

一、验证MapReduce任务是多进程的1. 实现MyMapper代码，Reducer可相同处理。如下：package com.mapreduce;import java.io.IOException;import java.lang.management.ManagementFactory;import java.lang.management.RuntimeMXBean;...

2019-05-22 23:43:40 721

转载 Java并发编程的volatile关键字（收藏）

Java并发编程：volatile关键字解析

2019-05-22 15:51:02 108

原创日志解析LogParser类的工厂注册单例模式实现（线程安全）

一、LogParserFactory的实现1.为每个调用线程分配一个唯一的LogParser（日志解析）对象，以使在线程内部重复使用；以键值对<Thread, LogParser>形式注册到同一内存的Map中。2.为每个调用对象（如：MR中的Mapper处理类）分配一个唯一的LogParser（日志解析）对象，以使在对象内部重复使用；以键值对<Object, LogPa...

2019-05-22 15:32:31 199

原创 Apache服务器日志Log解析

------------本文笔记整理自《Hadoop海量数据处理：技术详解与项目实战》范东来一、Apache服务器日志信息组成说明1. group-0 是一条初始的log日志信息；2. group-1 ~ group-15 是对该条日志正则解析后的结果。一条原始log日志： group-0 : 120.196.145.58 - - [11/Dec/2013:10:00:32 +...

2019-05-22 00:37:22 2781

原创利用纯真IP数据库解析IP地址位置信息

------------本文笔记整理自《Hadoop海量数据处理：技术详解与项目实战》范东来1.代码文件 IpParser.java 编码方式为 UTF-8，而纯真数据库文件qqwry.dat编码为GBK，故把getStr()方法的返回参数设置为GBK，否则乱码。2. 最后main()中有测试用例，可直接运行。3. 纯真IP地址数据库下载地址：http://www.cz88.net/...

2019-05-22 00:08:31 2240 6

转载 Linux添加 PYTHONPATH 环境变量的3种方法

Linux下设置PYTHONPATH环境变量有三种方法：一种作用于当前终端，一种作用于当前用户，一种作用于所有用户。1.作用于当前终端，直接当前终端输入命令 $ export PYTHONPATH=$PYTHONPATH:<你的要加入的路径> $ export PYTHONPATH=$PYTHONPATH:/home/hadoop/MyBI 注1：'/home/had...

2019-05-17 11:06:13 18213 1

转载 Python执行shell命令的几种方式笔记

1.使用os.system执行 import os os.system('pwd') 输出内容：/home/hadoop os.system('cat chinese.txt') 输出内容：中文2.使用os.popen执行（打开命令管道） import os output = os.popen('cat chinese.txt') print output ...

2019-05-17 10:35:38 202

转载 Sqoop命令参数大全（收藏）

http://sqoop.apache.org/docs/1.4.5/SqoopUserGuide.html

2019-05-16 16:16:18 1434

转载 MySQL日期-字符串-时间戳互转

------转载自：1.MySQL日期字符串时间戳互转平时比较常用的时间、字符串、时间戳之间的互相转换，虽然常用但是几乎每次使用时候都喜欢去搜索一下用法；本文将作为一个笔记，整理一下三者之间的转换（即：date转字符串、date转时间戳、字符串转date、字符串转时间戳、时间戳转date，时间戳转字符串）用法，方便日后查看。涉及的函数日期转字符串：date_format(dat...

2019-05-16 16:06:33 223

Pdf标签目录格式化工具（txt目录）

Hadoop技术内幕（三册 手动制作完整目录）

空空如也

Hadoop技术内幕（三册手动制作完整目录）