自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(90)
  • 资源 (7)
  • 收藏
  • 关注

原创 知识点汇总

简介从事于金融大数据开发,整理了一些平时工作中的知识点和工具类,发布在趣说大数据微信公众号,分享工作经验,记录生活点滴,共同学习探讨,我在这等你哦!以下是整理的一些知识点的链接:1 离线数仓常用工具之sqoop (1)MySQL->HDFShttps://t.1yb.co/jVC02 离线数仓常用工具-sqoop(2)HDFS->MySQLhttps://t.1yb.co/jVBS3 工具类之Pyhton创建hive表https://t.1yb.co/jVBK4 Hiv

2021-03-16 19:11:26 208

原创 微信公众号

在今天我开通了微信公众号,希望小伙伴们动动你们的双手帮忙关注一波,一起进步一起讨论。在公众号等你哦!不见不散

2021-02-18 16:00:35 315

原创 hive分区表增加字段的问题

由于近期业务需要,需对现已存在的分区表增加字段,遇到了一个小问题记录一下:alter table table_name add columns (c_time string comment '当前时间');再往改分区表插入数据后,通过hive查询查不到改字段的值。问题解决:如果是按日期分区的表,不会出现这问题,因为再第二天往里写的时候会刷新分区数据。 不是日期分区的表,需要手动刷...

2020-05-08 11:57:33 715

原创 spark-任务提交多个jar包问题(Oozie调度)

spark-submit \--class com.xxx.bigdata.handler.xxx \ -- 运行的主类--master yarn \--deploy-mode client \--driver-memory 1g \--executor-memory 2g \--executor-cores 2 \--jars hdfs:///user/admin/xx/bas...

2020-01-02 17:23:41 2473

原创 spark-streaming 手动提交偏移量至mysql和Druid数据连接池

文章目录一原生查询偏移量二 Druid数据库连接池三 在mysql中创建对应的偏移量表四 获取mysql中的偏移量五维护偏移量至mysql六 获取kafka Dstream七 测试代码八查看mysql中的结果数据一原生查询偏移量 val driver = "com.mysql.jdbc.Driver" val url = "jdbc:mysql://aliyun01:3306/kafka...

2019-11-04 20:02:13 1072

原创 Flink乱序处理测试

文章目录一 数据源二 测试三 总结一 数据源def main(args: Array[String]): Unit = { val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment //设置时间语义 时间发生时间 env.setStreamTime...

2019-10-23 19:37:06 347

原创 Flink keyed state 和RichFunction测试

文章目录一 数据源及入口二 key State2.1 ValueState[T]保存单个的值,值的类型为T。2.2 ListState[T]保存一个列表,列表里的元素的数据类型为T。基本操作如下:2.3 MapState[K, V]保存Key-Value对。2.4 ReducingState[T]2.5 AggregatingState[I, O]2.6 State.clear()是清空操作。三...

2019-10-23 15:51:38 540

原创 Flink-SideOutput测输出流-实现分流

文章目录一 数据源二 分流三 输出结果大部分的DataStream API的算子的输出是单一输出,也就是某种数据类型的流。除了split算子,可以将一条流分成多条流,这些流的数据类型也都相同。process function的side outputs功能可以产生多条流,并且这些流的数据类型可以不一样。一个side output可以定义为OutputTag[X]对象,X是输出流的数据类型。proc...

2019-10-23 14:40:15 2526

原创 Flink waterMaker+timeWindow测试

文章目录一 数据源二 滑动窗口三 滚动窗口四 会话窗口注意:一 数据源样例类case class SensorReading(id:String,ts:Long,tm:Double){} val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment //设置时间语...

2019-10-23 10:10:50 346

原创 Flink 入门程序WordCount

文章目录一 项目依赖二 编码2.1 批处理2.2 流式WordCount一 项目依赖<dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11</artifactI...

2019-10-20 10:32:13 181

原创 大数据编程常用方法、依赖、工具

文章目录1 修改序列化器2 Java集合与Scala集合相互转换需要得隐式转换3 DS与RDD、DF之间相互转换得隐式转换4 广播变量5 累加器6 自定义累加器需继承AccumulatorV2这个类7 SparkContext的创建方式8 SparkSession的创建方式9 SparkStreaming的创建方式10 自定义聚合函数11 本地通过SparkSql 查询Hive12 SparkSt...

2019-10-15 20:29:15 351

原创 Scala-操作Es写入数据

文章目录一 需求描述二 依赖三 手动指定MovieMapping四 写数据到Es中4.1 写入Es工具类4.2 测试五 从es中查询数据一 需求描述使用Spark读取本地Json文件,将读出的电影数据写入到Es中按照电影的Id进行分组统计,统计出每个电影的平均分,升序二 依赖<!--es 相关依赖开始--> <dependency> ...

2019-10-12 21:43:11 3869

原创 Kibana Web页面操作Elastic Search

一 准备工作es版本6.3.1 kibana 版本6.3.1启动三台ES节点,组建成Es集群启动kibana 连接上Es访问kibana提供的Web页面http://hadoop102:5601二 接口Restfull Api2.1 查看es中有哪些索引GET /_cat/indices?v表头含义:health green(集群完整) yellow(单点正常、集群不...

2019-10-12 19:18:28 2035

原创 mybatis整合Phoenix实现日活数据实时查询

简介通过mybatis统计出当天日活数据,返回Json数据一 准备二 项目分层配置三 测试接口

2019-10-10 20:01:39 711

原创 spark-整合Phoenix将数据写入Hbase

文章目录一 环境准备1.1 pom文件1.2 config配置:1.3 properties解析工具类1.4 HbaseUtil工具类1.5 kafkaUtil根据指定的topic返回对应的Dstream1.6 jedisUtils从连接池中获取Jedis连接实例1.7 样例类二 Spark直接将数据写入Hbase三 Spark整合Phoenix将数据写入hbase四遇到的问题问题1 :Phoen...

2019-10-09 20:49:40 2397

原创 spark操作文件、mysql、hbase

文章目录一读写文件二 读写至mysql2.1 从mysql中读取数据2.1.1 使用spark提供的JDBCRDD2.1.2 使用原生的JDBC连接数据库查询封装为RDD集合2.2 Spark批量写入数据到mysql三 读写至hbase四 读写至kafka一读写文件object ReadFileAndSaveAsFile { def main(args: Array[String]): U...

2019-10-05 12:01:11 129

原创 Spark-Streaming缓存计算结果,Wordcount累加求和

一 updateStateByKey函数声明:def updateStateByKey[S: ClassTag]( updateFunc: (Seq[V], Option[S]) => Option[S]): DStream[(K, S)]需求:对上次计算的结果进行缓存,在应用重启后,加载上次计算的结果,这里从scoket中读取流数据在这里插入代...

2019-10-05 11:59:47 864

原创 Structured-Streaming编程练习知识点

一 source官网介绍:File sourcepath: path to the input directory, and common to all file formats. maxFilesPerTrigger: maximum number of new files to be considered in every trigger (default: no max) la...

2019-09-26 16:32:04 1234

原创 spark-streaming有状态转换计算

文章目录一 updateStateByKey二 window操作2.1 reduceByKeyAndWindow2.2 reduceByKeyAndWindow2.3 window(windowLength, slideInterval)2.4 countByWindow(windowLength, slideInterval)一 updateStateByKey操作允许在使用新信息不断更新状...

2019-09-24 20:29:17 584

原创 spark-Streaming无状态转换Transform

transform 原语允许 DStream上执行任意的RDD-to-RDD函数。可以用来执行一些 RDD 操作, 即使这些操作并没有在 SparkStreaming 中暴露出来.该函数每一批次调度一次。其实也就是对DStream中的RDD应用转换。package com.gc.sparkStreaming.day01.transformimport kafka.serializer.S...

2019-09-24 18:54:27 352

原创 spark-Streaming整合kafka手动维护offset_wordcount

package com.gc.sparkStreaming.day01import kafka.common.TopicAndPartitionimport kafka.message.MessageAndMetadataimport kafka.serializer.StringDecoderimport org.apache.kafka.clients.consumer.Consum...

2019-09-24 18:35:53 709

原创 Spark-sql与hive进行整合(代码中操作hive)

文章目录一环境准备pom依赖二 代码编写三 在此基础上基于二对表userinfo中的数据进行指标计算三 总结一环境准备在代码中访问hive需要导入hive的依赖和jdbc依赖需要hive的配置文件,否则默认访问的是自带的hivespark-shell 中默认是开启支持hive的,在本地代码中没有开启,需手动开启pom依赖<dependencies> <de...

2019-09-22 17:12:30 702

原创 spark-sql自定义UDAF函数

文章目录一需求分析二 自定义UDAF实现三测试一需求分析读输入的数据进行聚合,对给出的集合元素进行累加和求平均值,返回计算后的结果二 自定义UDAF实现import java.text.DecimalFormatimport org.apache.spark.sql.Rowimport org.apache.spark.sql.expressions.{MutableAggregat...

2019-09-22 10:56:10 306

原创 Spark-sql入门案例-wordcount

一描述对按照空格切分的文本文件中的内容进行解析,读取,按照单词进行统计,最后按照统计结果进行排序,保存到文件具体的步骤:初始化Spark-sql对象读取文件内容对一行的数据进行处理分组统计结果排序保存至文件二 数据准备三 环境准备新建spark-sql项目,导入pom依赖:<dependencies> <dependency> ...

2019-09-22 10:05:36 437

原创 Spark累计器和广播变量

文章目录一 自定义累加器实现奇数和偶数分别相加1.1 确定累加器的输入和输出1.2 实现累加系统提供的AccumulatorV2的类1.3 编写测试类二 自定义累加器实现统计总数,最大数、最小数平均数2.1 累加器输入输出分析2.2 编写累加器类2.3 测试三 广播变量四 总结一 自定义累加器实现奇数和偶数分别相加需求描述:给定一个List集合,对list集合中的元素进行一次遍历统计出奇数和偶...

2019-09-19 14:11:31 224

原创 nginx和nginx kafka插件

文章目录一 nginx 安装1.1 nginx与nginx kafka插件下载1.2 nginx kafka下载编译1.2.1 直接clone到本地再上传上去(或者使用git 克隆)1.2.1.1 克隆librdkafka对应的依赖到本地1.2.1.2 克隆Nginx Kafka Module对应的依赖到本地1.3 进入到librdkafka-master目录1.4 进入到nginx源码目录1....

2019-09-02 20:30:21 460

原创 hive 自定义UDF和UDTF函数解析事件

一 数据样例1566461617106|{ "cm":{ "ln":"-96.6", "sv":"V2.1.6", "os":"8.1.3", "g":"[email protected]", "mid":"992", "nw":"WIFI", "l":"pt", ...

2019-08-24 18:11:36 922

原创 数仓数据通道之用户行为搭建

采集通道系统架构集群规划服务名称子服务服务器hadoop102服务器 hadoop103服务器 hadoop104HDFSNameNode√DataNode√√√SecondaryNameNode√YarnNodeManager√√√Resourcemanager√Zookeeper...

2019-08-23 20:29:30 831

原创 数仓项目分层简介和Hive环境搭建(替换计算引擎为Tez)

文章目录一 分层架构二 hive 安装(1.2.1)2.1 集群规划2.2 hive 安装配置2.2.1 上传hive安装包修改配置文件2.2.2 修改元数据存储为mysql(安装mysql切换至root用户)2.2.2.1 检查是否安装的有mysql,有则卸载掉自带的2.2.2.2 安装mysql服务端2.2.2.3 安装mysql客户端2.2.2.4 修改mysql密码和授权用户访问2.2.2...

2019-08-23 18:45:25 702

原创 常见sql 练习题

题目来源于https://blog.csdn.net/flycat296/article/details/63681089?spm=a2c4e.11153940.blogcont637168.8.1f5022a5GeYTL31. 查询" 01 "课程比" 02 "课程成绩高的学生的信息及课程分数2 查询选择" 01 "课程和" 02 "课程学生信息3 查询选择" 01 "课程但可能不存在...

2019-06-08 13:07:51 676

原创 hdfs 常用命令练习

hadoop fs -ls / 查看根目录下的文件列表hadoop fs -mkdir -p /aaa/bbb 递归创建文件目录hadoop fs -cp /xxx /xxxx文件拷贝hadoop fs -cp ir /xxx/ /xxxxx递归拷贝hadoop fs -put /xxx / 上传本地文件 至文件系统的根目录hadoop fs -get /xxx...

2019-03-16 01:28:30 407

原创 搭建hdfs分布式文件系统

搭建采用windows108G内存 centos6.6 jdk1.8 4台虚拟机1 上传JDK至虚拟机解压文件 tar -zxvf jdk-8u141-linux-x64.tar.gz 2 配置环境变量增加JAVA环境变量vi /etc/profileexport JAVA_HOME=/app/jdk1.8export PATH=.:$PATH:$JA...

2019-03-13 21:33:36 656

原创 springboot项目练习16 抽离公共的依赖

新建news-parent项目,作为项目的公共依赖 修改注册中心,前台,后台项目pom文件 &lt;groupId&gt;com.gc.news&lt;/groupId&gt; &lt;artifactId&gt;news-parent&lt;/artifactId&gt; &lt;version&gt;0.0.1-SNAPSHOT&lt;/version&gt; &lt;pa...

2019-01-25 22:22:56 1033

原创 springboot项目练习15 抽离公共模块整理代码

将entity实体类和公共类抽离出原项目 修改服务提供者和服务消费者项目1 新建项目news-common,添加公共依赖lang jsoup依赖 &lt;modelVersion&gt;4.0.0&lt;/modelVersion&gt; &lt;groupId&gt;com.gc.spingboot&lt;/groupId&gt; &lt;artifactId&gt;news...

2019-01-23 23:36:59 2926 1

原创 springboot项目练习14 新增新闻前台首页项目

新增news-search项目新闻前台项目 通过feign调用news-service项目中暴露接口完成新闻检索1 新增news-search导入项目依赖,由于需要控制器和视图解析,后面可能会用到redis做缓存导入如下依赖&lt;project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/...

2019-01-19 11:17:28 1043

原创 springboot练习13 修改项目架构结合springcloud

 将新闻后台,新闻前台,用户模块注册到springcloud的注册中心,通过feign进行相互调用。新增注册中心项目 修改原新闻后台项目,让其注册到注册中心准备工作:新建项目register-center项目,在项目中引入spring-cloud-starter-netflix-eureka-server,在启动类上添加@SpringBootApplication@EnableEur...

2019-01-18 22:26:16 694 4

原创 springboot练习12 solr与数据库之间的数据同步

修改原获取json数据直接插入solr索引库的方法 增加数据库与solr库之间的同步方法首先在数据量不是很多的前提下,我们先进行单表查询,将数据查询出来,然后通过设置一个临界值,对集合进行拆分,例如:分成大小为100的集合,再调用NewDocSolr提供的批量插入的方法,将数据库查出的数据通过线程同步的方式同步到solr库。实现以下这个简单的递归方法(前些天测试用的重复的数据已经sql语句...

2019-01-13 17:06:07 1433 1

原创 springboot项目练习十一 递归解析指定目录下的文件,保存至数据库

获取该目录下所有以.json结尾的文件 调用原解析的方法将数据批量插入数据库 使用redis存储已解析文件的名称,避免下次重复解析 使用到FileFilter文件过滤这个类,线程从根目录开始解析判断是否是目录,是则获取子文件,将符合要求的文件存到集合,对剩下的文件进行递归遍历1 先看下文件目录json文件目录下,方便测试加了一层子目录2 编写递归读取文件的方法packag...

2019-01-12 16:08:15 1055

原创 springboot项目练习十 整合mybatis+pageHelper

新建数据库 新建news表 配置数据库链接信息和数据源 整合pageHelper 编写baseDao 和baseDaoImpl实现公用方法的抽取 编写newDao和newsDaoImpl的实现类 编写newsDataBaseController测试创建数据库和表create database springboot_solr ;use springboot_solr;CRE...

2019-01-12 14:32:01 314

原创 springboot项目练习九 整合log4j2+aop完成新增方法日志信息记录

注意注意:由于使用的是springboot2.0.5版本,故采用log4j2进行日志采集(起初尝试log4j没有成功网上说1.5版本以上得使用log4j2 ,具体原因也未进行深究。知道的小伙伴可以留言告诉一下,大家一起学习) 由于springboot默认使用的是spring-boot-starter-logging这个,需将此依赖排除 起初想在用户请求数据的时候进行日志记录,但由于查询请求,往...

2019-01-12 12:48:39 844

身份证前四位所属身份地区sql文件

INSERT INTO `t_card_area` (`IDPREFIX`, `PRV`, `CITY`, `COUNTY`) VALUES (530901,'云南省','临沧市','市辖区');// 建表语句CREATE TABLE default.t_card_area( idprefix BIGINT NOT NULL ENCODING AUTO_ENCODING COMPRESSION DEFAULT_COMPRESSION COMMENT '省份', prv STRING NULL ENCODING AUTO_ENCODING COMPRESSION DEFAULT_COMPRESSION COMMENT '城市', city STRING NULL ENCODING AUTO_ENCODING COMPRESSION DEFAULT_COMPRESSION COMMENT 'CITY', county STRING NULL ENCODING AUTO_ENCODING COMPRESSION DEFAULT_COMPRESSION COMMENT 'COUNTY', PRIMARY KEY (idprefix) ) STORED AS KUDU TBLPROPERTIES ('kudu.master_addresses'='node129:7051', 'kudu.num_tablet_replicas'='1')我的是kudu表

2020-05-21

手机号前7位归属地csv文件

包含全国手机号归属地,如:1,1300000,山东,济南,中国联通,0531,250000 分别对应id,机号前7位,省份,城市,运营商类型,所在地区区号,对应邮编

2020-05-21

web crawing 电子书(外文书刊)

资源为web crawing 电子书,介绍java 爬虫,书为外文文献

2018-06-01

一套后台管理的html静态模板

一套html的页面模板,可以很方便的完成后台程序的页面开发,当时用来做毕业设计前端页面,直接套数据就可以了

2018-05-04

webscoket 前端js文件

里面包含scoketjs和stompjs,webScoket开发前端使用的两个js文件,使用stomp即可完成订阅和群发的功能

2018-05-04

mysql数据库单表备份和调用mysqldump.exe进行数据库备份

介绍mysql数据库,单表备份,整库备份。

2017-07-06

mysql数据库触发器,外键约束模式知识点

内包含外键约束模式,数据库的视图基本操作

2017-07-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除