自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

shine

风一样的云

  • 博客(27)
  • 资源 (2)
  • 收藏
  • 关注

原创 ClickHouse的自评

简介Clickhouse是一个列式数据库管理系统。官网地址:https://clickhouse.tech/ 官方文档:https://clickhouse.tech/docs/en/ 官方学习平台:https://play.clickhouse.tech/?file=welcome 安装步骤:https://clickhouse.tech/#quick-start 支持在线安装和离线安装 存储支持数据压缩存储 支持机械盘存储并发支持分布式的并发处理查询支持分布式..

2021-08-17 17:50:02 259

原创 Metabase介绍

介绍 metabase是一款半开源的BI分析工具,开发语言clojure+js为主。 官网:https://www.metabase.com/可以利用Metabase进行数据分析,数据可视化,报表生成等。 安装 下载metabase,用jvm运行 初始化 创建用户、新增数据库略。。支持的输入数据库metabase主要功能创建数据集、在线可视化分析、生成分析图表、构造d...

2021-08-13 14:48:46 16647 2

转载 Spark local 运行须知

下载带Hadoop的spark版本本地解压spark压缩包基本步骤:1.到spark官网 https://spark.apache.org/downloads.html 下载with hadoop版本的这里要注意的是,下载with hadoop版本的,即本地不需要再进行hadoop集群的安装部署。下载后解压,到bin目录下执行spark-shell.cmd,此时会报java.lang.IllegalArgumentException: Error while instanti..

2020-06-04 15:45:54 299

原创 PG -模糊查询-json字段索引

pg有json字段的索引,可以用Gin做类似全文索引查询sql:SELECT * FROM test WHERE "content" @> '{"domain":"www.sina1.com"}' ORDER BY "content" DESC LIMIT 1;以上由于内部机制不加排序会不触发gin索引,所以要加排序;原先不加Limit,不走索引: 首先表里面有99w行记录...

2019-09-02 15:13:49 1819 1

原创 Pg数据库的IP地址最优查询

pg有专门的IP数据类型 inet,可直接对字段操作,>=,<=IP地址搜索为了提高搜索速度,需要建索引Btree索引(最快)btree (ip_start, ip_end)+加上order by ip_start desc limit 1;前提条件:表里IP范围不能重叠,一个IP只能查一条记录;所有IP都能查到,不然会扫描一半的索引;因为表里ip范围是不重叠的。基本上i...

2019-08-08 10:31:42 1418

原创 mysql ip处理

IP值匹配 需要按照字符来,但是“001.000.000.000” 和“1.0.0.0”,不一致不会匹配,且不能范围查询,betwen toINET_ATON(ip) :将 IP 转成一个积和,用来范围匹配INET_NTOA(INET_ATON(ip)) 再转成IP 可去除多的前缀0,“1.0.1.0”SELECT ip_left,INET_ATON(INET_NTOA(INET_...

2019-05-07 15:17:58 344

原创 NATS 分布式消息队列系统

官网测试性能不错,使用成熟,GO社区的常用消息中间系统,不同于Java社区的kafka,nats偏于redis式的消息中间件,不不像Kafka式的可以持久化。==摘录=https://www.cnblogs.com/liang1101/p/6641082.html==1、介绍NATS(Messagebus):从CloudFoundry的总架构图看,位于各模块中心位置的是一个...

2019-04-22 10:25:39 23489 2

原创 flume 入门

flume实现场景:日志流式系统多个agent 通过设置 sink,source 可以实现数据合流到一个agent上,在利用logSink 数据落地,或者自定义sink,利用post请求发到接口参考文件:flume 介绍:https://www.cnblogs.com/zhangyinhua/p/7803486.html#_label2Apache-Flume日志收集+...

2019-04-11 15:23:44 131

原创 Redis 介绍和使用注意

redis :*****************redis适用场合****************1.取最新N个数据的操作2.排行榜应用,取TOPN操作3.需要精确设定过期时间的应用4.计数器应用5.Uniq操作,获取某段时间所有数据排重值6.实时系统,反垃圾系统7.Pub/Sub构建实时消息系统7.Pub/Sub构建实时消息系统8.构建队列系统9.缓存...

2019-03-19 16:01:30 106

原创 sparkSQL数据倾斜

场景一:大表join小表: 把小表broadcast,和cache 到内存,并且大表加了distribute by rand()然后在spark-submit中加一个conf:spark.sql.autoBroadcastJoinThreshold=200000000。此配置限定小表大小,单位为字节,只要表大小小于此取值(此处约为200m),且被执行过cache table的小表,在做jo...

2019-02-21 14:46:06 2447

原创 Git windows无法连接问题

正确安装Git 设置好用户名和邮箱;可配置下ssh公钥 https://www.cnblogs.com/hafiz/p/8146324.html如果还不行,检查好权限,用户没问题后,再看下known_hosts;http://blog.51cto.com/abezoo/2089127使用git连接之前配置好的公司内部git服务器时遇到无连接权限问题。根据提示发现是服务器切换了内...

2019-01-11 10:29:38 1287

原创 mysql 5.8安装问题

mysql Client does not support authentication protocol requested by server; consider upgrading MySQL只安装MySQL sever 用navicat 连接解决方法:管理员后台(root),输入密码use mysql;ALTER USER 'root'@'localhost' IDEN...

2018-09-26 10:19:04 654

转载 Scala跳出循环的三种方法

Scala跳出循环的三种方法 1、基于boolean类型的控制变量while循环:var flag = truevar res = 0var n = 0while(flag) {  res += n  n += 1  if (n == 5) {    flag = false  }}for循环:(高级for循环,加上了if守卫)var flag = true...

2018-09-04 15:34:02 1834

原创 Kafka producer

val props = new Properties()props.put("metadata.broker.list", Conf.Brokers) // broker 如果有多个,中间使用逗号分隔props.put("serializer.class", "kafka.serializer.StringEncoder")props.put("request.required.acks",...

2018-07-05 14:32:43 167

原创 Checkpoint java.lang.NullPointerException异常

aDStream.cache()aDStream.foreachRDD{rdd=&gt;rdd.checkpoint()}aDStream.foreachRDD{rdd=&gt;outprint}有时会报错:输出时取aDStream时,如果rdd=null就会报错解决方法,加判断

2018-06-12 19:32:14 593

原创 spark jdbc 序列化

jdbc prep是一个PrepareStatement对象,这个对象无法序列化,而传入map中的对象是需要分布式传送到各个节点上,传送前先序列化,到达相应机器上后再反序列化,PrepareStatement是个Java类,如果一个java类想(反)序列化,必须实现Serialize接口,PrepareStatement并没有实现这个接口,对象prep在driver端,collect后的数据也在d...

2018-06-12 11:31:00 708

原创 scala Map

Map结构是一种非常常见的结构,在各种程序语言都有对应的api,由于Spark的底层语言是Scala,所以有必要来了解下Scala中的Map使用方法。(1)不可变Map特点:api不太丰富如果是var修饰,引用可变,支持读写如果是val修饰,引用不可变,只能写入一次值,其后只读var a:Map[String,Int]=Map("k1"-&gt;1,"k2"-&gt;2)//初始化构造函数 ...

2018-06-12 10:34:48 174

原创 Scala的foldLeft和foldRight和/:和:\

代码:结果:/:是foldLeft的缩写,:\是foldRight的缩写a/:b 结果得是b

2018-06-05 10:11:22 2047

转载 Spark的RDD操作之Join大全!

Spark的RDD操作之Join大全!一、RDD的Join操作有哪些?(一)Join:Join类似于SQL的inner join操作,返回结果是前面和后面集合中配对成功的,过滤掉关联不上的。源代码如下:[plain] view plain copy/**   * Return an RDD containing all pairs of elements with matching keys in...

2018-05-15 17:28:28 6933

原创 Scala implicit 隐式详解

implicit的作用,有2点:        第一个扩展其他类,增加方法;class A (val data:Int){ ...}此时我们希望扩展该类的功能,增加类A的数据显示功能implicit class B(a:A) { def show { println(a.data) }}此时我们扩展了类A功能,可以如下使用。val...

2018-05-14 10:04:23 483

转载 hive

一、关系运算:1. 等值比较: =         语法:A=B         操作类型:所有基本类型         描述:如果表达式A与表达式B相等,则为TRUE;否则为FALSE         举例:         hive&gt;select 1 from lxw_dual where 1=1;         12. 不等值比较: &lt;&gt;         语法: A &l...

2018-05-09 15:43:22 244

转载 scala正则表达式基础

--------------------------目录--------------------------1、正则表达式阐述2、scala正则表达式基础---------------------------------------------------------1、正则表达式阐述正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串...

2018-05-09 10:23:25 511

转载 Spark核心RDD:combineByKey函数详解

为什么单独讲解combineByKey?因为combineByKey是Spark中一个比较核心的高级函数,其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,reduceByKey等等如下给出combineByKey的定义,其他的细节暂时忽略(1.6.0版的函数名更新为combineByKeyWithClassTag)[java] view plain copydef combi...

2018-05-08 11:45:53 155

转载 HDFS 基础命令

前言HDFS命令基本格式:hadoop fs -cmd &lt; args &gt;ls 命令hadoop fs -ls /12列出hdfs文件系统根目录下的目录和文件hadoop fs -ls -R /12列出hdfs文件系统所有的目录和文件put 命令hadoop fs -put &lt; local file &gt; &lt; hdfs file &gt;12hdfs file的父...

2018-04-28 15:40:30 137

转载 python print格式化输出

python print格式化输出。1. 打印字符串print ("His name is %s"%("Aviad"))效果:2.打印整数print ("He is %d years old"%(25))效果:3.打印浮点数print ("His height is %f m"%(1.83))效果:4.打印浮点数(指定保留小数点位数)print ("His height is %.2f m"%(1...

2018-04-28 15:38:21 741

转载 IntelliJ IDEA与Maven 构建 Scala 项目

转载:https://blog.csdn.net/u011513853/article/details/52896230参考https://github.com/judasn/IntelliJ-IDEA-Tutorial(非常好的IntelliJ IDEA教程)https://www.cnblogs.com/hanyinglong/p/5030907.html(打包)...

2018-04-25 10:21:18 222

原创 Oracle 用户(user)和模式(schema)的区别

(一)什么Oracle叫用户(user):  A user is a name defined in the database that can connect to and access objects.大意:Oracle用户是用连接数据库和访问数据库对象的。(用户是用来连接数据库访问数据库)。(二)什么叫模式(schema):  A schema is

2018-01-09 13:23:30 1342

pdf文件生成加密,设置只读属性,添加水印的必要最新jar包6个包

jar包也是自己找了好久好久找到的亲测有用,不想花时间找的同学可以来下,一共6个包,itext-5.3的和bcpkix-jdk和bcprov-jdk的包

2016-11-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除