5 香山上的麻雀1008

尚未进行身份认证

大数据实习生

等级
TA的排名 7w+

ElasticSearch中的Array类型【官网摘抄】

ElasticSearch中的Array类型官网介绍In Elasticsearch, there is no dedicated array datatype. Any field can contain zero or more values by default, however, all values in the array must be of the same datatype. For instance:an array of strings: [ "one", "two" ]an a

2020-05-26 14:18:18

ElasticSearch中的一些聚合操作

今天有一个小工作,原来数据是在Hive中存着,每次查询的时候就是后端拼接SQL然后用JDBC去数据库中查询,速度很慢很慢,于是我决定把数据源改为ElasticSearch中,下面就是整个流程:注:ElasticSearch使用的是6.3.1版本原拼接的SQL:select sum(cast(bdp_user_rfm.order_num as int)) as order_num, bdp_user_rfm.rfm_label as rfm, count(bdp_user_rfm

2020-05-18 19:48:17

ElasticSearch聚合操作后的数据格式问题

使用的是Java-High-Level-Client应用里边有两个聚合操作,但是聚合后得到的值格式并不是我们想要的,AggregationBuilder提供了一个format方法,来解决聚合后的数据格式转化问题。1.聚合操作求最近时间etl_date字段在es中为date数据类型,所以最后得到的值并不是标准的日期格式,这里就可以用format方法,将数据格式化成标准的日期格式。MaxAggregationBuilder maxEtlDate = AggregationBuilders

2020-05-18 18:27:34

如何将Hive中的数据导入到Druid中

Apache Druid是一个实时OLAP型数据库,现在有一个需求就是将Hive中的一张大表,导入到Druid中,然后应用层直接查询Druid。接下来就是将Hive中的数据导入到Druid的详细步骤:###我的方案是直接从HDFS上将源文件直接load过去0. 系统基本信息Druid版本0.18hadoop版本cdh集成的2.6.0使用的是Druid的single-server中的mi...

2020-04-30 11:10:16

Druid SQL官方文档

Apache Druid supports two query languages: Druid SQL and native queries.This document describes the SQL language.Druid SQL is a built-in SQL layer and an alternative to Druid’s native JSON-based...

2020-04-28 16:21:59

Hive内置数学、日期函数

数学函数下面表格中的函数为Hive的内置数学函数,大部分当参数为NULL时返回NULL。返回类型函数名描述bigint round(double a)返回a经过四舍五入的BIGINT 值doubleround(double a, int d)返回a经过四舍五入,保留d位小数的DOUBLE 值bigintfloo...

2020-04-23 18:45:54

Kylin 操作方式(web UI ,JDBC,shell脚本,Zeppelin)

Web UI查看属性查询注意:查询语句中事实表必须位于join的左边 Zeppelin打开web端界面hadoop:8080,点击右上角的interpreter 然后再创建note 之后就可以输入查询语句进行查询操作JDBC依赖<dependencies> <dependency> ...

2020-04-16 11:41:07

各类浏览器UA解析正则

var browserName = "Other"; var ua = window.navigator.userAgent; browserRegExp = { Sogou : /SE\s2\.X|SogouMobileBrowser/, Explorer2345 : /2345Explorer|2345chrome|Mb2345Browser/, ...

2020-03-27 13:27:22

Windows/Android/iOS 等常见 User-Agent 大全

User Agent 中文名为用户代理,简称 UA,是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。Python 爬虫通过伪装 UA 可以绕过某些检测。以下为搜集的常见的各浏览器的 User-Agent,其中:安卓操作系统:Android 7.1.1;OPPO R9sk Build/NMF26FPC...

2020-03-27 11:05:01

Hive学习之内置数学、日期函数

数学函数下面表格中的函数为Hive的内置数学函数,大部分当参数为NULL时返回NULL。返回类型函数名描述bigint round(double a)返回a经过四舍五入的BIGINT 值doubleround(d...

2020-03-10 14:22:49

电商推荐系统架构

第1章 项目体系架构设计1.1 项目系统架构项目以推荐系统建设领域知名的经过修改过的中文亚马逊电商数据集作为依托,以某电商网站真实业务数据架构为基础,构建了符合教学体系的一体化的电商推荐系统,包含了离线推荐与实时推荐体系,综合利用了协同过滤算法以及基于内容的推荐方法来提供混合推荐。提供了从前端应用、后台服务、算法设计实现、平台部署等多方位的闭环的业务实现。电商推荐系统架构图架构图代码,使...

2020-01-07 09:04:29

爬虫某个app首页推荐栏目

Fiddler如何实现爬虫:获取APP发往服务器的请求信息以及服务器的响应信息,确定有效请求信息(指的是我们想要爬取的数据的请求),具体指的是确定URL,header,写程序模拟APP的请求信息,发往服务器,将响应信息获得之后处理数据采用Fiddler作为抓包工具,具体操作如下:下载Fiddler( /'fɪdlə/)工具,下载地址为:https://www.telerik.com/do...

2020-01-07 09:00:58

ZooKeeper ACL权限控制

K 类似文件系统,Client 可以在上面创建节点、更新节点、删除节点等如何做到权限的控制?查阅文档,zk的ack(Access Control List)能够保证权限,但是调研完后发现它不是很好用。ACL 权限控制,使用:schema:id :permission 来标识,主要涵盖 3 个方面:权限模式(Schema):鉴权的策略授权对象(ID)权限(Permission)其特性如下:...

2019-10-08 17:54:33

hivesql中datediff,date_add和date_sub的用法

1.日期比较函数: datediff语法: datediff(string enddate,string startdate)返回值: int说明: 返回结束日期减去开始日期的天数。举例:hive> select datediff('2016-12-30','2016-12-29'); 12.日期增加函数: date_add语法: date_add(string s...

2019-09-26 15:56:55

Java虚拟机垃圾回收(三) 7种垃圾收集器

       在《Java虚拟机垃圾回收(一) 基础》中了解到如何判断对象是存活还是已经死亡?在《Java虚拟机垃圾回收(二) 垃圾回收算法》了解到Java虚拟机垃圾回收的几种常见算法。       下面先来了解HotSpot虚拟机中的7种垃圾收集器:Serial、P...

2019-09-22 14:51:26

Fetcher: KafkaConsumer消息消费的管理者

我们在客户端使用KafkaConsumer类进行Kafka消息的消费,其实KafkaConsumer是将创建消费请求、接收响应的操作全部交给了Fetcher去处理。我们从KafkaConsumer.poll()方法进入,解析Fetcher的工作流程。 在我们看具体...

2019-09-18 17:45:51

实现用户分层的手段——RFM模型

RFM模型是用于评估客户已有价值和用户潜在价值的一套重要方法,早期的RFM模型出现在营销事件中。R(Recency)最近一次消费与上一次消费的时间差,R值越大,说明用户上一次交易的时间越久远,也证实了用户与产品亲密度的下降。F(Frequency)消费频率,可以理解为某一时间段内的消费次数,具体的时间段需要依据产品特性而定,F值越大,说明用户活跃度越高,是个正向反馈。M(Monetary...

2019-09-17 18:18:49

解决kafka集群由于默认的__consumer_offsets这个topic的默认的副本数为1而存在的单点故障问题

抛出问题:__consumer_offsets这个topic是由kafka自动创建的,默认50个,但是都存在一台kafka服务器上,这是不是就存在很明显的单点故障? 经测试,如果将存储__consumer_offsets的这台机器kill掉,所有的消费者都停止消费了。请问这个问题是怎么解决的呢?原因分析:由于__consumer_offsets这个用于存储offset的分区是由kafka服务...

2019-09-12 15:33:29

kafka消费不到数据排查记录

集群上新安装并启动了3个kafka Broker,代码打包上传至集群,运行后发现一直消费不到数据,本地idea中debug后发现,程序一直阻塞在如下程序中,陷入了死循环。 /** * Block until the coordinator for this group is known and is ready to receive requests. * 等待直到我们和...

2019-09-12 14:28:58

Linux下split生成的文件按规律命名及添加扩展名

shell下的split命令主要用于分割一些大文件用的,比如经常要用到将一个几十万行的TXT分割为多少行一个的文件,非常有用,唯一坑爹的是,切割后的文件不能自动添加扩展名和按规律命名,刚找到一个还算不错的示例,算是解决了分割后命名无规律的问题,记录如下。今天又用到了split命令,想批量给分割后的文件添加扩展名,终于找到一个靠谱的方法,记录如下:split kws.txt -l 1000 -d...

2019-09-11 09:55:23

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 原力新人
    原力新人
    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。