6 rolin-刘瑞

尚未进行身份认证

技术GEEK

等级
TA的排名 923

推荐系统系列 - 实例一 - 基于流行度的算法 - 搜索热词推荐

目录基础知识基础知识

2019-08-11 23:51:24

Antlr - 使用antlr4实现一个计算器,配合变量可以实现程序里的复合指标运算

目录开发环境准备idea项目配置antlr配置文件代码编写测试zookeeper下载开发环境准备idea我使用idea开发,所以使用一idea作为环境参考,idea版本是打开preferences,选择plugins输入antlr,没有安装过,点击下面进入repositories点击install,等待一会安装完成重启idea,看此处插件的antlr版本是4....

2019-08-10 23:06:17

推荐系统系列 - 引导 - 5类系统推荐算法,非常好使,非常全

  ◆◆◆  序言  最近因为PAC平台自动化的需求,开始探坑推荐系统。这个乍一听去乐趣无穷的课题,对于算法大神们来说是这样的:    而对于刚接触这个领域的我来说,是这样的:    在深坑外围徘徊了一周后,我整理了一些推荐系统的基本概念以及一些有代表性的简单的算法,作为初探总结,也希望能抛砖引玉,给同样想入坑的伙伴们提供一些思路。  ◆◆◆  什么是推荐系...

2019-08-04 20:15:31

伪分布式系列 - 第七篇 - zookeeper-环境搭建

目录zookeeper架构环境准备zookeeper配置zk启动测试zookeeper架构环境准备zookeeper配置zk启动测试

2019-08-04 00:26:47

伪分布式系列 - 第六篇 - flume-1.9.0-环境搭建

目录环境准备下载flumeflume配置启动测试环境准备下载flume下载地址:http://flume.apache.org/download.htmlhttp://mirror.bit.edu.cn/apache/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz版本:1.9.0flume配置启动测试...

2019-08-02 21:12:02

伪分布式系列 - 第五篇 - flink-1.8.1-bin-scala_2.12-环境搭建on hadoop3.2.0

目录flink的三种运行模式单机模式分布式onyarn环境准备下载flinkflink配置启动测试flink的三种运行模式单机模式分布式onyarn环境准备下载flink下载地址:https://flink.apache.org/downloads.htmlhttp://mirror.bit.edu.cn/apache/flink/flink-1.8.1/flink-1.8...

2019-08-02 21:05:30

建设企业的数据化引擎,网易严选数据中台的经验和方法论

转自:https://www.infoq.cn/article/Zyq4a*yEI1Uz2iwHFJuF?from=timeline数据中台最早是阿里提出的,但真正火起来是2018年,我们能感受到行业文章谈论数据中台的越来越多。大量的互联网、非互联网公司都开始建设数据中台。为什么很多公司开始建设数据中台?尽管数据中台的文章很多,但是一千人眼里有一千个数据中台,到底什么是数据中台?数据中台包...

2019-07-30 20:40:04

UML示例图

2019-07-30 20:03:29

Raft 为什么是更易理解的分布式一致性算法

一致性问题可以算是分布式领域的一个圣殿级问题了,关于它的研究可以回溯到几十年前。拜占庭将军问题LeslieLamport在三十多年前发表的论文《拜占庭将军问题》(参考[1])。拜占庭位于如今的土耳其的伊斯坦布尔,是东罗马帝国的首都。由于当时拜占庭罗马帝国国土辽阔,为了防御目的,因此每个军队都分隔很远,将军与将军之间只能靠信差传消息。在战争的时候,拜占庭军队内所有将军必需达成一致的...

2019-07-28 19:35:24

TiDB简介

由于目前的项目把mysql换成了TiDb,所以特意来了解下tidb。其实也不能说换,由于tidb和mysql几乎完全兼容,所以我们的程序没有任何改动就完成了数据库从mysql到TiDb的转换,TiDB是一个分布式NewSQL(SQL、NoSQL和NewSQL的优缺点比较)数据库。它支持水平弹性扩展、ACID事务、标准SQL、MySQL语法和MySQL协议,具有数据强一致...

2019-07-27 23:34:14

伪分布式系列 - 第四篇 - datax环境搭建,hive导入mysql测试

目录基础环境搭建spark配置spark启动测试基础环境搭建spark配置spark启动测试

2019-07-26 23:06:03

伪分布式系列 - 第三篇 - spark-2.4.3环境搭建on hadoop3.2.0

目录基础环境搭建spark配置spark启动测试基础环境搭建spark配置spark启动测试

2019-07-26 23:02:46

伪分布式系列 - 第二篇 - hive-2.3.5环境搭建on hadoop3.2.0

目录基础以来环境搭建hive搭建hive测试基础以来环境搭建hive搭建hive测试

2019-07-25 00:08:14

伪分布式系列 - 第一篇 - hadoop-3.2.0环境搭建

Hadoop的三种运行模式单机模式伪分布式模式全分布式集群模式环境准备安装包下载Hadoop配置启动服务简单使用

2019-07-24 22:29:26

YARN Federation

介绍众所周知,YARN可扩展到数千个节点。YARN的可伸缩性由ResourceManager确定,并且与节点数,活跃的应用程序,活跃的容器和心跳频率成比例。降低心跳可以提高可扩展性,但对利用率有害。本文档描述了一种基于联邦(federation)的方法,通过联合多个YARN子集,将单个YARN集群扩展到数万个节点。所提出的方法是将大的(10-100k节点)集群划分为称为子集群的较小单元,每...

2019-07-22 21:32:01

使用Eclipse Memory Analyzer Tool(MAT)分析线上故障(一) - 视图&功能篇

EclipseMemoryAnalyzerTool(MAT)是一个强大的基于Eclipse的内存分析工具,可以帮助我们找到内存泄露,减少内存消耗。工作中经常会遇到一些内存溢出、内存泄露等问题,同时还可能导致CPU使用率也很高,因为在频繁的进行GC垃圾回收,这时候就需要分析导致问题的原因,MAT是一个比较好用的工具,但刚开始使用时对于其提供的一些功能还是不太了解,故在此总结...

2019-06-17 21:46:47

浅谈ROLAP、MOLAP和HOLAP区别

对没有使用过数据仓库的人,对这三个概念确实是有点混淆不清。包括我自己本身不是做数据仓库出身,所以实际上是从实践出发,理论基础是有点匮乏的。一、基本概念1.OLAPOLAP(on-LineAnalysisProcessing)是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的核心概念是“维”(di...

2019-05-21 16:44:15

Kylin优化-Cube裁剪优化(聚合组,联合维度,层级维度,强制维度)

随着维度数目的增加,Cuboid的数量会爆炸式地增长。为了缓解Cube的构建压力,ApacheKylin引入了一系列的高级设置,帮助用户筛选出真正需要的Cuboid。这些高级设置包括聚合组(AggregationGroup)、联合维度(JointDimension)、层级维度(HierachyDimension)和强制维度(MandatoryDimension)等。”众所周...

2019-04-02 20:43:38

权限系统设计模型分析(DAC,MAC,RBAC,ABAC)

此篇文章主要尝试将世面上现有的一些权限系统设计做一下简单的总结分析,个人水平有限,如有错误请不吝指出。术语这里对后面会用到的词汇做一个说明,老司机请直接翻到常见设计模式。用户发起操作的主体。对象(Subject)指操作所针对的客体对象,比如订单数据或图片文件。权限控制表(ACL:AccessControlList)用来描述权限规则或用户和权限之间关系的数据表...

2019-04-01 15:31:22

Kylin cube构建过程优化

Kylin将Cube构建任务分解为几个依次执行的步骤,这些步骤包括Hive操作、MapReduce操作和其他类型的操作。如果你有很多Cube构建任务需要每天运行,那么你肯定想要减少其中消耗的时间。下文按照Cube构建步骤顺序提供了一些优化经验。创建Hive的中间平表这一步将数据从源Hive表提取出来(和所有join的表一起)并插入到一个中间平表。如果Cube是分区的,Kylin会加上一个时...

2019-03-28 15:27:23

查看更多

勋章 我的勋章
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。