1 kismetG

尚未进行身份认证

HelloWorld

等级
TA的排名 2w+

用户画像 --前提介绍

用户画像什么是用户画像? 百度百科定义 用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。我们在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待联结起来。==作为实际用户的虚拟代表==,用户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的,形成的用户角色需要有代表性能==代表产品的主要受众和目标群体==。 维基百科定义 A user profile is a visual disp.

2020-05-28 16:17:17

点击流分析

点击流概念点击流(Click Stream)是指用户在网站上持续访问的轨迹。注重用户浏览网站的整个流程。用户对网站的每次访问包含了一系列的点击动作行为,这些点击行为数据就构成了点击流数据(Click Stream Data),它代表了用户浏览网站的整个流程。点击流和网站日志是两个不同的概念,点击流是从用户的角度出发,注重用户浏览网站的整个流程;而网站日志是面向整个站点,它包含了用户行为数据、服务器响应数据等众多日志信息,我们通过对网站日志的分析可以获得用户的点击流数据。点击流模型完全是业务模型,

2020-05-19 20:53:26

kylin --Kylin Cube优化

Cuboid剪枝优化为什么要进行Cuboid剪枝优化将以减少Cuboid数量为目的的Cuboid优化统称为Cuboid剪枝。在没有采取任何优化措施的情况下,Kylin会对每一种维度的组合进行预计算,每种维度的组合的预计算结果被称为Cuboid。如果有4个维度,可能最终会有2^4 =16个Cuboid需要计算。但在实际开发中,用户的维度数量一般远远大于4个。 如果有10个维度,那么没有经过任何优化的Cube就会存在2^10 =1024个Cuboid 如果有20个维度,那么Cube中总共会存在2

2020-05-18 10:53:58

kylin -- 使用JDBC连接操作Kylin

(数据见资源包kylin)要将数据以可视化方式展示出来,需要使用Kylin的JDBC方式连接执行SQL,获取Kylin的执行结果使用Kylin的JDBC与JDBC操作MySQL一致jdbc urljdbc:kylin://node1:7070/tt01 用户名密码:ADMIN/KYLIN需求通过JDBC方式,查询按照日期、区域、产品维度统计订单总额/总数量结果开发步骤导入驱动依赖<dependencies> <!-- Kylin --> ...

2020-05-17 11:17:17

Kylin -- 增量构建 自动合并分区 自动删除Segment

增量构建应用场景Kylin在每次Cube的构建都会从Hive中批量读取数据,而对于大多数业务场景来说,Hive中的数据处于不断增长的状态。为了支持Cube中的数据能够不断地得到更新,且无需重复地为已经处理过的历史数据构建Cube,因此对于 Cube引入了增量构建的功能理解Cube、Cuboid与Segment的关系Kylin将Cube划分为多个Segment(对应就是HBase中的一个表),每个Segment用起始时间和结束时间来标志。Segment代表一段时间内源数据的预计算结果。一个Segm

2020-05-16 19:09:56

kylin -- 入门实战演练!!!

按照日期统计订单总额/总数量(Kylin方式)(测试资源请见kylin资源包!)要使用Kylin进行OLAP分析,需要按照以下方式来进行。1、创建项目(Project)2、创建数据源(DataSource)指定有哪些数据需要进行数据分析3、创建模型(Model)指定具体要对哪个事实表、那些维度进行数据分析4、创建立方体(Cube)指定对哪个数据模型执行数据预处理,生成不同维度的数据5、执行构建、等待构建完成6、再执行SQL查询,获取结果从Cube中查询数据操作步骤

2020-05-16 18:36:38

kylin -- 快速入门概述

1.快速入门概述1.1 Kylin 定义 Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop/Spark 之上的 SQL 查询接口 及多维分析(OLAP)能力以支持超大规数据,最初由 eBay Inc 开发并贡献至开源社区。 它能在亚秒内查询巨大的 Hive 表。1.2 Kylin 特点 Kylin 的主要特点包括支持 SQL 接口、支持超大规模数据集、亚秒级响应、可伸缩性、高吞吐率、BI 工具集成等。 1)标准 SQL 接口:Kylin 是以标准的 ..

2020-05-16 18:21:43

Kylin --入门安装介绍

Kylin 大数据OLAP引擎Kylin简介Kylin的诞生背景Kylin-中国团队研发的,是第一个真正由中国人自己主导、从零开始、自主研发、并成为Apache顶级开源项目 Hive的性能比较慢,支持SQL灵活查询,特别慢 HBase的性能快,原生不支持SQL- phoenix:可以写sql语句来查询hbase!! Kylin是将先将数据进行预处理,将预处理的结果放在HBase中。效率很高Kylin的应用场景 Kylin 典型的应用场景如下:用户数据存在于Hadoop HDFS.

2020-05-13 16:33:36

数据仓库 --拉链表技术介绍

拉链表:维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录。数据仓库的数据模型设计过程中,经常会遇到这样的需求:表中的部分字段会被update,例如: 用户的地址,产品的描述信息,品牌信息等等; 需要查看某一个时间点或者时间段的历史快照信息,例如: 查看某一个产品在历史某一时间点的状态 查看某一个用户在过去某一段时间内,更新过几次等等 变化的比例和频率不是

2020-05-12 11:26:35

数据仓库维度模型设计

维度建模基本概念 维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。 维度建模是专门应用于分析型数据库、数据仓库、数据集市建模的方法。数据集市可以理解为是一种"小型数据仓库"。事实表 ...

2020-05-05 16:36:32

kettle -- 连接hdfs 的转换 HDFS –Excel json -HDFS

HDFS –Excel需求:将hdfs上的文件转为Excel文件1.创建步骤2.连接hdfs3.设置hdfs输入4.设置Excel输出,运行json--HDFS 需求:将json上传到HDFS1.创建步骤,读取json数据2.上传hdfs,执行运行...

2020-04-23 10:49:04

kettle -- 连接hive读取数据导入hdfs

1.环境准备1.进入kettle安装文件目录的data-integration\plugins\pentaho-big-data-plugin,修改plugin.properties文件根据自己的hadoop版本添加不同的类型2.修改完成后进入自己对应的版本进入不同的目录,我进入的是plugins\pentaho-big-data-plugin\hadoop-config...

2020-04-22 11:54:00

Kettle --实操类型 csv转excel json转excel mysql转excel 生成数据输出为Excel 删除mysql表中指定id的数据

Test1 csv-excel需求:把数据从CSV文件抽取到Excel文件设置CSV输入步骤设置Excel输出步骤启动保存运行Test2 json-excel需求:把数据从json文件抽取到Excel文件(具体步骤跟test1大同小异)设置json输入步骤设置Excel输出步骤(具体步骤跟test1一模一样,这里省略)启动保存运行...

2020-04-22 08:57:14

kettle --入门安装测试

Kettle简介ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。kettle是纯java编写,支持图形化的GUI设计界面,然后可以以工作流的形式流转,在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的...

2020-04-21 18:07:35

Spark -- StructuredStreaming第三章 与其他技术整合 kafka 生产数据写入MySQL表

整合Kafka官网介绍http://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html●Creating a Kafka Source for Streaming Queries// Subscribe to 1 topicval df = spark .readStream...

2020-04-20 09:09:30

spark -- Structured Streaming实战代码案例 Structured Streaming输出详解 读取socket实时数据 读取目录下文本数据

Structured Streaming输出详解1.output mode:以哪种方式将result table的数据写入sink2.format/output sink的一些细节:数据格式、位置等。3.query name:指定查询的标识。类似tempview的名字4.trigger interval:触发间隔,如果不指定,默认会尽可能快速地处理数据5.checkpoint地址:一...

2020-04-20 08:42:03

Spark -- Structured Streaming入门介绍

介绍●官网http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html●简介spark在2.0版本中发布了新的流计算的API,Structured Streaming/结构化流。Structured Streaming是一个基于Spark SQL引擎的可扩展、容错的流处理引擎。统一...

2020-04-20 08:21:48

Spark -- spark on kafka Receiver & Direct Kafka手动维护偏移量

kafka回顾!!!上图完事!常用命令#启动kafka/export/servers/kafka/bin/kafka-server-start.sh -daemon /export/servers/kafka/config/server.properties#停止kafka/export/servers/kafka/bin/kafka-server-stop.sh#查看t...

2020-04-16 15:53:42

Spark --Spark Streaming实战 WordCount他来啦!!! updateStateByKey reduceByKeyAndWindow

WordCount需求&准备●图解●首先在linux服务器上安装nc工具nc是netcat的简称,原本是用来设置路由器,我们可以利用它向某个端口发送数据yum install -y nc●启动一个服务端并开放9999端口,等一下往这个端口发数据nc -lk 9999●发送数据话不多说!!!上代码!package cn.itcast.st...

2020-04-16 15:36:50

Spark -- Spark Streaming 简介,原理,DStream相关操作

Spark Streaming介绍●官网http://spark.apache.org/streaming/●概述Spark Streaming是一个基于Spark Core之上的实时计算框架,可以从很多数据源消费数据并对数据进行实时的处理,具有高吞吐量和容错能力强等特点。●Spark Streaming的特点1.易用可以像编写离线批处理一样去编写流式程序,支...

2020-04-16 15:01:28

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。
  • 原力新人
    原力新人
    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。
  • 分享学徒
    分享学徒
    成功上传1个资源即可获取