自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 基于Spark Streaming的实时日志分析系统实践 Spark Streaming 在数据平台日志解析功能的应用

前言目前业界基于 Hadoop 技术栈的底层计算平台越发稳定成熟,计算能力不再成为主要瓶颈。 多样化的数据、复杂的业务分析需求、系统稳定性、数据可靠性, 这些软性要求, 逐渐成为日志分析系统面对的主要问题。2018 年线上线下融合已成大势,苏宁易购提出并践行双线融合模式,提出了智慧零售的大战略,其本质是数据驱动,为消费者提供更好的服务, 苏宁日志分析系统作为数据分析的第一环节,为数据运营打下了坚实基础。数据分析流程与架构介绍业务背景苏宁线上、线下运营人员,对数据分析需求多样化、时效性要求越来越高

2020-12-21 15:08:05 2160

原创 基于Spark的电商用户行为实时分析可视化系统(Flask-SocketIO)

基于Spark的电商用户行为实时分析可视化系统(Flask-SocketIO)项目简介 一、业务需求分析 二、系统流程及架构 三、系统技术版本以及相关部署配置 四、系统具体实施 五、系统运行 项目简介由于做毕设之前学过大数据,但是一直没有做过一整套的实时数据分析系统,有点遗憾。所以毕业设计就自主选了这一套系统,算是对之前知识进行一次整合运行,也挑战一下自己。该系统主要对用户行为日志(此项目使用的数据源是数据集,可以根据自己需求,在数据采集时监控网站用户数据存放目录或.

2020-12-21 15:05:58 4444 7

原创 Spark电商用户行为分析1

项目介绍1. 技术框架spark core spark sql 以及spark streaming 进行离线和实时计算业务模块2. 功能模块 4个用户session分析用户session统计分析 session聚合指标计算 按比例随机抽取session 获取每天点击 下单和购买排名前10的品类 top10品类的点击量 排名前10的session页面单跳转化率统计:计算关键页面之间的单步跳转转化率 页面流匹配算法热门商品离线统计:每天统计出各个区域的top3热门商品 使

2020-12-21 15:04:58 434

原创 常见用户行为分析模型解析(4)——用户行为路径分析模型

用户行为路径分析同样是重要的数据分析模型,它为企业实现理想的数据驱动与布局调整提供科学指导,对精准勾勒用户画像也有重要参考价值。用户访问APP/网络,如同参观画展,观众是感受和传达画展参展方和展品的目的受众体,图画的展现布局不同,每一位观众根据自身喜好形成特有的参观顺序。为让观众沿着最优访问路径前进,需要策展者结合观众需求进行布局调整。这种自主式的数据分析方法,让业务人员都能科学进行数据分析。什么是用户行为路径?用户路径分析,顾名思义,用户在APP或网站中的访问行为路径。为了衡量网站优化的..

2020-12-21 15:03:09 1520

原创 快速学习-电影推荐系统设计(实时推荐模块)

实时推荐模块基于模型的实时推荐模块推荐优先级计算基于内容的推荐混合推荐-分区混合

2020-12-21 15:01:39 576

原创 电影推荐系统-整体总结(五)实时推荐

电影推荐系统-整体总结(五)实时推荐一、Scala代码实现1.自定义数据类--Model.scalapackage streamingRecommender/** * @Author : ASUS and xinrong * @Version : 2020/9/4 * 数据格式转换类 * ---------------电影表------------------------ * 1 * Toy Story (1995) * * 81 minute

2020-12-21 15:00:26 1955

原创 Spark应用场景以及与hadoop的比较

Spark应用场景以及与hadoop的比较  一、大数据的四大特征:  a.海量的数据规模(volume)  b.快速的数据流转和动态的数据体系(velocity)  c.多样的数据类型(variety)  d.巨大的数据价值(value)    二.Spark和 Hadoop的不同  Spark是给予map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的有点,但不同与MaoReduce的是Job中间输出和结果可以保存在内存中,从而不用在读..

2020-12-21 14:35:02 757

原创 Spark及其应用场景初探

Spark及其应用场景初探最近老大让用Spark做一个ETL项目,搭建了一套只有三个结点Standalone模式的Spark集群做测试,基础数据量大概8000W左右。看了官方文档,Spark确实在Map-Reduce上提升了很多,可是官方明确提出了在Interactive Data方面性能提升最大。但是做ETL的数据之间是平行结构,没有任何交互,数据处理完直接就推送走了,也不用做任何缓存,因此完全体现不出来Spark的优势。具体可以用下面这个例子来说,假设Hadoop集群中有一个文件,每行有一..

2020-12-21 14:34:28 329

原创 Spark的应用场景有哪些?

Spark 是一种与 Hadoop 相似的开源集群计算环境,是专为大规模数据处理而设计的快速通用的计算引擎,现已形成一个高速发展应用广泛的生态系统,主要应用场景如下:  1. Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小;  2. 由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的

2020-12-21 14:33:54 2596 1

原创 终于有人把分布式事务说清楚了!Java

前言这篇文章将给大家介绍一下对分布式事务的一些见解,并讲解分布式事务处理框架 TX-LCN 的执行原理,错误之处望各位不吝指正。1. 什么情况下需要使用分布式事务?使用的场景很多,先举一个常见的:在微服务系统中,如果一个业务需要使用到不同的微服务,并且不同的微服务对应不同的数据库。打个比方:电商平台有一个客户下订单的业务逻辑,这个业务逻辑涉及到两个微服务,一个是库存服务(库存减一),另一个是订单服务(订单数加一),示意图如下:如果在执行这个业务逻辑时没有使用分布式事务,当库存与订

2020-10-20 22:04:33 255

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除