自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 资源 (40)
  • 收藏
  • 关注

原创 如此跌宕起伏的人生……

然而,事情并没有像他想象的那么简单,这家公司在发展的过程中遇到了许多困难,资金链断裂,市场开拓不顺。这个故事告诉我们,投资的过程中充满了风险和挑战,只有具备坚定的信念、敏锐的洞察力和冒险的精神,才能在这个市场上获得成功。然而,就在这个时候,李明发现了一个巨大的市场机会,这个机会可能会让他的投资获得数十倍的回报。但是,这个机会也带来了巨大的风险,如果失败,他的投资将血本无归。他调动了所有的资源,筹集了一笔巨额资金,成功地把握住了这个机会。最终,他的投资获得了巨大的回报,他的梦想终于实现了。

2023-07-21 17:42:07 59

原创 10分钟,获取了面试官芳心的真实大数据面试过程,我到底做了什么?

10分钟,面试官就怦然心动的真实面试过程,我到底做了什么?前言已经经历过了hr的谈话,然后来到了第一轮面试现场面试官了解基本情况环节面试官:刚刚我们HR也有跟你聊过,我:对,刚刚有人事跟我聊过了。面试官:对你现在还在职吗?我只是收了你简历,其他的都还没看着,我:我现在已经离职了。面试官:离职了是吧?那你现在在哪里?广州?我:我现在在广州。面试官:平均我看你做项目这块,不是什么金融方面是吗?是物联网公司吗?我:我上一份工作是做的是一个电商的。面试官:电商是吧?我:对。面试官:

2020-09-06 23:32:37 1467 1

原创 震撼来临,史上最详细的数据自助分析和可视化平台(superset)的入门教程之数据表结构解析

震撼来临,史上最详细的数据自助分析和可视化平台(superset)的入门教程之数据结构解析理清了superset架构的数据表关系,才能使您的二次开发更流畅1、数据表结构图片可能不够清晰:附上百度云链接,可以自行下载链接:https://pan.baidu.com/s/1IL7v11y_r9TLVYcMleyBiA提取码:v49n(如果失效了,可以私信或者评论即可)2、比较重要的表用户信息表ab_user看板表dashboards数据源表dbs保存

2020-06-05 12:21:57 1504

原创 震撼来临,史上最详细的数据自助分析和可视化平台(superset)的入门教程之本地源码安装和调试

震撼来临,史上最详细的数据自助分析和可视化平台(superset)的入门教程之本地源码安装和调试系统环境Window10Python3.6.6Superset0.281、supserset的简介Superset 是一款由 Airbnb 开源的“现代化的企业级 BI(商业智能) Web 应用程序”,其通过创建和分享 dashboard,为数据分析提供了轻量级的数据查询和可视化方案。  Superset 的前端主要用到了 React 和 NVD3/D3,而后端则基于

2020-06-05 11:19:22 1346 1

原创 数据质量监控工具-Apache Griffin本地安装和调试

数据质量监控工具-Apache Griffin本地安装和调试1 、Apache Griffin简介Griffin起源于eBay中国,并于2016年12月进入Apache孵化器,Apache软件基金会2018年12月12日正式宣布Apache Griffin毕业成为Apache顶级项目。Griffin是属于模型驱动的方案,基于目标数据集合或者源数据集(基准数据),用户可以选择不同的数据质量维度...

2019-06-16 18:26:19 4583 18

原创 大数据真实企业的面试题《十》--spark面试笔试题

大数据真实企业的面试题spark面试笔试题如需获取更多真实企业面试题,请添加微信;

2019-03-31 20:02:04 638

原创 大数据真实企业的面试题《九》--数据研发岗位笔试题

真实企业的面试题数据研发岗位笔试题获取更多真实企业面试题,请添加微信;

2019-03-31 19:57:17 632

原创 大数据真实企业的面试题《八》--数据工程师面试题

真实企业的面试题获取更多 真实企业的面试题 添加微信

2019-03-31 19:49:29 330

原创 大数据真实企业的面试题《七》--北京某科技有限公司

大数据真实企业的面试题如有需要,可以添加博主微信,获取更多面试资料,或者向博主请教面试经验

2019-03-31 19:43:53 309

原创 大数据真实企业的面试题《六》--北京某数字网络科技有限公司

如有需要,可以添加博主微信,获取更多面试资料,或者向博主请教面试经验

2019-03-31 19:39:21 406

原创 大数据真实企业的面试题《五》--某Master

如有需要,可以添加博主微信,获取更多面试资料,或者向博主请教面试经验

2019-03-31 19:35:14 350

原创 大数据真实企业的面试题《四》--某分点

如有需要,可以添加博主微信,获取更多面试资料,或者向博主请教面试经验

2019-03-31 19:28:51 305

原创 大数据真实企业的面试题《三》--北京某信科技股份有限公司

如有需要,可以添加博主微信,获取更多面试资料,或者向博主请教面试经验

2019-03-31 19:25:14 362

原创 大数据真实企业的面试题《二》--某云极科技有限公司

如有需要,可以添加博主微信,获取更多面试资料,或者向博主请教面试经验

2019-03-31 19:17:03 333

原创 大数据真实企业的面试题《一》--某狐

如有需要,可以添加博主微信,获取更多面试资料,或者向博主请教面试经验

2019-03-31 19:12:33 668

原创 大数据面试总结《二十三》--技能编写模板

1:技能模板1:顺序:熟练使用Linux常用的操作命令,熟悉shell脚本编程;熟悉MapReduce的原理和流程,并能用其API开发应用程序;熟悉Spark的原理和流程,并能用Java或Scala语言进行Spark应用程序开发,熟悉Spark Streaming组件,并能用其开发实时计算系统,了解Spark源码;熟悉Hive和HBase的系统架构,能使用Hive进行海量数据的统计分...

2019-03-29 09:35:41 729

原创 大数据总结《二十二》--简历注意事项

面试前a) 写简历职业技能i. 简明写出你能使用你知道的技术“做什么”???准备好人家要问的问题回答这个了之后准备抛出其他的问题,让面试官来问你ii. 面试之前,针对公司去写这个公司关心的问题。抓住重点复习找他们公司产品(公司官网),然后假设你去做,需要什么技术架构。大概有什么功能,如果这个功能你去做,,应该选用什么技术??、面试中a) 注意的问题i. 你为什么上家公司离职(...

2019-03-29 09:32:50 488

原创 大数据总结《二十一》--简历问题

简历写的时候必须要有预测文档a) 你为什么写这句话b) 这句话你预测面试官会问你什么?i. 你怎么回答(没有答案我不看)c) 职业技能i. 强调 你能干什么问题,解决问题“什么”d) 你能解决某些方面的问题i. 按照方面分类()技术价值排序ii. 离线大数据分析:Mapreduce()iii. 实时分析技术:1. iv. 内存计算v. 机器学习vi. 存储...

2019-03-29 09:27:49 325

原创 大数据面试总结《二十》--优秀简历的编写

简历如何写:知乎:https://www.zhihu.com/question/25002833一一::基基本本格格调调简洁明了,逻辑结构清晰字体,排版,顺畅,清晰整齐就好最好是PDF格式,兼容性强且不易乱序二二::基基本本信信息息((姓姓名名/性性别别/毕毕业业院院校校/电电话话/邮邮箱箱/居居住住地地/期期望望地地))再额外能加上QQ或者微信就更好了(以防有时候电话打不通哦,时不时...

2019-03-28 09:56:30 4899

原创 大数据面试总结《十九》--面试题

Java集合类:1.Java的HashMap是如何工作的?HashMap是一个针对数据结构的键值,每个键都会有相应的值,关键是识别这样的值。HashMap 基于 hashing 原理,我们通过 put ()和 get ()方法储存和获取对象。当我们将键值对传递给 put ()方法时,它调用键对象的 hashCode ()方法来计算 hashcode,让后找到 bucket 位置来储存值对象...

2019-03-28 09:53:03 412

原创 大数据面试总结《十八》--面试技巧

一般来说,面试你的人都不是一个很好对付的人。别看他彬彬有礼,看上去笑眯眯的,很和气的样子。但没准儿一肚子坏水。有些人待人特别客气,说话还稍稍有点结巴的,更容易让人上当。所以,牢记一点,面试的时候保持高度警觉,对方不经意问出来的问题,很可能是他最想知道的。举例来说,我每次面试的时候,最喜欢说的话就是:哦,我不是HR的,你别拘束,咱们就当是聊天……负责面试的人,一般有两种,一种是专门的人力资源...

2019-03-28 09:50:32 225

原创 大数据面试总结《十七》--面试一家公司之前需要做的准备

第一:了解应聘公司;了解应聘岗位查该公司的资料,知道该公司是做什么的,发展情况,招聘的岗位的要求等公司地点在哪里,交通是否方便,需提前多久出发;公司类型如何?我应该如何着装?去咨询公司逃不掉正装,而去互联网公司这么穿,人家或许以为你是房产中介;公司业务如何?上市了吗?财报如何?主要产品有哪些?公司在中国有多少分支机构?最近有什么新动向?公司所在行业有何新动向?发展趋势如何?公...

2019-03-28 09:47:04 776

原创 大数据面试总结《十六》--面试题规律总结

关于Java的面试题:关于虚拟机的面试题:1.hashmap底层?2.Java进程中断怎么处理?3.介绍下面向对象?4.介绍下多态?5.方法重载和重写?6.这俩哪个属于多态?7.说下多线程?8.实现方式有哪些,区别?9.同步锁 互斥,为什么常量不能做锁?10.说下反射,都是做什么的?11.反射机制怎么实现的?12.linkedlist和arraylist的区别?13.h...

2019-03-28 09:44:27 4305 1

原创 大数据面试总结《十五》--人事面试技巧总结

一定不要将公司的工作当作负担,一定要做好并且学到东西,这才是你下一次跳槽能够展示的东西,所以在公司工作,你拿着工资,而不只是在为公司打工,而是为自己的未来进行修炼,一定要有这方面的意识。总之,面试的时候要牢记一点,面试你的那个混蛋,不管他有多和善,但他问的问题,可能里面处处陷阱!!!1:人事这关也很重要,特别是工资方面,还有团队,工作方面?(重要)2:对公司的主营业务要表现足够的兴趣,关系...

2019-03-28 09:42:39 1288

原创 大数据面试总结《十四》

1 使用Hive或者自定义MR实现如下逻辑product_no lac_id moment start_time user_id county_id staytime city_id13429100031 22554 8 2013-03-11 08:55:19.151754088 571 571 28...

2019-03-28 09:37:31 220

原创 大数据面试总结《十三》

下面哪个程序负责 HDFS 数据存储。答案C datanodea)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktrackerHDfS 中的 block 默认保存几份? 答案A默认3分a)3 份b)2 份c)1 份d)不确定下列哪个程序通常与 NameNode 在一个节点启动?答案Da)SecondaryNa...

2019-03-28 09:36:18 336

原创 大数据面试总结《十二》

1.Hadoop集群可以运行的3个模式?单机(本地)模式伪分布式模式全分布式模式2. 单机(本地)模式中的注意点?在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式。3. 伪分布模式中的注意点?伪分布式(Pseudo)适用于开发和...

2019-03-28 09:34:20 196

原创 大数据面试总结《十一》

第一家 喜马拉雅FM电话面试,问了40多分钟第二家 中星电子没有笔试题,直接就问项目,问了40多分钟1,两个项目电信和交通厅,分别用了什么架构,怎么搞得,参与搭建了吗?2,接着又问flume几台,怎么从其他系统获取的数据,kafka几台?3,我说的kafka吞吐量10万条信息每秒,我们用了一台,接着问那一台kafka挂了呢?4,这个地方回答的不好,没搞过kafka高可用,说多台k...

2019-03-28 09:29:14 355

原创 大数据面试总结《九》

上午去 明略数据,面试官一直不到,有个临时的面试官先面了一次:1 hdfs api新特性2 java7新特性3 hive的默认分隔符4 eclipse版本号之后正式面试官面试:1 shell 脚本sort , uniq -u,uniq -t ,uniq -d, cat 组合使用,解决从不同文件中找出相同数据的问题,还有解决只在一个文件中出现的数据的问题2 java实现上述功能,在...

2019-03-27 22:01:56 670

原创 大数据面试总结《八》

今天面了一家,上午两个小时技术面,下午两个小时hr面试问题如下:1 jvm调优2 redis 工作原理 LRU算法3 hive原理,优化4 线程同步5 ha原理6 mr数据倾斜解决办法7 hive数据倾斜优化8 远程通信技术9 hdfs文件创建–工作流程10 hbase部署11 hdfs异步读12 hdfs api 源码 解答:文件创建工作流程13 hive 执行...

2019-03-27 21:59:02 237

原创 大数据面试总结《七》

上午第一家被虐的很惨,一直在追问项目中的一个项目,从设计架构,业务实现,为什么这样做,性能如何,等等问题,很多地方深入到项目中实现细节 ,没有答出来,1 项目规模2000万用户日志数据总量在50-100TB每日数据500GB-1TB服务器 16GB + 8TB数据节点20台集群规模在30节点2 lvs和nginx比较浮动ip ,负载均衡面试官说 ,实际nginx就足...

2019-03-27 21:56:00 201

原创 大数据面试总结《六》

上午第一家被虐的很惨,一直在追问项目中的一个项目,从设计架构,业务实现,为什么这样做,性能如何,等等问题,很多地方深入到项目中实现细节 ,没有答出来,1 项目规模2000万用户日志数据总量在50-100TB每日数据500GB-1TB服务器 16GB + 8TB数据节点20台集群规模在30节点2 lvs和nginx比较浮动ip ,负载均衡面试官说 ,实际nginx就足...

2019-03-27 21:54:57 238

原创 大数据面试总结《五》

第一天面试:下午1点半到公司(人人贷),公司做P2P,个人贷款,一共三轮面试,第一个技术偏向算法,第二个DBA,主要问sql和hive ql,第三个应该是公司负责技术方面的老大,问部分技术问题;主要问题:1 sql优化设计角度 — 建索引,建视图sql--------------- 充分利用索引,避免全表扫描2 hive优化充分利用临时表 , 重复利用3 Pa...

2019-03-27 21:52:43 306

原创 大数据面试总结《四》

锐安科技的面试情况总结:被虐(天气热,笔试以及九宫格问题作答和等待面试时间较长造成面试时头脑发晕 发胀 短暂空白,被面试官带着走 带沟去了)以下为笔试题接下来是类似的九宫格笔试该单位用的东西比较杂,什么都有,而且要求java功底问道的一些东西1.MR的原理 拿wordcount来讲,以及优化(全面些)2.Hbase的相对多些,基础和优化3.就用到hbase的项目提问,实际如何...

2019-03-27 21:49:54 249 1

原创 大数据面试总结《三》

四家工具 公安部和 关数 都比较简单 重点在百分点和大麦先说说大麦网(非主流头型面试官小哥)1 .Flume 处理日志重复问题将agent节点上监听的日志文件夹下已经发送的日志文件移出,处理完,故障重新启动agent即可。 注:在agent节点失败的情况下,按照失败的时间点,将时间点之前的数据文件移出,将flume.agent.logdir配置的文件夹清空,重新启动agent。2.你的推荐...

2019-03-27 21:43:18 302

原创 大数据面试总结《二》

北京XXX宇有限公司Hashmap hashset treemap 区别HashSet 实现了Set 接口 ,值不能重复,将对象存储挨HashSet 前,需要重写Equals 和hashCode ,这样才能比较对象的值是否相等,确保set 中没有存储相等的对象,什么是hashMapHashmap 实现了map 接口,map接口对键值对进行映射,Map 不允许重复的键位,HashMap和...

2019-03-27 21:39:09 291

原创 大数据面试总结

1 总体情况现在我面试了三家第一家:***技术股份有限公司,已经得到复试通知第二家:***第一研究所,面试成功,给的待遇是18万~20万/年。他们在等待我的回复。第三家:电话面试,面得不好,这个部门主要不是开发,他需要熟悉各组件,做架构推荐的。下面是面试题汇总,我自己做了一些,有些正在看。2 ***技术股份有限公司2.1 面试题2.1.1 介绍自己,讲讲自己的项目2.1....

2019-03-27 21:34:20 948

原创 大数据面试总结《十》

这里写自定义目录标题大数据面试反馈反思大数据面试反馈反思面试公司:特斯联-大数据开发工程师1:yarn?参考博客(Hadoop MapReduceV2(Yarn) 框架简介):https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/答题思路:解决MapReduce1.0版本的JobTracker/TaskTr...

2019-03-27 21:25:43 527

原创 大数据面试题【真实面试过程中遇到的面试题】

大数据面试题【真实面试过程中遇到的面试题】java面向对象编程有哪些重要的特征?分别说一下你对这些特性的理解?请写出下面的输出结果Integer a =127,b=127,c=128,d=128,e=129,f=129;System.out.println(ab);System.out.println(cd);System.out.println(e==f);大数据生态圈...

2019-03-24 21:43:27 441

基于流式计算的电信实时营销系统设计与实现.caj

在移动互联网时代,各式各样的新业务和新产品不断出现,通信市场的用户总体规模增长速度变缓,使运营商之间的竞争愈加激烈,新产品营销的时效性和准确度问题亟需解决。实时营销作为新的营销方式,具有较高的实时性,通过运用大数据分析技术分析用户上网行为特征,并在合适的时间、合适的地点向用户推荐合适的内容,从而提升用户感知、增加用户粘性。如何运用大数据技术实现实时营销是本文的重要内容。本文深入调研分析了大数据实时流式处理技术,并结合其在满足非功能性需求方面的独特优势,设计了一个可以同时满足大数据存储、大数据实时性分析的实时营销系统。该系统采用了实时数据处理与离线数据处理相结合的架构。其中离线数据处理系统通过采用Hadoop集群将用户数据进行标签。实时数据处理系统首先将实时数据以日志的形式存储在Flume中,然后再通过Strom和Spark Streaming工具对实时数据进行实时处理与分析,并对数据进行标签。将生成的标签存储在Redis数据库中。实时营销系统的核心是通过分析电信用户DPI(Deep Packet Inspection,深度包检测)数据、挖掘用户上网特征、添加用户标签、发现目标用户,并采用个性化插件包对用户提供个性化的营销服务。本文的主要研究内容为:(1)实时营销系统的需求分析。结合电信运营商的营销系统的时效性差并且效率低下的现状,通过运用大数据的技术手段和方案,在基于上海电信海量的DPI数据的基础上,为用户进行实时性的推荐。在明确系统目标的前提下,完成对整个系统的需求分析,包括功能性需求(如营销商品管理、营销任务管理、营销规则管理、发送规则管理、营销效果评估)和非功能性需求(如流式框架每秒处理10万条DPI数据,时延少于500毫秒,可处理TB级以上的数据)。然后采用用例图对功能性需求进行建模。(2)实时性营销系统的总体架构设计。基于实时营销系统需求分析的基础上,提出了离线数据处理与实时数据处理相结合的总体架构。首先选择出流式处理平台的相应组件,然后采用流式处理组件串联结构,同时以CORE为核心调用相关模块进行实时营销的策略模式,对系统进行了全面的部署。通过对离线数据和实时数据分别进行标签处理,利用标签对用户进行多维度的画像,全面反应用户特征,使得营销过程更加精准化。(3)实时性营销系统的具体设计与实现。根据系统的总体架构设计,本文主要从三个方面完成了基于流式计算的电信实时营销系统的设计与实现。解决实时数据的传输问题:流式计算数据处理系统需要进行对实时信息进行及时、不间断地处理。Flume从节点上实时采集数据并将数据以日志的形式存储。Kafka负责低时延的收发日志数据。Storm系统读取Kafka中的数据,并及时的处理,保证处理的稳定性和时效性。Spark Streaming完成对数据的实时分析,保证在复杂度高的分析时具有较高的实时性。Storm系统与Spark Streaming系统共同部署在YARN上,完成了平台的整合与数据资源共享,节省了网络开销。解决精准性营销的问题:通过对电信的DPI数据进行分析,建立用户标签库,对用户进行画像。通过数据挖掘算法发现目标用户群以及用户的触点事件,建立相应的营销规则,当事件发生时触发实时营销动作。这是一个需要不断更新和完善的过程,通过建立正确的营销反馈体系和良好的反馈机制,使实时营销更加精准。利用个性化插件包解决个性化业务的需求问题:利用Mysql数据库和自定义应用程序接口,针对不同的业务场景开发不同的插件包,使实时营销具有可拓展性。(4)实时性营销系统的测试及结果分析。从系统的可行性和性能方面进行了验证和分析。在可行性方面,系统能够实现预期的功能,同时输出相对应的结果,并以明星机推送的场景实例对系统进行验证;在性能方面,分别对Storm和Spark Streaming的性能进行测试,并给出了结果分析。本文提出的实时营销系统能够清晰全面的掌握用户特征与习惯信息,为用户提供个性化定制的营销服务。在竞争激烈的移动增值业务市场中,率先满足用户的需要,得到用户的青睐,同时减少用户的流失。

2019-10-20

基于“用户画像”的商品推送系统设计与实现.caj

近几年中国在淘宝、京东、天猫等巨头电商公司带动下迅猛发展,电商在中国显示出了强大的生命力,每家电商公司的商品更是以指数级的数量增长,可是在商品增长的同时,也无形中增加了用户寻找商品的困难程度。这个问题在小型智能移动终端尤其明显,用户在小型智能移动终端浏览大量的商品不仅会占用客户的时间还会消耗大量的流量,这种欠佳的浏览体验是导致用户转移购物平台的一个主要因素。本文设计并实现基于“用户画像”的商品推送系统正是在上述问题的基础之上立项的,将用户画像与主动推送相结合,避免了用户在海量商品中苦苦寻求自己感兴趣的商品,不仅解决了商品过载的问题而且实现了对用户的精准营销。主要研究内容如下:首先介绍了基于“用户画像”的商品推送系统的立题意义以及相关的理论基础,对国内外推送系统的发展状况进行了深入调研,详细的阐述了所需要使用的技术。其次对基于“用户画像”的商品推送系统从需求、设计和实现的三个方面进行详细的说明,本系统主要构成为以下两个部分:(1)用户画像系统,首先以用户的个人历史行为为基础,通过评分矩阵模型构建用户兴趣模型,然后基于标签规则将用户兴趣模型转换为用户标签模型,用户画像系统则是以用户标签模型为基础生成的,并通过Echarts图表将用户画像进行展示。与传统推送系统相比,本系统将用户置于最重要的部分,对每个用户都实现精准营销。(2)商品个性化推送平台,调用本接口可以返回商品列表,返回的商品列表是在用户兴趣模型的基础上混合多种规则并加以过滤得到的最符合用户偏好的推送商品集合,以接口的形式给不同类型的小型智能移动终端提供数据。本接口应用Thrift框架编写,通过该框架进行系统之间的交互具有高性能、低延迟、支持同步和异步通信等优点。最后,为推送效果提供测试方案,商品推送系统的参数调优通过NDCG算法,NDCG表示归一化折损累积增益,该算法是当下比较流行的推荐系统评测指标之一,通过用户对推送商品的操作行为量化出用户对商品列表的满意程度,根据用户满意度进而对系统参数进行调整

2019-10-20

基于移动互联网行为分析的用户画像系统设计.pdf

随着大数据时代的到来,能够牢牢的抓住老客户、吸引新客户、读懂用户的偏好兴趣以及挖掘用户的潜在价值,这些对于运营商的的发展至关重要。而达成这一目标需要对用户市场进行细分实现精细化营销,应用数据挖掘技术对用户进行画像,实现用户细分,其研究和发展在实现运营商精确营销、提高工作效率、减少经营成本方面具有重要的指导意义和实用价值。本文以移动互联网用户行为作为研究对象,以用户画像理论作为理论依据,提出了用户画像系统的建设思路,采用标签化方法对用户行为以及用户偏好特征进行描述。本文首先对用户画像系统进行整体的阐述,分别从具象的语义化以及抽象的数学模型来对用户画像系统进行概述,再者从动态性以及时空局限性对用户画像的特性进行描述,最后从建模的角度,将用户画像系统分为静态信息画像以及动态信息画像,对其中的用到的建模方法以及所使用的数据挖掘算法进行了详细的介绍。其次对用户画像的整体架构上进行了描述。分别从系统的总体设计和功能架构,以及业务架构方面将用户画像系统的设计思路进行详细的描述。再者文中结合运营商的经营特点以及业务经验,将用户画像系统分别从基础属性、业务属性、产品属性、渠道属性详细的阐述了用户静态信息标签构建的方法以及具体的分类。然后通过数据挖掘方法的方法实现中文分词,利用LDA聚类模型获得分词向量化从而获得用户文本的特征向量,接着利用改进的TF-IDF分类方法实现对用户不同维度信息的预测,从而构建了用户的互联网基础属性特征。其次通过对用户上网日志的解析和网络爬虫数据的匹配,构建内容的评分模型,实现对移动客户的特征、偏好等信息进行高度总结,从而生成用户移动互联网偏好特征标签,全面丰富了用户动态信息标签的构建。在此基础上,提出了用户画像系统运用列数据库对画像数据进行存储,标签元数据管理以及标签生命周期管理、查询机制和更新机制一系列完整的规范化的用户画像系统管理流程,从而构建一个完整闭环的用户画像系统。最后以营销过程中流量提升以及手机阅读软件用户量提升为例描述了用户画像系统在移动营销业务中的应用。

2019-10-20

基于用户特征的群组标签系统的设计与实现.caj

随着大数据时代的来临,海量的数据信息进入到人们的视野,如何让这些数据体现其价值,并助力产品和公司的发展成为一个难题。同时,在当今的市场形势下,软件产品的运营活动需要精准定位目标用户群,通过分析目标用户数据,实行针对性强的活动。本文所提出的基于用户特征的群组标签系统,通过基于用户特征数据的标签,按照特定的规则将用户进行圈选及划分,得到目标用户群组,并提供对目标用户群组的操作和分析功能,为进行智能营销和数据分析提供帮助。本文首先阐述了项目的来源和背景,划定项目及论文的范围,并分析该领域国内外的发展现状,最后设定了论文拟达到目标。然后运用软件工程的方法,从需求分析开始,逐步介绍系统概要设计、详细设计实现及系统测试,详细阐述系统实现流程。本系统主题架构主要分为三层,前端由React技术栈实现,中间层由NodeJS实现,后端由SpringMVC实现。同时,系统使用ElasticSearch、Hadoop、Redis等技术,实现底层数据的存储和处理。基于用户特征的群组标签系统包含四大模块:(1)群组操作模块:负责用户群组的创建、计算、扩展等群组操作功能。(2)群组分析模块:负责用户群组的多维分析、跟踪分析、洞察分析等数据分析功能。(3)标签管理:负责管理系统中的用户特征标签。(4)系统管理:负责系统的用户权限及第三方管理。系统已在公司内部成功上线运行,并取得良好的效果

2019-10-20

研发-Java诊断工具-Arthas.pptx

内部公司一个关于Java诊断工具Arthas.ppt分享,Arthas 是阿里巴巴在2018年开源出来的一款 Java 诊断利器,它主要是针对线上环境,能够帮助我们更好的定位问题。 截止到2019年8月29日,在Github上总共被916人watch,有16077个star、3337个fork。

2019-09-23

大数据面试录音07.zip

面试大数据岗位的时候,和面试官谈话过程的全程录音,在准备面试过程中,有较大的帮助,所以分享

2019-09-10

大数据面试录音06.zip

面试大数据岗位的时候,和面试官谈话过程的全程录音,在准备面试过程中,有较大的帮助,所以分享

2019-09-10

大数据面试录音05.zip

面试大数据岗位的时候,和面试官谈话过程的全程录音,在准备面试过程中,有较大的帮助,所以分享

2019-09-10

大数据面试录音04.zip

面试大数据岗位的时候,和面试官谈话过程的全程录音,在准备面试过程中,有较大的帮助,所以分享

2019-09-10

大数据面试录音03.zip

面试大数据岗位的时候,和面试官谈话过程的全程录音,在准备面试过程中,有较大的帮助,所以分享

2019-09-10

大数据面试录音02.zip

面试大数据岗位的时候,和面试官谈话过程的全程录音,在准备面试过程中,有较大的帮助,所以分享

2019-09-10

大数据面试录音01.zip

大数据面试过程中的录音,音频清晰不杂,在面试过程中录音,方便自己总结和反思

2019-09-10

大数据面试题大全

个人在面试大数据岗位的时候,找到的比较全面的面试题,在准备面试过程中,有较大的帮助,所以分享

2019-02-26

深度学习Deep Learning 中文版

《Deep Learning》(深度学习)是一本皆在帮助学生和从业人员进入机器学习领域的教科书,这本书是由学界领军人物 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 合力打造

2019-02-26

大数据相关的90多本电子书(网盘的分享链接)

[中文]《KVM虚拟化技术 实战与原理解析》.(任永杰,单海涛).,[中文]HBase 官方文档(中文版),[中文]HBase权威指南,[中文]Hive编程指南,[中文]Mahout实践指南,[中文]快学Scala(少中文文字版),Hadoop技术内幕:深入解析MapReduce架构设计与实现原理 PDF高清扫描版……等90多本和大数据相关的电子书

2019-02-24

[中文]Mahout算法解析与案例实战

Mahout算法解析与案例实战是一本经典的Mahout著作,原理与实战并重。不仅全面分析了Mahout算法库不同模块中的各个算法的原理及其实现流程,而且每个算法都辅之以实战案例。此外,还包括4个系统级案例,实战性非常强。

2019-02-24

[中文]Spark快速数据处理

Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,现已逐渐获得很多企业的支持,如阿里巴巴、百度、网易、英特尔等公司。 Spark快速数据处理系统讲解Spark的使用方法,包括如何在多种机器上安装Spark,如何配置一个Spark集群,如何在交互模式下运行第一个Spark作业,如何在Spark集群上构建一个生产级的脱机/独立作业,如何与Spark集群建立连接和使用SparkContext,如何创建和保存RDD(弹性分布式数据集),如何用Spark分布式处理数据,如何设置Shark,将Hive查询集成到你的Spark作业中来,如何测试Spark作业,以及如何提升Spark任务的性能。

2019-02-24

[中文]Scala编程中文版

本书介绍了一种新的编程语言,它把面向对象和函数式编程概念有机结合为整体,从而形成一种完整统一、语义丰富的新思维体系。 本书循序渐进,由浅入深,经作者精心组织、仔细编排,除此之外,本书还包含了大量富有针对性和趣味性的示例,它们除了提供语言各个方面具体演示之外,还从侧面说明了如何将函数式编程的理念切合实际并广泛应用到面向对象的编程语言中

2019-02-24

[中文]机器学习实战

《机器学习实战》介绍并实现机器学习的主流算法,面向日常任务的高效实战内容,《机器学习实战》没有从理论角度来揭示机器学习算法背后的数学原理,而是通过“原理简述+问题实例+实际代码+运行效果”来介绍每一个算法。学习计算机的人都知道,计算机是一门实践学科,没有真正实现运行,很难真正理解算法的精髓。这本书的好处就是边学边用,非常适合于急需迈进机器学习领域的人员学习。实际上,即使对于那些对机器学习有所了解的人来说,通过代码实现也能进一步加深对机器学习算法的理解。

2019-02-24

[中文]酷狗架构

内容讲解了酷狗大数据采集、接入、清洗、作业调度、平台监控以及踩过的坑

2019-02-24

[中文]HBase 官方文档(中文版)

Hbase官方文档中文版,看不懂英文的,可以阅读这个快速入门

2019-02-24

[中文]HADOOP权威指南 第3版 完整版

《Hadoop权威指南(第3版 修订版)》通过丰富的案例学习来解释Hadoop的幕后机理,阐述了Hadoop如何解决现实生活中的具体问题。第3版覆盖Hadoop的最新动态,包括新增的MapReduceAPI,以及MapReduce2及其灵活性更强的执行模型(YARN)。

2019-02-24

[中文]《KVM虚拟化技术 实战与原理解析》.(任永杰,单海涛).

由Intel虚拟化技术部门虚拟化技术专家和国内KVM技术的先驱者撰写,性毋庸置疑。在具体内容上,本书不仅系统介绍了KVM虚拟机的功能、特性和使用方法,而且还深入地剖析了KVM虚拟机的核心技术和工作原理,对KVM做了全面而透彻的讲解。

2019-02-24

[中文]153分钟学会R

153分钟学会R,是关于R初学者的常见问题汇总,对于初学者学习R来说有一定的帮助,有助于理解R的内涵。

2019-02-24

Hive 优化以及执行原理

hive调优总结,网络上分享的hive常见优化细节,这是一个前辈的总结,个人觉得,总结得相当到位和详细

2019-02-24

21个项目玩转深度学习——基于TensorFlow的实践详解

通过本书,读者可以训练自己的图像识别模型、进行目标检测和人脸识别、完成一个风格迁移应用,还可以使用神经网络生成图像和文本,进行时间序列预测、搭建机器翻译引擎,训练机器玩游戏。全书共包含21 个项目,分为深度卷积网络、RNN网络、深度强化学习三部分。读者可以在自己动手实践的过程中找到学习的乐趣,了解算法和编程框架的细节,让学习深度学习算法和TensorFlow 的过程变得轻松和高效。本书代码基于TensorFlow 1.4 及以上版本,并介绍了TensorFlow 中的一些新特性。

2019-02-17

Hadoop大数据分析与挖掘实战 高清版

10多位技术专家结合自己10多年的经验,以电信、航空、医疗等多个行业的实战案例为主线,深入浅出地讲解了如何基于Hadoop架构技术进行大数据挖掘建模、数据分析和二次开发。 本书共16章,分三个部分:基础篇、实战篇、高级篇。 基础篇(第1~6章),第1章的主要内容是数据挖掘概述、大数据餐饮行业应用;第2章针对大数据理论知识进行基础讲解,简明扼要地对Hadoop安装、原理等做了介绍;第3章介绍了大数据仓库Hive的安装、原理等内容;第4章介绍了大数据数据库HBase的安装、原理等内容;第5章介绍了几种大数据挖掘建模平台,同时重点介绍了本书使用的开源TipDM-HB大数据挖掘平台;第6章对数据挖掘的建模过程,各种挖掘建模的常用算法与原理及其在大数据挖掘算法库Mahout的实现原理进行了介绍。 实战篇(第7~14章),重点对大数据挖掘技术在法律咨询、电子商务、航空、移动通信、互联网、生产制造以及公共服务等行业的应用进行了分析。在案例结构组织上,本书是按照先介绍案例背景与挖掘目标,再阐述大数据时代针对大数据的分析方法与过程,最后完成模型构建的顺序进行,对建模过程等关键环节进行了详细的分析。最后通过上机实践,加深对大数据挖掘技术以及分析流程的认识。 高级篇(第15~16章),介绍了基于Hadoop大数据开发的相关技术以及开发步骤,同时使用实例来展示这些步骤,使读者可以自己动手实践,亲自体会开发的乐趣;同时,还介绍了基于TipDM-HB大数据挖掘平台的二次开发实例,借助TipDM-HB大数据挖掘平台二次开发工具,可以更加快捷、高效地完成相关大数据应用的二次开发,降低开发难度,使读者更方便地体会到大数据分析与挖掘的强大魅力。

2019-02-17

学习OpenCV 中文版(配上随书源码)

透过本书,您将置身于迅速发展的计算机视觉领域。本书由自由开源OpenCV的发起人所著,介绍了计算机视觉,并通过实例演示了如何快速生成这样的应用——能使计算机“看到”并根据由此获取的数据做出决策。 计算机视觉无处不在,安全系统、制造检验系统、医学图像分析、无人机等都可以见到它的踪影。它与Google Map和Google Earth紧密结合,它检查LCD屏幕上的像素,它确保衬衫上的每个针脚都能完全缝合。OpenCV提供了一个简易好用的计算机视觉框架和一个丰富的库,后者包含500多个可实时运行视觉代码的函数。

2019-02-17

Python高级编程-第2版

Python作为一种高级程序设计语言,凭借其简洁、易读及可扩展性日渐成为程序设计领域备受推崇的语言之一。 本书基于Python 3.5版本进行讲解,通过13章的内容,深度揭示了Python编程的高级技巧。本书从Python语言及其社区的现状开始介绍,对Python语法、命名规则、Python包的编写、部署代码、扩展程序开发、管理代码、文档编写、测试开发、代码优化、并发编程、设计模式等重要话题进行了全面系统化的讲解。 本书适合想要进一步提高自身Python编程技能的读者阅读,也适合对Python编程感兴趣的读者参考学习。全书结合典型且实用的开发案例,可以帮助读者创建高性能的、可靠且可维护的Python应用。

2019-02-17

用户网络行为画像 大数据中的用户网络行为画像分析与内容推荐应用

如何能牢牢地黏住老用户、吸引新用户、读懂用户的偏好兴趣和喜怒哀乐,这都是对企业发展至关重要甚至关乎生死存亡的问题,解决这个问题的方法就是推荐系统。本书分为上中下三篇,共13章,上篇为用户画像知识工程基础,包括表征建模、画像计算、存储及各种更新维护等管理操作;中篇为推荐系统与用户画像,包括传统协同过滤等经典推荐算法的介绍,以及涉及用户画像的推荐方法;下篇为应用案例分析,包括Netflix、阿里等数据竞赛的经典数据案例,以及在具体工程开发过程的具体案例,分别从系统需求、总体结构、算法设计、运行流程及测试结果等五个方面提供详细案例指导。

2019-02-17

网络爬虫-Python和数据分析 PDF完整版 (王澎 著)

网络爬虫-Python和数据分析从技术、工具与实战3个维度讲解了Python网络爬虫: 技术维度:详细讲解了Python网络爬虫实现的核心技术,包括网络爬虫的工作原理、如何用urllib库编写网络爬虫、爬虫的异常处理、正则表达式、爬虫中Cookie的使用、爬虫的浏览器伪装技术、定向爬取技术、反爬虫技术,以及如何自己动手编写网络爬虫; 工具维度:以流行的Python网络爬虫框架Scrapy为对象,详细讲解了Scrapy的功能使用、高级技巧、架构设计、实现原理,以及如何通过Scrapy来更便捷、高效地编写网络爬虫; 实战维度:以实战为导向,是本书的主旨,除了完全通过手动编程实现网络爬虫和通过Scrapy框架实现网络爬虫的实战案例以外,本书还有博客爬取、图片爬取、模拟登录等多个综合性的网络爬虫实践案例。

2019-02-17

Snipaste免安装

截图和贴图 使用Snipaste软件截的图片可以直接浮于桌面,方便查看使用

2019-02-16

数据恢复软件

单击“数据恢复软件”右击以管理员运行,这个是我常用的恢复软件,很好用。一般的数据恢复都能恢复。

2019-02-16

TortoiseGit

资源保护安装包和安装文档、语言包,使用前,确保电脑已安装git,TortoiseGit是一个开放的git版本控制系统的源客户端,支持Winxp/vista/win7/Win10。可以恢复您的文件的旧版本

2019-02-16

Snapde超大文件编辑软件

Snapde是一款非常优秀的sv超大文件编辑软件,Snapde官方版内核全部用c语言编写,可以进行数据编辑和运算,能够快速打开2G大小一两千万行的CSV大文件,使用起来简单方便

2019-02-16

Everything绿色版

“Everything”是一个运行于Windows系统,基于文件、文件夹名称的快速搜索引擎。 “Everything”在搜索之前就会把所用的文件和文件夹都列出来,这一点与Windows自带的搜索系统不一样,所以我们称之为“Everything”。 在搜索框输入文字,它就会只显示过滤后的文件和目录。

2019-02-16

EditPlusTool

EditPlus是一款由韩国 Sangil Kim (ES-Computing)出品的小巧但是功能强大的可处理文本、HTML和程序语言的Windows编辑器,你甚至可以通过设置用户工具将其作为C,Java,Php等等语言的一个简单的IDE。

2019-02-16

万能数据库客户端学习软件dbvisualizer

DbVisualizer是一个完全基于JDBC的跨平台数据库管理工具,内置SQL语句编辑器(支持语法高亮),凡是具有JDBC数据库接口的数据库都可以管理,已经在Oracle, Sybase, DB2, Informix, MySQL, InstantDB, Cloudcape, HyperSonic ,Mimer SQL上通过测试

2019-02-16

python-opencv教程中文版

翻译OpenCV 的官方文档,内容全面,对各种的算 法的描述简单易懂,而且不拘泥于长篇大论的数学推导,非常适合想使用 OpenCV 解决实际问题的人,对他们来说具体的数学原理并不重要,重要 是能解决实际问题。

2019-02-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除