5 小牛学堂2019

尚未进行身份认证

大数据处理-java高级工程师

等级
博文 182
排名 1w+

大数据与深度学习区别?

简单来说:1)深度学习(DeepLearning)只是机器学习(MachineLearning)的一种类别,一个子领域。机器学习>深度学习2)大数据(BigData)不是具体的方法,甚至不算具体的研究学科,而只是对某一类问题,或需处理的数据的描述。具体来说:1)机器学习(MachineLearning)是一个大的方向,里面包括了很多种approach,比如deeplea...

2019-02-21 10:08:51

大数据具体行业的应用?

从推送起家,依托推送产品的海量终端覆盖,同时发展了大数据和移动营销业务,目前已成为基于大数据的移动互联网综合服务提供商。案例智能推送:通过精准的大数据分析,做到在合适的时间,合适的地点,把合适的消息,推送给合适的人。让推送变的更精准,让运营变得更精细化。智慧旅游:与各省市旅游局合作,通过个推大数据人口热力图监控景区各区域人流状况,合理安排景区负荷,避免踩踏,拥堵等事件;保证游客的人身安全,...

2019-02-20 10:41:31

个人如何获取大数据

有三个来源1)政府职能部门开放的数据,如国家统计局,可以访问官网获取;2)互联网平台提供商,如twitter、facebook、百度、新浪微博、淘宝,通过开放接口或者专业工具获取;3)数据资源商业机构,如数据堂,有免费和收费数据;...

2019-02-19 13:09:18

大数据方面核心技术有哪些?

总的来说大数据有5个部分。数据采集,数据存储,数据清洗,数据挖掘,数据可视化。数据采集有硬件采集,如OBD,有软件采集,如滴滴,淘宝。数据存储就包括NOSQL,hadoop等等。数据清洗包括语议分析,流媒体格式化等等。数据挖掘包括关联分析,相似度分析,距离分析,聚类分析等等。数据可视化就是WEB的了。...

2019-02-18 14:14:20

Scala 在大数据处理方面有何优势?

我想大部分应用开发程序员,最关键是看有什么类库合适的方便特定领域的应用开发。就像ruby有rails做web开发,你可以去论证ruby优缺点,但实际上应用开发效率提升很大程度上依靠类库。现在Spark是大数据领域的杀手级应用框架,BAT,我们现在几个领域巨头的客户(有保密协议不方便透露)都全面使用Spark了,这个时候再谈Scala适不适合大数据开发其实意义不大。因为大家比的不只是编程语言,而是...

2019-01-30 17:02:26

大数据公司 Splunk 和 Cloudera 的核心竞争力在哪里?

Splunk面向的是细分市场,分析MachineLog,并在上面集成了完整的专用模块。所有用例都是相对专门的领域,因此可以对这些进行专门优化。它的核心竞争力应该是领域知识和抽象,以及相关的优化和功能,而不是大数据。如果我没搞错的话,Splunk刚出的时候是单机的。Cloudera以及类似的两家Hortonworks(已上市)还有MapR都是Hadoop技术的供应商。这些都是立足于大数据平台的公...

2019-01-29 17:32:38

国内有哪些大数据公司?

国内大数据公司名单汇总大数据近几年来可谓蓬勃发展,它不仅是企业趋势,也是一个改变了人类生活的技术创新。大数据对行业用户的重要性也日益突出。掌握数据资产,进行智能化决策,已成为企业脱颖而出的关键。因此,越来越多的企业开始重视大数据战略布局,并重新定义自己的核心竞争力。本文整理了在中国境内活跃的大数据领域最具影响力的企业,它们有的是计算机或者互联网领域的巨头,有的则是刚刚创办不久的初创企业。但它...

2019-01-28 15:55:49

案例分析-爬虫(51job网站的信息)

爬虫介绍网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络爬虫主要应用有两个方面,一方面用于检索,例如百度,谷歌等网站;另一方面用于爬取指定的有用数据(例如今天要使用的)。...

2019-01-13 16:14:40

案例分析-电影评分分析

电影评分分析数据原始数据展示json格式说明数据字段含义需求1.每个用户评分最高的10部电影评分信息(用户最喜爱的十部电影)2.每个用户的uid和评分的平均值。3.最大方(评分平均值高)的n个用户的uid和评分平均值。4.最热门的10部电影id和评价次数。5.评价最高的10部电影id和评分均值需求实现json解析测试1.每个用户评分最高的10部电影评分信息-实现2.每个用户的uid和评分的平均值-...

2019-01-09 14:42:54

案例分析-电影评分分析

电影评分分析数据原始数据展示json格式说明数据字段含义需求1.每个用户评分最高的10部电影评分信息(用户最喜爱的十部电影)2.每个用户的uid和评分的平均值。3.最大方(评分平均值高)的n个用户的uid和评分平均值。4.最热门的10部电影id和评价次数。5.评价最高的10部电影id和评分均值需求实现json解析测试1.每个用户评分最高的10部电影评分信息-实现2.每个用户的uid和评分的平均值-...

2019-01-08 21:32:24

mybatis从0到1

mybatis从零到一学习实战依赖的引入配置数据库连接功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML图表FLowchart流程图导出与导入导出导入依赖的引入主要...

2019-01-03 15:37:46

java基础增强案例-电影评分

原始数据:字段说明:Movie电影的idRate电影评分Timestamp评论时间Uid用户id需求:每个用户评分最高的10部电影评分信息(用户最喜爱的十部电影)每个用户的uid和评分的平均值最大方(评分平均值高)的n个用户的uid和评分平均值最热门的3部电影id和评价次数热门的定义:评次数多的评价最高的3部电...

2018-12-06 16:33:51

日志分析

对平台操作行为记录(现版本还没实施,等上线有需求,有数据了做)这个主要通过日志进行记录,这个不是对用户进行展示的,是给我们内部去看的,用来改进我们的产品的。主要进行要记录的日志信息有(这个根据需求来加)ipsessionid日志级别userid点击时间请求的url请求的方式操作的内容失败的原因请求状态码每一次的点击都记录一条日志,把这些日志进行定...

2018-04-04 11:52:38

windows开启WiFi热点

第一步,启用cmd第二步,在命令行中输入(用来创建一个虚拟网卡)netshwlansethostednetworkssid=您想要的无线网络的名称key=您想要设置的密码第三步,在命令行中输入(用来启动wifi)netshwlanstarthostednetwork这个时候你会发现已经可以搜索到wifi,并且可以连接上了,但是并不能上网,这个时候你需要吧本地连接...

2018-03-29 13:36:48

星形模型和雪花模型

一、概述在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。当所有维表都直接连接到"事实表"上时,整个图解就像星星一样,故将该模型称为星型模型,如图1。星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一

2018-01-29 14:54:58

自己写UDF(Hive)

目标:使用java自己写一个UDF函数1、先开发一个java类,继承UDF,并重载evaluate方法packagecom.udf;importorg.apache.hadoop.hive.ql.exec.UDF;importorg.apache.hadoop.io.Text;publicfinalclassLowerextendsUDF{public

2018-01-28 22:18:07

hive累积报表hql

问题:下面是一个员工的业绩数据,数据格式是username,date,money,数据如下A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5加载到hive表中了(t_access_times)。

2018-01-28 22:10:24

查看linux负载的情况

查看一个服务器的负载情况一般是从内存,cpu的使用量来看的,还有就是磁盘io和网络io,下面会分别对其进行监控(环境sentos6.7)内存负载情况:free这个命令可以查看内存的使用情况可剩余情况:具体使用如图cpu的负载情况:使用top来动态的显示,直接在命令行中输入top就能显示如下图所示:loadaverage是显示的是cpu的负载情况,三个数分别是1

2018-01-26 14:34:43

linux的awk和sed等命令比较

对于文本的操作分为两种操作,一种是按行操作,一种是按列操作。简单的命令有grep(行操作)和cut(列操作)。复杂点的有sed(行操作)和awk(列操作)。样例文本hellotomhimarryhowareyou什么是行操作:简单的例子就是,获取上面文本中带有hello的行就是行操作。什么是列操作:简单的例子就是获取上面文本中的第一列操作。grepp

2018-01-22 15:41:45

jvm参数说明

GC算法标记-清除算法(Mark-Sweep)1、标记出所有需要回收的对象,在标记完成后统一回收所有被标记的对象2、在标记完成后统一回收所有被标记的对象缺点:一个是效率问题,标记和清除两个过程的效率都不高;另一个是空间问题,标记清除之后会产生大量不连续的内存碎片,空间碎片太多可能会导致以后在程序运行过程中需要分配较大对象时,无法找到足够的连续内存而不得不提前触发另一次垃圾

2018-01-21 22:22:03
奖章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!