自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 推荐BIG DATA Spark 的7本学习电子书籍(大牛专区)

目录目录Lean Apache Spark 2Apache Spark 2.x Cookbook,第2版Learning Spark StreamingApache Spark 2.x for Java DevelopersScala and Spark for Big Data AnalyticsHigh Performance Spark完整版Machine Learni...

2018-08-13 23:33:56 10740 1

原创 我对于Hadoop数据操作系统YARN的理解与分享

  为了能够对集群中的资源进行统一管理和调度,Hadoop 2.0引入了数据操作系统YARN。YARN的引入,大大提高了集群的资源利用率,并降低了集群管理成本。首先,YARN允许多个应用程序运行在一个集群中,并将资源按需分配给它们,这大大提高了资源利用率,其次,YARN允许各类短作业和长服务混合部署在一个集群中,并提供了容错、资源隔离及负载均衡等方面的支持,这大大简化了作业和服务的部署和管理成本。...

2018-08-13 20:51:51 256

原创 我平常使用的比较多的几种Hive数据导入方式

写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。今天的话题是总结Hive的几种常见的数据导入方式,我总结为四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDF...

2018-08-12 22:36:49 280

原创 三种方法实现Hadoop(MapReduce)全局排序(1)

我们可能会有些需求要求MapReduce的输出全局有序,这里说的有序是指Key全局有序。但是我们知道,MapReduce默认只是保证同一个分区内的Key是有序的,但是不保证全局有序。基于此,本文提供三种方法来对MapReduce的输出进行全局排序。 文章目录 1.生成测试数据 2.使用一个Reduce进行排序 3.自定义分区函数实现全局有序1.生成测...

2018-08-12 16:54:47 1133

原创 大数据高级分析:单身税的时代就要来临,你还没有用Python帮你找一个女朋友吗?

什么是单身税单身税的历史可以追溯到2015年韩国的新政, 低生育率逼得韩国产生了这一政策。 现在我国也要实行这一政策, 很多单身狗就接受不了了我凭本事单身,凭什么要交税?很多网友在看到国家要收单身税的消息,表示不能接受!我凭本事单的身,为什么要交税?国家包分配对象吗?很可惜,国家不包分配对象, 男的都说找对象难, 有没有向国,女的相对于男的来说,对象也很难...

2018-07-19 20:50:03 418

原创 大数据之高级分析如何从天气中获取洞察力

自然灾害似乎是不可避免的,让我们在大自然的手中感到脆弱。考虑到今天围绕着我们的所有数据和技术,这怎么可能呢?专家能否在预测方面做得更好,甚至试图避免更多自然灾害或更有效地减少资源损失?答案是肯定和否定。有时我们知道龙卷风会袭来,我们无法防止这种情况造成的损失。我们知道洪水会因飓风而发生,当地人可以努力有效地减少损失。但它们通常不能防止发生损害。我们知道可能会发生冰暴和冰雹风暴,但我们不能总是防...

2018-07-18 20:57:11 3430

原创 推动世界上最准确的天气预报

天气预报是一项规模较小的数据挑战。天气可能是当今企业业绩中最大的外部波动因素,仅在美国就造成近半个世纪的经济影响。我们都需要帮助预测天气对我们的影响,无论是一个简单的工作伞问题还是价值高达数百万美元的能源市场交易。IBM公司Weather Company正在使用数据科学,分析和机器学习来帮助数千万人每天做出更明智,更自信的决策。今天,一项新的独立第三方研究报告认为The Weather C...

2018-07-18 20:49:34 1792

原创 Hadoop到底能做什么?怎么用hadoop?

hadoop是什么?(1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何...

2018-07-18 11:37:25 373

原创 如何使用Hadoop和Spark构建一个通用的大数据引擎

Apache Hadoop和Apache Spark是复杂的技术,如何将这些架构结合使用往往被许多组织误解。投资这两种技术可以实现广泛的大数据分析和应用程序开发用例。Niru Anisetti是IBM的Spark产品和下一代大数据平台产品管理团队的项目总监,Rohan Vaidyanathan是IBM的高级产品经理,也是IBM云数据服务团队的领导者。Anisetti是一位屡获殊荣的产品专家...

2018-06-30 13:16:21 5042

原创 美团利用Spark在外卖行业的实践

目录美团离线计算平台架构都有哪些框架?为什么要使用Spark架构?spark推广过程中需要注意哪些方面?前言美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景,选择合适、高效的数据处理引擎...

2018-06-30 13:15:04 876

原创 我对大数据时代的三大趋势和三大困境的再理解

一家公司的数字化改造应该从清晰的趋势和障碍出发,更好地规划出一条通往其所寻求业务成果的路线。考虑到这一点,以下是我们关注的三大数据趋势,以及在数字时代可能出现在企业和成功之间的三大困境。在这里还是要推荐下我自己建的大数据学习交流群:784557197,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份...

2018-06-29 21:35:27 956

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除