自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 关于大数据,你应该知道的50个专业术语

 如果你刚接触大数据,你可能会觉得这个领域很难以理解,无从下手。不过,你可以从下面这份包含了 25 个大数据术语的清单入手,那么我们开始吧。  算法(Algorithm):算法可以理解成一种数学公式或用于进行数据分析的统计学过程。那么,「算法」又是何以与大数据扯上关系的呢?要知道,尽管算法这个词是一个统称,但是在这个流行大数据分析的时代,算法也经常被提及且变得越发流行。  分析...

2019-05-05 16:15:07 4708 2

原创 大数据到底在用什么姿势塑造我们?

从庞杂的数据背后挖掘、分析用户的行为习惯和喜好,找出更符合用户「口味」的产品和服务,并结合用户需求有针对性地调整和优化自身,就是大数据的价值。  元数据(Metadata)的概念  简单说,元数据是对数据本身进行描述的数据,它不是对象本身,它只描述对象的属性。  比如,一幅画本身,是数据。而这幅画的作者、完成时间、尺寸、价格、类型等等,就是它的元数据。元数据的价值...

2019-05-09 14:27:30 533

原创 大数据入门的四个必备常识

一、大数据分析的五个基本方面  1、可视化分析  大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。  2、数据挖掘算法  大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数...

2019-05-09 14:25:02 671

原创 大数据,为什么不是传统BI的简单升级?

BI(BusinessIntelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。  大数据(Big Data),指在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信...

2019-05-09 14:23:14 544

原创 大数据主流工具,你知道几个?

业内有这样一种说法,SQL虽然在大数据分析领域久经考验,但是无奈长江后浪推前浪,和炙手可热的Hadoop相比,SQL已经过时了。这个说法有点言过其实,现在很多的项目都是将Hadoop作为数据存储,然后利用SQL进行前端查询。这说明Hadoop需要一种高级查询语言的支持。 Hadoop MapReduce虽然能够进行数据分析,但是太复杂了。于是,开发人员开发出了类似SQL的Pig和Hive。...

2019-05-09 14:22:13 989

原创 大数据分析思路的4点心得

 大数据分析能力对于一名产品经理来说是最基本的能力。 在面试的过程中,社招会有面试官会问你以往你负责的产品的相关数据,如何看待这些数据,如何通过这些数据来做接下来的产品优化;校招的面试官可能会问小伙伴们关于分析数据的思维;在产品经理的日常工作当中,要时长盯着数据的报表来分析产品的健康程度。本文不再对一些基本的数据定义再做描述,而是从分析的思路总结了一些心得,欢迎各位一起来讨论。  1.看...

2019-05-05 16:18:14 686

原创 如何让隐藏在大数据背后的价值发挥出来?

  对于普通人来说,大数据离我们的生活很远,但它的威力已无所不在:信用卡公司追踪客户信息,能迅速发现资金异动,并向持卡人发出警示;能源公司利用气象数据分析,可以轻松选定安装风轮机的理想地点;瑞典首都斯德哥尔摩使用运算程序管理交通,令市区拥堵时间缩短一半……这些都与大数据有着千丝万缕的关系。  牛津大学教授维克托·迈尔-舍恩伯格在其新书《大数据时代》中说,这是一场“革命”,将对各行各业...

2019-05-05 16:17:06 779

原创 大数据如何使用

  对于普通人来说,大数据离我们的生活很远,但它的威力已无所不在:信用卡公司追踪客户信息,能迅速发现资金异动,并向持卡人发出警示;能源公司利用气象数据分析,可以轻松选定安装风轮机的理想地点;瑞典首都斯德哥尔摩使用运算程序管理交通,令市区拥堵时间缩短一半……这些都与大数据有着千丝万缕的关系。  牛津大学教授维克托·迈尔-舍恩伯格在其新书《大数据时代》中说,这是一场“革命”,将对各行各业带来...

2019-05-05 16:16:07 1065

原创 从大数据到人工智能 我们还有多远要走?

 从广义上讲,人工智能的应用已经非常广泛,各大新闻客户端会根据你的阅读兴趣推送相关新闻、各大电商平台会根据你的购买习惯推送相关商品、几乎所有你浏览的网页所呈现的广告都与你的历史搜索相关……这些都可以称得上是人工智能。而且,与过去60年人工智能的发展主要集中在实验室里不同,新一轮的人工智能已经在诸多应用场景中发挥威力,应该说,新一轮的人工智能浪潮才刚刚开始。  从云计算到大数据,人工智能已...

2019-05-05 16:13:56 437

原创 大数据发展的问题与机遇

 最大的问题不是大数据本身,而是我们如何使用它。  大数据时代已经到来,它将颠覆一个个行业,使世界格局发生重大变化。这些年来,政府和各行各业的广泛支持和重视,使得大数据市场一直快速发展。然而,这是不是就意味着大数据会迅速横扫各行业,渗透到社会的方方面面,把我们在梦里或者科幻电影里见到的画面变成现实呢?怕是没那么简单。  《2017中国大数据发展报告》中显示,政府投资大数据项目数量整体呈攀升态势...

2019-05-04 13:08:25 883 3

原创 后Hadoop时代的大数据技术思考:数据即服务

 1. Hadoop 的神话正在破灭  IBM leads BigInsights for Hadoop out behind barn. Shots heard  IBM has announced the retirement of the basic plan for its data analytics software platform, BigInsights for Hadoop...

2019-05-04 13:07:20 855 3

原创 大数据可视化——5个必须知道的工具

人们常说,数据是组织的生命线。然而,解析这些数据并有效地使用仍然是一个挑战。  假设拥有一个巨大的金矿,但不能使用。那么,作为一个金矿的拥有者有什么用呢?大数据的情况与之相似。专家认为,如果企业不能分析数据来获得有用的信息,那么收集大量的数据就没有用处。  要解决这个问题,企业需要的关键武器是数据可视化工具。这些工具为企业收集数据提供了不同的见解。像微软和谷歌这样的大公司通过收集数据并应用它来...

2019-05-04 13:05:46 7002

原创 数据中心,云计算,大数据之间有什么区别和联系?

 不少人把数据中心、云计算数据中心、大数据搞混淆,觉得这三者是一样的产品,其实有显着地区别,数据中心机房是一整套复杂的设施,如今,云计算即将成为信息社会的公共资源,而数据中心则是支撑云计算服务的基础设施,所以自从云计算横空出世,一切信息技术都开始围着它转,云计算有如神一样地存在着,下面看看数据中心、云计算、大数据之间有什么区别和联系?  数据中心:数据中心(Data Center)是全球协作的特...

2019-05-04 13:04:03 6137 1

原创 大数据处理为何选择Spark,而不是Hadoop

  Spark是一个用来实现快速而通用的集群计算的平台。在速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。  一.基础知识  1.Spark  Spark是一个用来实现快速而通用的集群计算的平台。  在速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。  Sp...

2019-05-04 13:02:32 445

原创 大数据时代的10个重大变革

大数据时代的到来正在改变人们的生活方式、思维模式和研究范式,我们可以总结出10个重大变革。  NO.1  目标驱动型 → 数据驱动  决策方式  传统科学思维中,决策制定往往是“目标”或“模型”驱动的——根据目标(或模型)进行决策。然而,大数据时代出现了另一种思维模式,即数据驱动型决策,数据成为决策制定的主要“触发条件”和“重要依据”。例如,近年来,很多高新企业中的部门和岗位设置不再是“固化...

2019-05-04 13:01:31 975

原创 玩转大数据可视化的几个必会工具

 俗话说的好,逆水行舟,不进则退,在快速发展的今天,紧跟时代的步伐,抓住时代的脉搏,才能助力企业激流勇进,抢占先机。作为助力企业经营决策的大数据可视化应用,对于的企业发展起着至关重要的作用,但是如何利用大数据可视化,如何做好大数据可视化,今天小编就给大家介绍几款实用的工具,帮助大家在大数据的海洋里开发出一片宝藏。  1、ChartBlocks  如果你用够了PS、AI,ChartBlocks对你...

2019-05-04 13:00:07 573

原创 科普帖:五分钟快速了解大数据及其必备技能

  当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。虽然大数据潮流在默默的推进各种变革,但您真的了解大数据么?  大数据定义  一般而言,大数据是指数量庞大而复杂,传统的数据处理产品无法在合理的时间内捕获、管理和处理的数据集合。  这些大数据集可以包括结构化、非结构化和半结构化数据,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量...

2019-05-04 12:58:39 545

原创 大数据在云端的应用需要改变IT技能集

 如今,企业不断将大数据工作负载转移到云端。虽然此举并不需要彻底改变IT技能,但它确实需要对管理和开发团队进行一些更改。  而对于采用大数据来打包云计算,企业的团队为此准备好了吗?  即使企业在自己的数据中心内采用大数据,也不一定意味着他们将在云中取得成功。而且在大多数情况下,必须对工作人员进行培训,让其获得新的工作技能。  调研机构Enterprise Strate...

2019-05-04 12:57:13 678

原创 Hadoop进入寒冬期,崛起的会是Spark吗?

如果Hadoop开始进入寒冬期,率先崛起的会是呼声最高的Spark吗?  笔者曾经看过一个非常有趣的比喻,Hadoop是第一家大型包工队,可以组织一大堆人合作(HDFS)搬砖盖房(用MapReduce),但是速度比较慢。  Spark是另一家包工队,虽然成立得晚一些,但是他们搬砖很快很灵活,可以实时交互地盖房子,比Hadoop快得多。  Hadoop开始升级,指定调度专家YARN调度工人。S...

2019-05-04 12:56:14 291

原创 大数据入门与实战-Spark上手

1 Spark简介1.1 引言行业正在广泛使用Hadoop来分析他们的数据集。原因是Hadoop框架基于简单的编程模型(MapReduce),它使计算解决方案具有可扩展性,灵活性,容错性和成本效益。在这里,主要关注的是在查询之间的等待时间和运行程序的等待时间方面保持处理大型数据集的速度。Spark由Apache Software Foundation引入,用于加速Hadoop计算计算...

2019-05-03 12:43:46 367 1

原创 大数据开发工程师岗位分析

最近一年大数据火爆异常,各种培训班开课广告满天飞,很多做开发的朋友也想转到大数据这一行,在投递简历的时候进场被几个岗位搞迷糊,他们是大数据分析师,大数据研发工程师,大数据建模工程师,大数据挖掘工程师。我会根据前同事所在公司的相应岗位,列出岗位职责和要求,供大家借鉴。大数据开发工程师腾讯 大数据研发工程师职位描述:岗位职责:负责数据接入、数据清洗、底层重构,业务主题建模等工作;...

2019-05-03 12:42:15 1614

原创 如何用大数据做行为预测的?

“个数”是“个推”旗下面向 APP 开发者提供数据统计分析的产品。“个数”通过可视化埋点技术及大数据分析能力从用户属性、渠道质量、行业对比等维度对 APP 进行全面的统计分析。“个数”不仅可以及时统计用户的活跃、新增等,还可以分析卸载用户的成分、流向,此外还能实现流失、付费等用户关键行为的预测,从而帮助 APP 开发者实现用户精细化运营和全生命周期管理。其中很值得一提的是,“个数”在“可视化埋...

2019-05-03 12:41:21 2660

原创 大数据技术如何有效阻击网络黑产?

最近,互联网行业的“网络安全”事件频发。新三板公司瑞智华胜假借与运营商合作之名,非法窃取了30亿条用户数据,涉及BAT等近百家互联网公司的用户。有数据显示全球企业遭受网络攻击总量较去年增长15%,严重性增加了23%。网络安全事件不仅侵害了用户信息安全,也损害了互联网企业经营安全,其破坏性已经不再局限于传统意义上的物质、财产损失,而是影响到运营、制造乃至人身安全。APP运营中会遇到哪些网络黑...

2019-05-03 12:40:22 570

原创 有大数据就有人工智能的机会

人工智能时代,深度学习和大数据成了密不可分的一对儿。深度学习可以从大数据中挖掘出以往难以想象的有价值的数据、知识或规律。简单来说,有足够的数据作为深度学习的输入,计算机就可以学会以往只有人类才能理解的概念或知识,然后再将这些概念或知识应用到之前从来没有看见过的新数据上。对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq...

2019-05-03 12:37:34 407

原创 大数据:人工智能的基石

目前的深度学习主要是建立在大数据的基础上,即对大数据进行训练,并从中归纳出可以被计算机运用在类似数据上的知识或规律。那么,到底什么是大数据呢?人们经常笼统地说,大数据就是大规模的数据。这个说法并不准确。“大规模”只是指数据的量而言。数据量大,并不代表着数据一定有可以被深度学习算法利用的价值。例如,地球绕太阳运转的过程中,每一秒钟记录一次地球相对太阳的运动速度、位置,这样积累多年,得到的数据量不...

2019-05-03 12:36:30 889

原创 谈谈spark和hadoop的差异

谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。解决问题的层面不一样首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成...

2019-05-03 12:35:32 355

原创 大数据技术分析:HDFS分布式系统介绍!

HDFS主要用于最初由Yahoo提出的分布式文件系统,以下它的主要用途:1、保存大数据2、提供快速读取大数据的能力Heroop帧的主要特征是通过将数据和计算分布在集群中的各节点服务器来实现分布式计算的目的。在计算逻辑和所需数据接近这一点上,并行计算分区后进行汇总。对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学...

2019-05-03 12:34:37 470

原创 数据仓库工程师、大数据开发工程师、BI工程师、ETL工程师之间有什么区别?

商务智能。商务智能工程师是商业智能行业的工程师。从需求分析师到数据仓库架构师、ETL工程师、数据分析工程师、报表开发工程师、数据挖掘工程师等,都可以称为BI工程师。ETL工程师:从事系统编程、数据库编程和设计,掌握各种常用编程语言的专业技术人员。也称为数据库工程师。对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq...

2019-05-03 12:33:22 5342

原创 Hadoop与Spark以及那些坑

这两天在搭建Hadoop与Spark的平台,要求是能够运行Spark,并且用python编程。笔者也不打算写一个很详细的细节教程,简单做一个笔记blog。1.选择 笔者一开始是在虚拟机上搭建的,创建了三个ubuntu虚拟机,然后开始布置分布式系统,但是,后来发现,资源完全不够用。笔者台式机16G内存,2T硬盘,i7第四代处理器,然而,还是被hadoop拖死。 ...

2019-05-03 12:31:58 165

原创 Spring 数据处理框架的演变

定量分析的成败在很大程度上取决于采集,存储和处理数据的能力。若能及时地向业务决策者提供深刻并可靠的数据解读,大数据项目就会有更多机会取得成功。如今,为数据处理设计合适的架构需要下很大工夫。数据处理主要包括 3 个方面:批处理:批量处理大量的静态数据。这一方式一般是分布式并且可扩展的。 实时处理:实时处理主要处理连续且无尽的的数据流。这些数据流也是分布式的,且速度很快。 混合计算模型:该...

2019-05-02 12:40:38 341

原创 大数据对你来说意味着什么?

毋庸置疑,现如今是属于大数据(Big Data)的,革命性的时代。从社交媒体到企业,每时每刻都在产生大量的数据。无所作为,从而把这样的宝藏白白浪费掉是及其愚蠢的。企业已经学会了收集大数据以获取更高的利润,并提供更好的服务以及更深入地了解其目标客户。大数据主要是指企业中日常生成的,大量的有组织以及无组织的数据。在这种情况下,组织如何处理这些数据,与数据量是无关的。对大数据分析可以产生改善战略...

2019-05-02 12:38:51 551

原创 大数据处理的开源框架:概述

本文讨论大数据处理生态系统和相关的架构栈,包括对适应于不同任务的多种框架特性的调研。除此之外,文章还从多个层次对框架进行深入研究,如存储,资源管理,数据处理,查询和机器学习。使用门槛的降低是互联网上数据最初增长的驱动力。随着智能手机和平板电脑等一系列新设备的出现,这一趋势得以加强。在第一代数据增长的基础上,社交媒体平台推动数据量以指数级增长,这也就是所谓由社交媒体释放的第二次增长浪潮。信息分享...

2019-05-02 12:37:17 2680

原创 使用Hadoop分析大数据

大数据由于其庞大的规模而显得笨拙,并且大数据需要工具进行高效地处理并从中提取有意义的结果。Hadoop是一个用于存储,分析和处理数据的开源软件框架和平台。本文是Hadoop如何帮助分析大数据的初学者指南。大数据(Big Data)是一个指大量数据的术语,包括传统数据库中存在的结构化数据以及文本文档,视频和音频等非结构化数据。大数据不仅仅是数据,也是各种工具、技术、框架和平台的集合。交通数据、搜...

2019-05-02 12:35:41 7927

原创 Hadoop/R 集成 I:流处理

如果您平常一直使用MapReduce框架,那么您可能知道"单词计数示例"是MapReduce的相当于“Hello World!”的一个例子。在之前的帖子中,我试图稍作改动,但现在也有一个同样简单的问题 - 按州来计算,计算房利美(Fannie Mae)地产公司所募集的按揭证券的美元总价的新问题。到目前为止,我已经使用了“直接的”Java和Pig,现在我将注意力转向R(语言).在这篇文章的例子完...

2019-05-02 12:33:58 4770

原创 大数据架构最佳实践

软件供应商的营销部门已经做好了让大数据成为主流的工作,无论这会产生怎样的影响。如果我们使用大数据,我们可以实现任何承诺过的前景; 商业上的洞察力或是实现击败我们的竞争对手。但是,现在还没有公开的大数据的成功实现。问题是:为什么没有呢?显然,这个银弹(比喻大数据)让企业看到了数十亿美元的投资流入,但没有投资回报!这应该责怪谁?毕竟,企业不必公布其内部流程或项目。我对此有不同的看法,原因应该在于IT部...

2019-05-02 12:32:18 5513

原创 带有Apache Spark的Lambda架构

目标市场上的许多玩家已经建立了成功的MapReduce工作流程来每天处理以TB计的历史数据。但是谁愿意等待24小时才能获得最新的分析结果?这篇博文将向您介绍旨在利用批处理和流处理方法的Lambda架构。我们将利用Apache Spark(Core,SQL,Streaming),Apache Parquet,Twitter Stream等实时流数据快速访问历史数据。还包括清晰的代码和直观的演示!...

2019-05-02 12:30:36 5219

原创 Java开发人员必备工具之 10 个大数据工具和框架

先来看看大数据的概念。根据维基百科,大数据是庞大或复杂的数据集的广义术语,因此传统的数据处理程序不足以支持如此庞大的体量。在许多情况下,使用SQL数据库存储/检索数据都是很好的选择。而现如今的很多情况下,它都不再能满足我们的目的,这一切都取决于用例的变化。现在来讨论一些不同的非SQL存储/处理数据工具,例如,NoSQL数据库,全文搜索引擎,实时流式处理,图形数据库等。1、MongoDB...

2019-05-02 12:26:37 5459

原创 原来Java大数据才是真正的高富帅!

大数据时代,中国IT环境也将面临重新洗牌,不仅仅是企业,更是程序员们转型可遇而不可求的机遇。国内大多数大型互联网公司的程序员被称作研发工程师,但实际上国内几乎没有研发项目,只能叫做开发。开发程序员的工作大多是重复性劳动,容易产生疲惫感,薪资在工作2-5年内就达到了一个峰值,再要提升就比较困难,这样就导致了很多程序员最终转行做了其他行业。JAVA的精密,强大,拥有其它语言不可替代的性能和可维...

2019-05-02 12:23:07 5510

原创 懂java的人学大数据更容易上手?

最近两年,大数据这个词非常火,以大数据为基础和核心的人工智能也以迅雷不掩耳之势蔓延到各个领域,无人驾驶,无人超市,智慧城市等等。毫无疑问,火爆的大数据已然成为当今互联网世界中的新宠儿,创造着巨大的商业价值,是当今互联网巨头的必争之地。目前大数据给大多数人的感觉是,专业性强,操作繁琐,高薪的代名词,完全属于“高大上”技术,但是其实很多人并不清楚大数据到底是做什么?用的什么语言进行操作处理?当数据...

2019-05-02 12:19:32 5737

原创 数据中心、云计算、大数据之间的区别与联系

不少人会把数据云计算中心、数据中心、大数据搞混淆,觉得三者是一样的产品,其实有显著地区别,数据中心机房是一整套复杂设施,如今,云计算即将成为信息社会的公共资源,而数据中心是支撑云计算服务的基础设施,所以自从云计算横空出世后,一切信息技术开始围着它转,云计算有如神一样地存在着,下面看看数据中心、云计算以及大数据之间有什么区别和联系?数据中心是全球协作的特定设备网络,用来在网络基础设施上传递、加速...

2019-04-27 12:48:41 22335 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除