自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(207)
  • 收藏
  • 关注

原创 R vs. Python,数据分析中谁与争锋?

R和Python两者谁更适合数据分析领域?在某些特定情况下谁会更有优势?还是一个天生在各方面都比另一个更好?当我们想要选择一种编程语言进行数据分析时,相信大多数人都会想到R和Python——但是从这两个非常强大、灵活的数据分析语言中二选一是非常困难的。我承认我还没能从这两个数据科学家喜爱的语言中选出更好的那一个。因此,为了使事情变得有趣,本文将介绍一些关于这两种语言的详细信息,并将决策权留...

2017-10-13 09:48:01 2017 14

原创 Heron:Twitter的新一代流处理引擎

流计算又称实时计算,是继以Map-Reduce为代表的批处理之后的又一重要计算模型。随着互联网业务的发展以及数据规模的持续扩大,传统的批处理计算难以有效地对数据进行快速低延迟处理并返回结果。由于数据几乎处于不断增长的状态中,及时处理计算大批量数据成为了批处理计算的一大难题。在此背景之下,流计算应运而生。相比于传统的批处理计算,流计算具有低延迟、高响应、持续处理的特点。在数据产生的同时,就可以进行计...

2017-10-11 11:16:48 2383 2

原创 JavaScript内存管理机制以及四种常见的内存泄漏解析

原文:How JavaScript works: memory management + how to handle 4 common memory leaks 作者:Alexander Zlatkov 译者:雁惊寒【译者注】本文介绍了JavaScript在内存管理方面的工作原理,同时列举了4种常见的内存泄漏和处理方式。以下为译文:几个星期前,我们开始编写深入研究JavaScr...

2017-10-08 08:33:31 2766 2

原创 第五届CCF大数据与计算智能大赛决战巅峰,百万大奖汇聚海内外数据科学家

摘要:9月24日,第五届中国计算机学会(CCF)大数据与计算智能大赛(Big Data & Computing Intelligence Contest,简称“BDCI”)启动仪式在北京梅地亚中心酒店正式举办。时下的大数据已进入以数据广泛关联、跨域融合和深度应用为特征的智慧化阶段。数据已经成为战略资源及经济资产,通过机器学习方法来挖掘分析海量数据,鼓励学科交叉跨界合作,探索以大数据...

2017-09-30 11:09:11 863

原创 基于Hadoop大数据分析应用场景与实战

为了满足日益增长的业务变化,京东的京麦团队在京东大数据平台的基础上,采用了Hadoop等热门的开源大数据计算引擎,打造了一款为京东运营和产品提供决策性的数据类产品-北斗平台。一、Hadoop的应用业务分析大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。目前主流的三大分布式计算系统分别为Hadoop、Spark和Strom:Hadoo...

2017-09-29 16:32:57 8326

原创 用R语言把数据玩出花样

R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网…都在使用R语言。要成为有理想的极客,我们不能停留在语法上,要掌握牢固的数学,概率,统计知识,同时还要有创新精神,把R语言发挥到各个领域。让我们一起动起来吧,开始R的极客理...

2017-09-29 16:15:15 1933 1

原创 中国程序员如何升职加薪,也许我们该学学印度人

近几年越来越多的印度人在美国硅谷占据要职,其中比较著名的有谷歌 CEO 桑德.皮查伊,微软 CEO 萨蒂亚.纳德拉,Adobe CEO 山塔努.纳拉延。 谷歌 CEO 桑德.皮查伊反观硅谷的华裔,虽然在数量上与印度裔相近,却不像印度人那样大量占据企业的中高层。你可以说因为印度人英语比较好,虽然他们说英语普遍有口音(想想《生活大爆炸》里的可爱的拉杰什),但是老美听得懂就好,就好比老外虽然说中文普遍...

2017-09-20 17:28:22 1602

原创 51个你需要知道的大数据术语

每天数十亿字节的数据收集下,了解大数据的复杂内涵非常重要。为了帮助你了解这一领域,我们从最近的大数据指南中编辑了一个列表,列出了最重要的相关术语和定义。你认为我们还应该添加哪些术语?请在评论中告诉我们。A算法:给予AI、神经网络或其他机器的一组规则,以帮助其自己学习;分类、聚类、推荐和回归是四种最常用的算法类型。Apache Flink:一个开源的流数据处理框架。用Java和Scala编写,用...

2017-09-18 13:02:13 1274

原创 MySQL主从同步那点事儿

关于mysql主从同步,相信大家都不陌生,随着系统应用访问量逐渐增大,单台数据库读写访问压力也随之增大,当读写访问达到一定瓶颈时,将数据库的读写效率骤然下降,甚至不可用;为了解决此类问题,通常会采用mysql集群,当主库宕机后,集群会自动将一个从库升级为主库,继续对外提供服务;那么主库和从库之间的数据是如何同步的呢?本文针对MySQL 5.7版本进行下面的分析,下面随笔者一起探究一下mysql主从...

2017-09-15 15:37:34 683

原创 云时代的必然选择,华为CloudFabric重新定义云数据中心网络

2017华为全联接大会HUAWEI CONNECT,华为重磅发布了CloudFabric解决方案,首次在数据中心领域提出面向应用场景的模型化组网概念,并发布面向高可用(High Availability)、超大规模(Hyperscale)、高性能计算(HPC,High Performance Computing)三个特定场景的数据中心Fabric模型。同时发布了华为400G数据中心互联解决方案, ...

2017-09-13 09:01:46 1151

原创 高吞吐消息网关的探索与思考

唯品会是一家立足于“全球精选,正品特卖”的电商网站,拥有4亿注册会员,日活约2千万会员。随着会员数量的增多,公司业务部门的飞速发展,和用户的沟通变得日益重要。沿用至今的消息网关,面对多变的业务和爆发式增长的消息面前,显得力不从心,多次大促出现性能瓶颈,急需重构来跟上公司业务发展的需要。唯品会消息网关的架构定位在本次重构中,将原来耦合在一起的消息发送渠道,被拆分成逻辑消息网关和物理发送渠道。逻辑消息...

2017-09-11 10:26:49 1684

原创 基于Mesos/Docker构建数据处理平台

本文深入介绍了去哪儿网利用Mesos和Docker构建私有云服务的全过程,分享了从无状态应用向有状态应用逐步过度的经验与心得。平台概览2014年下半年左右,去哪儿完成了有关构建私有云服务的技术调研,并最终拍定了Docker/Mesos这一方案。下图1展示了去哪儿数据平台的整体架构: 图1:去哪儿数据平台的整体架构该平台目前已实现了如下多项功能:每天处理约340亿/25TB的数据;90...

2017-09-11 08:55:37 1390

原创 KSQL,用于Apache Kafka的流数据SQL引擎

Apache Kafka是一个分布式的、分区的、多复本的日志提交服务,使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。Kafka最初是由LinkedIn开发,并于2011年初开源,目标是为实时数据处理提供一个统一、高通量、低等待的平台。目前,越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。 Kafka拓扑结构Kafka的设计可以...

2017-09-01 15:39:28 1527

原创 深入解析Spark中的RPC

作者:Neo,研究生毕业于清华大学,本科毕业于北京邮电大学,目前工作在Hulu,从事Big data相关领域的研发工作,曾经在百度Ecom和程序化广告混迹6年,从事系统研发和架构工作,关注大数据、Web后端技术、广告系统技术以及致力于编写高质量的代码。 原文载于知乎,感谢作者授权转载。Spark是一个快速的、通用的分布式计算系统,而分布式的特性就意味着,必然存在节点间的通信。本文主要...

2017-08-31 09:26:39 2721 2

原创 工具推荐|程序员必须知道的11款新型编程工具

对于开发人员来说,工具是至关重要的。工具可以使开发人员的日常工作更加轻松、高效,因为只要关注最重要的事情即可。对于开发人员来说,想要寻找到更好的替代工具往往比坚持使用熟悉的、过时的工具要困难得多。在这篇文章中,我们将列出你可以在日常工作中使用的一些新的编程工具。对在线流媒体感兴趣的许多开发人员也已经开始在其开发环境中使用这些新工具,因为这些工具与其陈旧的设施相比具有明显的优势。你可能会想,如果旧的...

2017-08-30 16:17:45 633

原创 开发者必读的十大经典书籍

编者按:人生如逆水行舟,不进则退。开发者想要保持自身的竞争力,做到所向披靡,知识储备必不可缺。这就意味着,简单的代码阅读远远不够。快速迭代的信息社会,技术前进的速度远超人类历史上的任何时期,技术攫取呈现出碎片化的特征,开发者更倾向于通过网络搜素寻求问答。然而,这种浅尝辄止的阅读方式,会给人深沉的浮躁感,难以做到为自己切实所用。新语言、新工具持续更替,让人目不暇接,学习过程中必定伴随着各种琐...

2017-08-25 15:11:55 5211 1

原创 五个小技巧告诉你如何保护MySQL数据仓库

汇总各种来源的数据,可以创建一个中央仓库。通过分析和汇总业务数据报告,数据仓库能够帮助企业做出明智、战略性的决策分析。虽然数据仓库提供了许多便利,但是把这些敏感数据收集到一个单独系统,会给数据仓库带来安全问题。如果选择使用数据仓库,企业需要考虑如何更好地保护内部信息系统。任何数仓安全方面的妥协都会给入侵者或网络罪犯以可乘之机,造成销售、营销、客户信息等业务数据的毁坏泄露。今年爆发的WannaCry...

2017-08-23 17:16:20 402

原创 12个数据科学家秒懂的瞬间

所谓数据科学家就是比软件工程师更擅长统计学,比统计学家更擅长软件工程的人。–Josh Wills, Cloudera毫无疑问,数据科学是如今职场上最受追捧的技能之一。CNBC的一篇文章在综合考虑就业机会、薪水中位数、体力工作强度、工作压力等因素后,将“数据科学家”评选为2017年最受欢迎的10大职业之一。数据科学在职场中确实越来越热,数据科学家年薪的中位数超过了11万美元而且职场中对于数据科学家的...

2017-08-22 08:43:35 353

原创 京东如何处理数据中心网络对应用性能的影响

​随着现代数据中心规模的不断扩张,网络拓扑和路由转发变得越来越复杂。传统的数据中心使用大型机和小型机,网络规模相对较小,普通的机框式交换机就能满足网络的需求。随着CLOS集群架构的普及,标准的x86服务器集群以低成本和高扩展性逐渐取代大型机和小型机而成为数据中心的主流。下图就是一个典型的基于CLOS架构的数据中心解决方案,在这样的大规模网络中,如何让数据在传输过程中能以最快的速度从发送端到接收端,...

2017-08-18 16:15:21 444

原创 Apache Flink 技术解读之分布式运行时环境

本文基于 Apache Flink 1.3 版本官方文档翻译。任务与运算符链接在实际的分布式计算环境中,Flink 会将多个运算子任务链接到分布式计算任务中。每个线程执行一个计算任务。将运算符链接到计算任务中对于系统性能的提升有很大的帮助:它降低了线程间切换与缓冲的开销,并且在降低延时的同时减少了系统的总体吞吐量。可以对这种链接操作进行配置,具体内容请参考链接文档。如下图所示的数据流图包含...

2017-08-17 13:45:24 858

原创 GitHub万星推荐:黑客成长技术清单

最近,在reddit安全板块和Twitter上有个GitHub项目很火,叫“Awesome Hacking”。 “Awesome Hacking”在reddit上有超过四百个赞,但管理员后来认为不适合该板块(Awesome类项目没有新的内容),给了“reject”。这个项目由Twitter账号@HackwithGithub维护,混Twitter的安全爱好者应该了解,在@HackwithGithu...

2017-08-15 15:37:46 2456

原创 Apache Flink 官方文档翻译之编程模型

本文基于Apache Flink 1.3 版本官方文档翻译。抽象层次Flink 能够为流式计算或批处理应用提供多种层次的抽象接口。最低级的抽象接口是状态化的数据流接口。这个接口是通过 ProcessFunction 集成到 数据流 API 中的。此类接口让用户可以使用连续的容错状态,并且可以不受限制地处理多个数据流中的事件。另外,用户也可以通过注册事件时间和时间处理回调函数的方法来实现复...

2017-08-10 09:36:51 487

原创 致力技术民主化,开源新贵BigDL的进阶之路

人工智能正在改变着各行各业。英特尔资深首席工程师,大数据技术全球CTO戴金权,将就开源、大数据、深度学习等话题分享英特尔在人工智能方面所做的工作。本文会介绍英特尔在大数据分析、深度学习开源软件方面的研究,以及英特尔是如何推动AI技术民主化,让行业更方便地使用人工智能技术。 英特尔资深首席工程师,大数据技术全球CTO戴金权发表主题演讲《AI民主化——开源,大数据和深度学习》近年来,Spark已经成...

2017-08-07 09:07:24 719

原创 浅谈分布式消息技术:Kafka

Kafka的基本介绍Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景是:日志收集系统和消息系统。Kafka主要设计目标如下:以时间复杂度为O(1)的...

2017-08-03 14:38:48 9689 3

原创 快速成长期的云原生应用架构实践

在经过了最初的业务原型验证和上线运行期之后,用户业务进入了高速成长阶段。在这一阶段,业务重点不再是方向上的调整,而是在原来基础上的不断深挖、扩展;开发不仅是功能的实现,还需要兼顾成本和性能;系统不再是单体架构,还会涉及系统的扩展和多系统之间的通信;高可用也不仅是服务自动拉起或者并行扩展,还需要考虑数据可靠、对用户影响,以及服务等级协议(SLA)。本文将以上述挑战为出发点,介绍如何通过引入新的工具、...

2017-08-02 11:20:14 2254 1

原创 阿里巴巴大数据实践之数据建模

随着DT时代互联网、智能设备及其他信息技术的发展,数据爆发式增长,如何将这些数据进行有序、有结构地分类组织和存储是我们面临的一个挑战。为什么需要数据建模如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。...

2017-07-28 11:29:18 8082

原创 2017年值得收藏的八个设计工具和资源

这是一个锤子。更准确的说,这是一个 1960 年代末的老式 Estwing 羊角锤。它制作精美,做工牢固,但跟我们今天生产的 Estwing 锤子差别不大。锤子——他们使用的方式,在过去 50 年并没有发生多大变化。但是,我们使用的 web 设计工具和资源则完全不同。可以比对下你现在使用的工具和 5 年前使用的有什么不同。在 2012 年,你可能使用 PNGs 做图标。Photoshop 无处不在...

2017-07-25 13:39:28 1490

原创 浅谈分布式事务

现今互联网界,分布式系统和微服务架构盛行。一个简单操作,在服务端非常可能是由多个服务和数据库实例协同完成的。在一致性要求较高的场景下,多个独立操作之间的一致性问题显得格外棘手。基于水平扩容能力和成本考虑,传统的强一致的解决方案(e.g.单机事务)纷纷被抛弃。其理论依据就是响当当的CAP原理。往往为了可用性和分区容错性,忍痛放弃强一致支持,转而追求最终一致性。分布式系统的特性在分布式系统中,同时满足...

2017-07-24 13:34:34 793

原创 如何快速全面建立自己的大数据知识体系?

作者经过研发多个大数据产品,将自己形成关于大数据知识体系的干货分享出来,希望给大家能够快速建立起大数据产品的体系思路,让大家系统性学习和了解有关大数据的设计架构。很多人都看过不同类型的书,也接触过很多有关大数据方面的文章,但都是很零散不成系统,对自己也没有起到多大的作用,所以作者第一时间,带大家从整体体系思路上,了解大数据产品设计架构和技术策略。大数据产品,从系统性和体系思路上来做,主要分...

2017-07-21 10:57:48 956

原创 Weiflow——微博机器学习框架

作者:吴磊,新浪微博算法平台高级工程师,主要负责以Spark为核心的大数据计算框架、机器学习平台的设计和实现。曾任职于IBM、联想研究院,从事数据库、数据仓库、大数据分析相关工作。颜发才,新浪微博机器学习研发部门算法工程师,毕业于上海交通大学,为Spark,Pandas,Scikit-learn提交过代码贡献。 责编:郭芮([email protected]),关注大数据领域。 本...

2017-07-16 22:40:04 1220

原创 Apache Spark 2.2.0 正式发布,建议所有2.x用户升级

Apache Spark 2.2.0 是2.x系列的第三个版本,该发行版移除了Structured Streaming的实验标签,处理了1100多个问题,更关注可用性、稳定性和性能优化。建议所有2.x用户更新至2.2.0版本,点击访问下载页面,用户可以在JIRA中查询更多细节。以下按照主要模块,对更新内容进行了分组: 核心 & Spark SQL Structured Str...

2017-07-12 15:06:01 922

原创 史上最全,100+大数据开源处理工具汇总

本文除了一些常用的大数据工具,还总结汇总了其他大数据工具,几乎是最全的大数据工具的总结。 如果你想入门大数据,可以对他们进行简单的了解。 如果你想学习自己熟悉意外的大数据工具,可以看这篇文章。 如果你想选择一个适合自己公司的大数据工具,也可以参考这篇文章。我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考。下面是第一部分。查...

2017-07-11 16:07:49 2412

原创 Spark Streaming应用与实战全攻略(Ⅱ)

作者:小小默,开源爱好者,关注Hadoop/Spark、机器学习、人工智能等相关技术。更多精彩欢迎关注作者个人博客。Spark Streaming应用与实战系列包括以下六部分内容:背景与架构改造通过代码实现具体细节,并运行项目对Streaming监控的介绍以及解决实际问题对项目做压测与相关的优化Streaming持续优化之HBase管理Streaming任务点此阅读第一部分内...

2017-07-07 14:48:01 952 1

原创 随笔|关于数据感悟

➤明确技术与业务的关系知识和发明来自实践和生产的实际需要,OSI的7层模型再美、再学院化也没有干过TCP/IP。切莫强求技术驱动,技术职责第一要务是做好深度服务业务。数据产品不同于一般业务系统。隔行如隔山,跨部门项目往往对双方团队的时间管理、利益妥协、沟通协作和交付提出了很高很难的要求,数据产品要有价值,必须获取足量、高质的数据,建立跨部门、跨业务的统一数据视图前景美妙但步履维艰,保持持久热...

2017-07-05 17:27:19 367

原创 谁是王者?百度、阿里和腾讯的大数据发展路线和区别

本文转自36大数据,已获授权。作者:麒麟。看中国科技企业发展,先看BAT。三家公司各自占据自己的领域,成为了无数小公司叹为仰止的高山,在大数据的领域里,又尤以BAT最为耀眼。在前不久的一次公开会议上,李彦宏、马云、马化腾又对数据的应用产生了公开分歧,三者分别认为数据的价值在于算法、数据量、场景化,这其实是暗合了三家公司的经营方向与理念。百度掌技术,阿里重规模,腾讯把持着社交与游戏,是妥妥的...

2017-07-05 13:22:30 3165

原创 Livy:基于Apache Spark的REST服务

作者简介:邵赛赛,Hortonworks技术专家,专注于开源大数据领域,Apache Spark和Livy的活跃贡献者。前Intel大数据团队成员,专注于Apache Hadoop和Spark等相关大数据平台的性能测试,调优以及改进。 责编:郭芮([email protected]),关注大数据领域。 本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅2017年《程序...

2017-07-03 08:48:32 6146 1

原创 Spark未来何去何从?新主流架构带你探析企业级的应用现状

6月,汇集当今大数据界精英的Spark Summit 2017盛大召开,Spark作为当今最炙手可热的大数据技术框架,向全世界展示了最新的技术成果、生态体系及未来发展规划。巨杉作为业内领先的分布式数据库厂商,也是Spark全球的14家发行商之一,受邀在本次大会做了题为“分布式数据库+Spark架构和应用”的分享。巨杉数据库联合创始人、CTO及总架构师王涛也给大家分享了大会的见闻以及这一架构的发展和...

2017-06-30 09:44:27 1349

原创 健康医疗大数据国家试点工程(福州)生态峰会昨日举行

摘要:中电数据牵头,首批4家世界500强企业领衔,联袂20余家业界知名企业组建生态联盟落地国家试点工程。6月26日,“数据风口,生态联盟”健康医疗大数据国家试点工程(福州)生态峰会在中国东南大数据产业园举行。由中国电子信息产业集团有限公司旗下中电数据服务有限公司牵头,IBM、戴尔、飞利浦、联想4家世界500强企业领衔,联袂20家业界名企在榕组队成军,宣告健康医疗大数据国家试点工程生态联盟正...

2017-06-29 13:52:35 509

原创 “生态风口 生态联盟” 健康医疗大数据国家试点工程(福州)生态峰会即将在榕举行...

为践行《“健康中国2030”规划纲要》提出的从“以疾病治疗为中心”向“以促进人民健康为中心”转型的“大健康观”理念,推动《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》(国办发〔2016〕47号)落地,加速健康医疗大数据中心及产业园国家试点工程(福州)的建设,中电数据服务有限公司将携手福州市政府健康医疗大数据办公室、中国卫生信息学会中国健康医疗大数据产业联盟、东湖VR小镇,共同举办主...

2017-06-23 09:10:42 342

原创 Spark App自动化分析和故障诊断

陈泽,苏宁云商IT总部高级技术经理。苏宁云商大数据离线计算平台的计算方向负责人,目前主要从事Yarn,Hive,Spark,Druid等计算组件研发工作。曾就职于百度,有多年的Spark大数据方向的研发经验,精通Spark SQL,Druid等内核原理,有丰富的任务故障诊断和性能调优经验。 本文系陈泽老师在CCTC 2017 Spark技术峰会上所做的分享,点击下载演讲PPT。非常...

2017-06-21 11:28:22 1428

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除