自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 沉得住气的程序员们!

网上有很多关于程序员的自黑段子,还有很多网友都给程序员戴上了一些标签,比如秃头、单身、邋遢、宅等,其实真正说起来,很多都是程序员在自黑的而已,却不想成为了众多网友的调侃对象。其实,程序员也是人,他们并没有很多人想象中的那么高大上。​1、兄弟稳住,你这么帅气2、你认为这是25岁还是52岁?3、阿姨你缺女婿吗?4、底下评论区绝对一片单身​5、写字楼里写字间,写字间中...

2019-01-07 10:28:53 1527 5

原创 大数据Hadoop2.x与Hadoop3.x相比较有哪些变化

在这篇文章中,我们将讨论Hadoop 2.x与Hadoop 3.x之间的比较。 Hadoop3版本中添加了哪些新功能,Hadoop3中兼容的Hadoop 2程序,Hadoop 2和Hadoop 3有什么区别? 我们希望Hadoop 2和Hadoop 3之间的这个功能的区别将帮助回答上述问题。Hadoop 2.x与Hadoop 3.x之间的功能比较本节将讲述Hadoop 2.x与Hado...

2018-12-20 16:49:30 1341

原创 马云说:未来十年是“贵州”的错,原因在这里!

今天从一番对话中了解到,一个北大教授的讲座,里面有一句话说得很好:社会人才培养缺陷,原创型人才在中国很难生存下去! 听到这里不禁有了一份感慨,感觉到这个社会带来的紧迫感!或许你也跟我一样,每天都生活在忙忙碌碌的状态中,上班,下班,加班……忙着贪恋爱,忙着顾孩子,忙着看老人……然而这些几乎都成了一种习惯!我们身上背负的不仅仅是一种责任,也有更多其他的压力。但是真正没有很多...

2018-12-10 10:44:30 16625

原创 快毕业才发现自己找不到工作,为什么实习经历如此重要?

从争分夺秒的高考备战到结束步入大学的校园生活,很多人都忘记了曾经自己努力的身影。对于学习这件事情来说已经没太多的必要性,感觉一切都是在走形式主义!在亚历山德拉•利维特写的一本《上大学是为了什么》中提到:在大学里,人们过着穿牛仔裤、打篮球、每天只上3个小时课的悠闲生活,可为了毕业后找到一份满意的工作,从现在就需要一些指导。帮助你们在严酷的现实工作中如鱼得水。如何让你的简历越过前台和人事,直接到老板手中。了解办公室密语,当你的事业处于低谷期时,如何度过难关……在这本书开端的这个简介中就已经在告知每个即将

2022-02-10 16:44:16 206

原创 基于Flume的美团日志收集系统-----架构和设计

问题导读:1.Flume-NG与Scribe对比,Flume-NG的优势在什么地方?2.架构设计考虑需要考虑什么问题?3.Agent死机该如何解决?4.Collector死机是否会有影响?5.Flume-NG可靠性(reliability)方面做了哪些措施?美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流。美团的日志收集...

2019-08-23 15:09:43 373

原创 hadoop3.0新特性介绍

hadoop3.0新特性介绍1. 基于jdk1.8(最低版本要求) 2. mr采用基于内存的计算,提升性能(快spark 10倍) 3. hdfs 通过最近black块计算,加快数据获取速度(块大小:256M) 4. 支持多NameNode(实现了更加可靠的HA) 5. 引入EC纠删码技术(EC:Erasure Coding) 存储空间节省50% 6....

2019-07-16 09:30:00 598

原创 GitHub上反对996,这些程序员都来自哪里?

996工作制是指工作日早9点上班,晚上9点下班,中午和晚上休息1小时(或不到),总计10小时以上,并且一周工作6天的工作制度,是非常辛苦且严重违反劳动法践踏人权的工作制度。而作为互联网行业的IT程序员们,大部分都是出于这样的工作时间,近日在GitHub上出现了这么一条:控诉互联网公司的侵权行为。有人注册了一个叫做996.icu的域名,并且在这个网站上大举控诉部分互...

2019-03-29 18:01:29 768

原创 推荐系统的架构图

推荐系统的架构 本文从互联网收集并整理了推荐系统的架构,其中包括一些大公司的推荐系统框架(数据流存储、计算、模型应用),可以参考这些资料,取长补短,最后根据自己的业务需求,技术选型来设计相应的框架。后续持续更新并收集。。。 图1 界面UI那一块包含3块东西:1) 通过一定方式展示推荐物品(物品标题、缩略图、简介等);2) 给的推荐理由;3) 数据反馈...

2019-03-28 15:43:43 19110 1

原创 算法——贝叶斯公式的推导过程

全概率公式,贝叶斯公式推导过程(1)条件概率公式 设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率(conditional probability)为: P(A|B)=P(AB)/P(B)(2)乘法公式 1.由条件概率公式得: ...

2019-03-28 15:31:53 2472

原创 做了十年程序员的苏明哲被裁掉的真正原因!

作为一个程序员,在看《都挺好》这部剧的时候可能关注的点不太一样。别人关注的是家长里短和每个人的好坏,我却更关注做了十年程序员被开除的名校毕业生苏明哲。 清华斯坦福双名校加持《都挺好》剧中介绍,苏明哲本科是清华毕业,研究生考上了美国的斯坦福,是全球排名第七的顶尖高校,毕业之后做了程序员,学习的是计算机专业,在这个学校这个专业学习的人里面有27位图灵奖(计算机最高奖)获得者,谷歌两位创始...

2019-03-28 15:21:16 2068

原创 如今的大数据究竟发展到了什么阶段

大数据时代,大数据分析与应用大肆盛行。越来越多的大公司大企业大集团,都越来越重视大数据的影响和作用。可以说,谁想抢得大数据的一手可靠资料,谁就在未来的业务发展和拓宽中占据优势,谁就会在相关领域首先拔得头筹。但是,大数据发展前景现在到底如何,大数据的可靠性由谁说了算,大数据的真实性有谁可以保证?甚至还可以再倒退一点点来问问,如今的大数据究竟发展到了什么阶段?我想,应该很少人能够清楚地知...

2019-03-27 14:28:00 1246

原创 大数据时代,你的信息安全谁负责?

数据时代的来临,各项社会活动全面启动数字化进程,对应的技术应用背后,其信息安全风险也越发突出。脸书数据门作为脸书Facebook的合作伙伴之一,一家名为“剑桥分析公司”的数据分析企业,创建了一个问答应用“这是你的数字化生活”,并获得了约30万人安装。由于当时脸书是开放广告API接口的,这让这家公司可以在这些用户好友不知情的情况下,获取他们的数据,最终有5000万用户数据被泄漏,这是自“...

2019-03-27 14:25:25 1040

原创 大数据分析的5个方面

越来越多的应用涉及到大数据,不幸的是所有大数据的属性,包括数量,速度,多样性等等都是描述了数据库不断增长的复杂性。那么大数据给我们带来了什么好处呢?大数据最大的好处在于能够让我们从这些数据中分析出很多智能的,深入的,有价值的信息。下面我总结了分析大数据的5个方面。1. Analytic Visualizations(可视化分析)不管是对数据分析专家还是普通用户,数据可视化是数据分析工...

2019-03-25 10:16:30 976

原创 BATJ原来是这样玩大数据的!

为什么国内的大数据应用,只有几个互联网巨头取得成就呢?是因为它们拥有最多的用户、流量和数据吗?去年5月笔者曾撰文阐述百度、阿里和腾讯这三个互联网巨无霸开始挖掘大数据。一年过去,拥有海量数据的公司已在多个领域尝试对掌握的数据进行利用,大数据意识和能力进步飞快,体系和工具日趋成熟。大数据应用实践,硕果累累百度在大数据方面让人印象深刻的有百度迁徙这样的公益项目,应用在民生和新闻等领域。最...

2019-03-19 13:50:50 429

原创 大数据岗位最新面试题~3.18

随着互联网时代的不断发展,现在越来越多的人都选择从事IT行业,然而能够在这个行业十几年,中间只换过两三次公司,那也算是行业界的一股清流,然而现在的公司并没有那么好做,都想进入BATJ,但是发现自己硬是差了很多,就连普通的企业都困难,这是为什么呢?难就难在面试题!下面分享我一个朋友在面试大数据岗位的时候所做的面试题,可以先看看:JAVA相关 List与Set的区别? HashMa...

2019-03-18 16:32:09 1496

原创 用大数据算法得出当代移动互联网人群图鉴

《美国队长2》中,九头蛇利用算法推算出潜在威胁到自己的敌人。而在移动互联网时代背景下,大数据根据用户的过去行为来分析&预测用户偏好。在此种环境中被不断浸染的情况下,结合你对移动互联网人群兴趣变化特征的了解,能否一眼辨别他们在不同场景的身份呢?比如下面这些人,结合你的数据认知和人生经验能猜出正确答案吗?高能预警!题图中隐藏多个烟雾弹,请各位保持警惕!不要被糖衣炮弹迷惑!(部分场景纯属娱乐...

2019-03-13 16:11:44 324

原创 最新数据显示:2025年中国将拥有世界最大数据圈

国际数据公司(IDC)2月21日发布的报告预测,中国数据圈在2025年增至48.6ZB字节,占全球27.8%,成为最大数据圈。IDC昨天发布了《数字化世界—从边缘到核心》和《IDC:2025年中国将拥有全球最大的数据圈》两份白皮书。报告预计,中国的数据圈从2018年至2025年将以30%的年平均增长速度领先全球,比全球高出3%。此外,从2015年到2025年,中国数据圈以14倍的速度扩...

2019-02-23 11:12:44 1102

原创 分享几个大数据相关岗位的职责和面试问题

现在大数据行业如此火爆,国家和企业都需要发展大数据技术,但是人才高度稀缺,企业用人难!而大学生们有出现这样的问题:就业难。有的岗位可能面临着几百个人竞争的情况,今天小编带大家来看看大数据相关岗位的职责和面试问题有哪些489034603根据业务的不同,岗位职责大概分为:1、平台搭建类· 数据计算平台搭建,基础算法实现,当然,要求支持大样本量、高维度数据,所以可能还需要底层开发...

2019-02-23 10:51:22 762

原创 阿里正式向 Apache Flink 贡献 Blink 源码

 如同我们去年12月在 Flink Forward China 峰会所约,阿里巴巴内部 Flink 版本 Blink 将于 2019 年 1 月底正式开源。今天,我们终于等到了这一刻。阿里资深技术专家大沙,将为大家详细介绍本次开源的Blink主要功能和优化点,希望与业界同仁共同携手,推动Flink社区进一步发展。Blink on GitHubBlink简介Apache Fl...

2019-02-18 17:18:31 221

原创 程序员情人节送这些!

号外!号外!一年一度的情(虐)人(狗)节来了!但是该有的礼物,惊喜一件也不能少!脱单的程序员们,狗粮撒了一地!小姐姐从现场带来的报道,带回一地狗粮给吃瓜群众们品尝!程序员A君收到了女朋友送的机械键盘,看下图激动的,羡慕死单身汪了!都知道程序员有钱缺爱,所以他大笔一挥,送了一部最新版的手机!程序员B君,直接定做了一款巧克力键盘作为礼物送女盆友,难得直男癌圈里也有这么浪...

2019-02-14 17:05:14 1078

原创 掌握这些大数据知识,面试官再也不会怕了!

一、大数据是什么?大数据,big data,《大数据》一书对大数据这么定义,大数据是指不能用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。这句话至少传递两种信息:1、大数据是海量的数据2、大数据处理无捷径,对分析处理技术提出了更高的要求二、大数据的处理流程下图是数据处理流程:1、底层是数以千亿计的数据源,数据源可以是SCM(供应链数据),4PL(...

2019-01-18 16:51:18 229

原创 北上广深的程序员,房子在向你们招手了!

由于目前行业环境以及生存所迫,作为北上广深的程序员,不得不首先考虑两件事:“我真的决定扎根在这儿吗?”“我真的买得起这儿的房吗?”【房价,是爱恨情仇】北上广深,代表全国最in的高新技术和发展可能,其超高的商业资源集聚度、城市枢纽性、生活方式多样性等优势,都让程序员们难舍难离。程序员和北上广深的关系,说得有趣点,特别像恋爱,互相成全却又互相羁绊。互相成全,是因为我们彼此都需要...

2019-01-18 16:43:45 988

原创 如何应对互联网界的奇葩面试题!

前两天和朋友聊天,他跟我说了一段他们公司招聘的趣事一个名校本科刚毕业的妹纸面试他们公司的市场助理一职,面试过程一切顺利,到最后,面试官问了妹纸一个问题:交过男朋友吗?妹纸如实回答没有就这一句没有,就让她失去了对这一职位的竞争我问我朋友为什么,他说没交过男朋友,就证明了她在处理人际关系上不成熟,没经验,很有可能应付不了市场助理这一职位我听后豁然开朗,茅塞顿开,并朝他打了个嗝,...

2019-01-17 18:04:37 557

原创 面试了一个2年程序员,竟然只会curd,网友神回复!

要说现在热门的编程语言,大多数程序员都会说Java,Python,JS,PHP等,但Java应该是这其中应用最广泛的。但从各招聘信息上来看,Java程序员的薪资也是从最低4k月薪到高达百万年薪不等,从专业角度来说,架构师是薪资相对高的,实习生找开发岗现在也比较难了。 不过最近有个两年java开发经验的程序员,因为公司倒闭了所以重新找工作,面试官在网上吐槽他底子太差,只会curd,所以整个面...

2019-01-17 17:41:09 3114 1

原创 大数据2019年的三大趋势你看了吗?

今年数据分析的优先事项发生了变化。增长因素和业务优先级不断变化。不要眨眼,否则您可能会错过领先的组织正在进行的现代化分析和数据仓库环境。商业智能(BI)是由Dresner Advisory Services首席研究官Howard Dresner于1989年创造的一个总称,指的是最终用户访问和分析企业数据的能力。根据Dresner的说法,在2018年12月的网络研讨会上,2018年进行的新的初步...

2019-01-16 13:53:06 474

原创 属于程序员的等级,看看你是哪个级别?

①码奴    非自愿写代码,也不努力学习,需要主管监督鞭策才写,写又写不好,归根结底,对代码没有热情,若遇之,可劝其转行。②码徒    编码能力不足但自愿学习,可择良师教之,假以时日,小则胜任工作,大则前途无量。 ③码农    也叫码工,按规矩做事,拿一份粮出一分活,俗称打工心态,一般般过得去。④码匠    对编码有热情,有悟性,肯钻研,最终可精于一门技术。也就是开...

2019-01-15 15:26:45 508

原创 大数据之Spark教程

Apache Spark是一个集群计算设计的快速计算。它是建立在Hadoop MapReduce之上,它扩展了 MapReduce 模式,有效地使用更多类型的计算,其中包括交互式查询和流处理。这是一个简单的Spark教程,介绍了Spark核心编程的基础知识。 工业公司广泛的使用 Hadoop 来分析他们的数据集。其原因是,Hadoop框架是基于简单的编程模型(MapReduce),并且它使...

2019-01-15 15:18:22 455

原创 大数据之HBase教程

自1970年以来,关系数据库用于数据存储和维护有关问题的解决方案。大数据的出现后,好多公司实现处理大数据并从中受益,并开始选择像 Hadoop 的解决方案。Hadoop使用分布式文件系统,用于存储大数据,并使用MapReduce来处理。Hadoop擅长于存储各种格式的庞大的数据,任意的格式甚至非结构化的处理。Hadoop的限制Hadoop只能执行批量处理,并且只以顺序方式访问数据。这意...

2019-01-15 15:15:20 262

原创 大数据之Hadoop教程

Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。“90%的世界数据在过去的几年中产生”。由于新技术,设备和类似的社交网站通信装置的出现,人类产生的数据量每年都在迅速增长。美国从一开始的时候到2003年产生的数据量为5十亿千兆字节。如果以堆放的数据磁盘的形式,它可以...

2019-01-15 15:13:25 331

原创 大数据之Elasticsearch教程

Elasticsearch 是一个建立在全文搜索引擎 Apache Lucene(TM) 基础上的搜索引擎,可以说 Lucene 是当今最先进,最高效的全功能开源搜索引擎框架。Elasticsearch是基于Apache Lucene的搜索服务器。它由Shay Banon开发并于2010年发布。现在是由Elasticsearch BV负责维护。其最新版本是:5.2.0。Elasticsea...

2019-01-15 15:11:24 285

原创 大数据之Hive教程

Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。术语“大数据”是大型数据集,其中包括体积庞大,高速,以及各种由与日俱增的数据的集合。使用传统的数据管理系统,它是难以加工大型数据。因此,Apache软件基金会推出了一款名为Hadoop的...

2019-01-15 15:08:58 292

原创 nutch爬虫原来是这样操作的!

一、nutch简介nutch是大名鼎鼎的Doug Cutting发起的爬虫项目,nutch孵化了现在大数据处理框架Hadoop。在nutch V 0.8.0 版本之前,Hadoop是nutch的一部分,从nutch V0.8.0开始,HDFS和MapReduce从nutch中剥离出成为Hadoop。v0.8.0之后,nutch就完全构建在Hadoop的基础之上了。Nutch是一个开源的网络...

2019-01-15 15:03:29 9240

原创 这可能是现实版程序员!

我们是快乐的传递者,只为博君一笑,如果你笑了,还请收藏一下分享一下换换内容,希望大家喜欢,程序员好像天生就有着招黑体质,这次应该是我大程序员被黑的最惨的一次吧?好吧废话不多说了,我们开始今天的段子插播一条搞笑段子:甲:“找老婆只能找个相貌丑陋的了!”乙:“为什么?”甲:“因为丑的要的彩礼少!”乙:“不要只看眼前的利益,如果娶了个丑女,结婚后,拉双眼皮5000块,隆胸15万,垫鼻梁8万,...

2019-01-11 14:46:39 322

原创 同样是面试简历,为何你如此风骚!

简历是求职者投给HR看的第一印象,HR通过从简历的着重点,简洁明了的内容,来确定你是否合适这份工作!不过HR一天要面对许多简历投递,应接不暇,很多求职者就开始在简历上花点小功夫突出个性,希望能够吸引到HR的眼球。近日就有一程序员的简历被人贴到了网上。由于涉及到隐私只贴出了关键部分。具体如下图那么在分享文章前小编先分享一下,作为一名大数据开发的程序员,目前从事线上教育,为了完善自己教育梦,从...

2019-01-11 14:31:50 197

转载 2019年大数据发展趋势预测

来源:Datanami九十年前,法国诗人保罗瓦列里写道:“未来不再像过去那样。” 从00年代中期开始的大数据趋势也可以这么说。面对崭新的2019年,Datanami(提供研究和企业数据密集型计算的新闻和见解,涵盖大数据生态系统的新闻门户网站)从未停止脚步,他们已经从大数据,分析和IT领域行业预测者开始,让我们听听他们要说些什么?数据分析及解决方案投入增长服务公司Qubole的大数据...

2019-01-10 14:14:26 1362

原创 女程序员,说多了都是泪!

一个女程序员的心酸和无奈!说实话,真的累了。    拼命再拼命,努力再努力,和男人们一起摸爬滚打,熬夜加班到凌晨,身心疲惫。    偶尔被关心,也会装作坚强的一笑,连声说没事儿,程序界里无男女。    但是不管什么时候,都是为了能够有朝一日能够走向人生巅峰!    平日里看着这些软件,就连一个宫斗剧的时间都没有,听着朋友跟我说拿什么如懿传啊,甄嬛传啊,女人都为了一个男人在那打打杀...

2019-01-08 14:40:32 278

原创 Spark Streaming 技术看点!

需要关于Spark Streaming相关学习资料视频可以加QQ:1653978901 Spark Streaming 支持实时数据流的可扩展(Scalable)、高吞吐(high-throughput)、容错(fault-tolerant)的流处理(stream processing)。  架构图特性如下:•  可线性伸缩至超过数百个节点;•  实现亚秒级延迟...

2019-01-07 11:27:10 176

原创 深入理解Hadoop之HDFS架构

Hadoop分布式文件系统(HDFS)是一种分布式文件系统。它与现有的分布式文件系统有许多相似之处。但是,与其他分布式文件系统的差异是值得我们注意的:♦  HDFS具有高度容错能力,旨在部署在低成本硬件上。(高容错)♦  HDFS提供对数据的高吞吐量访问,适用于具有海量数据集的应用程序。(高吞吐量)♦  HDFS放宽了一些POSIX要求,以实现对文件系统数据的流式访问。(流式访问)...

2019-01-07 11:20:59 311

原创 Kafka 2.0 升级,看看携程怎么操作!

早在 2014 年,携程的一些业务部门开始引入 Kafka 作为业务日志的收集处理系统。2015 年,基于 Kafka 的高并发、大数据的特点,携程框架研发部在 Kafka 之上设计了 Hermes Kafka 消息系统,作为大规模的消息场景的统一的中间件。随着业务量的迅速增加,以及具体业务、系统运维上的一些误用,Kafka 现有系统变得不稳定,经历了多次 down 机,故障期间完全不可用,持续时...

2019-01-04 14:37:10 410

原创 如何避免HBase写入过快引起的各种问题

首先我们简单回顾下整个写入流程client api ==> RPC ==> server IPC ==> RPC queue ==> RPC handler ==> write WAL ==> write memstore ==> flush to filesystem整个写入流程从客户端调用API开始,数据会通过protobuf编码成一个请求,通过...

2019-01-04 14:21:04 295

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除