自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 收藏
  • 关注

转载 程序猿工作第3年是个坎,你认吗?转型大数据可靠吗?

工作三年无论是对于哪个行业,都将是一个“坎儿”。这个坎儿对于程序员而言体现的尤为明显。每个人刚刚入行的时候都朝气蓬勃,希望自己成为大咖,成为高薪的获得者,但有时候现实却很残酷。那么,对于这群迷茫中的程序员,转型大数据能否缔造一个新的发展契机呢?程序猿工作三年,为何会遇到坎儿呢?为什么会有很多的程序猿选择转行呢?现实究竟为他们带来了怎样的影响呢?首先:第一年,梦想起航成为程序猿薪资水...

2019-05-28 21:59:43 1001

转载 大数据开发和大数据分析的区别?

大数据分析工程师和大数据开发工程师分别能做什么?有没有具体的项目案例之类通俗解释开发和分析非要把他俩分开的话,一个是偏向于数据,一个偏向于工程。好比要炒个菜,工程师是烧火、垫勺的那个,偏向于工具的使用。分析师是放调理、掌握火候的那个,偏向菜怎么做好吃。数据影响生活数据越来越多的影响并塑造着那些我们每天都要交互的系统。不管是你使用Siri,google搜索,还是浏览faceb...

2019-05-28 21:59:39 4317

原创 2019年大数据从入门到精通应该具备的知识体系

入门知识推荐书籍1、舍恩伯格的《大数据时代》;2、巴拉巴西的《爆发》;3、涂子沛的《大数据》;4、吴军《智能时代》;5、《大数据架构商业之路:从业务需求到技术方案》工具技能1、hadoop: 常用于离线的复杂的大数据处理2、Spark:常用于离线的快速的大数据处理3、Storm:常用于在线的实时的大数据处理4、HDFS:Hadoop分布式文件系统。H...

2019-05-28 21:59:35 704

转载 IT人学习大数据开发,35岁之后你将不再举步维艰

市场竞争越来越强烈,职场亦是如此。很多人都说IT行业是吃“年轻饭”的,其他行业其实也一样,尤其是当你到了35岁之后,如果此时你还未找到自己的价值所在,那么你的生活注定会举步维艰。现如今有很多马上进入而立之年的IT人开始学习大数据开发,目的就是让自己的未来的生活更轻松。IT行业的薪资水平,福利待遇,在最近的十几年内一直都处于行业的榜首。但是,就java领域而言,如今从业者的压力越来越大,无论...

2019-05-28 21:59:33 3065

转载 大数据下的中国女人,看完惊呆了

愿你在疲惫的生活中,被岁月温柔相待,一生努力一生被爱,能哭能笑能尽欢。女王节快乐!一个中国女人,不但需要做好员工、好妻子、好妈妈、好儿媳,好女儿;更可能需要做一个好厨师、好司机、好财务、好保姆、好采购、好心理咨询师、好按摩师、好垃圾桶。曾经有一种品质叫“中国制造”,而现在有一种新的精神,叫“中国女人”。01之前,美国国家统计局对各国劳动人口的总数和人口参与劳动的比率发表了一组...

2019-05-28 11:29:45 536 1

转载 从底层到应用,那些数据人的必备技能

前言谨以此文献给对数据有热情,想长期从事此行业的年轻人,希望对你们有所启发,并快速调整思路和方向,让自己的职业生涯有更好的发展。根据数据应用的不同阶段,我将从数据底层到最后应用,来谈谈那些数据人的必备技能。1、大数据平台目前很火,数据源头,各种炫酷新技术,搭建Hadoop、Hive、Spark、Kylin、Druid、Beam~,前提是你要懂Java,很多平台都是用Java开发的。...

2019-05-28 11:29:42 285

转载 2019学习Python的10个原因

如果你经常关注我,那你可能想知道为什么我要写一篇文章来告诉你们学习Python?但是几年前我曾向你们说过Java比Python更具有优势,哦,这就尴尬了,但确实,这几年情况有所改变,在2016年,Python取代Java成为大学最流行的语言,而且它的发展趋势逐渐飙升,从未回首。Python正在逐渐成长起来。如果你阅读了编程和技术新闻或博客文章,那么你可能已经注意到了Python的兴起,因为许多...

2019-05-28 11:29:40 169

转载 大数据工作中的工具都有哪些?

就目前而言,大数据越来越受到大家的重视,大数据也逐渐成为各个行业研究的重点,我们在进行使用大数据的时候,需要去了解大数据中所用到的工具,如果我们了解了大数据工具,我们才能够更好的去使用大数据。在这篇文章中我们就给大家介绍一下关于大数据中的工具,希望能够帮助到大家。【大数据开发学习资料领取方式】:加入大数据技术学习交流群522189307,点击加入群聊,私信管理员即可免费领取1.数据...

2019-05-27 21:59:39 894

转载 大数据技术:Spark SQL 知识学习!

一、什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。从下图可以查看RDD、DataFrames与DataSet的关系。image二、为什么要学习Spark SQL?我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集...

2019-05-27 21:59:37 563

转载 大数据开发技术在未来的市场价值到底有多大

大数据时代的全面铺展,大数据应用的全面展开,数据分析师、数据挖掘师、数据科学家、首席数据分析师等专业性极高的岗位的刚性需求越来越大,数据分析师的待遇也只会越来越好,数据分析师的发展前景也只会越来越光明。这大数据应用这一块的未来发展趋势大好的情况下,我们要做的是什么?当然是不断提高自己的数据分析方面的专业知识和职业素养,让自己的数据分析岗位或数据分析职称更上一层楼,我们的工作待遇自然也会蹭蹭往上...

2019-05-27 21:59:34 641

原创 Python也可以完成的数据清洗工作,你知道吗?

干净整洁的数据是后续进行研究和分析的基础。数据科学家们会花费大量的时间来清理数据集,毫不夸张地说,数据清洗会占据他们80%的工作时间,而真正用来分析数据的时间只占到20%左右。所以,数据清洗到底是在清洗些什么?通常来说,你所获取到的原始数据不能直接用来分析,因为它们会有各种各样的问题,如包含无效信息,列名不规范、格式不一致,存在重复值,缺失值,异常值等.....如果你...

2019-05-27 11:29:56 928

原创 零基础如何学习大数据技术?该怎么入门?

随着大数据在国内的发展,大数据相关人才出现了供不应求的状况,大数据分析师更是被媒体称为“未来发展前景良好的职业之一”。大数据分析师的薪酬比同等级职位高20%。而如何成为大数据时代的弄潮儿,掌握当下紧缺的软件技能是关键,那么,零基础该怎样学习大数据呢?大数据作为当下呼声特别高的IT技术,想学大数据的朋友已经从一个变成两个,从两个变成三个,但是计数单位,也是从个到百到千到万,接下来还可能更高。大数...

2019-05-27 11:29:43 629

原创 大数据学习笔记500条【第一弹】,记得收藏!

笔记汇总1. Zookeeper用于集群主备切换。2. YARN让集群具备更好的扩展性。3. Spark没有存储能力。4. Spark的Master负责集群的资源管理,Slave用于执行计算任务。5. Hadoop从2.x开始,把存储和计算分离开来,形成两个相对独立的子集群:HDFS和YARN,MapReduce依附于YARN来运行。6. YARN可以为符合YARN编程...

2019-05-25 21:59:51 697

原创 大数据学习笔记500条【第二弹】,记得收藏!

501. MapReduce计算框架中的输入和输出的基本数据结构是键-值对。502. Hadoop神奇的一部分在于sort和shuffle过程。503. Hive驱动计算的“语言”是一XML形式编码的。504. Hive通过和Jobtracker通信来初始化MapReduce任务(Job)。505. Metastore(元数据存储)是一个独立的关系型数据库。506. Pig...

2019-05-25 21:59:44 431

原创 大数据和人工智能有关系吗?

大数据拥抱云计算在PaaS层中一个复杂的通用应用就是大数据平台。大数据是如何一步一步融入云计算的呢?1数据不大也包含智慧一开始这个大数据并不大。原来才有多少数据?现在大家都去看电子书,上网看新闻了,在我们80后小时候,信息量没有那么大,也就看看书、看看报,一个星期的报纸加起来才有多少字?如果你不在一个大城市,一个普通的学校的图书馆加起来也没几个书架,是后来随着信息化的到来,信息才会越来...

2019-05-25 21:59:42 532

原创 一篇文章带你弄懂大数据!

一、大数据是什么?大数据,big data,《大数据》一书对大数据这么定义,大数据是指不能用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。这句话至少传递两种信息:1、大数据是海量的数据2、大数据处理无捷径,对分析处理技术提出了更高的要求二、大数据的处理流程下图是数据处理流程:1、底层是数以千亿计的数据源,数据源可以是SCM(供应链数据),4PL...

2019-05-25 17:39:44 169

原创 搞大数据必知的大数据处理框架技术

这5种必知的大数据处理框架技术,你的项目到底应该使用其中的哪几种?大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,...

2019-05-25 17:39:43 294

原创 大数据面临的几个重要技术问题,该怎样解决

当今,大数据的到来,已经成为现实生活中无法逃避的挑战。每当我们要做出决策的时候,大数据就无处不在。大数据术语广泛地出现也使得人们渐渐明白了它的重要性。大数据渐渐向人们展现了它为学术、工业和政府带来的巨大机遇。与此同时,大数据也向参与的各方提出了巨大的挑战,首先是大数据技术面临的三个重要问题:一、如何利用信息技术等手段处理非结构化和半结构化数据大数据中,结构化数据只占 15%左右,其余的...

2019-05-25 17:39:41 2262

原创 大数据架构师必读:常见的Hadoop和Spark项目案例

如果您的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大数据技术相关的事情,但它不需要很长的时间遇到相同的模式。具体的实施可能有所不同,但根据我的经验,它们是最常...

2019-05-25 17:39:39 229

原创 Hadoop的生命周期有多久?

Hadoop技术已经无处不在。不管是好是坏,Hadoop已经成为 大数据 的代名词。短短几年间,Hadoop从一种边缘技术成为事实上的标准。看来,不仅现在Hadoop是企业 大数据 的标准,而且在未来,它的地位似乎一时难以动摇。谷歌文件系统与MapReduce我们先来探讨一下Hadoop的灵魂——MapReduce。面对数据的爆炸性增长,谷歌的工程师Jeff Dean和SanjayGh...

2019-05-25 17:39:37 310

原创 大数据工程师常用的优化方法

优化人员工作时免不了要接触到大数据量的问题,下面就将平时收集的一些关于大数据量的优化方法整理记录一下,也是和大家一起共享。1. 应尽量避免在 where 子句中对字段进行null值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where numis null可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:se...

2019-05-25 15:30:03 262

原创 详解大数据清洗工具

在进行数据分析和可视化之前,经常需要先“清洗”数据。这意味着什么?可能有些词条列表里是“New York City”,而其他人写成“New York, NY”。然而,你在看到某些模式前得将各种各样的输入词汇标准化。又或者,出现一些数值输入错误,错别字什么的。有很多工具都可以实现你想要的功能,但大多都是付费的。对于专业人士来说,这些成本是值得的,但对于时不时才使用的业余人士来说,未免有些浪费。下...

2019-05-25 15:29:57 8819

原创 大数据技术怎么自学?大数据开发如何自学?

大数据技术怎么自学?大数据开发如何自学?我们在学习大数据开发前需要先找到适合自己的方式方法,首先需要审视一下自身的情况,是否是以兴趣为出发点,对大数据是不是自己是真的感兴趣吗,目前对大数据的了解有多少,自己的学习能力和理解能力是否适合学习。如果是跨行业转岗是否做好了心理准备。根据不同基础水平可以分为三类:第一类:零基础学员,对大数据行业和技术一无所知;第二类:有一定的编程基础,对大数据...

2019-05-24 21:59:53 797

原创 自学了java,想将来从事大数据工作,怎么学?

自学java,想将来从事大数据工作,怎么学?我是大一通信工程的一名学生,我们学习的是C,但我将来想从事大数据开发的工作,我想向各位大佬请教一下,像我这种情况,自学java然后去从事大数据工作是不是不太现实?如果做的话我该怎么制定学习路线呢?看到这个问题我就有点小激动,哈哈哈~~又是一个想来跳坑的兄弟,但是既然你有这个想法,做为一名长期在一线的JAVA+大数据应用开发老司机,我想结合我...

2019-05-24 21:59:49 830 1

原创 关于Kafka日志留存策略的讨论

  关于Kafka日志留存(log retention)策略的介绍,网上已有很多文章。不过目前其策略已然发生了一些变化,故本文针对较新版本的Kafka做一次统一的讨论。如果没有显式说明,本文一律以Kafka 1.0.0作为分析对象。  所谓日志留存策略,就是Kafka保存topic数据的规则,我将按照以下几个方面分别介绍留存策略:  留存策略类型  留存机制及其工作原理一、留存策略...

2019-05-24 21:59:47 436

原创 2019大数据入门到精通:资深程序员规划让你熟知学习路线

  简介  人类正在从IT时代走向DT(Data Technology)的时代。以互联网、云计算、大数据和人工智能为代表的技术革命正在渗透至各行各业,改变着我们的生活。  本文主要针对从事大数据开发的程序员们整理了整套的大数据学习相关的路线图和知识材料,希望能帮助到大家  大数据相关技术  · MapReduce  本来自于谷歌一款名为MapReduce的编程模型包,通过把...

2019-05-24 21:59:45 233

原创 这可能是全网“知识点最全”的Hadoop学习指南

对于Hadoop初学者,最好不要告诉他什么定义,什么框架云云,因为很容易当成负担,实际上它也只是个工具。搞清楚Hadoop帮助我们解决了什么问题?或者换个角度想,没有Hadoop,我们做同样一项工作会增加什么任务?想清楚了这些,你才可以心怀期待的去慢慢学习它。(当然,如果你已经知道了这些,请直接跳到第二趴)【大数据开发学习资料领取方式】:加入大数据技术学习交流群52218930...

2019-05-24 11:29:48 315

原创 影响大数据、机器学习和人工智能未来发展的8个因素

人工智能和机器学习以及不断增加的数据量正在改变当前的商业和社会格局。这些领域中出现了许多需要CIO注意的主题和问题。日前,O'Reilly 公司在伦敦Strata举办了一个为期数天的数据会议,与会者为此更好地了解大数据、机器学习(ML)和人工智能的发展方向。这些新兴技术在过去5年中发展迅速,而新技术、流程和应用程序改变了组织管理数据的方式。此次数据会议提供了一个很好的技术发展晴雨表,与会者...

2019-05-24 11:29:46 1179

原创 零基础大数据学习路线指南,做个不秃头的大数据工程师!

一,题记要说当下IT行业什么最火?ABC无出其右。所谓ABC者,AI + Big Data + Cloud也,即人工智能、大数据和云计算(云平台)。每个领域目前都有行业领袖在引领前行,今天我们来讨论下大数据Big Data这个方向。二,大数据里面的角色【大数据开发学习资料领取方式】:加入大数据技术学习交流群522189307,点击加入群聊,私信管理员即可免费领取角色一:大...

2019-05-24 11:29:44 317

原创 Python黑客入门:暴力破解zip,零基础也可以学会!

照顾没有接触过Python编程的同学,行文可能会有些啰嗦。废话少说,我们进入正题。2.1准备基本材料在/home/ziptest/目录下,我创建了两个文件,一个test.zip,是一个设置了密码的zip包,密码为456789。dict.txt文件是一个字典文件,简单的配置了几个密码。下面我们打开开发工具,开始编写测试代码。2.2 ZIPFILE在python中操作z...

2019-05-24 11:29:41 2247

原创 大数据之数据清理的终极指南

我花了几个月的时间分析来自传感器、调查及日志等相关数据。无论我用多少图表,设计多么复杂的算法,结果总是会与预期不同。更糟糕的是,当你向首席执行官展示你的新发现时,他/她总会发现缺陷,你的发现与他们的理解完全不符- 毕竟,他们是比你更了解领域的专家,而你只是数据工程师或开发人员。你为你的模型引入了大量脏数据,没有清理数据,你告诉你的公司用这些结果做事情,结果肯定是错的。数据不正确或不一致会导...

2019-05-23 21:59:45 3324

原创 Java转型大数据,想从事大数据相关工作,该怎么规划学习?

这是一位学习Java软件开发学员(在读本科生)的困惑と担忧,相信也是很多想深入学习大数据人员的疑虑。为此,整理多方学习策略,欢迎各位老铁有好的方法在下方留言,不吝赐教,共同学习。策略一想从事大数据、海量数据处理相关的工作,如何自学打基础?想做数据处理尤其是大数据量处理的相关工作必须兼具计算机科学基础和统计基础。现在有一个高大上的职业叫数据科学家,有人说数据科学家就是一个比...

2019-05-23 21:59:43 292

原创 强烈推荐:一文洞悉Python必备50种算法

本文是一些机器人算法(特别是自动导航算法)的Python代码合集。其主要特点有以下三点:选择了在实践中广泛应用的算法;依赖最少;容易阅读,容易理解每个算法的基本思想。希望阅读本文后能对你有所帮助。前排友情提示,文章较长,建议收藏后再看。在这里给大家推荐一个python系统学习q群:250933691有免费开发工具以及初学资料,(数据分析,爬虫,AI, 机器学习,神经网络)每天有老师...

2019-05-23 21:59:39 367

原创 本人的Python自学历程分享

学习Python的想法是挺早的事了,由于自己的时间安排不合理(就是拖延症)导致一直没有静下心来学习,不过好在目前已经实战项目了,也算小有成就,这里我就将我的学习历程发出来向大家分享一下我的历程。学习基础的不同基础不同是正常的,但是Python这门语言,可以说0基础可以上手。当然,如果你是有计算机基础、或者是程序语言基础的话,就更容易一些了。Python的设计哲学是“优雅”、“明确”...

2019-05-23 21:36:47 198

原创 Python爬虫 | 一条高效的学习路径

数据是创造和决策的原材料,高质量的数据都价值不菲。而利用爬虫,我们可以获取大量的价值数据,经分析可以发挥巨大的价值,比如:豆瓣、知乎:爬取优质答案,筛选出各话题下热门内容,探索用户的舆论导向。淘宝、京东:抓取商品、评论及销量数据,对各种商品及用户的消费场景进行分析。搜房、链家:抓取房产买卖及租售信息,分析房价变化趋势、做不同区域的房价分析。拉勾、智联:爬取各类职位信息,分析各行...

2019-05-23 11:29:36 346

原创 为什么Flink会成为下一代大数据处理框架的标准?

01什么是Flink?在当前数据量激增传统的时代,不同的业务场景都有大量的业务数据产生,对于这些不断产生的数据应该如何进行有效地处理,成为当下大多数公司所面临的问题。随着雅虎对Hadoop的开源,越来越多的大数据处理技术开始涌入人们的视线,例如目前比较流行大数据处理引擎Apache Spark,基本上已经取代了MapReduce成为当前大数据处理的标准。但随着数据的不断增长,新技术的...

2019-05-23 11:29:34 266

原创 高薪大数据开发工程师是怎样炼成的!!!

云栖大会有阿里巴巴集团主办的全球顶级科技大会,汇聚时代最强大脑,描绘新技术发展趋势和蓝图,展现云计算、大数据、人工智能等蓬勃发展的科技生态全景。2018阿里云栖大会,超过12万人参加这场顶级科技盛会 ,优秀的人都在拥抱这个世界最新的技术。国家推动大数据战略人工智能的发展让大家的生活变得更美好 。潭州教育历届在云栖大会上不负重任分享历史之最强干货,因为最棒的VIP同学就是我们前进的动...

2019-05-23 11:29:31 566

原创 白话 Python 的函数式编程

今天和大家聊聊 Python 的函数式编程特性。所谓函数式编程,就是指代码中每一块都是不可变的(immutable),都是由 pure function 的形式组成。这里的 pure function 是指函数本身相互独立,互不影响,对于相同的输入,总会有相同的输出。也就是我们常说的没有副作用。举个很简单的例子,比如,对于一个列表,我想让列表中的元素值都变为原来的两倍,我们可以写成下面的形式:...

2019-05-23 11:29:29 205

原创 [大数据之Spark]——快速入门

为了良好的阅读下面的文档,最好是结合实际的练习。首先需要下载spark,然后安装hdfs,可以下载任意版本的hdfs。Spark Shell 交互基本操作Spark Shell提供给用户一个简单的学习API的方式 以及 快速分析数据的工具。在shell中,既可以使用scala(运行在java虚拟机,因此可以使用java库)也可以使用python。可以在spark的bin目录下启动s...

2019-05-22 22:00:43 145

原创 大数据技术:7-Flink的分布式缓存

分布式缓存Flink提供了一个分布式缓存,类似于hadoop,可以使用户在并行函数中很方便的读取本地文件,并把它放在taskmanager节点中,防止task重复拉取。此缓存的工作机制如下:程序注册一个文件或者目录(本地或者远程文件系统,例如hdfs或者s3),通过ExecutionEnvironment注册缓存文件并为它起一个名称。当程序执行,Flink自动将文件或者目录复制到所有tas...

2019-05-22 22:00:42 233

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除