自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (2)
  • 收藏
  • 关注

原创 【解答】sql和其他语言的思考方式

上次的题目(https://blog.csdn.net/zzzqqq111222/article/details/88081647) 大家都看了吗,感觉是不是贼简单,竟然做这种题,简直侮辱智商,不介意的话我来说下大家心里是不是这样解答的

2019-03-02 21:22:01 506

原创 从源码解密spark内存管理

内存不过是计算机分级存储系统中的靠近cpu的一个存储介质。spark运行起来内存里都存的啥? 如何管理里面所存的东西? spark用java和scala这样的jvm语言写的,没有像c语言那样显式申请释放内存,如何进行内存的管理的? 我们应该如何设置spark关于内存的参数?我们一起来解决这些问题一、内存模型远古大神曾告诉我们这个神秘公式:程序=算法+数据。1.1 什么是内存...

2019-01-27 18:00:48 480

原创 精通spark源码-rdd是如何运行的

一、spark执行过程的一个例子// rdd_people: id,年龄var rdd_people = sc.range(1, 100, 1).map(i=>(i, 20+i%80) )//rdd_score: id,成绩var rdd_score =sc.range(1, 100, 1).map(i=>(i ,i+2))//两个进行joinvar rdd_res ...

2019-01-21 13:21:13 385 1

原创 五分钟精通sparksql源码-加简历

# 序言- spark1.6之后引入DataSet,一种基于RDD的高级抽象,在RDD之上加入了scheme信息,给RDD的元素的每一列提供了名称和数据类型的标志。 - 同时DataSet还提供了更多的api,可以实现类似于sql的操作,而且在catalyst优化器的优化下我们的代码将更加高效。 - 其实sql最最厉害的就是将逻辑和物理执行分开,上层专注于让程序员更好的表达数据的处理逻辑,...

2018-12-14 13:39:45 4998 3

原创 三分钟分布式CAP理论就这么复杂

分布式系统架构理论,定义了三种指标,理论说我们最多只能满足两个。## 分布式系统首先我们这个理论所说的分布式系统,是指系统内会共享数据,互相有连接有交互,才能完成系统功能的的分布式系统。而这个理论的关注点是**数据**的读写。 ## 三种指标- Consistency 一致性:这里的一致性是针对于分布式读写的。对于一个分布式系统,当一条数据写成功,那么无论我怎么使用这个系统...

2018-12-14 13:34:02 6105

转载 文言文编程背后-语言的本质

一、文言文编程最近github上有个文言文编程火了,效果看起来还比较牛B,看起像是是文言文,读起来也能明白一定的意思。(可以留言给我索取官网体验)上图代码比较简单就是输出三遍hello world; 是不是读起来有文言文的样子也能大概明白其意思。 我们就来讨论下计算机语言的本质。二、计算机语言的进化之路计算机语言由低级到高级大概分三个类别:机器语言、汇编语言、高级语言...

2019-12-23 19:52:36 2226

原创 指标才是生产力

一、衡量得以感知人类聪明的地方在于我们的逻辑推演能力,我们通过观察世界,在大脑中抽象出问题相关的模型,推演出将会发生的事情,然后进行下一步的动作,而不用真的去经历。脑子是个好东西,但也无法精确的感知事物,比如我需要挑选合适的柜子放家里的某个角落,脑子难以办法判断面前大小不一的柜子哪个最合适。这时候我们简单的把柜子抽象成一个长方体,测量其长宽高,很快就能做出判断,高高兴兴的买回合适的柜子放置...

2019-11-09 17:01:15 306

原创 一文搞懂区块链基本原理

一、架构认识区块链,让我们从最开始的比特币开始。比特币本质上来讲,是一个全球统一的分布式账本,记录着所有的交易记录。只要根据你所有的交易记录,就能知道你现在有多少钱了。弄一个账本很简单,但是要让全世界都信任这个账本就很难了,我们来看看比特币是如何做到的。支撑比特币的技术从下到上大概可以分为三层: 第一层 p2p网络层。这一层主要解决的问题是,分布式的节点如何发...

2019-10-15 14:02:19 1153

原创 一文了解几十万年的科技史

最近读完了吴军的《全球科技通史》,写点读书笔记吧。一、远古科技人类发展到今天,也不过是物竞天择、适者生存的结果而已。大自然的算法就是广撒网重点捕捞,人类不过是当初无数个随机数中的一个而已。人类的初创期还是很艰难,要和其他生物竞争,甚至和其他也可以叫作人类的物种竞争,进步也主要靠基因变异。今天很多我们习以为常的想法或技能,在那时候也需要以万年为单位来习得,比如想到可以捡起石头砸开坚果这件...

2019-08-25 22:15:18 810 1

原创 我做大数据工作这三年

一、初来乍到三年前,一锅盖头小伙在女朋友的感召下,坐上了140.50块的绿皮火车花了30多个小时到了上海火车站。这是他20多年来第一次出省,然而等待他的是2个多小时的地铁,加半个小时的公交。但是有女朋友的陪伴,这都不是事儿。到上海前,在网上随手投了几个实习简历,收到了两个面试邀请。刚来第二天,就坐上早高峰的地铁9号线去面试了……幸好没被挤扁。面试过程就是自己叽里呱啦、意气风发地自我介...

2019-08-18 22:24:11 477

原创 一文了解分形几何的思想

一、如何测量一条曲线的长度1.1 一种曲线:它是由一条直线变成的,将直线均分成三份,中间的一份复制一份,抬起来连接到一起形成一个尖尖。这样我们就得到了四份直线,然后对每份直线又做同样的操作,不断循环下去,最后尖尖会越来越小,就会形成一条曲线。这种线你把局部放大,会发现和整体还有其他局部都是相似的形状。1.2 两点的长度那么问题来了怎么去测量线上两个点间的长度呢...

2019-07-13 22:04:31 452

原创 上帝有个梦想-主从结构

从前上帝有个梦想,为了完成它,就创造了人类并给了他们梦想。作为一个有梦想的程序你想用电脑实现创造新世界的梦想。零、主从结构上帝看在你是个程序员的分上给了你一些机器帮你完成梦想。0.1 你是个牛B的程序员你是个牛B的程序员你充分利用自己的大脑,把你的梦想细分成了很多很多小任务,每个机器都给它分配点任务,然后收集结果完成你的千年大计。这时你得知道所有机器得信息,和你分配的所有的任务状...

2019-06-05 13:33:36 348

原创 flink入门-流式计算概念

一、流式计算的世界观1.1 万物皆流只要时间不停万事万物都没有静止。我们所以为的静态,不过是流中的一个片段。意味着流的世界,不在乎所谓的状态,在乎的是变化,也就是事件的发生,通过事件来表示。1.2 升维批量的时代,我们只记录关键的信息,只在乎当前的状态,不会去记录状态是如何一步步变化至当前状态的,计算所面向的数据也是静态的,从一个态的数据变化到另一个静态的数据。流的时代我们在...

2019-04-14 21:22:11 781 2

原创 【题目】划分版图-有点难

春招的金三银四呀我们来做个有挑战性的题目吧一、题目内容背景:long time ago,大地上有一些城市和一些道路,城市之间能够互通的称为国家,不同的国家的城市之间是无法相通的。如图的例子所示就是两个国家:蓝国和红国:问题:现在我们拿到了一批数据,请从数据中判断有多少个国家,并且哪些城市是同为一个国家的.数据格式:数据的格式是以 [国家c,道路p] 这样的两个元素表示的,表示这个国...

2019-03-30 21:54:35 372

原创 spark核心构件之Dependency(依赖)

之前的文章说一个spark任务其实就是一系列rdd构成的有向无环图(dag),今天我们来看看,spark是如何表示rdd之间的依赖关系建立这个dag的。一、rdd如何构成dag上篇文章讲到了Partition和Partitioner知道了rdd是由一系列分区(partition)组成的,rdd之间的关系主要的其实就是分区之间的关系,也就是子rdd的某个分区数据需要依赖哪些rdd的哪些分区计...

2019-03-23 12:30:53 470

原创 【题目】sql和其他语言的思考方式

sql和其他的语言的思考方式是有很大的区别的。今天我们就出一道现实中遇到的题来看看到底有啥不同。一、背景&前提假设背景:有用户之间加好友的业务存在表user_friend中:user_id friend_uid 00001 00002 00002 00003 00002 00001 用户不能自己加自己也就是没有user_id==frien...

2019-03-02 21:20:04 324

原创 spark核心构件之partitioner

spark 核心思想之一就是数据分区,将数据分成很多个part,一个一个的进行处理这样的设置达到了以下的目的。1、实现分布式2、可以减少内存占用3、还能方便的做任务重跑4、而且将统一个key的数据聚集到一起,方便join、group等操作一、partitioner的定义1.1 partition首先我们来看下partition的定义//Partition.scalatr...

2019-02-01 17:01:36 343

原创 大数据学习指南

一、大数据的结构整个大数据体系发展了这么久,其实包含了太多太多的东西了。按照数据的流程大概分为以下几个大的部分  1、 数据通道传输数据用的,将不同数据源的数据导入数据中心,数据中心处理完了之后通过这个通道输出到其他的不同数据介质去给各产品业务进行使用。这部分的组件典型的Kafka、sqoop之类的,当然很多组件也可以做类似的事情。这其中也会有很多需要考虑的事情,比如数据抽取...

2019-01-27 17:59:16 414

原创 如何从数据的角度做一个招聘平台产品

一、招聘平台的价值首先一个招聘平台其实就是一个供需平台,HR提供需求说明(JD:职位描述)想要获取与之匹配的简历(CV),而应聘者手里握着简历想找一份匹配的JD来投递。所以招聘平台的价值其实就是做JD和CV两种元素的匹配,所以平台的目标就是要提升JD、CV的匹配量。二、如何提升匹配量提升匹配量可以从两个方面来考虑,首先是JD、CV的基数,然后是匹配率。2.1基数 招...

2018-12-14 13:35:29 385

原创 大数据基础概念

传统的大数据在大数据这个概念还没出来以前人们是怎么进行数据数据分析和计算的呢? 数据存储首先数据量都没有很大,不同的数据散布在不同数据库中。如果真的数据大的话就只能花最贵的钱买最好的机器最好的数据库或者多分几个库装。 数据分析人们还没有意识到数据可以做很多事情,所以数据的需求也比较少; 使用传统的数据库和单机程序来进行统计分析,就能满足大部分需求。如果公司比较注重数据的话,可能会弄一个数据中...

2018-10-20 16:54:24 445

原创 hadoop 入门级 实战

hadoop 实战 开头:本文介绍hadoop mapreduce开发的一般方法 默认你已经完美的装上了hadoop 并搭建好了开发环境一、简单的代码框架加载配置文件/**加载配置的类 采用单例模式*/import org.apache.hadoop.conf.Configuration;public class HadoopConfig { private

2015-05-15 16:46:04 728

原创 iOS 基于 HSB hsv 颜色模型的颜色选择器的实现

在色彩领域计算机

2014-09-18 13:57:08 1247

IOS HSB ColorPicker

请看我的博客 基于HSB 颜色空间 的颜色选择器控件

2014-09-18

ACM讲义 算法 刘汝佳 入门 到 精通

ACM讲义 刘汝佳 入门到精通 我看过最棒的讲义 各种例题 各种延时 是学习 算法的好讲义

2014-02-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除