自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(63)
  • 收藏
  • 关注

原创 MachineLearning:一、什么是机器学习

什么是机器学习......

2016-08-29 15:20:25 13815

原创 Deep Learning:一、认识DL

从科学、技术和人工智能诞生之初,科学家们就在设想:机器如何能够像人类一样聪明。很多的作家通过文学作品描述这个场景,比如星球大战等等。而机器学习与深度学习是最有希望突破的两个方向。本文中我将主要介绍深度学习的简史、代表性人物、应用领域和相关的资料总结。

2016-08-11 21:44:53 2592

原创 《深入理解Elasticsearch》问答式学习-基本认识

基本认识Elasticsearch:权威指南如何索引文档通过使用 index API ,文档可以被 索引 —— 存储和使文档可被搜索。 但是首先,我们要确定文档的位置。正如我们刚刚讨论的,一个文档的 _index 、 _type 和 _id 唯一标识一个文档。 我们可以提供自定义的 _id 值,或者让 index API 自动生成。使用自定义IDPUT /website/blog/123{ "title": "My first blog entry", "text": "Just tr

2020-08-24 21:53:07 229

原创 spark hive 任务优化浅谈

spark hive 任务优化浅谈数据倾斜数据倾斜的表现问题查找问题解决拆数据合数据预计算其他零零散散的任务优化技巧在日常的etl开发的过程中,不管是使用spark,或者是hive来做开发,经常会遇见任务跑的特别慢,或者任务出现oom,或者数据量并不大,但是任务就是跑的特别慢等等情况。关于任务的优化,我将自己工作中用到的一些小的trick分享出来。数据倾斜数据倾斜是什么?数据倾斜是在计算数...

2020-01-19 23:21:09 378

原创 kafka权威指南-第六章可靠的数据传递问答式学习

1.kafka从哪些方面保障了构建可靠的应用程序?kafka保证分区消息的顺序只有当消息被写入分区的所有同步副本时(但不一定写入磁盘),才回被认为是已提交的。只要还有一个副本是活跃的,那么已经提交的消息就不会丢失消费者只能读取已经提交的消息。2.除了基本的保障机制,还有其他的保障吗?broker配置复制系数不完全的首领选举最少同步副本生产者发送确认...

2018-08-06 21:43:04 316

原创 kafka权威指南-第五章深入kafka问答式学习

1.kafka是如何维护集群成员关系?kafka使用走哦keeper来维护集群成员的消息,每一个broker都有一个唯一标识符,这个标识符可以在配置文件中指定,也可以自动生成。当broker启动的时候,他通过创建临时节点把自己的ID注册到走哦keeper中。kafka组件订阅走哦keeper的/brokers/ids的路径,当有broker加入集群或退出集群时,这些组件就可以获得通知。2....

2018-08-06 21:40:14 453

原创 kafka权威指南-第四章kafka消费者问答式学习

1.什么是消费者和消费者群组?消费者就是应用程序向kafka订阅主题,并从订阅的主题上接收消息的应用程序。kafka消费者群群组是一个群体里的消费者订阅的都是同一个主题,每个消费者接收主题一部分分区的信息。当生产者的写入速度大于目前群组的读出速度的时候,可以通过增加消费者群组里面的消费者数量来接收消息。 当消费者数量超过主题的分区数量的时候,有一部分消费者就会呗闲置。2.可以在消...

2018-08-06 21:37:52 412 1

原创 kafka权威指南-第三章生产者问答式学习

1.生产者是如何向kafka发送消息的? (1)创建ProducerRecoder对象,该对象包含目标主题和要发送的内容,还可以指定分区和键 (2)发送之前,生产者将键和值对象序列化字节数组 (3)数据被传送到分区器,如果指定了分区,则直接返回指定的分区。如果没有指定分区,分区器会根据ProducerRecoder对象的键来选择一个分区。 (4)选好分区之后,生产者就知道该往哪个主题和...

2018-08-06 21:36:15 375

原创 kafka权威指南-第一章问答式学习

最近要阅读kafka权威指南这本书,我决定换一种方法来阅读技术类书籍,通过提问的方法。问题列表如下 1.kafka是什么? kafka是一种分布式的,基于发布/订阅的消息系统。设计的初衷是处理持续数据流的组件,kafka将数据看成持续变化和不断增长的流,在kafka中可以发布和订阅消息流,并把它们保存起来,进行处理。kafka像一个消息系统,允许发布和订阅消息流。但是与传统的消息系统又有区...

2018-08-06 21:33:44 408

原创 hadoop fs -put 做增量上传

最近遇到一个case,对按照每个小时对数据从A地区的s3数据区搬运到B地区的集群上,整个流程如下:A地区Amazon S3数据区->B地区Amazon S3数据区->B地区服务器缓存区->B地区HDFS集群。由于A地区的公网连接不稳定,所以先同步到B地区的Amazon S3数据区在上传到HDFS中。 将B地区服务器缓存区的数据全部hadoop fs -put就可以了,当...

2018-07-16 12:00:18 11187

原创 Linux命令之crontab

什么是Crontablinux 系统则是由 cron (crond) 这个系统服务来控制的。Linux 系统上面原本就有非常多的计划性工作,因此这个系统服务是默认启动的。另 外, 由于使用者自己也可以设置计划任务,所以, Linux 系统也提供了使用者控制计划任务的命令 :crontab 命令。简而言之,crontab可以定时执行任务。在大数据的应用场景中,常常需要定时脚本,任务调度,完成...

2018-07-10 21:45:42 175

原创 git整理

查看、添加、提交、删除、找回,重置修改文件git help # 显示command的helpgit show # 显示某次提交的内容 git show $idgit co – # 抛弃工作区修改git co . # 抛弃工作区修改git add # 将工作文件修改提交到本地暂存区git add . # 将所有修改过的工作文件提交暂存区git rm # 从版本库中...

2018-06-22 11:35:02 243

转载 linux shell pushd popd dirs命令-转

转载自-https://www.cnblogs.com/davidwang456/p/3784102.html1、dirs1)功能 显示当前目录栈中的所有记录(不带参数的dirs命令显示当前目录栈中的记录)2)语法 (1)格式:dirs [-clpv] [+n] [-n] (2)选项 -c 删除目录栈中的所有记录 -l 以完整格式显示 -p 一个目...

2018-06-05 11:18:18 331

原创 spark使用工作使用过程中的部分错误,原因

java.net.ConnectException: Connection refused 这个问题的出现是由于集群的连接出错导致的。可能的原因集群安全验证没有通过。 这次我出现这个错误就是这个原因。公司的集群中使用kerberos协议身份验证,在使用之前一定要通过kinit。Kinit命令用于获取和缓存principal(当前主体)初始的票据授予票据(TGT),此票据用于Kerbero...

2018-05-31 17:53:26 379

原创 论文阅读-Re 3 : Real-Time Recurrent Regression Networks for Object Tracking

这一篇论文是关于视频的物体跟踪的论文,

2017-10-30 19:28:03 1274 2

原创 深度学习汇报系列:(三、四)概率与优化

课题组大家一起学习《深度学习》这本书,我做的ppt,分享出来。

2017-06-22 17:04:38 553

原创 深度学习汇报系列:(二)线性代数

课题组大家一起学习《深度学习》这本书,我做的ppt,分享出来。

2017-06-22 16:16:24 452

原创 深度汇报系列:(一)深度学习简介

课题组大家一起学习《深度学习》这本书,我做的ppt,分享出来。

2017-06-22 16:08:23 615

原创 《剑指offer》第三章高质量的代码笔记

面试官会根据应聘者写出的代码的规范性来决定是否录用他。 * 代码书写清楚。特别是白纸或白板上书写的时候,速度慢一点没事 * 规范代码布局清晰。缩进清晰 * 规范的代码命名合理。通常面试官会检查应聘者代码是否完成了基本功能、输入边界值是否能够得到正确的输出、是否对各种不合规范的非法输入做出合理的错误处理 从3方面确保代码的完整性 * 功能测试 * 边界测试 * 负面测试,这个指各种可能的

2017-06-21 20:57:01 277

原创 《剑指offer》第三章高质量的代码笔记

面试官会根据应聘者写出的代码的规范性来决定是否录用他。 * 代码书写清楚。特别是白纸或白板上书写的时候,速度慢一点没事 * 规范代码布局清晰。缩进清晰 * 规范的代码命名合理。通常面试官会检查应聘者代码是否完成了基本功能、输入边界值是否能够得到正确的输出、是否对各种不合规范的非法输入做出合理的错误处理 从3方面确保代码的完整性 * 功能测试 * 边界测试 * 负面测试,这个指各种可能的

2017-06-21 20:55:58 288

原创 “第一届腾讯高校算法大赛”初赛失败总结

经过一个月的无用功,竟然都没有走进复赛,失望的心情难以平复。在知道这个消息的时候立即写一篇失败总结,让自己获取一些经验。这篇总结我将按照《精进》这本书里面提到的几个方面进行总结:信息,预期,结果,进度,工具,情绪,阻碍,优势,缺憾,意义。赛题腾讯社交广告高校算法大赛是面向高校大学生的算法大赛,作为腾讯核心的广告业务单元,腾讯社交广告通过对海量社交数据进行深入分析,构建多样广告场景,与8亿用户连接对话

2017-06-07 15:37:23 6202 1

原创 排序算法系列:快速排序

快速排序

2017-03-18 12:23:31 459

原创 算法思想学习系列:分治法——求数列的逆序数

申明:全文参考巫泽俊《挑战程序设计》算法思想:分治法,通过将问题划分为规模更小的子问题,递归地解决划分后的子问题,再将结果合并从而高效地解决问题 座右铭:越努力越幸运

2017-03-17 11:20:42 1153

原创 二分查找c++代码

二分查找

2017-03-14 08:29:06 1536

转载 c++:String

c++ String类简介

2017-03-02 10:47:42 320

原创 c++: unordered_map

unordered_map是一个关联容器,存储key,value.其中元素并没有特别的次序关系

2017-03-02 10:44:36 1883

原创 MachineLearning:四、逻辑回归in python

前面讲了logistic的理论部分,这里我参照《机器学习实战》写了logistic的实现部分。如果对logistic不清楚,请看逻辑回归。我建立了一个逻辑回归的类,类中包含三个主要函数:fit:拟合模型.predict:进行预测score:求错误率

2016-08-29 15:41:38 706

原创 MachineLearning:三、聊聊逻辑回归

在Machine Learning中,逻辑斯蒂回归(Logistic Regression)是十分经典的方法,简称LR,虽然名字叫回归,但是这是线性分类模型而不是回归模型。这里面涉及到一些知识点,包括极大似然估计,损失函数,梯度下降,正则化等这篇文章的主要目的,就是通过理论与实践相结合的方式分享LR模型。

2016-08-29 15:25:54 1215

原创 DeepLearning:五、BP神经网络in python

下面这段代码来自IMPLEMENTING A NEURAL NETWORK FROM SCRATCH IN PYTHON – AN INTRODUCTION中的代码,将上一章节中的BP神经网络实现出来。代码并没有考虑效率,但是代码很容易理解整个BP过程,这里我将我的理解记录下来并分享出来,加深印象。

2016-08-29 14:56:51 3908

原创 DeepLearning:四、BP神经网络

前面简单的认识了一下神经网络,这里我要与大家分享的是神经网络中的大明星:BP算法。下面的内容主要是来自斯坦福大学的教程,这篇教程是我看过的所有BP相关教程中最好的,其中补充了一些内容。

2016-08-25 08:53:30 2523

原创 DeepLearning:三、神经网络

从科学、技术和人工智能诞生之初,科学家们就在设想:机器如何能够像人类一样聪明。很多的作家通过文学作品描述这个场景,比如星球大战等等。而机器学习与深度学习是最有希望突破的两个方向。

2016-08-13 16:10:14 1285

转载 常用的数据挖掘&机器学习知识(点)

看到了一遍对常用数据挖掘&机器学习知识点的文章,转载过来,并将布局重新整理了一下

2016-08-11 11:56:57 1001

原创 DeepLearning:二、t-SNE(Stochastic Neighbor Embedding )降维方法

t-distributed stochastic neighbor embedding(t-SNE)是一种机器学习中的降维方法,是由Laurens van der Maaten 和Geoffrey Hinton提出的。这是一种将高维数据降维到两维后者三维的非线性降维方法,并且可以通过点可视化出来。

2016-08-11 10:27:18 5639

原创 学习spark:五、Spark SQL, DataFrames and Datasets Guide

Spark SQL是一个用作结构数据处理的一个模块。不像Spark RDD中的API,Spark SQL提供给Spark更多关于数据和计算的信息。从内部来说,Spark SQL提取信息的接口经过额外的优化。有很多方法使用Spark SQL,包括SQL, DataFrames的API和Datasets的API。Spark SQL的计算引擎与语言或者API是独立开的。这种统一意味着开发人员可以很容易在不同的APIs之间来

2016-06-06 17:54:13 919

原创 Java基本数据结构总结

一直没有很仔细的系统学习Java,之前一直用的是python和c/c++,但是既然要走上大数据的道路,那么一定逃脱不开java的。下面在网上找到一些资料并结合相关的书进行整理总结。java.util包,包含集合框架、遗留的 collection 类、事件模型、日期和时间设施、国际化和各种实用工具类(字符串标记生成器、随机数生成器和位数组、日期Date类、堆栈Stack类、向量Vector类等)。集合

2016-06-06 13:17:14 5257 4

原创 看伟大的领袖如何激励行动有感

中午翻看TED网站的时候,发现一个排行——最受欢迎的TED视频。在里面看到(How great leaders inspire action),于是便点进去。这个视频本科的时候就看过,那时图样图森破,并不是很懂里面多的。随着见识的增加,再次回首这篇演讲,感触很深。

2016-05-26 12:52:54 2388

原创 游戏中的数据挖掘阅读文献小结

最近实习的公司是做游戏的大数据分析,前期的产品做得是游戏的舆情分析,网站是www.thinkinggame.cn ,有兴趣可与上去看一看。下一步的战略是挺进游戏内数据的分析,所以我在学习如何对游戏内的数据进行分析、建立模型。下面是我今天看的一些文章或帖子。

2016-05-25 20:19:08 4724

翻译 学习spark:五、spark编程指南

去年学习Spark了一段时间,今年捡回来,发现好多东西都已经忘记了。现在讲官方网站上的东西转诉过来,回顾并记录下来。从RDD、action、transformation到persist和共享变量,很多核心概念,翻译的过程中增加了影响,下次忘记了,再看看这篇文章。

2016-05-19 12:06:11 3569

翻译 时间序列完全教程(R)

在商业应用中,时间是最重要的因素,能够提升成功率。然而绝大多数公司很难跟上时间的脚步。但是随着技术的发展,出现了很多有效的方法,能够让我们预测未来。不要担心,本文并不会讨论时间机器,讨论的都是很实用的东西。

2016-03-22 17:43:46 97316 9

原创 收获与努力同行——2015年总结

在家度过了最寒冷的冬天,再次回到魔都。每次回家都是精神彻底的放松,不管在外面有着多么大的压力,只要回到家就不想思考,不想活动,不想论文、不想将来的工作。但是,就像太阳总是要出来一样,我也还是要回到学校中来了。学校里的梅花都盛开了,学生们都已经回到校园了,而我是时候为对去年做一个总结,对新年开启篇新的展望了。  去年一月份的时候,我想抽出时间来写一篇总结,记忆已经模糊,忘了是因为什么而忽略了

2016-02-29 20:22:03 1127

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除