自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

hczheng的专栏

Living your dream.

  • 博客(23)
  • 收藏
  • 关注

原创 XGBoost Plotting API以及GBDT组合特征实践

XGBoost Plotting API以及GBDT组合特征实践写在前面:最近在深入学习一些树模型相关知识点,打算整理一下。刚好昨晚看到余音大神在Github上分享了一波 MachineLearningTrick,赶紧上车学习一波!大神这波节奏分享了xgboost相关的干货,还有一些内容未分享….总之值得关注!我主要看了:Xgboost的叶子节点位置生成新特征封装的函数。之前就看过相关博文

2017-03-23 18:51:07 19639 13

原创 Scala学习笔记

Scala学习笔记写在前面:之前接触Spark还在研一的时候,看了原始论文+学习Scala+跑了简单demo,现在已经忘得差不多了,实验室没有什么应用场景就荒废掉了。过去大半年主要学习数据挖掘理论知识与实践比赛,对于大数据计算框架的学习搁置了,鉴于今年就要找工作了,决定重拾Hadoop、Spark等相关技术,并结合数据做些数据挖掘工作。Spark是基于Scala语言的,虽然也有Pyth...

2017-02-22 22:02:22 1380 1

原创 用户贷款风险预测之Top10初体验

用户贷款风险预测之Top10初体验写在前面:DataCastle智慧中国杯全国大数据创新应用大赛:本次参加的是三大赛题中的用户贷款风险预测(算法竞赛) 距离上次发博文又过去近两个月了,坚持写博客是件不容易的事,还得继续努力!中间过了个年,打了个比赛,时间过得真快,不过没有闲着,用寒假时间终于拿到比较满意的成绩。参加这个比赛是快放寒假的时候,想寒假找点事做做,当时就DC有三个比赛了吧,交通赛数据太大

2017-02-21 22:01:11 16324 20

原创 Docker on Windows初体验

Docker on Windows初体验写在前面:之前想在WIN 10 系统装TensoFlow,所以follow到了Docker这个黑科技,花了一天时间安装熟悉了一下。如果需要在多台机器需要部署环境用docker就可以事半功倍了,所以可以看到当前很多开源框架都有docker版本,安装配置一步到位。不过Docker还是linux环境,在windows下运行其实是在虚拟机上运行。本文是我用安装使用Do

2016-12-23 13:44:27 5621

原创 Win10 TensorFlow(gpu)安装详解

Win10 TensorFlow(gpu)安装详解:TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,其命名来源于本身的运行原理。Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,TensorFlow为张量从图象的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。

2016-12-14 22:34:00 189735 32

原创 “上帝的算法”——EM

“上帝的算法”——EM写在前面:最近看完了吴军的《数学之美》,大赞!相比《统计学习方法》、《机器学习》来说,《数学之美》没有那么多的公式理论,全是科普性质的(开拓眼界),其中也不乏一些数学原理的解释,通俗易懂。作为一名数据挖掘爱好者,我觉得这本书是非常值得一读的,可以了解过去机器学习在自然语言处理、搜索广告以及大数据相关领域的发展。书中有一章节,吴军博士命名为:上帝的算法——期望最大化算法,可见作者

2016-12-12 19:31:55 8630 5

原创 Coding_Algorithms(剑指Offer系列)

写在前面:2016.12.07开始刷题模式,掌握基础算法的同时学习巩固C++和Python编程基础,每道算法题我会尽量用两种语言去实现。目前是从剑指offer(牛客网)开始,欢迎同道中人共同学习,批评指正。本地测试代码和笔记会更新在我的github上Coding_Algorithms。ppi and ipp (自己琢磨的问题,还没搞明白,置顶)i++和++i的问题: i++和++i的问题,解释下

2016-12-07 22:14:17 1865

原创 GitHub Pages 快速搭建个人主页

GitHub Pages 快速搭建个人主页写在前面:明天就是妹子生日,虽然准备了礼物,但是作为一只程序猿,还是应该做点有创意的东西。毕竟去年还做了个视频(祝大黄的小黄大人生日快乐),今年要是不用点心有点说不过去哈。于是,最简单的么,做个网站咯,但是买云服务+本地建站还是效率不高呀。昨天知乎上搜了下看到说github page创建个人主页很方便,时间也不多了就赶紧试试了。网上一搜,教程还是很多的:

2016-12-06 21:44:00 2593 1

原创 2016Bytecup之菜鸟进阶

2016Bytecup之菜鸟进阶写在前面:好久没写文章了,最近两个月忙成狗,基本上都是白天实验室做项目,晚上抽时间打比赛、学习。今年上半年开始入门,然后断断续续参加了几个比赛,大多都是水过去了,感觉没学到东西。国庆回来后决定抽时间好好玩一个比赛,认真学习一下,当时看了bytecup还有天池的航空大数据比赛,看了赛题后决定主要精力做bytecup。主要考虑比较典型的监督学习问题可以更好学习特征工程、模

2016-11-28 21:15:45 3541 2

原创 随机森林(Random Forest)入门与实战

随机森林(Random Forest)入门与实战前言集成学习(ensemble learning)是通过构建并结合多个学习器来完成学习任务,主要包含两类,一是个体学习器间存在强依赖关系、必须串行生成的序列化方法,比如前几篇博文介绍[提升学习方法]、 (http://blog.csdn.net/sb19931201/article/details/52425487)、提升树GBDT 详解、xgboost等。

2016-09-20 22:11:23 15049 1

原创 xgboost入门与实战(实战调参篇)

xgboost入门与实战(实战调参篇)前言前面几篇博文都在学习原理知识,是时候上数据上模型跑一跑了。本文用的数据来自kaggle,相信搞机器学习的同学们都知道它,kaggle上有几个老题目一直开放,适合给新手练级,上面还有很多老司机的方案共享以及讨论,非常方便新手入门。这次用的数据是Classify handwritten digits using the famous MNIST data—手写数

2016-09-18 20:33:37 68404 17

原创 xgboost入门与实战(原理篇)

xgboost入门与实战(原理篇)前言: xgboost是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包,比常见的工具包快10倍以上。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面,xgboost的分布式版本有广泛的可移植性,支持在YARN, MPI, Sungrid En

2016-09-16 20:26:50 294939 26

原创 提升树GBDT详解

提升树GBDT 详解For Xgboost:在前几篇笔记中以及详细介绍了决策树及提升方法的相关原理知识,本文是提升树与梯度提升方法的学习笔记,同时阅读了网络上的一些关于GBDT的博文,加强理解。为了能好好理解Xgboost,一步步把决策树及提升学习方法相关的算法知识都梳理了一遍,感觉还是很有收获的,趁周末基本完看完了GBDT的内容,下一步就是鼎鼎大名的Xgboost了,迫不及待!

2016-09-11 20:25:34 25769 13

原创 华为codecraft算法大赛---寻路

华为codecraft算法大赛—寻路前言最近实验室的师兄师姐们在热火朝天的笔试(都说难难难),我也要了些题来感受了一下,已然被虐的体无完肤。选择题考的内容涉及范围广,算法编程题对于没有刷题经验的我来说就更是难上加难了。看来有必要在学习工作之余学习学习算法以及计算机基础知识了。翻了上半年参加华为codecraft算法大赛的代码,趁周末整理一下当时的思路以及回顾一下数据结构与算法。比赛前中期还保持不错的

2016-09-10 20:46:12 10176 3

原创 决策树学习笔记(二)

决策树学习笔记(二)接着上一篇接着上一篇笔记决策树学习笔记(一)继续学习,上一篇主要是对决策模型的初步认识和理解以及特征选择的一些规则;接下去就是决策树算法的具体实现和优化,包括决策树生成、剪枝以及分类与回归树(CART)详解。分类与回归树模型还会在后续的提升树学习中结合使用。

2016-09-09 23:37:24 7418

原创 决策树学习笔记(一)

决策树学习笔记(一)前言For GBDT:提升树、GBDT是以分类树或者回归树为基本分类器的提升方法,在看提升树算法的时候我发现对决策树学习的一些细节并不清晰了,于是决定从头再学一遍。之前的理解还是比较粗浅,一直以为决策树比较简单,类似于很多的简单规则一级一级拼凑起来,对决策树的条件概率表示、特征选择、决策树生成以及剪枝都没有真正的掌握。

2016-09-07 23:40:01 9249 3

原创 提升方法AdaBoost算法学习笔记

提升方法AdaBoost算法学习笔记For xgboost:为了好好学习xgboost,由于算法基础比较薄弱,曲线救国,从提升方法、提升树、GBDT一步步看起。手头有李航老师的《统计学习方法》以及周志华老师的西瓜书。对比来看,感觉李航老师的相对要好理解一些(步骤比较清晰,公式易懂,当然也有许多的不明白),周老师的西瓜书的算法介绍与公式推导更为直接(周老师喜欢用一些概率分布函数,公式抽象)

2016-09-03 21:19:23 8448 2

原创 天池新手平台赛ODPS入门代码

天池新手平台赛ODPS入门代码推荐比赛群:大数据比赛交流群 155167917思路总结:整理了一下天池入门平台赛ODPS的SQL代码,赛题是2015年的阿里移动推荐算法大赛,本文的代码是用了SQL,并没有涉及算法平台。主要思路是根据用户(12月18日)对商品的操作(查看,收藏,加入购物车,购买)统计进行判断。

2016-08-28 19:41:49 2584

原创 GPS坐标批量转换成百度地图坐标(SQL SERVER 2012+C#)

GPS坐标批量转换成百度地图坐标(SQL SERVER 2012+C#)写在前面T_T 最近项目的事忙的晕头转向,趁周末刷剧间隙整理一波笔记。。。 已经好长一段时间没有接触SQL语句和数据库连接了。昨天帮师兄处理公交SCD数据,又回顾了一下之前使用SQL SERVER 2012+C#做数据预处理,顺便整理了一下以前留下的笔记。基本的数据库操作1.查看数据库表数据SELECT TOP 1000

2016-08-28 14:32:36 3194

原创 win10(64位)python xgboost 详细安装教程

win10(64位)python xgboost 安装教程在看一些数据挖掘比赛的经验分享,看到很多都用到了xgboost并取得不错效果,于是down了大神们的解决方案,结合他们的代码学习数据挖掘比赛流程。在安装xgboost 的过程中,看网上各种教程走了很多弯路,在此分享下64位win10系统下安装python xgboost包的经验,希望能帮到和我一样的新手们少走弯路。

2016-08-18 00:10:55 20634 10

原创 python学习笔记二(pandas基础)

大写的吐槽:暑假提前结束,实验室项目越来越紧,略烦躁(不喜欢做的项目),没啥自由学习的时间了。只有抽些零散的时间去准备数据挖掘比赛相关的东西。最近关注的大神 wepon,bryan的博客,干货多多! PS: 实验室师兄们找工作也是压力山大,祝他们好运!今天继续pandas基础学习,参考资料还是来自以下网址,练习数据换成自己的,加深印象: http://www.open-open.com/lib

2016-08-16 23:33:20 21340 4

原创 python学习笔记一(pandas入门)

前言最近在CSDN、知乎上follow了一些大神,看了他们的一些博客、个人网站有很多有价值的分享,感觉时常做学习笔记是很好的学习习惯。反观自己,一直浑浑噩噩,知识结构琐碎,于是乎,装了markdown pad2(win10装了后不能实时渲染来着, 然后再装个awesomium_v1.6.6_sdk_win重启即可),立个flag:养成做学习笔记的习惯,希望不久后可以有所进步,分享有价值的东西。

2016-08-15 23:49:13 1727

原创 Hbase,Zookeeper完全分布式安装

前段时间安装配置了hadoop集群,这两天想装个hbase然后用些数据学习学习。网上教程有点多也有点乱,摸索了很久,所以还是记录一下自己的配置经验。过程中看了些博客感觉还是不错的,分享一下: 安装配置教程: http://www.linuxidc.com/Linux/2012-12/76947.htm http://blog.csdn.net/lskyne/article/details/89

2016-01-10 17:50:18 3098

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除