山谷來客-CSDN博客

原创 python高级技能

1、匿名函数:lambda¶In [1]:f=lambdax,y,z:x+y+zf(2,3,4)Out[1]:9In [2]:L=[lambda x:x**2, lambda x: x**3, lambda x:x**4]for f in L: print(f(2))4816In [3]:import sysshowal

2017-11-12 20:50:47 556

原创 Jupyter Notebook常用快捷键

Jupyter Notebook 有两种键盘输入模式：（1）编辑模式，允许你往单元中键入代码或文本（单元框线绿色）；（2）命令模式，键盘输入运行程序命令（单元框线灰色）0、打开方式（windows下）cmd -> 输入： Jupyter notebook 1、命令模式 (按键 Esc 开启)Enter : 转入编辑模式Shift-Enter : 运行本单元，选中下个

2017-11-10 17:13:46 1534

转载评分卡模型剖析（woe、IV、ROC、信息熵）

摘要：信用评分卡模型在国外是一种成熟的预测方法，尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用，其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。本文重点介绍模型变量WOE以及IV原理，为表述方便，本文将模型目标标量为1记为违约用户，对于目标变量为0记为正常用户；则WOE(weight of E信

2017-11-08 13:41:35 1297

转载 python基础学习1

博文1：python中的对象http://www.cnblogs.com/zhuweiblog/p/5169096.html在python中一切都是对象，每个对象都有三个属性分别是，（id）身份，就是在内存中的地址，类型（type），是int、字符、字典（dic）、列表（list）等，值，例如： a = 12 就是用12这个类型为整数的，值为12，在内存空间中创建了一个

2017-08-29 11:30:34 475

转载 python数据预处理（抽样、数据集转换）

博文：python大规模数据处理技巧之二：机器学习中常用操作（http://blog.csdn.net/asdfg4381/article/details/51725424）1、数据预处理随机化操作机器学习中的常用随机化操作中可以使用random包做不重复随机数生成，以此生成的随机数作为数据集下标去截取相应数据集。下面这句简单有效的代码可以帮助实现基本

2017-08-29 10:36:10 5088

转载 Python如何处理大数据（知识整理）

博文1：pandas.read_csv——分块读取大文件http://blog.csdn.net/zm714981790/article/details/51375475今天在读取一个超大csv文件的时候，遇到困难：首先使用office打不开然后在python中使用基本的pandas.read_csv打开文件时：MemoryError最后查阅read_csv文档发现可以

2017-08-29 10:18:08 39282 2

原创快速熟练使用numpy（学习笔记）

注：主要参考python科学计算（张若愚著）工作中，有些技巧时间稍长不用，便容易遗忘，根据自己工作常会需要的功能，特汇总如下技巧，以供后续参考。10分钟熟练使用numpy1、什么是numpy?numpy提供的两种基本对象ndarray(n-dimensional arrayobject)和ufunc(universal function object)。其中

2017-07-02 18:22:41 1917

原创 hive函数regexp_extract提取固定长度的数字信息（正则表达）

hive正则表达regexp_extract(string subject, string regex_pattern, string index)说明：抽取字符串subject中符合正则表达式regex_pattern的第index个部分的字符串举例：--取一个连续17位为数字的字符串，且两端为非数字select regexp_extract('1、非订单号(20位):0

2017-06-27 10:00:49 19351

原创使用awk命令获取命令或文本的行、列

1、打印命令的第1列： ll | awk '{print $1}'；打印文档的第1列： awk '{print $1}' filename2、打印命令的前2列： ll | awk '{print $1, $2}' 打印文档的前2列： awk '{print $1,$2}' filename3、打印完命令第一列，然后打印第2列：ll | awk '{print $1 $2}

2017-06-25 23:37:26 5102 2

原创机器学习工程实践方法论

Andrew Ng 斯坦福机器学习公开课听课笔记11节Key ideas:1. Diagnostics for debugging learningalgorthms2. Error analyses and ablative analysis3 . How to get started on a machinelearning problem- p

2017-06-18 23:45:15 503

转载深入FFM原理与实践

转载自：美团点评技术团队 http://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.htmlFM和FFM模型是最近几年提出的模型，凭借其在数据量比较大并且特征稀疏的情况下，仍然能够得到优秀的性能和效果的特性，屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团点评技术团队在搭建DSP的过程中，探

2017-06-09 10:09:43 410

转载机器学习算法线上部署方法

本文由携程技术中心投递，ID：ctriptech。作者：潘鹏举，携程酒店研发BI经理，负责酒店服务相关的业务建模工作，主要研究方向是用机器学习实现业务流程自动化、系统智能化、效率最优化，专注于算法实践和应用。我们经常会碰到一个问题：用了复杂的GBDT或者xgboost大大提升了模型效果，可是在上线的时候又犯难了，工程师说这个模型太复杂了，我没法上线，满足不了工程的要求，你帮我转

2017-06-03 08:03:54 2580

原创将python或R生成的模型存为PMML供java调用

查看jpmml的说明文档：https://github.com/jpmml/jpmml-evaluator其它参考资料1、XGBoost模型文件转化为PMML2、JPMML Example Random Forest3、机器学习算法线上部署方法4、Java Code Examples for org.jpmml.manager.PMMLManager相关

2017-05-27 10:33:25 14266 6

原创 shell常用技巧汇总

1、 shell如何判断某个文件路径是否存在[XX]$ t=`hadoop fs -test -dhdfs://ns/user/hive/warehouse/database_name.db/hotelrankings_final_train/d='2017-05-25';echo$?`[XX]$ echo $t0[XX]$ t=` hadoop fs -test -dhdfs:

2017-05-25 11:33:32 384

原创获取hive表最新分区（准实时算法）

在对时间要求比较高的流程中，往往会希望获取最新的分区数据。如果采用 select max(分区) as p from table_name; 获取分区，如果表很大时，时间代价很大；另外，如果直接从分区路径判断，虽然速度也会很快，当hive如何数据正在插入更新时被判断，极有可能会出现job还在进行，而判断已经结束，导致错误。有一个可行的策略，对上一个任务做依赖调度，并且采用show

2017-05-22 15:20:48 6953

转载 LambdaMART简介:lambda计算及Regression Tree训练

part1: lambda计算（来源：http://www.mamicode.com/info-detail-149823.html）学习Machine Learning，阅读文献，看各种数学公式的推导，其实是一件很枯燥的事情。有的时候即使理解了数学推导过程，也仍然会一知半解，离自己写程序实现，似乎还有一道鸿沟。所幸的是，现在很多主流的Machine Learning方法，网上都有open

2017-04-25 15:16:24 9928 1

转载用XGBoost做时间序列预测—forecastxgb包

文章来源：https://zhuanlan.zhihu.com/p/24236567注：复制的文档中，图片没能复制过来，如需了解详情，请看原文。作为forecast包与xgboost包的重度依赖者，最近看到整合两家之长的forecastxgb包甚是兴奋，便忍不住翻译forecastxgb包的一些时间序列预测例子与大家交流。一．安装目前forecastxgb包还在

2017-04-23 23:48:48 17606

原创 Windows下单机安装scala-Spark开发环境

part1：版本信息（1）系统：Win7或Win10（2）jdk版本版本：1.7.0_60（3）spark版本 spark-1.6.1-bin-hadoop2.6.tgzhttp://apache.fayea.com/http://apache.fayea.com/spark/spark-1.6.1/（4）hadoop版本hadoop-2.6.0.tar.g

2017-04-23 23:26:25 3118

原创 scala生成jar包步骤

scala生成jar包步骤：注1：要编译通过后，才能生成jar包；注2：如果用到了其它模块，如机器学习库、hive库等，要添加相应的jar包，完成编译，再生成jar包。 step1:step2:step3:step4:step5:step6:

2017-04-23 20:04:38 16074

原创在windows 10环境下安装xgboost

1、安装MinGW64MinGW64官网下载不稳定，总是失败。我采用其编译器集成包TDM-GCC-64。TDM-GCC-64下载地址：http://tdm-gcc.tdragon.net/。我选择的是：tdm64-gcc-5.1.0-2.exe，如果下载过慢，可以选择切换镜像：如东京。下载完后，再安装即可。或者，可以用其它集成环境，参考：https://www.zhihu.

2017-04-16 14:30:17 1820 1

转载 python sorted

转载：http://www.cnblogs.com/65702708/archive/2010/09/14/1826362.html我们需要对List进行排序，Python提供了两个方法对给定的List L进行排序，方法1.用List的成员函数sort进行排序方法2.用built-in函数sorted进行排序（从2.4开始）-------------------------

2017-02-28 07:19:42 389

原创工作中常用的R语言函数（持续更新中……）

1、日期数据生成seq(as.Date("2015/12/14"),by="week", length.out=62) #按周增长seq(as.Date("2015/12/14"),by="3 days", length.out=62) #按天增长 2、检查数据的函数> str(tsdata_tmp)'data.frame': 1116 obs.of 6

2017-02-15 11:04:23 2456

原创 python邮件自动发送

case 1：纯文本和HTML文件发送# -*- coding: UTF-8 -*-import smtplibimport tracebackfrom email.mime.text import MIMETextfrom email.mime.multipart import MIMEMultipartdef sendmail(subject,msg,toa

2017-01-08 11:48:28 3738 1

原创 Linux定时调用之crond

一、crond介绍crond是一个Linux下的定时执行工具，可以在无需人工干预的情况下运行作业。crond 是Linux的内置服务，但它不自动起来，可以用以下的方法启动、关闭这个服务：/bin/systemctl status crond.service //查看服务当前状态/bin/systemctl start crond.service//启动服务/bin/system

2016-12-31 14:49:57 515

原创 win10上Anaconda 多版本共存与tensorflow安装

当前环境：win10, Anaconda2,Python2.7目标：在不影响当前软件环境下，安装tensorflow 目前TensorFlow在Windows下只支持Python 3.5版本，而我系统上只装有python2.7。而安装tensorflow需要python的依赖包，所以我选择安装Anaconda 3的版本，省去安装其它包的麻烦。由于平时很多工作还是要用到python2.7

2016-12-23 13:48:35 11125 2

原创在Excel中使用SQL语句实现数据处理

Step1:给表定义名称步骤如下：选中表格区域--右键—定义名称……-- 分别给定名称：Table_a、Table_b，如下：Table_a编号姓名武力值1素还真902一页书983叶小钗884

2016-12-16 18:14:45 18136

原创 Excel工作中容易被忽略的实用技巧

1、在excel查看数据时，如何高亮显示查找的数据?（1）EXCEL中查找的话，不能高亮显示。只有WORD中有。（2）如果是单独数值，而不是公式的话，可以用替换的方式--设定格式。如：查找“中国”，可以将“中国”替换为”中国”（设定格式，即颜色）2、如何禁用word的自动编号功能？以win7为例：文件->选项->校对->自动更正选项->键入时自动套用格式->清除勾选项

2016-12-16 15:00:59 516

转载机器学习中的数学(4)-线性判别分析（LDA）, 主成分分析(PCA)

2016-12-14 23:24:50 345

转载机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用

2016-12-14 23:20:46 792

原创 Vim常用操作

1、开始一个新行"o"命令在光标下方建立一个新的空行，并把vim切换到插入模式。"O"命令（大写）在光标上方打开一个新行. 2、指定计数在命令前加一个数字 3、退出"ZZ":保存文件并退出；":q!":放弃修改并退出；":e!":放弃修改并重新编辑，重新装载原来的文件 4、获得特定主题的帮助:help {主题} 5、词移动

2016-12-05 19:28:30 341

原创基于Python的Xgboost模型实现

# -*- coding: utf-8 -*-"""Created on Mon Nov 28 13:22:08 2016@author: ym"""## part1: 模型训练import pandas as pdimport numpy as npimport osfrom datetime import datetimeimport x

2016-12-01 09:43:22 9851

原创 scala-spark版本xgboost包使用

// XGBOOST测试//调用形式// /opt/app/spark-1.6.1/bin/spark-shell --master yarn-client --conf spark.executor.extraJavaOptions='-XX:PermSize=1024M' --driver-memory 6g --num-executors 80 //(续上) --e

2016-12-01 09:37:42 14353 5

原创 pandas方法to_csv生成的数据导入hive方法汇总

step0:建表语句(hive脚本)USE databasename;CREATE TABLE OrderQuantity_Forecast_Table( masterhotel int COMMENT '酒店ID', orderdate string COMMENT '订单日期', city int COMMENT '城市ID', y_

2016-11-30 13:49:21 4879

原创 Scala DataFrame生成技巧

case1:List()到DataFrame()的简单转化//step1:我们首先创建一个case classcase class resultset(masterhotel:Int,quantity:Double,date:String,rank:Int,frcst_cii:Double,hotelid:Int)//step2//初始化resu

2016-11-24 00:07:52 14046 1

原创 hive自定义函数的python实现

案例1文件1：test.py# -*- coding: utf-8 -*-import sysfor line in sys.stdin: print line.strip('\n')文件2： input.loghello, world!python udf这是一个测试文件sys.stdin如何使用执行结果：[h

2016-11-21 16:51:46 5350

原创 Hive技能

一、动态分区举例：set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nostrick;set hive.exec.max.dynamic.partitions.pernode=1000;set hive.exec.max.created.files=100000000;set

2016-11-17 14:52:07 613

转载 XGBoost参数调优完全指南（附Python代码）

译注：文内提供的代码和运行结果有一定差异，可以从这里下载完整代码对照参考。另外，我自己跟着教程做的时候，发现我的库无法解析字符串类型的特征，所以只用其中一部分特征做的，具体数值跟文章中不一样，反而可以帮助理解文章。所以大家其实也可以小小修改一下代码，不一定要完全跟着教程做~ ^0^需要提前安装好的库：numpy,matplotlib,pandas,xgboost,scikit-learn

2016-11-05 15:57:54 1997 1

原创 Hive表txt文件导入

---- 建表格式USE dw_htlbizdb;CREATE TABLE CiiFcst_hotel_forecast_result_type_test(masterhotel int COMMENT '酒店ID',ciiquantity double COMMENT '间夜量')comment '测试表'PARTITIONED BY(d STRING COMMEN

2016-10-26 18:40:14 8567

原创 python爬虫：编写多进程爬虫学习笔记

# -*- coding: utf-8 -*-"""Created on Sat Oct 22 21:01:23 2016@author: hhxsym"""import requestsimport jsonimport osimport pymongoimport timefrom bs4 import BeautifulSoupfrom multiprocessin

2016-10-25 00:04:02 1932 2

原创 Hive实现大数据集有放回抽样（方法一）

------ 特点：效率高------ table(1) 数据全集use dw_htlbizdb;drop table if exists dw_htlbizdb.Tmp_CiiFcst_hotel_Cii_up_sample_1020;create table dw_htlbizdb.Tmp_CiiFcst_hotel_Cii_up_sample_1020

2016-10-24 09:15:32 1915

spark版本xgboost的jar包

统计建模与R软件

空空如也