自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 资源 (1)
  • 收藏
  • 关注

原创 【机器学习-无监督模型部署】pyspark部署无监督模型

背景: 1、自己开发完高斯混合聚类模型,需要发布上线部署,进行线上应用。由于公司每天日活数据有1.8亿,使用单机版的模型预测不现实,一天根本跑不完;于是使用分布式计算框架spark来解决大数据量情况下模型线上预测的问题,使用pyspark来应用。为什么使用pyspark呐,不使用原生的spark(scala编写的应用程序)呐,由于开发模型时的特征工程阶段,有一些特征处理,另外需要高斯混合聚类模型转化为scala代码逻辑实现一遍,工程量有些大,无监督模型目前我司使用的并不多,没有花时间精力在如何将开..

2021-02-04 13:52:24 616

原创 Linux服务器安装anaconda|并配置jupyter禁止下载文件功能

一、Linux服务器安装anaconda1、下载anaconda 1.1 [服务器未联网方案]本地下载好,然后上传到服务器上。下载地址:https://repo.anaconda.com/archive/ 机器是64位的,选择******************x86_64;机器是32位的,选择******************x86 1.2 [服务器联网方案]直接在服务器上面使用wget命令进行下载 wgethttps...

2020-10-18 17:09:54 2948 6

原创 【评分尺度变换方法】评分卡评分尺度变换的两种方法

大家在市面上常见的信用分、欺诈分、营销分都是以如下方式展现的。如:1. 芝麻分的分值范围为350至950,分值越高代表信用越好,相应违约率相对较低,较高的芝麻分可以帮助用户获得更高效、更优质的服务(http://www.xin.xin/#/detail/1-2-0);2. 集奥的信用分范围为300至900,分数越高, 说明客户的信用风险越小;3. 百融的信用分范围为300至1000,分数越高, 说明客户的信用风险越小;4. 同盾智信分范围为300至900,分数越高, 说明客户的信用风险越小;

2020-07-12 22:31:03 4173

原创 【pandas】[9] pandas loc、iloc

创建一个dataframeimport numpy as npimport pandas as pd#创建一个Dataframedata=pd.DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('ABCD'))data一、loc的使用1、利用loc获取a行的数据data.loc['a'] #获取a行的数据2、利用loc获取所有行,A列的数据data.loc[:,'A'] #获

2020-07-05 22:22:58 342

原创 【pandas】[8] pandas逐行(iterrows())或逐列(iteritems())处理

1、构建dataframedf = pd.DataFrame([('E146', 100.92, '[-inf ~ -999998.0]'),('E138', 107.92, '[-999998.0 ~ 2]'),('E095', 116.92, '[1.5 ~ 3.5]')],columns = ['name', 'score', 'value'])Out[11]: name score value0 E146 100.92 [-inf ~ -999

2020-05-13 14:39:20 20311

原创 【mac 环境】邮箱密码修改后,foxmail无法正常接收邮件

原因:邮箱密码修改,max上的foxmail客户端无法正常收邮件,网页版的邮箱正常接收邮件问题情况:点击高级设置解决方法:1、登陆网页版邮箱》设置》POP3/SMTP/IMAP2、开启IMAP/SMTP服务3、通过短信验证,生成授权码4、然后回到foxmail,在密码处输入授权码即可至此,问题解决!!!...

2020-05-07 10:03:39 4712

原创 【pandas】[7] Series 判断每个元素是否为空

有时候需要对Series中的每个元素进行判断,然后做下一步逻辑处理1、Series是数值类型的时候;里面有空值(np.nan);value_counts()不会统计到空值。判断时需要使用np.isnan(x)ab = pd.Series([1, np.nan, 2])abOut[55]: 0 1.01 NaN2 2.0dtype: float64ab...

2020-04-21 11:03:52 9042

原创 【pandas】[6] DataFrame批量修改columns name

需求:使用pandas从hive读取数据后。每一列都会被添加上hive表名。example:hive_table_name.column_name。故此时需要将列名中的"hive_table_name."给去除掉两种方式:方式1:df.columns = [i.split('.', 1)[1] for i in df.columns]方式2:df.columns = ...

2020-04-07 14:55:03 2517

原创 【pandas】[5] DataFrame通过drop_duplicates()函数找出重复的行

1、构建测试数据import pandas as pddf = pd.DataFrame({'k1' : ['a1','a2','a1','b1','b2'], 'k2' : ['c1','d1','c1','c2','d2'], 'data' : [10,100,20,30,300]})print(df) k1 k2 data0 a1 c1 1...

2020-04-06 22:21:12 1026

原创 【pandas】[4] DataFrame实现sql中row_number() over(partition by column_1 order by column_2)

需求:pandas中能不能实现如sql中一样的分组排序取值1、构建测试数据import pandas as pddf = pd.DataFrame({'k1' : ['a1','a2','a1','b1','b2'], 'k2' : ['c1','d1','c1','c2','d2'], 'data' : [10,100,20,30,300]})print(df...

2020-04-06 22:08:28 2922

原创 【pandas】pandas 写入postgresql 比较快的方法

一种是导入sqlalchemy包,另一种是导入psycopg2包。具体用法如下(此处以postgre数据库举例)postgresql://用户名:密码@host:port/db_nameengine = create_engine("oracle://user:pwd@***:***/racdb", echo=False)# 初始化引擎engine = create_engine('...

2019-11-25 10:34:51 4705 3

原创 【环境】mac安装graphviz

1、安装graphvizbrew install graphviz2、测试使用graphviz文件保存为zhengruiping_test.dotdigraph pic { zhengruiping -> code}3、在zhengruiping_test.dot文件所在目录下,运行如下命令dot zhengruiping_test.dot -T ...

2019-11-25 10:21:35 414

原创 【机器学习-模型部署】将已被存储为.ml的模型文件,转化为pmml文件

需求:将已被存储为.ml的模型文件,转化为pmml文件#!/usr/bin/env python#! -*- coding: utf-8 -*-'''@File: create_pmml_file.py@Author: RyanZheng@Email: [email protected]@Created Time on: 2019-11-11'''####...

2019-11-18 18:07:25 1225

原创 【Python】python ftplib 解决无法上传下载中文文件及文件夹

在使用ftplib进行对ftp文件的操作过程中,出现无法上传下载中文文件及文件夹。经查看ftplib.py源码。发现如下:encoding默认为"latin-1"修改方式:方式一、可以直接修改ftplib.py这个源码。将第106行代码修改为encoding = "utf-8"方式二、在构建出来的ftp对象,重置一下encodingftp...

2019-11-18 17:38:16 1593

原创 【风控策略】通过查全率和查准率确定cutoff

相关指标构建如上。可以根据最后两列。来制定cutoff。原则:1、可以错杀好人,不容放过坏人的原则。就选择查全率高的分数区间2、不要错杀好人,容忍放过一些坏人的原则。就选择查准率高的分数区间tips:如上分数的切分是按10箱等距分箱划分的,如果想更细些,可以按20、30等距分箱划分...

2019-11-18 17:17:43 862 1

原创 【Python】window10 python rarfile

rarfile是第三方库。需要先安装rarfile该第三方库pip install rarfile使用rarfile解压相应的rar文件import rarfilepath = r'C:\Users\zhengruiping\py_operate_ftp\test_ftp_data\t'os.chdir(path)rf = rarfile.RarFile('201910...

2019-11-12 18:10:49 2731 1

原创 【Python】window10\Linux python unzip 中文乱码

在zip这个包中,对文件名的 encoding 用的不是 unicode,查看源码后,zipfile中根据文件 flag 检测的时候,只支持 cp437 和 utf-8。具体就是查找 zipfile.py 源代码找到下面的代码:第一处:if flags & 0x800: # UTF-8 file names extension filename = filenam...

2019-11-12 11:39:49 431

原创 【Python】window qt无法使用

缘由:去客户现场驻场建模。在window操作系统,python环境没有,也不能连外网解决方案:将公司内部的建模环境C:\ProgramData\Anaconda3。Anaconda3整个目录拷贝到客户的机器上面到客户的机器上面出现的问题:qt无法展现出来解决方案:将原来C:\ProgramData\Anaconda3目录下的qt这个包下面的4个dll文件所在...

2019-10-29 19:57:10 308 1

原创 【Python】window10 python connect hive

需要在window10下,使用python去连hive,获取在hive中的数据,然后训练模型,将模型训练好后,相关模型结果写回到hive进行持久化。目的是不让数据在本地建模环境有存储!!!环境:操作系统 window 10 python python 3.6.5 hive 1.2.1 python所需要的第三方依赖包名 版本 安装命...

2019-10-29 16:55:43 297

转载 详解Python的装饰器

Python中的装饰器是你进入Python大门的一道坎,不管你跨不跨过去它都在那里。为什么需要装饰器我们假设你的程序实现了say_hello()和say_goodbye()两个函数。def say_hello(): print "hello!" def say_goodbye(): print "hello!" # bug hereif __name_...

2018-12-01 15:51:19 97

原创 python 可变参数

 定义函数时,有时候我们不确定调用的时候会传递多少个参数(不传参也可以)。此时,可用包裹(packing)位置参数(*args),或者包裹关键字参数(**kwargs),来进行参数传递,会显得非常方便。 1、包裹位置传递def func(*args): ....# func()# func(a)# func(a, b, c)>>> def ...

2018-12-01 15:31:07 2182

转载 机器学习中的标准化/归一化

数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在一些数据比较和评价中常用到。典型的有归一化法,还有比如极值法、标准差法。归一化方法的主要有两种形式:一种是把数变为(0,1)之间的小数,一种是把有量纲表达式变为无量纲表达式。在数字信号处理中是简化计算的有效方式。归一化处理的好处:1 加快梯度下降的求解速度,即提升模型的收敛速度两个特征区间相差非常...

2018-11-27 09:17:43 245

转载 离散型特征编码方式:one-hot与哑变量

在机器学习问题中,我们通过训练数据集学习得到的其实就是一组模型的参数,然后通过学习得到的参数确定模型的表示,最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中,我们会对训练数据集进行抽象、抽取大量特征,这些特征中有离散型特征也有连续型特征。若此时你使用的模型是简单模型(如LR),那么通常我们会对连续型特征进行离散化操作,然后再对离散的特征,进行one-hot编码或哑变量编码。这样的操...

2018-11-21 14:48:35 544

原创 【pandas】[3] DataFrame通过数据类型选择子数据框

DataFrame.select_dtypes(include=None, exclude=None)Return a subset of the DataFrame’s columns based on the column dtypes.Parameters: include, exclude : scalar or list-like A selecti...

2018-11-04 15:29:32 1369 1

转载 python 中字典{ }的嵌套

在机器学习中会用字典的嵌套来存储决策树的信息,对绘制树形图有很大的作用,其中嵌套字典的生成是一个递归的过程 如下所示:>>> s={'a':{0:'no',1:{'flippers':{0: 'no', 1: 'maybe'}}},'b':{}} # 构造字典>>> s['a'][0] # 取值'no'>>> s['a'][1...

2018-10-11 16:44:37 565

转载 评分卡模型中的IV和WOE详解

1.IV的用途  IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?挑...

2018-09-28 20:16:33 9086 3

原创 python 字典遍历

#一、遍历keytest = {'aa': '1a', 'bb': '2b', 'cc': '3c'}for key in test:    print 'key is : ',keykey is : aakey is : cckey is : bbfor key in test.keys():    print 'key is : ',keykey is : ...

2018-09-09 20:33:34 757

转载 Jupyter使用的教程

如何本地运行本教程安装Jupyter到本地,详见Jupyter Notebook 安装git后,执行git clone 到笔记本目录下,执行jupyter notebook菜单栏File Edit View Insert Cell Kernel HelpFileNew Notebook-->Python3打开一个新笔记Open...Make a C...

2018-09-07 08:24:52 4407

转载 hbase命令梳理

以下命令基于hbase版本:hbase(main):041:0> version1.2.0-cdh5.7.1, rUnknown, Wed Jun 1 16:30:06 PDT 2016 generalstatus: 查看hbase状态hbase(main):002:0> status1 active master, 1 backup masters, 4 ...

2018-09-06 11:19:51 238

转载 【pandas】[2] 移动窗口rolling的理解

概念:​​为了提升数据的准确性,将某个点的取值扩大到包含这个点的一段区间,用区间来进行判断,这个区间就是窗口。移动窗口就是窗口向一端滑行,默认是从右往左,每次滑行并不是区间整块的滑行,而是一个单位一个单位的滑行。给个例子好理解一点:import pandas as pds = [1,2,3,5,6,10,12,14,12,30]pd.Series(s).rolling(window=...

2018-09-02 21:00:22 2633

转载 【pandas】[1] DataFrame 数据合并,连接(merge,join,concat)

merge  通过键拼接列pandas提供了一个类似于关系数据库的连接(join)操作的方法<Strong>merage</Strong>,可以根据一个或多个键将不同DataFrame中的行连接起来语法如下  merge(left, right, how='inner', on=None, left_on=None, right_on=None, ...

2018-08-31 08:41:39 307

转载 回归预测评估指标

  回归预测评估指标标注说明ff表示预测值,yy表示实际值评价指标MAE(Mean Absolute Error) 平均绝对误差  MSE(Mean Square Error) 平均平方差/均方误差是回归任务最常用的性能度量。  RMSE(Root Mean Square Error) 方均根差  缺点:因为它使用的是平均误差,而平均误差...

2018-08-24 14:19:34 462

转载 利用随机森林对特征重要性进行评估

前言随机森林是以决策树为基学习器的集成学习算法。随机森林非常简单,易于实现,计算开销也很小,更令人惊奇的是它在分类和回归上表现出了十分惊人的性能,因此,随机森林也被誉为“代表集成学习技术水平的方法”。 本文是对随机森林如何用在特征选择上做一个简单的介绍。随机森林(RF)简介只要了解决策树的算法,那么随机森林是相当容易理解的。随机森林的算法可以用如下几个步骤概括:用有抽样放回的方法...

2018-08-24 09:30:53 42636 2

转载 python nonzero函数

先构建一个简单的矩阵: from numpy import * a = mat([[1,1,0],[1,1,0],[1,0,3]]) print(a) 输出结果如下图:print(a.nonzero()) 第一个array表示非零元素所在的行,第二个array表示非零元素所在的列,分别取对应位置的值组成非零元素的坐标 print(len(a...

2018-08-01 10:52:35 2323 1

原创 矩阵的运算及其规则

一、矩阵的加法与减法   1、运算规则    设矩阵,,   则           简言之,两个矩阵相加减,即它们相同位置的元素相加减!   注意:只有对于两个行数、列数分别相等的矩阵(即同型矩阵),加减法运算才有意义,即加减运算是可行的.   2、 运算性质 (假设运算都是可行的)    满足交换律和结合律  交换律  ;   结合...

2018-07-30 09:10:48 8848

转载 Java的位运算符详解实例——与(&)、非(~)、或(|)、异或(^)

位运算符主要针对二进制,它包括了:“与”、“非”、“或”、“异或”。从表面上看似乎有点像逻辑运算符,但逻辑运算符是针对两个关系运算符来进行逻辑运算,而位运算符主要针对两个二进制数的位进行逻辑运算。下面详细介绍每个位运算符。 1.与运算符与运算符用符号“&”表示,其使用规律如下:两个操作数中位都为1,结果才为1,否则结果为0,例如下面的程序段。public class dat...

2018-07-24 20:51:41 119

转载 回归预测评估指标

   回归预测评估指标标注说明ff表示预测值,yy表示实际值评价指标MAE(Mean Absolute Error) 平均绝对误差  MAE=1n∑i=1n|fi−yi|MAE=1n∑i=1n|fi−yi| MSE(Mean Square Error) 平均平方差/均方误差是回归任务最常用的性能度量。  MSE=1n∑i=1n(fi−yi)2MSE=1n∑i=...

2018-07-21 11:57:37 1881

转载 二分类模型评价指标-KS值

knitr::opts_chunk$set(echo = TRUE,eval=FALSE)11. KS值1.1 概念  KS值越大,表示模型能够将正、负客户区分开的程度越大。   通常来讲,KS>0.2即表示模型有较好的预测准确性。  柯尔莫哥洛夫-斯米尔诺夫检验(Колмогоров-Смирнов检验)基于累计分布函数,用以检验两个经验分布是否不同或一个经验分布与另...

2018-07-21 11:45:10 3736

转载 分类模型种类(决策、排序)比较与模型评估体系(ROC/gini/KS/lift)

本笔记源于CDA-DSC课程,由常国珍老师主讲。该训练营第一期为风控主题,培训内容十分紧凑,非常好,推荐:CDA数据科学家训练营   —————————————————————————————————————————— 一、风控建模流程以及分类模型建设 1、建模流程 该图源自课程讲义。主要将建模过程分为了五类。数据准备、变量粗筛、变量清洗、变量细筛、建模...

2018-07-21 11:39:22 4734

转载 为什么数据要取对数

作者:姚岑卓链接:https://www.zhihu.com/question/22012482/answer/21315349来源:知乎著作权归作者所有,转载请联系作者获得授权。如需要收回,还请联系我,会将其删除,只保留导流的连接 对数据做一些变换的目的是它能够让它符合我们所做的假设,使我们能够在已有理论上对其分析。对数变换(log transformation)是特殊的一种数据...

2018-07-18 18:31:58 4454

jpmml-xgboost-executable-1.3-SNAPSHOT.jar

jpmml-xgboost-executable-1.3-SNAPSHOT.jar文件。用于将模型文件转为pmml文件

2019-11-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除