5 RyanZhengrp

尚未进行身份认证

暂无相关简介

等级
TA的排名 12w+

【pandas】pandas 写入postgresql 比较快的方法

一种是导入sqlalchemy包,另一种是导入psycopg2包。具体用法如下(此处以postgre数据库举例)postgresql://用户名:密码@host:port/db_nameengine = create_engine("oracle://user:pwd@***:***/racdb", echo=False)# 初始化引擎engine = create_engine('...

2019-11-25 10:34:51

【环境】mac安装graphviz

1、安装graphvizbrew install graphviz2、测试使用graphviz文件保存为zhengruiping_test.dotdigraph pic { zhengruiping -> code}3、在zhengruiping_test.dot文件所在目录下,运行如下命令dot zhengruiping_test.dot -T ...

2019-11-25 10:21:35

【机器学习-模型部署】将已被存储为.ml的模型文件,转化为pmml文件

需求:将已被存储为.ml的模型文件,转化为pmml文件#!/usr/bin/env python#! -*- coding: utf-8 -*-'''@File: create_pmml_file.py@Author: RyanZheng@Email: ryan.zhengrp@gmail.com@Created Time on: 2019-11-11'''####...

2019-11-18 17:56:44

【Python】python ftplib 解决无法上传下载中文文件及文件夹

在使用ftplib进行对ftp文件的操作过程中,出现无法上传下载中文文件及文件夹。经查看ftplib.py源码。发现如下:encoding默认为"latin-1"修改方式:方式一、可以直接修改ftplib.py这个源码。将第106行代码修改为encoding = "utf-8"方式二、在构建出来的ftp对象,重置一下encodingftp...

2019-11-18 17:30:41

【风控策略】通过查全率和查准率确定cutoff

相关指标构建如上。可以根据最后两列。来制定cutoff。原则:1、可以错杀好人,不容放过坏人的原则。就选择查全率高的分数区间2、不要错杀好人,容忍放过一些坏人的原则。就选择查准率高的分数区间tips:如上分数的切分是按10箱等距分箱划分的,如果想更细些,可以按20、30等距分箱划分...

2019-11-18 17:13:42

【Python】window10 python rarfile

rarfile是第三方库。需要先安装rarfile该第三方库pip install rarfile使用rarfile解压相应的rar文件import rarfilepath = r'C:\Users\zhengruiping\py_operate_ftp\test_ftp_data\t'os.chdir(path)rf = rarfile.RarFile('201910...

2019-11-12 18:00:36

【Python】window10\Linux python unzip 中文乱码

在zip这个包中,对文件名的 encoding 用的不是 unicode,查看源码后,zipfile中根据文件 flag 检测的时候,只支持 cp437 和 utf-8。具体就是查找 zipfile.py 源代码找到下面的代码:第一处:if flags & 0x800: # UTF-8 file names extension filename = filenam...

2019-11-11 14:18:33

【Python】window qt无法使用

缘由:去客户现场驻场建模。在window操作系统,python环境没有,也不能连外网解决方案:将公司内部的建模环境C:\ProgramData\Anaconda3。Anaconda3整个目录拷贝到客户的机器上面到客户的机器上面出现的问题:qt无法展现出来解决方案:将原来C:\ProgramData\Anaconda3目录下的qt这个包下面的4个dll文件所在...

2019-10-29 17:59:47

【Python】window10 python connect hive

需要在window10下,使用python去连hive,获取在hive中的数据,然后训练模型,将模型训练好后,相关模型结果写回到hive进行持久化。目的是不让数据在本地建模环境有存储!!!环境:操作系统 window 10 python python 3.6.5 hive 1.2.1 python所需要的第三方依赖包名 版本 安装命...

2019-10-29 14:06:47

详解Python的装饰器

Python中的装饰器是你进入Python大门的一道坎,不管你跨不跨过去它都在那里。为什么需要装饰器我们假设你的程序实现了say_hello()和say_goodbye()两个函数。def say_hello(): print "hello!" def say_goodbye(): print "hello!" # bug hereif __name_...

2018-12-01 15:51:19

python 可变参数

 定义函数时,有时候我们不确定调用的时候会传递多少个参数(不传参也可以)。此时,可用包裹(packing)位置参数(*args),或者包裹关键字参数(**kwargs),来进行参数传递,会显得非常方便。 1、包裹位置传递def func(*args): ....# func()# func(a)# func(a, b, c)>>> def ...

2018-12-01 15:31:07

机器学习中的标准化/归一化

数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在一些数据比较和评价中常用到。典型的有归一化法,还有比如极值法、标准差法。归一化方法的主要有两种形式:一种是把数变为(0,1)之间的小数,一种是把有量纲表达式变为无量纲表达式。在数字信号处理中是简化计算的有效方式。归一化处理的好处:1 加快梯度下降的求解速度,即提升模型的收敛速度两个特征区间相差非常...

2018-11-27 09:17:43

离散型特征编码方式:one-hot与哑变量

在机器学习问题中,我们通过训练数据集学习得到的其实就是一组模型的参数,然后通过学习得到的参数确定模型的表示,最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中,我们会对训练数据集进行抽象、抽取大量特征,这些特征中有离散型特征也有连续型特征。若此时你使用的模型是简单模型(如LR),那么通常我们会对连续型特征进行离散化操作,然后再对离散的特征,进行one-hot编码或哑变量编码。这样的操...

2018-11-21 14:48:35

【pandas】[3] DataFrame通过数据类型选择子数据框

DataFrame.select_dtypes(include=None, exclude=None)Return a subset of the DataFrame’s columns based on the column dtypes.Parameters: include, exclude : scalar or list-like A selecti...

2018-11-04 15:29:32

python 中字典{ }的嵌套

在机器学习中会用字典的嵌套来存储决策树的信息,对绘制树形图有很大的作用,其中嵌套字典的生成是一个递归的过程 如下所示:>>> s={'a':{0:'no',1:{'flippers':{0: 'no', 1: 'maybe'}}},'b':{}} # 构造字典>>> s['a'][0] # 取值'no'>>> s['a'][1...

2018-10-11 16:44:37

评分卡模型中的IV和WOE详解

1.IV的用途  IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?挑...

2018-09-28 20:16:33

python 字典遍历

#一、遍历keytest = {'aa': '1a', 'bb': '2b', 'cc': '3c'}for key in test:    print 'key is : ',keykey is : aakey is : cckey is : bbfor key in test.keys():    print 'key is : ',keykey is : ...

2018-09-09 20:33:34

Jupyter使用的教程

如何本地运行本教程安装Jupyter到本地,详见Jupyter Notebook 安装git后,执行git clone 到笔记本目录下,执行jupyter notebook菜单栏File Edit View Insert Cell Kernel HelpFileNew Notebook-->Python3打开一个新笔记Open...Make a C...

2018-09-07 08:24:52

hbase命令梳理

以下命令基于hbase版本:hbase(main):041:0> version1.2.0-cdh5.7.1, rUnknown, Wed Jun 1 16:30:06 PDT 2016 generalstatus: 查看hbase状态hbase(main):002:0> status1 active master, 1 backup masters, 4 ...

2018-09-06 11:19:51

【pandas】[2] 移动窗口rolling的理解

概念:​​为了提升数据的准确性,将某个点的取值扩大到包含这个点的一段区间,用区间来进行判断,这个区间就是窗口。移动窗口就是窗口向一端滑行,默认是从右往左,每次滑行并不是区间整块的滑行,而是一个单位一个单位的滑行。给个例子好理解一点:import pandas as pds = [1,2,3,5,6,10,12,14,12,30]pd.Series(s).rolling(window=...

2018-09-02 21:00:22

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。