自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 收藏
  • 关注

原创 【风控】评分卡建模的流程和要点

评分卡流程和注意点

2022-11-27 11:17:20 1034

原创 OptBinning 特征分箱包使用介绍

【代码】OptBinning 特征分箱包使用介绍。

2022-11-12 17:18:24 2331 1

原创 【特征选择】特征选择指标和方法小汇总

1、对特征选择的指标提供计算方法和代码,包括有:相关系数、互信息、KS、IV、L1正则化、单特征模型评分、特征重要度或系数大小、boruta特征评价、递归特征消除排序。2、提供特征选择的方法和代码:前向搜索法、遗传算法启发式搜索法,最佳特征检测法,# 本次项目使用的数据为以下数据, from sklearn . datasets import load_breast_cancer。

2022-10-04 09:48:30 1706

原创 【matplotlib】对matplotlib加工封装的折线图和柱状图

最近使用matplotlib中折线图和柱状图比较多,但是每次都要添加数据标签和坐标轴等等很麻烦,所以加工封装了一下matplotlib,方便调用。

2022-10-02 16:06:43 430

原创 【最优化问题】使用离散重组完成的整数规划遗传算法

使用离散重组完成的整数规划遗传算法。

2022-09-27 21:28:43 266

原创 【可视化】matplotlib_颜色_渐变_色块

本文主要介绍matplotlib中单一颜色的使用、渐变色和色块的定义和使用,渐变色块和线条等。

2022-09-22 12:44:19 3209

原创 【pandas】时间序列_interpolate函数_plot等

时间序列_interpolate函数_plot等

2022-09-15 11:10:30 415

原创 KS和IV的区分比较

kS和iv比较分析

2022-09-05 16:40:06 845

原创 外部数据评价函数

外部数据评价、数据验证

2022-09-02 11:42:47 149

原创 使用python-docx完成word操作

使用python-docx操作word

2022-08-31 11:52:38 284

原创 朴素贝叶斯简单实现

朴素贝叶斯

2022-08-26 12:44:38 110

原创 爬虫小汇总

Table of Contents1  request 使用get爬取2  request 使用post爬取2.1  Data形势传递2.2  payloadData 形势传递3  selenium4  Xpath 网页解析request 使用get爬取get函数适合静态网页get一般传入三个参数url:网页的URLheaders:表头,包含cookies等信息timeout

2021-05-09 10:55:13 214

原创 【pandas】多个sheet的读取和导出

第一次碰到多个sheet的批量处理,记录一下读取和导出import numpy as np import pandas as pd# 读取同一个文件中多个sheetdf = pd.read_excel('2020年往来明细.xlsx',sheet_name=None)df['供应商清单']['code'] = df['供应商清单']['code'].astype('float')df_m = df['供应商清单'][['code','vendor']]df_m.rename(columns

2021-04-25 22:28:13 833

原创 【特征选择】使用遗传算法进行特征选择

遗传算法寻优cross_val_score(lgb,train_X,train_y,scoring='f1',cv=sKfold).mean() # 使用全部特征进行训练0.8508040614085857train_1 = train.drop('label',1)cols = train_1.columnstrain_1.head() 经营期限起 是否广告经营 是否城镇 从业人数 注册资本

2020-11-02 23:49:44 4617 4

原创 【category_encoders】分类特征编码方式

Table of Contents1  OrdinalEncoder 序列编码2  OneHotEncoder 独热编码3  TargetEncoder 目标编码4  Binary Encoder二进制编码5  BaseNEncoder 贝叶斯编码6  LeaveOneOutEncoder 留一法7  HashingEncoder 哈希编码8  

2020-10-29 19:30:38 2068

原创 【requests:动态网页爬取】慕课评价

import requestsimport numpy as npimport pandas as pdimport warningswarnings.filterwarnings("ignore")pd.set_option("display.max_columns", None)# 定义表头、url和post的data参数header = {'cookie': 'EDUWEBDEVICE=bb5489f443964ee181e9a14c09814664; __yadk_uid=LqHB.

2020-10-27 20:29:44 589 1

原创 【缺失值填补】面板数据的缺失值补全方法

对于两端缺失数据使用前后填充,对于中间数据使用线性插值(可替换)import numpy as np import pandas as pd from scipy.interpolate import interp1ddf = pd.read_excel('data.xlsx')df['城市'].fillna(method = 'ffill',inplace = True)df.drop('city',1,inplace=True)df[df['城市'] == '晋中市']

2020-10-21 21:52:00 14983 2

原创 【OS,zipfile,shutil】批量解压和文件处理

import zipfileimport os import shutilzipfile 解压文件zfile=zipfile.ZipFile("taxiGps20190531.zip","r") # 创建zipfile文档 file = zfile.extractall() # 提取zfile 中所有文件os和shutil获取当前目录获取当面目录下的所有文件和文件夹名称新建、删除文件夹移动、复制、删除文件 path = os.getcwd() # 用于返回当前工作目录。

2020-10-20 22:10:35 209 2

原创 【多线程和多进程】使用 threading 和 multiprocessing 实现

Table of Contents1  多线程1.1  新添加一个线程1.2  join1.3  Queue1.4  GIL (全局解释锁)2  多进程2.1  多进程的创建和queue2.2  多进程,多线程比较2.3  pool 使用对于任务量较大的程序,可以考虑多线程和多进程来节省时间简单的看,多进程更适于纯计算程序,

2020-10-14 16:09:33 155

原创 【pandas】计算最大连续间隔时间

import pandas as pd 问题说明数据中样本年份不连续,所以想办法知道每个样本的最大连续年份,比如说下面的df中A是3年,B是5年df = pd.DataFrame({'id': 'A', 'year': [2000, 2001, 2003, 2005, 2006, 2007]}).append( pd.DataFrame({'id': 'B', 'year': [2001, 2003, 2004, 2005, 2006, 2007, 2009]}))df

2020-10-05 13:26:39 1096 1

原创 《模型融合》投票法、stacking和blending

import numpy as np import pandas as pdimport matplotlib.pyplot as plt import seaborn as sns%matplotlib inlineplt.rcParams["font.sans-serif"] = ["FangSong"] plt.rcParams["axes.unicode_minus"] = False import warningswarnings.filterwarnings("ignore")

2020-09-27 22:53:38 662

原创 【违约预测】TASK 04

import numpy as np import pandas as pdimport matplotlib.pyplot as plt import seaborn as sns%matplotlib inlineplt.rcParams["font.sans-serif"] = ["FangSong"] plt.rcParams["axes.unicode_minus"] = False import warningswarnings.filterwarnings("ignore")

2020-09-24 22:48:50 125

原创 【五分钟精通R语言】R数据类型、判断、循环

R的基本运算a = c(1,2,3,4)b = c(3,4,5,6)print(a + b)print(a ^ b) # a ** b print(a %% b) # 整除取余print(a %/% b) # 整除v <- a # 向左赋值b -> w # 向右赋值 ls() # 列出所有变量print( 1 %in% v) # 相当于 inprint(a %*% b) # 相当于 a*a.Ts = 1:10[1] 4 6 8 10[1]

2020-09-22 16:48:02 1973 1

原创 【分箱操作】决策树、卡方、分位数、等距和映射分箱操作代码实现

from sklearn.tree import DecisionTreeClassifierimport pandas as pdimport numpy as npdata = pd.read_csv('train.csv',index_col = 'id')data.head()决策树分箱def optimal_binning_boundary(x: pd.Series, y: pd.Series) -> list: ''' 利用决策树获得最优分箱的边界

2020-09-21 23:38:24 2334 1

原创 【可视化】matplotlib.animation_动图

import numpy as npimport pandas as pd from matplotlib.animation import FuncAnimationfig, ax = plt.subplots() # 创建图表和axesdef update(i):‘’’函数为更新axes信息i 可以理解为迭代词数返回一个axes'''return tableani = FuncAnimation(fig=fig, # 更新的画布func=update, # 更新函数fr

2020-09-15 16:33:44 1034

原创 【贷款违约预测】task1and2 理解和数据探索

import numpy as np # 导入numpy库import pandas as pd # 导入pandas库import matplotlib as mpl # 导入matplotlib库import matplotlib.pyplot as plt import seaborn as sns # 导入seaborn库%matplotlib inlineplt.rcParams['font.sans-

2020-09-15 08:40:16 846

原创 【地图可视化 】 folium

Table of Contents1  MAP create2  Heatmap3  CircleMarker4  folium.CircleMarker 标记5  folium.PolyLine(6  map save# generated dataimport numpy as npdata = ( np.random.normal(size=(100, 3)) *

2020-09-13 09:31:52 1758 2

原创 【DCIC】task1

import pandas as pd import numpy as npimport seaborn as snsimport matplotlib.pyplot as pltdf = pd.read_csv('taxiGps20200618.csv')df RUNNING_STATUS GPS_SPEED DRIVING_DIRECTION GPS_DATE LONGITUDE

2020-09-11 17:44:23 190

原创 SMOTE抽样 数据不平衡的问题

from imblearn.over_sampling import SMOTEimport pandas as pd C:\ProgramData\Anaconda3\lib\importlib\_bootstrap.py:219: RuntimeWarning: numpy.ufunc size changed, may indicate binary incompatibility. Expected 192 from C header, got 216 from PyObject ret

2020-08-29 10:05:20 621

原创 BP神经网络和Stacking

from keras.models import Sequential # 按顺序建立的神经网络模型from keras.layers import Dense # dense 全连接层 import numpy as np import matplotlib.pyplot as plt %matplotlib inlineimport tensorflow as tfUsing TensorFlow backend.import pandas as pd from sklearn.

2020-08-29 08:18:22 694 1

原创 【资金流入流出预测】baseline 周期因子和LSTM

分别尝试了周期因子和LSTM两种方法周期因子效果较好分数为135,但是LSTM分数仅为93(可能也是没有进行参数调价的后果,还有就是初次应用。。。)import pandas as pdimport numpy as np周期因子1、取14年3月至9月的数据2、按翌日进行加总然后除总平均值等到翌日因子 3、统计每月中各天为各翌日的频率,用频率乘上翌日因子,除上各天出现的频率得到月份中每天的周期因子4、对总数据按天取平均值,然后除以每天的周期因子得到base5、求出9月份每天所在的翌日,匹

2020-08-22 11:17:15 675

原创 【资金流入流出预测】baseline LSTM

import pandas as pd from sklearn.preprocessing import MinMaxScalerimport numpy as npdata = pd.read_csv('user_balance_table.csv')data_1 = data.loc[:,['user_id','report_date','total_purchase_amt','total_redeem_amt']]data_1 = data_1.groupby(by='report_d

2020-08-19 19:58:08 701

原创 【资金流入流出预测】 数据探索

import pandas as pdimport numpy as npimport warnings import datetimeimport seaborn as snsimport matplotlib.pyplot as pltwarnings.filterwarnings('ignore')%matplotlib inlineplt.rcParams['font.sans-serif'] = ['KaiTi'] # 指定默认字体plt.rcParams['axes.unic

2020-08-19 19:53:05 960

原创 tensorflow—— 基础中的基础

import tensorflow as tf 会话打开m_1 = tf.constant([[3,2]])m_2 = tf.constant([[3], [2]])pr = tf.matmul(m_1,m_2)with tf.Session() as s_1: result = s_1.run(pr) print(result)[[13]]第二种打开方式s_2 = tf.Session()result_2 = s_2.run(pr

2020-08-19 09:14:58 78

原创 【模型调参】lgb的参数调节

Table of Contents1  数据导入2  模型挑选3  模型调参3.1  设立初始参数3.2  调解n_estimators3.3  max_depth/num_leaves3.4  min_child_samples/min_child_weight3.5  subsample/colsample_bytree(0.6,1)3.6&n

2020-08-13 21:50:16 3210

原创 【特征选择】特征选择指标和方法小汇总

1、对部分特征选择的指标提供计算方法和代码,包括有:相关系数、互信息、KS、IV、L1正则化、单特征模型评分、特征重要度或系数大小、boruta特征评价、递归特征消除排序。2、提供特征选择的方法和代码:前向搜索法、遗传算法启发式搜索法,最佳特征检测法,# 本次项目使用的数据为以下数据, from sklearn . datasets import load_breast_cancer。

2020-08-12 19:04:11 3973 1

原创 文件与文件系统

打开文件open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True) Open file and return a stream. Raise OSError upon failure.file: 必需,文件路径(相对或者绝对路径)。mode: 可选,文件打开模式buffering: 设置缓冲encoding: 一般使用utf8errors: 报错级别newline: 区

2020-08-08 21:50:43 198

原创 时间模块

import datetimedt = datetime.datetime(year=2020, month=6, day=25, hour=11, minute=23, second=59)print(dt) # 2020-06-25 11:23:59print(dt.timestamp()) # 1593055439.0dt = datetime.datetime.fromtimestamp(1593055439.0)print(dt) # 2020-06-25 11:23:59p

2020-08-05 22:50:26 143

原创 类,对象和魔法方法

Table of Contents1  类和对象1.1  class的属性和方法1.2  init1.3  iter 和 next1.4  继承1.5  多态1.6  练习2  魔法方法2.1  __init__2.2  __del__2.3  doc ,module,calss2.4&n

2020-08-01 21:56:10 940

原创 函数和lambda

Table of Contents1  函数形参,实参和描述2  函数参数2.1  位置参数 (positional argument) 默认参数 (default argument)2.2  可变参数 (variable argument) 关键字参数 (keyword argument) 命名关键字参数 (name keyword)2.3  参数组合3  变量作用域4 &n

2020-08-01 16:45:42 77

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除