暮雪成冰-CSDN博客

转载用python开启flask web服务时，你只需要本机访问，那ip只要不设置为0.0.0.0就可以，正常访问就好

2020-01-15 02:23:40 1961 2

转载配置Fuseki服务器管理知识图谱三元组

转载配置Fuseki服务器管理知识图谱三元组...

2019-11-23 18:14:51 993

转载 Oracle 正则表达式函数-REGEXP_REPLACE 使用例子

Oracle 正则表达式函数-REGEXP_REPLACE 使用例子https://www.cnblogs.com/SummerinShire/p/6182773.html

2019-11-01 17:01:37 386

转载数据挖掘如何分箱以及如何对每个箱子中的数据进行平滑处理

参考：https://www.cnblogs.com/serena45/p/5559122.html分箱的方法：有4种：等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。数据平滑方法：有3种按平均值平滑、按边界值平滑和按中值平滑。统一权重，也成等深分箱法，将数据集按记录行数分箱，每箱具有相同的记录数，每箱记录数称为箱子的深度。这是最简单的一种分箱方法。统一区间，也称等宽分箱法，使...

2019-09-12 15:09:18 20634

原创特征工程

1 特征工程是什么？2 数据预处理　　2.1 无量纲化　　　　2.1.1 标准化　　　　2.1.2 区间缩放法　　　　2.1.3 标准化与归一化的区别　　2.2 对定量特征二值化　　2.3 对定性特征哑编码　　2.4 缺失值计算　　2.5 数据变换　　2.6 回顾3 特征选择　　3.1 Filter　　　　3.1.1 方差选择法　　　　3.1.2 相关系数法　　　　3...

2019-09-12 14:28:35 267

原创特征选择（含代码）

当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说，从两个方面考虑来选择特征：特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择。除移除低方差法外，本文介绍的其他方法均从相关性考虑。根据特征选择的形式又可以将...

2019-09-12 14:20:06 337

转载特征选择方法代码示例

from sklearn.cross_validation import cross_val_score, ShuffleSplitfrom sklearn.datasets import load_bostonfrom sklearn.ensemble import RandomForestRegressor #Load boston housing dataset as an exa...

2019-09-12 14:13:39 528

原创什么情况下(不)需要归一化

六. 什么情况下(不)需要归一化？需要：基于参数的模型或基于距离的模型，都是要进行特征的归一化。不需要：基于树的方法是不需要进行特征的归一化，例如随机森林，bagging 和 boosting等。...

2019-09-12 14:07:12 3670

转载交叉验证--深度 | 机器学习中的模型评价、模型选择及算法选择

1

2019-09-10 20:03:42 208

转载 Python计算量化策略评估指标

量化评估年化收益率年化收益率是把当前收益率（日收益率、周收益率、月收益率）换算成年收益率来计算的，是一种理论收益率，并不是真正的已取得的收益率。因为年化收益率是变动的，所以年收益率不一定和年化收益率相同。总收益率：R=\frac{P_T-P_t}{P_t}其中，P_T是期末卖出时的价格，P_t是期初买入时的价格。年化收益率：R_p=(1+R)^{\frac{m}{n}}-1其中...

2019-09-09 17:40:02 2788

转载集成Jupyter notebook的工具或平台

公司的机器学习平台期望通过集成Jupyter notebook来提供探索式分析功能，在设计过程中首先分析了几款常见的集成jupyter的工具或软件平台，如下所示：Neptunehttps://app.neptune.mlKagglehttps://www.kaggle.com/dataikuhttps://www.dataiku.com/阿里天池...

2019-09-08 19:14:40 1000

原创数字货币历史行情下载

https://www.cryptodatadownload.com/data/northamerican/

2019-09-06 15:38:17 2140

转载 scikit-learn 梯度提升树(GBDT)调参小结

https://www.cnblogs.com/DjangoBlog/p/6201663.html

2019-09-06 14:24:24 126

转载 xgboost 库使用入门

https://www.jianshu.com/p/05ec35a120b1

2019-08-22 11:06:46 3213

原创 # 转换成95%的置信区间

# 设置管道参数 model.set_params(StandardScaler__with_mean=s) # 标准化的时候是否要中心化 model.set_params(Poly__degree=d) # 多项式拓展的阶数 model.set_params(LinearRegression__fit_intercept=r...

2019-08-21 10:20:38 1123

转载数据标准化常见问题：对整个数据集数据标准化后再划分训练集、测试集和先对训练级标准化再将规则用于测试集有什么区别（Python实现）

data_te = stdScale.transform(data_te1) ## 将规则应用于测试集这样做，问题挺大

2019-08-20 18:51:44 7641 4

转载标准化和归一化的区别

一、是什么？1.归一化　　是为了将数据映射到0~1之间，去掉量纲的过程，让计算更加合理，不会因为量纲问题导致1米与100mm产生不同。　　归一化是线性模型做数据预处理的关键步骤，比如LR，非线性的就不用归一化了。　归一化就是让不同维度之间的特征在数值上有一定比较性，可以大大提高分类器的准确性。缺点：这种方法有个缺陷就是当有新数据加入时，可能导致max和min的变化...

2019-08-20 18:47:37 24586

转载浅析机器学习中的模型选择与调参（cross validation + grid search）

对于一个预测问题，同时有多种可用的模型，每种模型有多种可用的参数。如何选择一个最合适的模型？总题过程分为2个部分： 1.对于一个模型，如何评估该模型在特定问题上的好坏？ 2.选择了最好的模型后，如何选择最优的参数？对于模型的评估，我们一般使用交叉验证(cross validation)来进行评估。在这里我们使用了k折叠法，将...

2019-08-19 10:53:38 494

转载 np.ravel()和np.flatten()

两者的功能是一致的，将多维数组降为一维，但是两者的区别是返回拷贝还是返回视图，np.flatten(0返回一份拷贝，对拷贝所做修改不会影响原始矩阵，而np.ravel()返回的是视图，修改时会影响原始矩阵示例：import numpy as npa = np.array([[1 , 2] , [3 , 4]])b = a.flatten()print('b:' , b)c = a...

2019-08-18 19:03:16 333

转载基于xgboost+GridSearchCV的波士顿房价预测

2018年8月23日笔记 sklearn官方英文用户使用指南：https://sklearn.org/user_guide.html sklearn翻译中文用户使用指南：http://sklearn.apachecn.org/cn/0.19.0/user_guide.html0.打开jupyter notebook不知道怎么打开jupyter notebook的朋友请查看我的入门指南文章：...

2019-08-18 18:45:16 484

转载基于LinearRegression的波士顿房价预测

LinearRegression中文叫做线性回归，是一种基础、常用的回归方法。2018年8月22日笔记sklearn官方英文用户使用指南：https://sklearn.org/user_guide.htmlsklearn翻译中文用户使用指南：http://sklearn.apachecn.org/cn/0.19.0/user_guide.html0.打开jupyter noteboo...

2019-08-18 18:24:50 993

什么是Grid Search 网格搜索？Grid Search：一种调参手段；穷举搜索：在所有候选的参数选择中，通过循环遍历，尝试每一种可能性，表现最好的参数就是最终的结果。其原理就像是在数组里找最大值。（为什么叫网格搜索？以有两个参数的模型为例，参数a有3种可能，参数b有4种可能，把所有可能性列出来，可以表示成一个3*4的表格，其中每个cell就是一个网格，循环过程就像是在每个网格里遍历、搜...

2019-08-18 14:30:39 374

转载机器学习（四）——模型调参利器 gridSearchCV（网格搜索）

gridSearchCV（网格搜索）的参数、方法及示例1.简介GridSearchCV的sklearn官方网址：http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html#sklearn.model_selection.GridSearchCVGridSearc...

2019-08-18 13:42:46 450

转载归一化（Normalization）、标准化（Standardization）和中心化/零均值化（Zero-centered）

1 概念归一化：１）把数据变成(０，１)或者（1,1）之间的小数。主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速。２）把有量纲表达式变成无量纲表达式，便于不同单位或量级的指标能够进行比较和加权。归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为纯量。标准化：在机器学习中，我们可能要处理不同种类的资料，例如，音讯和图片上的像素...

2019-08-17 16:18:34 813

转载统计参数 SSE,MSE,RMSE,R-square 详解

0

2019-08-16 18:41:53 1745 1

转载多分类模型评价准则整理

机器学习或者是日常生活中，遇见的往往是二分类问题比较多，二分类模型的模型评价准则很多，Auc_score,F1_score，accuracy等等都是比较常用的。而针对多分类问题来说，有些二分类的评价准则就相对而言不怎么适用了。虽然可以将多分类问题转化为多个2vs2问题进行讨论，步骤繁杂的同时效果也得不到保障。目前在进行多模态的一个分类研究，在模型评价时也废了不少脑筋，所以在这里将看到的比较常用的多...

2019-08-16 17:38:19 1668

转载机器学习模型评估指标汇总

0

2019-08-16 16:12:35 152

转载 Python每日一记21>>>交叉验证

2019-08-16 14:07:27 211

转载特征工程完全总结（Python源码）

https://www.jianshu.com/p/114385e5a757

2019-08-15 15:40:17 208

转载 Ta-Lib用法介绍！

一、函数索引重叠研究BBANDS Bollinger BandsDEMA Double Exponential Moving AverageEMA Exponential Moving AverageHT_TRENDLINE Hilbert Transform - Inst...

2019-08-15 11:47:17 7280 1

转载一定设置成每隔10分钟一同步，设置Window7系统时间默认同步频率

在Win7系统默认情况下，系统时间是每周（每7天）自动同步Internet时间一次。但在有些情况下，需要让系统的时间和网络时间不能有偏差，就需要让系统在短时间内和网络时间同步，就需要设置系统时间默认的同步频率。工具/原料 Windows7系统方法/步骤 1. 在“开始”菜单→“运行”项下输入“Regedit”进入注册表编辑器展开 [ HKEY_LOCAL...

2019-08-09 10:11:58 5280 2

转载 Gradient Boosting regression

Demonstrate Gradient Boosting on the Boston housing dataset.This example fits a Gradient Boosting model with least squares loss and 500 regression trees of depth 4.Out:MSE: 6.5493...

2019-08-06 12:44:55 774

原创机器学习：衡量线性回归法的指标（MSE、RMSE、MAE、R Squared）

机器学习：衡量线性回归法的指标（MSE、RMSE、MAE、R Squared）一、MSE、RMSE、MAE思路：测试数据集中的点，距离模型的平均距离越小，该模型越精确 # 注：使用平均距离，而不是所有测试样本的距离和，因为距离和受样本数量的影响　　1）公式：MSE：均方误差 RMSE：均方根误差 MAE：平均绝对误差二、具体实现　1）自己...

2019-08-06 10:44:23 4571

转载强化学习(十三) 策略梯度(Policy Gradient)

　在前面讲到的DQN系列强化学习算法中，我们主要对价值函数进行了近似表示，基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用，但是Value Based强化学习方法也有很多局限性，因此在另一些场景下我们需要其他的方法，比如本篇讨论的策略梯度(Policy Gradient)，它是Policy Based强化学习方法，基于策略来学习。　　　　本文参考了Sutton...

2019-07-30 15:45:59 480

转载深蹲不必天天做，天天做深蹲对于膝盖损伤有一定的影响，可以深蹲一天休息2天，但是贵在坚持！

深蹲不必天天做，天天做深蹲对于膝盖损伤有一定的影响，可以深蹲一天休息2天，但是贵在坚持！

2019-07-29 21:31:47 735

转载程序员必须健身--------做一个正确的深蹲有哪些要点

做一个正确的深蹲有哪些要点1.深蹲训练对膝盖会造成很大的压力，在下蹲的过程中膝盖应该自然向外弯曲，不能出现膝盖内扣的现象。2.膝盖尽量不要超过脚尖，过度的收膝可能会导致腰部收到损伤。3.正确的双脚站距应该是与肩同宽或略宽，具体的距离应当按照实际情况进行调整，找到自己发力感觉最好的位置。4.深蹲对自身的核心力量也有较高的要求，为了保障深蹲训练时的安全，提高自身的核心力量也...

2019-07-29 21:28:13 190

转载 python:批量安装包

有时候需要安装很多的包，一个一个安装是很麻烦的。可以采用以下的批量安装的做法：新建一个requirements.txt，内容如下：sixtqdmtorchtext>=0.2.1future1234然后运行命令：pip install -r requirements.txt1即可---------------------作者：ShellDawn来源：CSDN...

2019-07-29 18:22:05 725

空空如也

空空如也