自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

joleoy

focus on datascience

  • 博客(16)
  • 资源 (7)
  • 收藏
  • 关注

转载 利用NN处理不平衡数据集

过采样划分数据集import numpy as npimport csvimport randomdef normalise_data(data): data_norm = (data - np.vstack(np.mean(data, axis=1)) / np.vstack(np.std(data, axis=1))) return data_normdef ...

2019-08-19 23:51:46 227

转载 在python中如何用word2vec来计算句子的相似度

在python中,如何使用word2vec来计算句子的相似度呢?第一种解决方法如果使用word2vec,需要计算每个句子/文档中所有单词的平均向量,并使用向量之间的余弦相似度来计算句子相似度,代码示例如下import numpy as npfrom scipy import spatialindex2word_set = set(model.index2word)def avg_f...

2019-08-19 17:24:13 8213 7

原创 数据预处理DEMO

功能包括:异常值处理空置处理训练集和测试集划分import numpy as npimport pandas as pdfrom sklearn.decomposition import PCAfrom sklearn.preprocessing import StandardScalerimport gcfrom tqdm import tqdmimport timef...

2019-08-18 16:29:52 240

转载 kaggle编码categorical feature总结

kaggle竞赛本质上是套路的竞赛。这篇文章讲讲kaggle竞赛里categorical feature的常用处理套路,主要基于树模型(lightgbm,xgboost, etc.)。重点是target encoding 和 beta target encoding。总结:label encoding特征存在内在顺序 (ordinal feature)one hot enc...

2019-06-15 23:47:12 458

原创 离散特征处理方法

显式特征组合常用方法:对特征进行离散化然后进行叉乘,采用笛卡儿积、内积等方式针对不同特征类型,有不同的处理方式数值特征无监督离散化:根据简单统计量进行等频、等宽、分位点等划分区间有监督离散化:IR方法、Entropy-basedDiscretization有序特征(ordinal feature) CCF画像比赛有位同学采用二值化编码表示值之间的顺序关系,比如卫生条件这一...

2019-06-13 11:24:41 2147

转载 理解特征工程Part 1——类别型变量

【导读】不管是机器学习、深度学习或统计方法,任何的智能系统都需要数据支持。而原始数据往往很难被算法直接利用,因此特征工程显得尤为重要。这是一篇完全手把手教你在实际应用中如何理解特征工程的教程,在上一篇,作者研究了关于连续数值数据的特征工程的流行策略,通过实例和代码详细展示了连续数值数据特征工程的过程。【干货】理解特征工程Part 1——连续数值数据(附代码)在本文中,我们将看到另一种类型的结构...

2019-05-13 00:19:21 1240

原创 图像数据增强

某大佬分享trick#数据集扩增import cv2import mathimport numpy as npimport xml.etree.ElementTree as ETimport osdef rotate_image(src, angle, scale=1): w = src.shape[1] h = src.shape[0] # 角度变弧度 ...

2019-01-21 14:13:35 167

原创 数据处理trick

核心思路:先用LabelEncoder对离散特征编码,因为onehotencoder只能处理数值然后使用OneHotEncoder编码,生成稀疏表示的特征再使用sparse.hstack连接连续特征和稀疏特征为什么不使用pd.get_dummy呢,因为这样是直接生成的稠密矩阵,内存开销太大、from sklearn.preprocessing import LabelEncoderfr...

2019-01-19 11:31:58 231

原创 使用keras实现Precise, Recall, F1-socre

实现过程from keras import backend as Kdef Precision(y_true, y_pred): """精确率""" tp= K.sum(K.round(K.clip(y_true * y_pred, 0, 1))) # true positives pp= K.sum(K.round(K.clip(y_pred, 0, 1))) # ...

2019-01-04 17:32:42 5569 4

原创 word2vec两种训练方法

Word2Vec类介绍定义def __init__(self, sentences=None, size=100, alpha=0.025, window=5, min_count=5, max_vocab_size=None, sample=1e-3, seed=1, workers=3, min_alpha=0.0001, ...

2019-01-04 17:11:52 2764

原创 预模型模型相关文章

预训练概览[1] NLP领域的预训练之风[2] 自然语言处理中的语言模型预训练方法transformer模型[1] [神经机器翻译 之 谷歌 transformer 模型(https://www.jianshu.com/p/ef41302edeef?utm_source=oschina-app)[2] 注意力机制(Attention)最新综述论文及相关源码[3] 基于注意力机制,机器之...

2018-12-23 23:15:49 134

原创 Spark共享变量

Spark一个非常重要的特性就是共享变量。 默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量,那么这种方式是做不到的。Spark为此提供了两种共享变量,一种是Broadcast Variable(广播变量),另一种是Accumulator(累加变量)。广播变量...

2018-12-16 15:42:32 149

原创 利用feather快速处理大数据

Feather是一个快速、轻量级的存储框架,可以在应用在pandas的Dataframe数据结构中。读写数据import featherimport pandas as pddef read_csv_feature(file_in): # 读 f = open(file_in, encoding='utf-8') reader = pd.read_csv(f, sep=',',it...

2018-12-16 15:29:54 3843 1

转载 【转】LightGBM原理之论文详解

LightGBM原理之论文详解提升树是利用加模型与前向分布算法实现学习的优化过程,它有一些高效实现,如XGBoost, pGBRT,GBDT等。其中GBDT采用负梯度作为划分的指标(信息增益),XGBoost则利用到二阶导数。他们共同的不足是,计算信息增益需要扫描所有样本,从而找到最优划分点。在面对大量数据或...

2018-12-14 09:18:46 306

原创 XGBoost若干个问题

xgboost原理关于xgboost原因有很多文章做过详尽的解释,这里列出基本思路和推荐一些文章。xgboost推导过程一文读懂机器学习大杀器XGBoost原理xgboost重要的点xgboost(eXtreme Gradient Bosting)极端梯度提升是基于GDBT改进而来的,其优化的点有1.对于GBDT的目标函数利用泰勒展开得到一阶和二阶梯度信息来近似目标函数去除常数...

2018-12-13 19:00:01 758

原创 利用skift实现fasttext模型

skift: 用于Python fastText的scikit-learn 包装器什么是 skift?skift包括几个scikit-learn兼容包装器,里面封装了fasttext模型,fasttext原理类似于word2vec,主要用于文本快速分类。其优势在于分类速度快,使用n-gram特征容易获得文本句子局部信息、构造新词。缺点是随着语料的增长,内存需求也会增长。那么如果解决内存问题呢?...

2018-12-13 13:48:07 944

对抗过拟合:从时序交叉验证谈起

传统交叉验证方法面对时序数据表现出较明显的过拟合,而时序交叉验证方法能 够有效防止过拟合。借助时序交叉验证的机器学习选股策略能够获得更高 并且更稳定的收益。推荐投资者在选择机器学习模型超参数时,使用时序 交叉验证方法。

2019-03-26

人工智能选股之全连接神经网络

人工神经网络模型具有强大的学习能力、适应能力、计算效率,可以良好 地模拟出输入空间到输出空间的非线性映射关系,在很多应用领域已经取 得了令人瞩目的成果。

2019-03-26

人工智能选股之stacking集成学习

Stacking 是一种常见的集成学习框架,一般有两层,其能够成功的关键在 于第一层模型能针对原始数据得出有差异性(相关性低)且预测能力好的 输出值,这样通过第二层模型进一步学习后,能够在多个第一层模型中取 长补短,提升预测的准确度和稳定性。

2019-03-26

风险均衡方法及其在目标风险策略中的应用

本文尝试从风险视角出发探讨 目标风险型策略产品的构建方法, 主要包括 以下三个方面:第一,基于最分散化方法的大类资产配臵策略;第二,基 于风险均衡方法的资产内部配臵策略;第三,确定大类和资产内部配比后 的基金产品筛选与组合构建方式。

2019-03-26

量化选股之事件驱动

事件研究框架,以投资逻辑为前提,量化筛选真正有效的事件机会。

2019-03-26

文本分析在金融领域的应用场景

文本分析在金融领域的应用场景,从事金融数据挖掘同学可以下载。

2019-03-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除