joleoy-CSDN博客

转载利用NN处理不平衡数据集

过采样划分数据集import numpy as npimport csvimport randomdef normalise_data(data): data_norm = (data - np.vstack(np.mean(data, axis=1)) / np.vstack(np.std(data, axis=1))) return data_normdef ...

2019-08-19 23:51:46 227

转载在python中如何用word2vec来计算句子的相似度

在python中，如何使用word2vec来计算句子的相似度呢？第一种解决方法如果使用word2vec，需要计算每个句子/文档中所有单词的平均向量，并使用向量之间的余弦相似度来计算句子相似度，代码示例如下import numpy as npfrom scipy import spatialindex2word_set = set(model.index2word)def avg_f...

2019-08-19 17:24:13 8213 7

原创数据预处理DEMO

功能包括：异常值处理空置处理训练集和测试集划分import numpy as npimport pandas as pdfrom sklearn.decomposition import PCAfrom sklearn.preprocessing import StandardScalerimport gcfrom tqdm import tqdmimport timef...

2019-08-18 16:29:52 240

转载 kaggle编码categorical feature总结

kaggle竞赛本质上是套路的竞赛。这篇文章讲讲kaggle竞赛里categorical feature的常用处理套路，主要基于树模型（lightgbm，xgboost, etc.）。重点是target encoding 和 beta target encoding。总结：label encoding特征存在内在顺序 (ordinal feature)one hot enc...

2019-06-15 23:47:12 458

原创离散特征处理方法

显式特征组合常用方法：对特征进行离散化然后进行叉乘，采用笛卡儿积、内积等方式针对不同特征类型，有不同的处理方式数值特征无监督离散化：根据简单统计量进行等频、等宽、分位点等划分区间有监督离散化：IR方法、Entropy-basedDiscretization有序特征(ordinal feature) CCF画像比赛有位同学采用二值化编码表示值之间的顺序关系，比如卫生条件这一...

2019-06-13 11:24:41 2147

【导读】不管是机器学习、深度学习或统计方法，任何的智能系统都需要数据支持。而原始数据往往很难被算法直接利用，因此特征工程显得尤为重要。这是一篇完全手把手教你在实际应用中如何理解特征工程的教程，在上一篇，作者研究了关于连续数值数据的特征工程的流行策略，通过实例和代码详细展示了连续数值数据特征工程的过程。【干货】理解特征工程Part 1——连续数值数据（附代码）在本文中，我们将看到另一种类型的结构...

2019-05-13 00:19:21 1240

原创图像数据增强

某大佬分享trick#数据集扩增import cv2import mathimport numpy as npimport xml.etree.ElementTree as ETimport osdef rotate_image(src, angle, scale=1): w = src.shape[1] h = src.shape[0] # 角度变弧度 ...

2019-01-21 14:13:35 167

原创数据处理trick

核心思路：先用LabelEncoder对离散特征编码，因为onehotencoder只能处理数值然后使用OneHotEncoder编码，生成稀疏表示的特征再使用sparse.hstack连接连续特征和稀疏特征为什么不使用pd.get_dummy呢，因为这样是直接生成的稠密矩阵，内存开销太大、from sklearn.preprocessing import LabelEncoderfr...

2019-01-19 11:31:58 231

原创使用keras实现Precise, Recall, F1-socre

实现过程from keras import backend as Kdef Precision(y_true, y_pred): """精确率""" tp= K.sum(K.round(K.clip(y_true * y_pred, 0, 1))) # true positives pp= K.sum(K.round(K.clip(y_pred, 0, 1))) # ...

2019-01-04 17:32:42 5569 4

原创 word2vec两种训练方法

Word2Vec类介绍定义def __init__(self, sentences=None, size=100, alpha=0.025, window=5, min_count=5, max_vocab_size=None, sample=1e-3, seed=1, workers=3, min_alpha=0.0001, ...

2019-01-04 17:11:52 2764

原创预模型模型相关文章

预训练概览[1] NLP领域的预训练之风[2] 自然语言处理中的语言模型预训练方法transformer模型[1] [神经机器翻译之谷歌 transformer 模型(https://www.jianshu.com/p/ef41302edeef?utm_source=oschina-app)[2] 注意力机制(Attention)最新综述论文及相关源码[3] 基于注意力机制，机器之...

2018-12-23 23:15:49 134

原创 Spark共享变量

Spark一个非常重要的特性就是共享变量。默认情况下，如果在一个算子的函数中使用到了某个外部的变量，那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量，那么这种方式是做不到的。Spark为此提供了两种共享变量，一种是Broadcast Variable（广播变量），另一种是Accumulator（累加变量）。广播变量...

2018-12-16 15:42:32 149

原创利用feather快速处理大数据

Feather是一个快速、轻量级的存储框架，可以在应用在pandas的Dataframe数据结构中。读写数据import featherimport pandas as pddef read_csv_feature(file_in): # 读 f = open(file_in, encoding='utf-8') reader = pd.read_csv(f, sep=',',it...

2018-12-16 15:29:54 3843 1

转载【转】LightGBM原理之论文详解

LightGBM原理之论文详解提升树是利用加模型与前向分布算法实现学习的优化过程，它有一些高效实现，如XGBoost, pGBRT，GBDT等。其中GBDT采用负梯度作为划分的指标（信息增益），XGBoost则利用到二阶导数。他们共同的不足是，计算信息增益需要扫描所有样本，从而找到最优划分点。在面对大量数据或...

2018-12-14 09:18:46 306

原创 XGBoost若干个问题

xgboost原理关于xgboost原因有很多文章做过详尽的解释，这里列出基本思路和推荐一些文章。xgboost推导过程一文读懂机器学习大杀器XGBoost原理xgboost重要的点xgboost(eXtreme Gradient Bosting)极端梯度提升是基于GDBT改进而来的，其优化的点有1.对于GBDT的目标函数利用泰勒展开得到一阶和二阶梯度信息来近似目标函数去除常数...

2018-12-13 19:00:01 758

原创利用skift实现fasttext模型

skift: 用于Python fastText的scikit-learn 包装器什么是 skift?skift包括几个scikit-learn兼容包装器,里面封装了fasttext模型，fasttext原理类似于word2vec，主要用于文本快速分类。其优势在于分类速度快，使用n-gram特征容易获得文本句子局部信息、构造新词。缺点是随着语料的增长，内存需求也会增长。那么如果解决内存问题呢？...

2018-12-13 13:48:07 944