ssswill-CSDN博客

原创 keras用auc做metrics以及早停

import tensorflow as tffrom sklearn.metrics import roc_auc_scoredef auroc(y_true, y_pred): return tf.py_func(roc_auc_score, (y_true, y_pred), tf.double)# Build Model...model.compile(loss='c...

2019-07-11 20:16:10 7362 2

讲到nlp，我们常用的都是lstm/gru。举个例子，因为我们总会说，因为句子经过embdding后，句子为一个三维张量，假设为：（None,20,300）。其中20为timestep,也就是一个句子的单词个数，300为embdding维度。为了更深的理解句子，剖析句子语意，我们假设接上一层lstm（num_units=128，return_sequence=True）,那么输出的张量就为(No...

2019-06-24 14:33:18 1840 1

原创关于HashVectorizer

写在前面：HashVectorizer与tfidf类似，都是讲文本向量化的表示方法，但它节省内存，也更快。当数据集较大时，可以作为tfidf的替代。from：https://www.cnblogs.com/pinard/p/6688348.html说明2：来自：https://stackoverflow.com/questions/30024122/what-is-the-differe...

2019-06-03 18:13:58 1624

原创关于pickle的load,loads等

基础知识：python自带的file函数只能存储和读取字符串格式的数据.pickle可以存储和读取成其他格式比如list dict的数据,来自：https://www.zhihu.com/question/38355589如需更详细关于load/dump,loads/dumps参见：https://blog.csdn.net/coffee_cream/article/details...

2019-05-29 19:01:26 2376

原创 sklearn中同一个模型fit多次不同数据会如何？and增量学习

忙里偷闲~记录一些笔记。你多次fit，只会覆盖。并不会记住以前fit的数据。来自：https://stackoverflow.com/questions/49841324/what-does-calling-fit-multiple-times-on-the-same-model-do可以采用：partial_fit具体请见：https://www.cnblogs.com/zle1...

2019-05-29 18:56:58 6488 1

原创 FM与FFM

请参见:https://blog.csdn.net/ddydavie/article/details/82667890

2019-05-24 22:44:21 556

原创今日头条2018 AI Camp笔试编程题——最小分割分数

代码：#include <iostream>using namespace std;int max_ = 0;int sum = 0;int sum_temp = 0;int count_ = 0;//n is the length of arr,m is the number of your split.int func(int* arr,int n,int m)...

2019-05-20 16:34:14 594

原创用shap来选择特征

https://github.com/slundberg/shap

2019-05-17 12:09:38 5404

原创关于调参

大牛们云集分享思路：https://www.kaggle.com/c/santander-customer-transaction-prediction/discussion/89320#latest-524314

2019-05-17 11:24:32 289

原创关于target encoding与count encoding

先整理一下链接，之后会看。简介入门：https://zhuanlan.zhihu.com/p/40231966一个各种category 变量编码的库：https://github.com/scikit-learn-contrib/categorical-encoding说明文档：http://contrib.scikit-learn.org/categorical-encoding/t...

2019-05-16 20:23:53 8322

原创关于keras.backend.clear_session()

顾名思义，clear_session就是清除一个session。而session就是tensorflow中我们常见的会话。来自：https://stackoverflow.com/questions/50895110/what-do-i-need-k-clear-session-and-del-model-for-keras-with-tensorflow-gpu简单说一下。很常见的场景就...

2019-05-14 17:30:39 17651 5

原创神经网络高阶技巧7--早停(early stopping)与保存最佳模型

早停法这个词，其实我们并不陌生。因为在传统的机器学习中，我们就用到过。例如在一个xgboost,或者lightgbm模型中，为了防止过拟合，我们就会用：clf = lgb.train(params=param,train_set=trn_data,num_boost_round=50000,valid_sets=val_data,verbose_eval=1000,early_stopping...

2019-05-14 17:17:08 17354 2

原创 python~按位取反符

所以会有：但是：小例子：与上面的结论是对应的。参考：https://www.runoob.com/python/python-operators.html

2019-05-14 15:30:02 1711

原创神经网络高阶技巧6--关于keras的class_weight与sample_weight

1.二者初步介绍在keras的中文官方文档中，写到：可以结合着一起看，出自：https://stackoverflow.com/questions/48315094/using-sample-weight-in-keras-for-sequence-labelling2.注意事项sample_weight会覆盖class_weight，所以二者用其一。3.几种使用class_wei...

2019-05-14 11:51:30 9476 4

原创 Jigsaw Unintended Bias in Toxicity Classification竞赛bilstm+glove embedding解法

0.写在前面0.1本文配套github:https://github.com/willinseu/kaggle-Jigsaw-Unintended-Bias-in-Toxicity-Classification-solution如果你觉得本文对你有帮助，或者有提高，请点一个star以表支持，感谢~同时与上一篇博文的github项目是对接的：https://github.com/willi...

2019-05-13 19:52:59 2737 1

原创 c++冒泡排序

#include <iostream>using namespace std;int bubblesort1(int *arr,int length){ int temp; for(int i =0;i<length;i++) { for(int j=length-1;j>=i+1;j--)//此处判断条件也可写成j&gt...

2019-05-10 16:40:56 3294

原创神经网络高阶技巧5--关于GolbalAveragePooling与GlobalMaxPooling

最大池化（Maxpooling1D）,平均池化（AveragePooling1D）是我们常见且常用的，它们的另一个版本就是加一个global了。很简单：截图来自：https://blog.csdn.net/JNingWei/article/details/80064451下面以GlobalMaxPooling与传统maxpool对比为例：参见：https://blog.csdn.net...

2019-05-10 14:12:08 2309 1

原创神经网络高阶技巧4--关于SpatialDropout1D

参见：https://blog.csdn.net/weixin_43896398/article/details/84762943但是这里有一个疑问。文中提到了noise_shape，但是在官方文档，以及keras.layers.SpatialDropout1D()的函数说明里貌似也没有，或者说它的默认值里哪个轴为1呢？我们在jupyter lab中输入??SpatialDropout1D...

2019-05-10 11:14:37 3358

原创如何使用glove,fasttext等词库进行word embedding?（代码篇）

建议先看：如何使用glove,fasttext等词库进行word embedding?（原理篇）再看本篇。先睹为快：本文会用到的全部代码：def get_coefs(word, *arr): return word, np.asarray(arr, dtype='float32') def load_embeddings(path): with open(path...

2019-05-09 19:50:21 1935

原创如何使用glove,fasttext等词库进行word embedding?（原理篇）

0 序本文保证干货满满~看完本文后，你只需要一个glove或者其他已经训练好的词库，也就是一个类似txt的文件，那么你就可以把一个英文单词用一个多维（如300维向量）表示出来！并且会带入到keras中训练一条龙服务~说专业点，这就是词嵌入。在之前，我们使用过keras自带的embedding层进行词嵌入，效果肯定是没有glove这些好的。keras自带的词嵌入使用如下：model = S...

2019-05-07 21:27:29 5586 6

原创神经网络高阶技巧3--对层操作之add与concatenate以及keras的summary中[0][0]的解释

本文标题较长，主要内容分为两部分。一是说明对层操作的add与concatenate方法的原理与应用。二是，在keras使用了这两个方法后，在model.summary中会出现[0][0]的层，在此作出解释。一。关于add与concatenate方法建议直接参见：https://blog.csdn.net/u012193416/article/details/79479935别人写过一遍...

2019-05-06 20:56:48 1644 1

原创神经网络高阶技巧2--采用CuDNNLSTM，别再用LSTM了！

以后别再说自己用LSTM()了！CuDNNLSTM与LSTM都是keras.layers里的实现lstm的单元。那么二者有什么区别呢？CuDNNLSTM肯定是只能用在GPU下，但是LSTM也是可以用在GPU下的啊。所以问题是：在你拥有GPU资源的情况下（默认拥有）,我应该选用哪一种呢？答案是CuDNNLSTM！1.原因：In my case, training a model with ...

2019-05-06 19:16:16 17307 5

原创神经网络高阶技巧1--Learning Rate Scheduler

为什么突发奇想要写这么个系列呢？源于一次面试，其实很多“高阶”技巧我们都知道，但是用的多了我们习以为常，所以在面试介绍项目时不会提及这些。而你不提及的话，就会显得你很low。所以做一些笔记，让自己知道这些“高阶”技巧。标题顾名思义，就是自适应的学习率。因为我们都知道刚开始训练时，学习率可以大一点，但到后面需要慢慢减小，以防出现下图的情况。那么如何在训练时使用这种方法呢？以keras为例。...

2019-05-06 16:45:24 9078 7

原创 lightgbm可视化后的threshold和leaf_value是什么意思？

如上图，是来自一个lgb的一颗树。上面的threshold和leaf_value是什么意思呢？threshold即阈值，即根据某个feature分裂的阈值。leaf_value即未经sigmoid规格化的预测值，所以会有负值。但是经过sigmoid函数后都会被规格化0-1之间。参考：https://github.com/Microsoft/LightGBM/issues/1360中文...

2019-05-05 15:21:26 3300

原创 ligtgbm的min_sum_hessian_in_leaf参数与xgboost的min_child_weight

首先说明。二者是一回事。（应该吧）。参见lgbm的官方文档：之后参见：https://stackoverflow.com/questions/45248001/what-is-the-meaning-of-min-sum-hessian-in-leaf-in-lightgbm也有人提出了疑问。然后类似的疑问：解答在：https://stats.stackexchange.com/...

2019-04-29 16:14:03 1679 1

原创 lightbgm的gbdt模式为什么会有bagging function?

每间隔bagging_freq次迭代做一次重新采样，采样的比例则为bagging_fraction。

2019-04-29 14:41:30 697

原创关于binary_crossentropy与categorical_crossentropy

贴出链接：https://blog.csdn.net/Julialove102123/article/details/80236180https://www.zhihu.com/question/36307214keras中的二者真正区别：https://stackoverflow.com/questions/42081257/keras-binary-crossentropy-vs-ca...

2019-04-26 17:20:21 8584

原创 python画出AUC曲线

以load_breast_cancer数据集为例，模型细节不重要，重点是画AUC的代码。直接上代码：from sklearn.datasets import load_breast_cancerfrom sklearn import metricsfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_se...

2019-04-16 22:07:40 15739 3

原创高斯过程回归（资料整理阶段）

1.阶段1 ：https://zhuanlan.zhihu.com/p/449608512.阶段2：https://zhuanlan.zhihu.com/p/29682965

2019-04-15 16:07:50 1955

原创关于.jl.z格式文件的保存与读写（python大文件处理）

压缩存储能节省磁盘空间，但文件读写会耗费更多时间，属于用时间换空间的思路。joblib提供了直接存取numpy矩阵数据的接口。example1import joblib as jlimport numpy as npmatrix = np.zeros((10000,10000))jl.dump(matrix, 'x.jl')#非压缩存储，耗时1.34s，存储763Mjl.dump...

2019-04-11 10:09:34 1924

原创用lstm实现nlp情感分析（roman urdu小语种为例）代码+原理详解

1 赛题描述link: https://www.kesci.com/home/competition/5c77ab9c1ce0af002b55af86/content/1本练习赛所用数据，是名为「Roman Urdu DataSet」的公开数据集。这些数据，均为文本数据。原始数据的文本，对应三类情感标签：Positive, Negative, Netural。本练习赛，移除了标签为Netu...

2019-03-13 15:28:57 14846 9

原创 lstm输出输出和参数你懂了吗

最近在做一个nlp的练习赛，把lstm重新彻底温习了一遍。把以前很多没搞懂的东西重新倒腾了一遍，收获真的很多，但是由于知识点较多，所以写一篇博客来记录。本文绝多数图片及内容参考自：https://www.zhihu.com/question/41949741但是本文不会讲一下很基础的东西，只会讲一些很扰人的东西。1.lstm初探相信你第一次学习lstm的时候，一定也是百度lstm，开始看博...

2019-03-12 21:33:06 32544 15

转载 tfidf+embedding

转自：https://blog.csdn.net/pnnngchg/article/details/86500648我们知道，tfidf和embedding都是将文本表示成包含文本信息的高维向量的方法。tfidf关注的是单词在文档中的频率，最终计算出的向量包含的信息是一种单词出现频率的tradeoff。而embedding则关注的是单词的语义。两者包含的信息不同，因此将两者结合起来表示文本是对文...

2019-03-08 22:08:29 1717

原创深究embedding层

关于embedding层，贴出一些很好的链接，以供备忘与分享。http://blog.sina.com.cn/s/blog_1450ac3c60102x79x.htmlhttps://blog.csdn.net/sjyttkl/article/details/80324656https://blog.csdn.net/jiangpeng59/article/details/77533309...

2019-03-07 20:37:21 1244

原创 keras——layers篇：Dense, Embedding, LSTM

rom keras.models import Sequentialfrom keras.layers import Dense, Embedding, LSTMembed_dim = 128lstm_out = 196batch_size = 32model = Sequential()model.add(Embedding(2000, embed_dim,input_length ...

2019-03-07 15:48:21 26180 2

原创 TF-IDF详解与应用

先看：https://www.jianshu.com/p/c7e2771eccaa但是链接中一些参数如max_df,min_df写得不够清晰。原理介绍参考：https://blog.csdn.net/longyi_java/article/details/8625122TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与...

2019-03-06 21:30:20 981 1

原创 tensorflow.keras篇

https://blog.csdn.net/qq_20989105/article/details/82760815

2019-03-01 20:26:56 236

原创 100天机器学习(100-Days-Of-ML)SVM_day13

本系列为100天机器学习学习笔记。详细请参考下方作者链接：100天机器学习github:https://github.com/MLEveryday/100-Days-Of-ML-Code/blob/master/Code/Day 13_SVM.md上面图片说实在的寥寥几个字根本说不清SVM，理论知识建议参考其他地方。下面开始一些小小的代码应用。import pandas as pdi...

2019-02-14 18:31:54 325

原创 LeetCode第四题：最长回文子串python

什么是回文串&gt;&gt;&gt;正着读反着读都一样的字符串。做题前知识点补充：from: https://www.cnblogs.com/ForXinYuanStudyPy/p/7625830.html截图来自上面链接，其中我们方法一只需要用到红框内容。本题我打算用两种方法来做，一种是比较低级的遍历搜索，一种是动态规划。但是穿插了一种从别的地方看到的方法，很容易理解，所以放上去了...

2019-02-03 11:08:10 576

原创 LeetCode第四题：寻找两个有序数组的中位数python解法

英文介绍：题目其实很简单。重点是对于时间复杂度的要求。关于这点，我会做一些分析。先看解答吧：class Solution: def findMedianSortedArrays(self, nums1, nums2): """ :type nums1: List[int] :type nums2: List[int] ...

2019-01-30 11:39:14 1587 1

LINUX命令大全

C++ 学生成绩管理

空空如也