自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

三年研究生能改变多少

感谢你曾来过

  • 博客(84)
  • 资源 (2)
  • 收藏
  • 关注

原创 keras用auc做metrics以及早停

import tensorflow as tffrom sklearn.metrics import roc_auc_scoredef auroc(y_true, y_pred): return tf.py_func(roc_auc_score, (y_true, y_pred), tf.double)# Build Model...model.compile(loss='c...

2019-07-11 20:16:10 7362 2

原创 利用CNN来做NLP(textcnn)

讲到nlp,我们常用的都是lstm/gru。举个例子,因为我们总会说,因为句子经过embdding后,句子为一个三维张量,假设为:(None,20,300)。其中20为timestep,也就是一个句子的单词个数,300为embdding维度。为了更深的理解句子,剖析句子语意,我们假设接上一层lstm(num_units=128,return_sequence=True),那么输出的张量就为(No...

2019-06-24 14:33:18 1840 1

原创 关于HashVectorizer

写在前面:HashVectorizer与tfidf类似,都是讲文本向量化的表示方法,但它节省内存,也更快。当数据集较大时,可以作为tfidf的替代。from:https://www.cnblogs.com/pinard/p/6688348.html说明2:来自:https://stackoverflow.com/questions/30024122/what-is-the-differe...

2019-06-03 18:13:58 1624

原创 关于pickle的load,loads等

基础知识:python自带的file函数只能存储和读取字符串格式的数据.pickle可以存储和读取成其他格式比如list dict的数据,来自:https://www.zhihu.com/question/38355589如需更详细关于load/dump,loads/dumps参见:https://blog.csdn.net/coffee_cream/article/details...

2019-05-29 19:01:26 2376

原创 sklearn中同一个模型fit多次不同数据会如何?and增量学习

忙里偷闲~记录一些笔记。你多次fit,只会覆盖。并不会记住以前fit的数据。来自:https://stackoverflow.com/questions/49841324/what-does-calling-fit-multiple-times-on-the-same-model-do可以采用:partial_fit具体请见:https://www.cnblogs.com/zle1...

2019-05-29 18:56:58 6488 1

原创 FM与FFM

请参见:https://blog.csdn.net/ddydavie/article/details/82667890

2019-05-24 22:44:21 556

原创 今日头条2018 AI Camp笔试编程题——最小分割分数

代码:#include <iostream>using namespace std;int max_ = 0;int sum = 0;int sum_temp = 0;int count_ = 0;//n is the length of arr,m is the number of your split.int func(int* arr,int n,int m)...

2019-05-20 16:34:14 594

原创 用shap来选择特征

https://github.com/slundberg/shap

2019-05-17 12:09:38 5404

原创 关于调参

大牛们云集分享思路:https://www.kaggle.com/c/santander-customer-transaction-prediction/discussion/89320#latest-524314

2019-05-17 11:24:32 289

原创 关于target encoding与count encoding

先整理一下链接,之后会看。简介入门:https://zhuanlan.zhihu.com/p/40231966一个各种category 变量编码的库:https://github.com/scikit-learn-contrib/categorical-encoding说明文档:http://contrib.scikit-learn.org/categorical-encoding/t...

2019-05-16 20:23:53 8322

原创 关于keras.backend.clear_session()

顾名思义,clear_session就是清除一个session。而session就是tensorflow中我们常见的会话。来自:https://stackoverflow.com/questions/50895110/what-do-i-need-k-clear-session-and-del-model-for-keras-with-tensorflow-gpu简单说一下。很常见的场景就...

2019-05-14 17:30:39 17651 5

原创 神经网络高阶技巧7--早停(early stopping)与保存最佳模型

早停法这个词,其实我们并不陌生。因为在传统的机器学习中,我们就用到过。例如在一个xgboost,或者lightgbm模型中,为了防止过拟合,我们就会用:clf = lgb.train(params=param,train_set=trn_data,num_boost_round=50000,valid_sets=val_data,verbose_eval=1000,early_stopping...

2019-05-14 17:17:08 17354 2

原创 python~按位取反符

所以会有:但是:小例子:与上面的结论是对应的。参考:https://www.runoob.com/python/python-operators.html

2019-05-14 15:30:02 1711

原创 神经网络高阶技巧6--关于keras的class_weight与sample_weight

1.二者初步介绍在keras的中文官方文档中,写到:可以结合着一起看,出自:https://stackoverflow.com/questions/48315094/using-sample-weight-in-keras-for-sequence-labelling2.注意事项sample_weight会覆盖class_weight,所以二者用其一。3.几种使用class_wei...

2019-05-14 11:51:30 9476 4

原创 Jigsaw Unintended Bias in Toxicity Classification竞赛bilstm+glove embedding解法

0.写在前面0.1本文配套github:https://github.com/willinseu/kaggle-Jigsaw-Unintended-Bias-in-Toxicity-Classification-solution如果你觉得本文对你有帮助,或者有提高,请点一个star以表支持,感谢~同时与上一篇博文的github项目是对接的:https://github.com/willi...

2019-05-13 19:52:59 2737 1

原创 c++冒泡排序

#include <iostream>using namespace std;int bubblesort1(int *arr,int length){ int temp; for(int i =0;i<length;i++) { for(int j=length-1;j>=i+1;j--)//此处判断条件也可写成j&gt...

2019-05-10 16:40:56 3294

原创 神经网络高阶技巧5--关于GolbalAveragePooling与GlobalMaxPooling

最大池化(Maxpooling1D),平均池化(AveragePooling1D)是我们常见且常用的,它们的另一个版本就是加一个global了。很简单:截图来自:https://blog.csdn.net/JNingWei/article/details/80064451下面以GlobalMaxPooling与传统maxpool对比为例:参见:https://blog.csdn.net...

2019-05-10 14:12:08 2309 1

原创 神经网络高阶技巧4--关于SpatialDropout1D

参见:https://blog.csdn.net/weixin_43896398/article/details/84762943但是这里有一个疑问。文中提到了noise_shape,但是在官方文档,以及keras.layers.SpatialDropout1D()的函数说明里貌似也没有,或者说它的默认值里哪个轴为1呢?我们在jupyter lab中输入??SpatialDropout1D...

2019-05-10 11:14:37 3358

原创 如何使用glove,fasttext等词库进行word embedding?(代码篇)

建议先看:如何使用glove,fasttext等词库进行word embedding?(原理篇)再看本篇。先睹为快:本文会用到的全部代码:def get_coefs(word, *arr): return word, np.asarray(arr, dtype='float32') def load_embeddings(path): with open(path...

2019-05-09 19:50:21 1935

原创 如何使用glove,fasttext等词库进行word embedding?(原理篇)

0 序本文保证干货满满~看完本文后,你只需要一个glove或者其他已经训练好的词库,也就是一个类似txt的文件,那么你就可以把一个英文单词用一个多维(如300维向量)表示出来!并且会带入到keras中训练一条龙服务~说专业点,这就是词嵌入。在之前 ,我们使用过keras自带的embedding层进行词嵌入,效果肯定是没有glove这些好的。keras自带的词嵌入使用如下:model = S...

2019-05-07 21:27:29 5586 6

原创 神经网络高阶技巧3--对层操作之add与concatenate以及keras的summary中[0][0]的解释

本文标题较长,主要内容分为两部分。一是说明对层操作的add与concatenate方法的原理与应用。二是,在keras使用了这两个方法后,在model.summary中会出现[0][0]的层,在此作出解释。一。关于add与concatenate方法建议直接参见:https://blog.csdn.net/u012193416/article/details/79479935别人写过一遍...

2019-05-06 20:56:48 1644 1

原创 神经网络高阶技巧2--采用CuDNNLSTM,别再用LSTM了!

以后别再说自己用LSTM()了!CuDNNLSTM与LSTM都是keras.layers里的实现lstm的单元。那么二者有什么区别呢?CuDNNLSTM肯定是只能用在GPU下,但是LSTM也是可以用在GPU下的啊。所以问题是:在你拥有GPU资源的情况下(默认拥有),我应该选用哪一种呢?答案是CuDNNLSTM!1.原因:In my case, training a model with ...

2019-05-06 19:16:16 17307 5

原创 神经网络高阶技巧1--Learning Rate Scheduler

为什么突发奇想要写这么个系列呢?源于一次面试,其实很多“高阶”技巧我们都知道,但是用的多了我们习以为常,所以在面试介绍项目时不会提及这些。而你不提及的话,就会显得你很low。所以做一些笔记,让自己知道这些“高阶”技巧。标题顾名思义,就是自适应的学习率。因为我们都知道刚开始训练时,学习率可以大一点,但到后面需要慢慢减小,以防出现下图的情况。那么如何在训练时使用这种方法呢?以keras为例。...

2019-05-06 16:45:24 9078 7

原创 lightgbm可视化后的threshold和leaf_value是什么意思?

如上图,是来自一个lgb的一颗树。上面的threshold和leaf_value是什么意思呢?threshold即阈值,即根据某个feature分裂的阈值。leaf_value即未经sigmoid规格化的预测值,所以会有负值。但是经过sigmoid函数后都会被规格化0-1之间。参考:https://github.com/Microsoft/LightGBM/issues/1360中文...

2019-05-05 15:21:26 3300

原创 ligtgbm的min_sum_hessian_in_leaf参数与xgboost的min_child_weight

首先说明。二者是一回事。(应该吧)。参见lgbm的官方文档:之后参见:https://stackoverflow.com/questions/45248001/what-is-the-meaning-of-min-sum-hessian-in-leaf-in-lightgbm也有人提出了疑问。然后类似的疑问:解答在:https://stats.stackexchange.com/...

2019-04-29 16:14:03 1679 1

原创 lightbgm的gbdt模式为什么会有bagging function?

每间隔bagging_freq次迭代做一次重新采样,采样的比例则为bagging_fraction。

2019-04-29 14:41:30 697

原创 关于binary_crossentropy与categorical_crossentropy

贴出链接:https://blog.csdn.net/Julialove102123/article/details/80236180https://www.zhihu.com/question/36307214keras中的二者真正区别:https://stackoverflow.com/questions/42081257/keras-binary-crossentropy-vs-ca...

2019-04-26 17:20:21 8584

原创 python画出AUC曲线

以load_breast_cancer数据集为例,模型细节不重要,重点是画AUC的代码。直接上代码:from sklearn.datasets import load_breast_cancerfrom sklearn import metricsfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_se...

2019-04-16 22:07:40 15739 3

原创 高斯过程回归(资料整理阶段)

1.阶段1 :https://zhuanlan.zhihu.com/p/449608512.阶段2:https://zhuanlan.zhihu.com/p/29682965

2019-04-15 16:07:50 1955

原创 关于.jl.z格式文件的保存与读写(python大文件处理)

压缩存储能节省磁盘空间,但文件读写会耗费更多时间,属于用时间换空间的思路。joblib提供了直接存取numpy矩阵数据的接口。example1import joblib as jlimport numpy as npmatrix = np.zeros((10000,10000))jl.dump(matrix, 'x.jl')#非压缩存储,耗时1.34s,存储763Mjl.dump...

2019-04-11 10:09:34 1924

原创 用lstm实现nlp情感分析(roman urdu小语种为例)代码+原理详解

1 赛题描述link: https://www.kesci.com/home/competition/5c77ab9c1ce0af002b55af86/content/1本练习赛所用数据,是名为「Roman Urdu DataSet」的公开数据集。这些数据,均为文本数据。原始数据的文本,对应三类情感标签:Positive, Negative, Netural。本练习赛,移除了标签为Netu...

2019-03-13 15:28:57 14846 9

原创 lstm输出输出和参数你懂了吗

最近在做一个nlp的练习赛,把lstm重新彻底温习了一遍。把以前很多没搞懂的东西重新倒腾了一遍,收获真的很多,但是由于知识点较多,所以写一篇博客来记录。本文绝多数图片及内容参考自:https://www.zhihu.com/question/41949741但是本文不会讲一下很基础的东西,只会讲一些很扰人的东西。1.lstm初探相信你第一次学习lstm的时候,一定也是百度lstm,开始看博...

2019-03-12 21:33:06 32544 15

转载 tfidf+embedding

转自:https://blog.csdn.net/pnnngchg/article/details/86500648我们知道,tfidf和embedding都是将文本表示成包含文本信息的高维向量的方法。tfidf关注的是单词在文档中的频率,最终计算出的向量包含的信息是一种单词出现频率的tradeoff。而embedding则关注的是单词的语义。两者包含的信息不同,因此将两者结合起来表示文本是对文...

2019-03-08 22:08:29 1717

原创 深究embedding层

关于embedding层,贴出一些很好的链接,以供备忘与分享。http://blog.sina.com.cn/s/blog_1450ac3c60102x79x.htmlhttps://blog.csdn.net/sjyttkl/article/details/80324656https://blog.csdn.net/jiangpeng59/article/details/77533309...

2019-03-07 20:37:21 1244

原创 keras——layers篇:Dense, Embedding, LSTM

rom keras.models import Sequentialfrom keras.layers import Dense, Embedding, LSTMembed_dim = 128lstm_out = 196batch_size = 32model = Sequential()model.add(Embedding(2000, embed_dim,input_length ...

2019-03-07 15:48:21 26180 2

原创 TF-IDF详解与应用

先看:https://www.jianshu.com/p/c7e2771eccaa但是链接中一些参数如max_df,min_df写得不够清晰。原理介绍参考:https://blog.csdn.net/longyi_java/article/details/8625122TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与...

2019-03-06 21:30:20 981 1

原创 tensorflow.keras篇

https://blog.csdn.net/qq_20989105/article/details/82760815

2019-03-01 20:26:56 236

原创 100天机器学习(100-Days-Of-ML)SVM_day13

本系列为100天机器学习学习笔记。详细请参考下方作者链接:100天机器学习github:https://github.com/MLEveryday/100-Days-Of-ML-Code/blob/master/Code/Day 13_SVM.md上面图片说实在的寥寥几个字根本说不清SVM,理论知识建议参考其他地方。下面开始一些小小的代码应用。import pandas as pdi...

2019-02-14 18:31:54 325

原创 LeetCode第四题:最长回文子串python

什么是回文串&amp;gt;&amp;gt;&amp;gt;正着读反着读都一样的字符串。做题前知识点补充:from: https://www.cnblogs.com/ForXinYuanStudyPy/p/7625830.html截图来自上面链接,其中我们方法一只需要用到红框内容。本题我打算用两种方法来做,一种是比较低级的遍历搜索,一种是动态规划。但是穿插了一种从别的地方看到的方法,很容易理解,所以放上去了...

2019-02-03 11:08:10 576

原创 LeetCode第四题:寻找两个有序数组的中位数python解法

英文介绍:题目其实很简单。重点是对于时间复杂度的要求。关于这点,我会做一些分析。先看解答吧:class Solution: def findMedianSortedArrays(self, nums1, nums2): """ :type nums1: List[int] :type nums2: List[int] ...

2019-01-30 11:39:14 1587 1

LINUX命令大全

linux初学者常用命令 ,适用于初学者。其中包含了文件搜索,修改,系统等常用操作命令

2018-09-03

C++ 学生成绩管理

基于C++的 学生系统 期末大作业 包含头文件学生成绩的录入 输出

2015-06-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除