5 yanhe156

尚未进行身份认证

暂无相关简介

等级
TA的排名 3w+

如何计算样本权重?

LightGBM 的参数 class_weight = balanced 时, 样本权重是这样计算的 n_samples / (n_classes * np.bincount(y)) 。np.bincount() 就是统计每一种取值的数量。对某个类别的样本,权重是 n_sample / (n_classes* 该类别样本总数)。如果每个类别的数量相同,都是 n_samples / n_class...

2019-10-16 19:06:30

关于AutoML系统的思考

不说NAS,一个AutoML系统真的很难真正Auto,我自己感觉有下面几点的问题。看了一些比赛的数据集,发现很多真实的业务是非常复杂的,建模方式没有那么直接,比如19年魔镜杯,预测用户每个月的还款日期和金额,需要思考一下怎么建模,好像一般是做成当成多分类来做。不能单纯的分成回归和分类问题。比如在预测性维护中,可能是对一个时间序列做分类。时间序列和非时间序列处理起来是差很多的,需要分成两...

2019-10-11 14:35:13

NCF

这篇文章提到,深度学习在推荐系统里一般是用来抽取特征的,在协同过滤的关键环节—— user和item特征的交互上,还是要用矩阵分解,然后再对分解后得到的user和item的表征做内积。这篇文章想用一个神经网络替换掉内积。矩阵分解是常用的方法,具体是把user和item映射到同一个向量空间,用向量来表示user和item。然后向量做点积,结果越大的表示越可能发生交互(点击)。但是有时除了做内积,...

2019-09-16 11:28:00

keras 使用时的一些注意事项

训练时显示的loss和acc,是已经运行过的batch的平均loss。https://github.com/keras-team/keras/issues/10426

2019-09-15 16:35:53

GraphSAGE论文阅读笔记

论文: Inductive Representation Learning on Large GraphsMotivation大多数graph embedding框架是transductive(直推式的), 只能对一个固定的图生成embedding。这种transductive的方法不能对图中没有的新节点生成embedding。相对的,GraphSAGE是一个inductive(归纳式)框架,...

2019-07-31 14:52:26

keras fit函数的class_weight参数

参考https://datascience.stackexchange.com/questions/13490/how-to-set-class-weights-for-imbalanced-classes-in-keras注意class_weight一定是一个字典,不然虽然不会报错,但是是没有效果的,loss完全不会变。sklearn直接提供了一个函数来计算类别权重:#计算类别权...

2019-06-01 19:00:20

pytho lambda 没有参数

第一次看到这种用法,感觉很新奇。func = lambda: x**2funcfunc()报错:func = lambda: x**2x = 4print(func())x = 6print(func())lambda: x... 表示的就是一个没有参数的函数,但是有返回值的函数。...

2019-05-25 23:43:10

sklearn StratifiedKFold, KFold的shuffle参数

我一直有一个疑问,这个shuffle参数到底做了什么,会不会打乱样本的顺序,导致我想生成训练集的预测结果后,再拼接到ID上时顺序就对应不上了。shuffle = Falseimport numpy as npfrom sklearn.model_selection import KFolda = np.arange(10)kfold = KFold(n_splits=3, shuffle...

2019-05-25 11:13:16

word2vec准确率的意义

原版word2vec 提供了一个compute-accuracy的程序,用来计算准确率。 计算时用到了questions-words.txt 这个文件,这个文件内容如下所以,word2vec 计算准确率(包括gensim也是),其实是测试 一个简单的词汇类比任务的准确率。如果用其他语言的预料,或者是在推荐系统中使用word2vec,这个compute-accuracy就不适用了。当然,也可...

2019-04-16 17:32:55

库文件缺少的解决方法

很久没碰开发板了,发现一个库文件缺少的终极解决方法。参考:https://blog.csdn.net/liangtianmeng/article/details/85910585编译android7.0出现问题:error while loading shared libraries: libz.so.1: cannot open shared object file: No such fi...

2019-04-15 23:11:33

论文翻译: Adaptive implicit friends identification over heterogeneous network for social recommendation

论文: Adaptive Implicit Friends Identification over Heterogeneous Network for Social Recommendation下载链接: https://dl.acm.org/citation.cfm?id=3271725CIKM 2018

2019-04-07 23:33:21

排序学习论文阅读:EigenRank

论文 EigenRank: A Ranking-Oriented Approach to Collaborative Filtering (SIGIR 2008)Abstract传统协同过滤算法预测潜在的点击率(rating)。这篇文章提出了一种协同过滤方法结局用户偏好引发的物品排序问题:1) 通过用户间的物品排序(item ranking)来衡量相似性,而不是用rating value;...

2019-04-07 11:41:21

tqdm使用问题

用了keras发现终端中显示的不是进度条,而是一直换行打印,用了很久之后终于发现原因了…是因为ubuntu默认的终端窗口太窄了,具体原因应该是跟IO缓冲有关。解决方法是把终端窗口拉宽一点就可以了…...

2019-01-20 15:27:01

认识XML

XML是eXtensible Markup Language(可扩展标记语言)的缩写。XML的作用就是便于数据的传递,比如面向对象编程时有多个对象,每个对象有很多成员,那我们要把这些对象的信息传递给其他人应该如何做?按顺序依次写到文本文件里?这样显然不太方便阅读,而且其他人读入时也不容易区分每个对象的成员到底有哪些。XML就是提供了一种格式来更方便的传递这些信息。XML的exte...

2019-01-10 20:50:45

SpatialDropout

Dropout()和SpatialDropout1D()的区别:假设input_shape为batch_size, timesteps, features, Dropout(),Dropout()是在所有数据上dropout,SpatialDropout1D()会按对features的某几个维度进行dropout,如图:左图:Dropout(), 右图:SpatialDropout1D()...

2019-01-04 13:38:06

Keras输入变长序列

发现有些代码处理文本时直接调用keras.preprocessing.sequence.pad_sequences(maxlen),这个函数将比这个长的序列截断,比这个短的序列补零。同时后面RNN,LSTM等模型也没做任何处理,这样显然有问题,RNN发明出来就是为了避免做padding的。...

2019-01-02 15:49:10

Keras实现用于文本分类的attention机制

keras没有提高attention机制的实现,这里参考kaggle上一个kernel中的attention机制的实现。

2018-12-31 18:05:39

如何使用预训练的word embedding

https://nlp.stanford.edu/projects/glove/

2018-12-31 17:13:27

cuda入门程序

Linux上安装cuda后, cuda其实提供了很多例程, 如下图. 但是还是感觉太复杂了,所以这里总结几个简单的cuda程序.需要注意的是使用了cuda的c程序后缀名应为.cu , 同时编译器为nvcc ,如nvcc check_device.cu -o check_deviec1 查看设备在cuda安装目录下的./include/cuda_runtime_api.h中可以看到对结构...

2018-12-30 15:29:26

哈佛引用格式(Harvard referencing system)

googlescholar不能直接生成哈佛引用格式,但是可以生成APA格式的引用。然后可以对APA格式做简单修改就是哈佛格式,目前发现要修改的地方包括以下三点:有多个作者时,&修改为and作者姓氏缩写只取一个,比如Ewing,M.T.修改为Ewing,M.页码前加上pp.比如pp.13-20....

2018-12-26 20:47:20

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。