9 人鱼线

尚未进行身份认证

我要认证

1、越努力,越幸运! 2、机会总是留给有准备的人! 3、承受别人不能承受的,才能得到别人不能得到的!

等级
TA的排名 8k+

Python魔法方法总结及注意事项

1、何为魔法方法:  Python中,一定要区分开函数和方法的含义;  1.函数:类外部定义的,跟类没有直接关系的;形式: def func(*argv):  2.方法:class内部定义的函数(对象的方法也可以认为是属性);分为两种:    ① python自动产生的(魔法方法):一般形式为 __func__(),python会在对应的时机自动调用该函数;    ② 人为自定义的方法:一般和普通函数没有区别,只是定义在了class中而已  3.方法与函数的区别:    方...

2020-05-24 19:41:46

机器学习之特征选择方法

《机器学习》将特征选择分为了三种方法:分别是过滤式(filter) 、包裹式(wrapper)和嵌入式(embedded)。下面依据sklearn中的特征选择文档来叙述特征选择的几个方法。过滤式(filter)这类方法先对数据机进行特征选择,然后再训练学习器,特征选择的过程与后续学习器无关。1.移除低方差的特征:通过计算样本在不同特征上取值的方差来对特征经过过滤。通过 sel = VarianceThreshold(threshold=(.8 * (1 - .8))) 设置一个阈值,2.

2020-05-12 09:49:16

深度学习中的多任务学习-multi-learning总结

多任务学习(Multi-task learning)的两种模式深度学习中两种多任务学习模式:隐层参数的硬共享与软共享。隐层参数硬共享,指的是多个任务之间共享网络的同几层隐藏层,只不过在网络的靠近输出部分开始分叉去做不同的任务。 隐层参数软共享,不同的任务使用不同的网络,但是不同任务的网络参数,采用距离(L1,L2)等作为约束,鼓励参数相似化。Hard 参数共享共享 Hard 参数是神经网络 MTL 最常用的方法,可以追溯到 [2]。在实际应用中,通常通过在所有任务之间共享隐藏层,同时保...

2020-05-11 17:37:04

深度学习训练时网络不收敛的原因分析总结

很多同学会发现,为什么我训练网络的时候loss一直居高不下或者准确度时高时低,震荡趋势,一会到11,一会又0.1,不收敛。 又不知如何解决,博主总结了自己训练经验和看到的一些方法。首先你要保证训练的次数够多,不要以为一百两百次就会一直loss下降或者准确率一直提高,会有一点震荡的。只要总体收敛就行。若训练次数够多(一般上千次,上万次,或者几十个epoch)没收敛,则试试下面方法:1. 数据侧:数据归一化神经网络中对数据进行归一化是不可忽略的步骤,网络能不能正常工作,还得看你有没有做归一化,一般

2020-05-09 13:05:56

python稀疏格式储存coo_matrix/csr_matrix/csc_matrix

概述在用python进行科学运算时,常常需要把一个稀疏的np.array压缩,这时候就用到scipy库中的sparse.csr_matrix(csr:Compressed Sparse Row marix) 和sparse.csc_matric(csc:Compressed Sparse Column marix)scipy.sparse.csr_matrix# 示例解读>...

2020-05-02 19:33:42

从FM推演各深度学习CTR预估模型(附代码)

Ref:链接FM 的tensorflow 实现class FM(Model): def __init__(self, input_dim=None, output_dim=1, factor_order=10, init_path=None, opt_algo='gd', learning_rate=1e-2, l2...

2020-04-27 14:50:07

评估指标汇总

Ref:https://zhuanlan.zhihu.com/p/52930683

2020-04-24 10:00:25

fasttext 与 word2vec、doc2vec 的区别

相似:图模型结构很像,都是采用embedding向量的形式,得到word的隐向量表达。 都采用很多相似的优化方法,比如使用Hierarchical softmax优化训练和预测中的打分速度。不同点:1.word2vec是一个无监督算法,而fasttext是一个有监督算法。 2.模型的输入层:word2vec的输入层是上下文单词;而fasttext 对应的...

2020-04-21 08:09:13

一台ubuntu服务器部署多台tomcat ,并实现外网访问:

一开始部署多个tomcat ,参考https://blog.csdn.net/qq839177306/article/details/78471058,发现这篇博客写的不对,,谨慎一点说就是:至少我没有成功实现. ,按照上面链接操作可能面临的问题:(1) 启动tomcat2时,发现真实启动的是tomcat1(2) 启动tomcat2时,回报Cannot find //bin/setcl...

2018-12-25 18:11:42

优化方法入门

Ref:https://blog.csdn.net/weixin_42398658/article/details/84502215https://blog.csdn.net/weixin_42398658/article/details/84525917SGD :参数=旧参数 - 学习率*梯度(1)改变梯度:动量SGD:(2)改变学习率:AdaGrad -->引入衰...

2020-02-02 09:59:14

深入理解XGBoost

Ref:深入理解XGBoost本文是在原文基础上进行修补。XGBoost原理推倒:(1)目标函数:(2)第一项泰勒展开:(3)第二项-定义树的复杂度:(4)最终的目标函数:(5)一棵树的生成细节:(5.1)首先列采样,随机选出K列特征作为划分特征;(5.2)然后这K列进行并行运算,针对每列特征将数据生序排列,保存为block结构...

2020-02-26 21:40:31

损失函数

几种常见的损失函数https://www.cnblogs.com/lliuye/p/9549881.html一. MSE: 线性回归问题log损失与交叉熵的等价性https://blog.csdn.net/google19890102/article/details/79496256二.Log loss:在二分类问题中logistic loss和交叉熵...

2020-03-18 14:18:08

DeepFM模型调参

Ref:https://tech.meituan.com/2018/06/07/searchads-dnn.html影响神经网络的超参数非常多,神经网络调参也是一件非常重要的事情。工业界比较实用的调参方法包括:网格搜索/Grid Search:这是在机器学习模型调参时最常用到的方法,对每个超参数都敲定几个要尝试的候选值,形成一个网格,把所有超参数网格中的组合遍历一下尝试效果。简单暴力,如...

2020-03-31 21:40:48

各种优化算法之间关系

Ref:https://www.zhihu.com/question/323747423/answer/790457991首先看一下下面的流程图,机器学习中常用的一个有梯度优化算法之间的关系:随机梯度下降SGD:随机采样一个样本,根据预测值和真实值得到损失,然后计算损失函数对参数的偏导数,来对参数进行更新动量法momentum:动量法在梯度下降法的基础上加入一个动量变量来控制...

2020-04-05 17:32:33

决策树模型

ID3、C4.5、CART分类树算法总结: 感觉背这些无意义。IID3:缺点:ID3 没有剪枝策略,容易过拟合; 信息增益准则对可取值数目较多的特征有所偏好,类似“编号”的特征其信息增益接近于 1; 只能用于处理离散分布的特征; 没有考虑缺失值。C4.5:采取的优化措施:采用后剪枝策略,防止过拟合 引入信息增益率作为划分标准; 将连续特征离散化, 对于缺失值的处理:将...

2020-04-05 20:45:14

聚类算法 - K-Means、二分K-Means、K-Means 、K-Means||、Canopy、Mini Batch K-Means算法

K-Means 系列:K-Means,二分K-Means,K-Means++,K-Meansll,canopy算法,MiniBatchK-Means算法。K-Means系列聚类算法原理:https://www.cnblogs.com/pinard/p/6164214.html用scikit-learn学习K-Means聚类:https://www.cnblogs.com/pinar...

2019-10-23 16:27:04

图模型-随机游走算法

文章目录推荐基本概念 PageRank PersonalRank TextRank SimRank推荐基本概念其中用户user=[A,B,C],物品item=[a,b,c,d],用户和物品有以下的关系上述便是一个典型的二分图,我们用G(V,E)来表示,其中V为用户user和物品item组成的顶点集即[A,B,C,a,b,c,d],而E则代表每一个二元组(u,i)之间对应的...

2020-04-07 14:14:58

XGBoost 和 LightGBM 对比

Ref:20道XGBoost面试题https://mp.weixin.qq.com/s?__biz=MzI1MzY0MzE4Mg==&mid=2247485159&idx=1&sn=d429aac8370ca5127e1e786995d4e8ec&chksm=e9d01626dea79f30043ab80652c4a859760c1ebc0d602e58e134...

2020-03-28 11:22:07

评估指标AUC、GAUC

AUC在机器学习算法中,很多情况我们都是把auc当成最常用的一个评价指标,而auc反映整体样本间的排序能力,但是有时候auc这个指标可能并不能完全说明问题,有可能auc并不能真正反映模型的好坏。AUC反映整体样本间的排序能力,表示正样本得分比负样本得分高的概率,对样本不区分用户地计算整体样本的AUC。线下AUC提升为什么不能带来线上效果提升? https://zhuanlan.zh...

2020-04-09 09:24:54

Dropout

1. 为什么要加Dropout?2. dropout 是在模型训练的时候进行失活,而且每轮训练失活的神经元是不固定的,随机的。3.Dropout 有哪些问题:会导致方差偏移、方差分布不一样,所以在keras 中有两个方法dropout方法 和α dropout ;α dropout 能修正方差偏移的问题4. Dropout是怎么实现的?是通过tensorfl...

2020-04-13 16:45:26

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。