1只小包子-CSDN博客

原创 TensorFlow 模型保存，加载

文章目录1.问题分析1.问题分析在使用中遇到模型保存和加载问题场景如下：1.在我们训练模型的过程中，经过若干个step，或者满足某些条件（比如当前模型优于最优模型时）时，我们会在训练过程中对模型进行保存，方便之后在此基础上进行继续训练，以及模型的持久化保存2.当我们和别人一起合作时，如果别人已经训练好了一个较优的模型，我们需要在别人的模型基础上进行进行训练，涉及到模型加载问题3.当别人的...

2019-11-11 20:55:32 314

原创常用Linux命令总结

总结一下工作中常用到的Linux命令1. 统计文件中某一个字符串出现的次数在现实场景中一条item可能由多条数据组成因此简单的统计行数无法确定总体的item数量，一般情况每一个item都会使用一个Flag标识item的开始，需要统计一个文件中该Flag出现的次数，即一个文件中出现特定字符串的次数cat 文件名 | grep ‘\[dat\]’ | wc -l或者cat 文件名 |...

2019-09-26 20:10:25 221

文章目录1.计算图节点与Tensor1.计算图节点与TensorTensorFlow计算图中每一个节点都定义了一个计算，而计算的结果都通过Tensor 来保存，因此Tensor和计算图中节点对应的计算结果所对应，同时Tensor具有3个重要属性，name，dtype，shape，通过name可以唯一确定计算图上的一个Tensor，而Tensor通过dtype和shape相当于确定了一个sche...

2019-09-15 20:54:33 586

原创 2019大数据挑战赛

文章目录1.前言2.基础知识准备2.1 语义相似度度量2.2 representation based model（表示模型）和 interaction based model(交互模型)2.3 point-wise，pair-wise，list-wise 训练方式2.4 排序常用评价指标1.前言2.基础知识准备对于此次比赛，从本质上讲是计算query与title相似度，而相似度的度量方式一...

2019-08-18 23:04:32 2362

原创面试算法总结----回溯(subset i, subset ii , permutation i , permutation ii, )

subsetclass Solution { List<List<Integer>> result=new ArrayList<>(); public List<List<Integer>> subsets(int[] nums) { List<Integer> tmp=new ArrayLi...

2019-06-10 22:58:24 275

原创笔试总结----位运算

https://blog.csdn.net/xiaochunyong/article/details/7748713Java中位运算主要包括 & （与） |（或）~（非） ^ (异或） >> (左移) >>（右移） >>>(无符号右移）首先java中int的取值范围为 2的31次方减一到负的 2的32次方之间（整数最大为除符号...

2019-06-04 16:46:12 150

原创面试问题总结----GBDT&LightGBM&Xgboost

1.信息熵信息增益信息增益率基尼系数在信号中每种信号出现的可能为pi (对应到最简单的二分类为 0 出现的可能为p0,1出现的可能为p1) 我们使用-log pi 来表示这种不确定性，那么对于所有信号的不确定性很明显需要使用他们的期望来表示即 -∑pilog(pi) 称为信息熵信息增益就是选取某一特征作为树模型的分裂条件之后将原始数据分为若干部分若干部分的信息熵之和相比...

2019-04-29 11:15:24 2125

原创面试准备----深度学习

ResNet的网络结构以及 ResNet和之前的网络创新的地方ResNet为什么要使用小的卷积核反向传播的推导BN层以及DropOut层的作用

2019-04-19 12:09:30 356 1

原创面试准备---- 交叉熵，相对熵（KL散度），softmax

1.信息熵在信源中有n个独立取值的信号，每种信号出现的可能性分布为 p1,p2 ,…pn,且各个符号的出现相互独立，那么整体信源的不确定性为单个符号不确定性的统计平均值（单个信号不确定性为 log(1/p)）称为信息熵即 H(U) =E[- log( p )]=-∑ pi log(pi),当所有 pi 取值均相等即 1/N 时信息熵取到最大值上图可见当一件事情发生的概率越大的时候...

2019-04-18 18:46:31 821

原创面试总结------SVM

SVM基本思想SVM解决的是一个二分类问题，在特征空间中寻找一个最优的超平面将样本能够正确分开同时使得样本点到该超平面的距离最大函数间隔与几何间隔给定数据集T和超平面 w,b 函数间隔可以表示为 yi(wxi+b) 函数间隔可以表示分类的准确性和确信度但是成比例更改w，和b不会导致分类面变化却会导致函数间隔变化因此需要对函数间隔增加约束通过规范化函数间隔||w|| =1...

2019-04-16 15:00:12 222

原创 CTR预估系列文章------NFFM

文章目录NFFM文章解读与源码分析NFFM文章解读NFFM文章解读与源码分析NFFM文章解读首先将用户特征，媒体特征，上下文特征等全部转化为特征向量，如下所示：X=[x1,x2,… xn]其中xi表示第i个特征组（类似于FFM中field 的概念）如果第i个特征是category特征则xi 代表该category特征进行one-hot之后的特征，如果该特征是数值特征，则xi 等于...

2019-04-15 21:07:25 4127

原创面试准备------笔试中的算法题

数组中有n个正整数，每次可以选择其中一个数进行乘2或者除以2的操作（对于奇数除以2取其整数部分），求使得数组中的n个数变成相同的数的最小操作次数样例：2,4,8 输出 2（对2进行乘2操作，对8进行除以2操作）3,7,14 输出3 （对7进行除以2操作，对14进行两次除以2操作）2,3,7 输出4 (对2进行除以2操作，对3进行除以2操作，对7进行两次除以2操作)题解：该...

2019-04-14 23:07:48 396

原创面试算法总结------动态规划

动态规划动态规划中最重要的两点就是 1.确定状态的定义，即将一个问题准确的定义为某一个状态方程 2.确定状态转移方程的定义即将上述定义的状态方程与其之前的状态进行关联 3.将状态转移过程中的中间变量进行保存避免多次重复运算1. 0,1背包问题给定一个容量为C的背包，给定需要在背包中装填的物体的质量 w，以及物体的价值v ，使得装填的物体在不超过背包容积的情况下得到的物体价值最大0...

2019-04-11 15:40:57 666

原创面试总结------回溯问题

回溯问题作为面试算法中经典问题之一，同时也是很容易总结出一套固定解题模板的算法类别，这里使用Leetcode中top-100 liked 为例，并尝试在解题过程中总结出对应的解题思路和解题模板重点：1.对于回溯问题最重要的一点就是在 foward—>backtrack 这一过程状态的变化例如从一个状态i 向前进行若干操作之后回溯到状态i 此时要把对应的其他改变的值恢复到状态i2.对于...

2019-02-25 22:43:21 433

原创面试准备------动态规划问题

动态规划1. Coin Change问题：输入一组硬币值以及需要兑换的总数输出可兑换的最少硬币数量不可兑换输出-1示例：Input: coins = [1, 2, 5], amount = 11Output: 3 Explanation: 11 = 5 + 5 + 1解析：构造一个dp数组长度为amount+1 每个位置上存放当前amount 能够兑换的最少的硬币数量...

2019-02-19 14:47:36 784

原创面试准备------LR模型

logistics regression首先明确参数模型和非参数模型的概念：在参数模型中通常假设总体服从某一分布，这些分布由某些参数所决定（例如正态分布由均值和方差所决定），在此基础上构建的模型称为参数模型Logistics Regression 便是一个参数模型，假设总体服从伯努利分布，通过极大似然的方法利用梯度下降求得参数，得到的二值分类模型。对于线性回归模型我们通过&amp;amp;lt;...

2019-02-18 20:50:32 994

原创机器学习技法实现------决策树

写在前面决策树博客ID3 实现因为决策树的创建是递归的形式所以整个创建过程符合传统递归算法的套路即递归返回条件递归切分条件递归过程首先递归返回条件：当输入训练样本的label完全属于同一类时返回树的叶子节点，返回值为该类别值当输入样本的特征均已被遍历过一次（每次生成树的时候选取一个信息增益最大的特征按照该特征不同取值将训练样本分为不同是subsamples，每遍历一...

2019-01-22 21:44:33 203

原创机器学习技法------Blending and Bagging

Blending在训练样本中学习得到若干个gtG= 1/T ∑ t gt则：此时是对于一个样本x 如果是对于所有的样本那么就变成了avg（Eout(gt)）= avg(ε(gt-G)2)+Eout(G)此时可以看做Eout(G) 代表多个g和真正分布之间的差距叫做bias而 gt 和G之间的差距称作 variance对于回归问题而言 blending for regres...

2019-01-08 10:02:35 332

原创 CTR预估中模型设计

KL散度与交叉熵定义 log（1/p）为香农信息量定义熵为香农信息量的期望即E(pi)=∑ipilog(1/pi)我们都知道在机器学习中我们要做的就是通过目标函数拟合数据真实分布定义数据的真实分布为p ，我们的目标函数拟合的数据分布为q举例说明：若包含四个字母（A,B,C,D）的数据集中其真实分布为（1/2，1/2，0,0）通过计算E(pi)=1/2log2+1/2log2...

2019-01-07 20:49:08 397

原创机器学习技法------Kernel Logistics Regression

从Soft margin 出发对于soft margin 而言和 hard margin唯一的不同就是增加了一个 ζ，而ζ代表的是 margin violation （即违反margin的大小）也就是说对于support vector而言违反的margin大小就是当前点的位置到原始边界的距离，如下图黑线所示因此对于ζ 存在两种可能：有违反margin的情况出现： ζ=1-yn(wx...

2018-12-27 08:42:57 363

原创机器学习技法-------作业一

[Ref]REF2(https://tulongf.github.io/2017/01/17/机器学习技法Homework1/)对于原始的soft margin svm目标函数为∑w,b,ζ 1/2 ||w|| 2+∑i ζi 其中w 为d个 ζ为N个 b为一个因此总共 N+d+1 个变量将各个点代入到转换函数中求得z空间数据分布如下所以选z1=4.5常用的核函数有如...

2018-12-24 23:35:05 1190

原创 Pytorch训练常用方法总结

文章目录写在前面训练过程可视化Pytorch中自动求导和反向传播pytorch中钩子的使用保存中间变量写在前面该篇博客用来记录深度学习训练过程中的小trick 以及常用的容易犯错的内容持续更新训练过程可视化TensorBoardX 记录训练过程以及训练过程的分析Pytorch中自动求导和反向传播1.生成tensor torch.tensor由于在pytorch 0.4.0 版本...

2018-12-19 08:53:59 4124 2

原创 SVM与核函数

文章目录核函数本质核技巧核函数核函数核函数本质1.在实际数据上经常遇到线性不可分的情况而解决方法是将特征映射到更高维的空间去(为什么低维度线性不可分的情况映射到高维度就可以分了？).2.凡是遇到线性不可分的情况一律映射到高维度空间会出现维度爆炸的情况3.核函数虽然也是将特征进行从低维到高维的转化但是是在低维上进行计算而实际的效果表现在高维上解决了维度爆炸的问题核技巧给定...

2018-12-17 23:28:34 23561 2

原创大数问题总结

文章目录概念明晰问题一：假设在32位机器上，请在2亿个随机的、未经排序的32位整型数字中找出中间值概念明晰8 bit = 1 byte(字节)1024 byte=210 byte=1kb1024 kb =210 kb=1Mb1024 Mb =210Mb=1Gb问题一：假设在32位机器上，请在2亿个随机的、未经排序的32位整型数字中找出中间值在32 位的机器上 32位整型数字所占的...

2018-12-16 23:35:40 316

原创机器学习技法------对偶SVM

文章目录SVM对偶问题SVM对偶问题原始SVM问题如下最小化一个具有n个条件限制的公式其中zn是xn的非线性转化定义拉格朗日函数证明拉格朗日函数和原来具有限制的最小化问题是等值的此时SVM转化为当给定一个b和w 求解 L(b,w,α)的最大值之后在所有给定的b，w中选择一组使得所有的L(b,w,α)中最小的一个为了证明写成一个没有限制的SVM的形式也是和有限制的形式是...

2018-12-04 23:00:59 553

原创机器学习技法------SVM

文章目录Large Margain Separating HyperplaneLarge Margain Separating Hyperplane该节课的重点就是推导出 hard margin 的Linear SVM对于线性分类器而言例如感知机模型如果测试数据和训练数据分布完全一致那么上述三个分类器对于分类结果不会产生区别但是在实际使用的过程中难免会有误差的存在因此对于误差的容...

2018-12-03 22:42:56 194

原创 GBDT，LightGBM

GBDT添加链接描述GB:Gradient Boost 学习策略DT:Decision Tree 决策树模型GBDT：使用Gradient Boost 训练决策树模型结果：一组回归分类树的组合（CART Ensemble ） T1,T2,T3 …其中Ti 学习的是T i-1 的残差此时需要解决两个问题：1.残差是如何计算的2.一组回归分类树是如何ensemble的Gradi...

2018-12-03 14:22:18 819

原创数据挖掘比赛常用数据处理函数

文章目录写在前面1.pandas apply applymap map 的使用写在前面该篇博客用来记录数据挖掘比赛中常用的pandas 处理技巧实时更新1.pandas apply applymap map 的使用apply表示沿着dataFrame某一个轴执行函数默认axies=0 即对每一列的所有行进行某一运算如果axies=1 则对每一行的所有列进行某一运算例：In [...

2018-12-02 22:50:07 1003

原创 EDA技术总结

直方图

2018-12-02 15:45:36 3859

原创机器学习基石------Three Learing Principes

简单的hypothesis 和简单的model对于单一hypothesis 而言参数越少越简单对于hypothesis set 而言 hypothesis 数量越少越简单二者之间存在联系当有效的hypothesis 越少的时候可想而言每一个不同的hypothesis 都是因为若干个参数不同而造成因此相应的 hypothesis 也会很简单因为用简单的模型如果资料充满噪声那么...

2018-11-30 22:18:11 102

原创机器学习基石------validation

核心目的：如何选择一个Eout最小的模型可能的选择方式：1.选择一个Ein最小的模型问题：对于越复杂的模型模型的拟合能力就越强如果单单把Ein作为选择的评判标准那么相对于复杂模型简单模型永远不会被选到；同时这样不加正则一定会比正则好因为不加正则就是单纯最小化 Ein 会overgitting转化思路不使用Ein 而是使用Evalidation此时最重要的是validation...

2018-11-30 21:38:17 356

原创机器学习基石 ------正则化

正则化对于有限多个训练样本（可以把他们想象成二维空间中的点），能够拟合这有限多个训练样本的函数非常多，如何在这些能够拟合当前有限多个训练样本的目标函数中寻找一个能够较好拟合目标分布的函数我们可以看到穿过data的函数可以有很多种有的比较简单有的略微复杂对于线性回归而言高次的线性回归的hypothesis set 包含低次线性回归的hypothesis set其实低次的线性回归函数...

2018-11-30 19:19:25 375

原创机器学习基石------Hazard of Overfitting

对于需要拟合的数据(x1,x2,x3…) 我们可以使用一个多项式取拟合这些数据如果这些数据分布 f(x) 为二次函数当我们使用一个好的VC dimension 即和原始分布相似的VC dimension 那么我们可以较好的拟合原始数据分别当我们选择的VC dimension较大的时候我们同样也可以很好的fit训练数据但是由于模型过于复杂可能只是在给定的数据点处较好的拟合数据泛化能力...

2018-11-28 22:30:25 178

原创机器学习基石------NonLinearTransformation

Nonlinear TransformationQuadratic HypothesesNonLinear TransformPrice of NonLinear TransformStructed Hypothesis setsQuadratic Hypotheses将线性分类转化为非线性分类最主要的一点是特征空间的转化以上图中圆圈分类为例将x空间转化为z空间在z空间中进行...

2018-11-23 08:27:29 184

原创机器学习基石------Linear Model for Classification

机器学习基石------Linear Model for ClassificationLinear Model for Binary ClassificationStochastic Gradient DescentMulticlass via Logistic RegressionMulticlass via Linear RegressionLinear Model for Bin...

2018-11-22 21:14:57 335

原创 EDA 中常用函数总结----以科大讯飞营销算法大赛为例

pandas1.read_table和read_csv主要使用pandas中read_table 和read_csv 对数据进行读取二者唯一的区别就是默认的分割符不同 read_table 默认使用tab 作为分割符 read_csv 默认使用逗号作为分割2.缺失项处理统计NAN数量 dataframe.count() 可以获得每一列中非NaN数量通过 dataframe....

2018-11-22 18:36:45 1868

原创机器学习基石-------Linear Regression and Logistics Regression

机器学习基石 -------线性回归和逻辑回归Linear Regression AlgorithmGeneralization issue Linear Regression for Binary classification Linear Regression Algorithm对于X 是一个Nd+1 的矩阵 y是一个N1 的向量现在我们要做的就是最小化 Ein(w)...

2018-11-21 08:45:59 394

原创机器学习基石------Theory of Generalization

机器学习基石 ------ Theory of GeneralizationRestriction of break point Bounding Function :Basic Cases Bounding Function:Inductive A Pictorial Proof bounding function B(N,k):成长函数 mH(N) 这个成长函数的brea...

2018-11-14 08:19:30 268

原创 AI Challenger 2018 农作物病害细粒度分类-----Pytorch 深度学习实战

AI Challenger 2018 农作物病害细粒度分类比赛地址数据集地址密码： 4ac21 前言2 代码组织结构3 完整流程解析&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;nbsp;&amp;amp;amp

2018-11-12 15:51:42 21419 42

原创机器学习基石------Training versus Testing

机器学习基石 ------Training Versus TestingRecap and PreviewEffective number of lines Effective number of hypotheses Break pointRecap and Preview

2018-11-12 09:12:47 271

windows开发

C#程序开发宝典 经典代码

空空如也

C#程序开发宝典经典代码