kitty喝酸奶-CSDN博客

原创 lstm如何解决梯度消失\爆炸

RNN梯度消失的原因是，随着梯度的传导，梯度被近距离梯度主导，模型难以学习到远距离的信息。具体原因也就是∏Tk=t+1∂h(k)∂h(k−1)部分，在迭代过程中，每一步∂h(k)∂h(k−1)始终在[0,1]之间或者始终大于1。tanh的导数总是小于1 的，如果Ws也是一个大于0小于1的值，那么随着t的增大，上述公式的值越来越趋近于0，这就导致了梯度消失问题。那么如果Ws很大，上述公式会越来越趋向于无穷，这就产生了梯度爆炸.LSTM遗忘门值可以选择在[0,1]之间，让LSTM来..

2021-04-14 15:51:04 5555

原创 XGB,LGB,GBDT区别

XGB和LGB区别：1、直方图优化，对连续特征进行分桶，在损失了一定精度的情况下大大提升了运行速度，并且在gbm的框架下，基学习器的“不精确”分箱反而增强了整体的泛化性能；2、goss 树的引入；3、efb，对稀疏特征做了“捆绑”的优化功能；4、直接支持对于类别特征进行训练（实际上内部是对类别特征做了类似编码的操作了）5、树的生长方式由level-wise变成leaf-wise；XGB和GBDT的区别有哪些1、算法层面：（1）损失函数的二阶泰勒展开；（具体的二阶泰..

2021-04-14 11:21:05 2959

原创 lightgbm处理类别特征

Lightgbm可以直接支持category特征的处理，在用pandas结构使用LGB时可以指定哪一列是类别型数据，省去one-hot的步骤。如果类别过多，如商品ID，在one-hot处理后数据会变得过于稀疏，大大增加了训练集的大小，浪费计算资源。而LGB则会采用一种直方图式的方法去处理，max bin的默认值是256，对于category类型的feature，则是每一种取值放入一个bin，且当取值的个数大于max bin数时，会忽略那些很少出现的category值。在求split时，对于category

2021-04-14 10:37:28 3094

原创为什么CART可以做回归而ID3、C4.5只能做分类？

主要原因是特征分裂的评价标准不一样，cart有两种评价标准：Variance和Gini系数。而ID3（信息增益）和C4.5（信息增益率）的评价基础都是信息熵。信息熵和Gini系数是针对分类任务的指标，而Variance是针对连续值的指标因此可以用来做回归。此外，CART生成的树是二叉树，分类时的损失函数是最小化均方差，预测值等于该节点所有值的平均。参考：https://www.zhihu.com/question/299719792/answer/807545759...

2020-12-08 22:17:37 1164 1

原创 python读文件并实现wordcount

def word_count(docs): word_count={} for word in docs: word = word.strip('".():!?;,[]+') if word not in word_count.keys(): word_count[word]=1 else: word_count[word]+=1 return sorted(word_count.ite

2020-09-13 14:44:06 276

原创 python实现矩阵相乘计算矩阵的四次幂

## define the matrix multiply functiondef multiply_matrix(matrix,n): result=[] for i in range(n): rows=[] for j in range(n): column=[a[j] for a in matrix] ans=0 for m in range(n): .

2020-09-13 14:42:23 1046

原创可视化决策树（不用graphviz)

由于graphviz包需要配置环境比较麻烦，因此使用sklearn 0.21版本更新的plot_tree方法来可视化决策树。下面展示一些内联代码片。import matplotlib.pyplot as pltfrom sklearn.datasets import load_irisfrom sklearn.tree import DecisionTreeClassifierfrom sklearn import treecn=['0','1']# Setting dpi = 300

2020-08-27 18:29:39 857

原创 excel中快速填充下拉方法

众所周知，excel中拖住右下角可以在一列中自动填充公式，但是当一列数据太多，有上万条数据，下拉太慢怎么办呢？将鼠标放在单元格右下角小方块上，当鼠标变成黑色加号➕时，双击小方块，就可以快速填充一列的数据了～...

2020-07-30 18:57:30 5472 1

原创使用hue将excel中的数据导入hive表中

这种方法直接用hue，不用预先在hive中建表，非常方便1.点击左上角按钮到文件页面2.点击➕，上传自己电脑上存放数据的excel、txt、csv文件到服务器上，上传成功后可以在下方看到自己上传的文件（dau for tableau.csv）3.右键刚刚上传的文件，点击open in importer4.在name中自己想要创建的表名即可下方可以修改字段名和类型5.上传完成后直接提交，就成功将excel中的数据导入hive表了。...

2020-07-30 18:52:34 4759 1

原创二叉树的前序中序后序遍历真题

一颗二叉树的前序遍历是ABCDFGHE，后序遍历是BGHFDECA，中序遍历是？A.GHBADFCEB.DGBAFHECC.BADGFHCED.BAGDFHEC正确答案：C牛客网来源：https://www.nowcoder.com/questionTerminal/a408937129ec48edadb405eb24c31895这道题的正确答案为C，但由于只有前序、后序遍历并不能确定一棵二叉树。此题存在两种情况，如下图所示：...

2020-05-18 16:03:43 4181 3

原创 Pylucene7.6创建倒排索引

import os,sys,globimport luceneimport pandas as pdimport sys, os, lucene, threading, timefrom java.io import Filefrom java.nio.file import Pathsfrom org.apache.lucene.analysis.miscellaneous ...

2019-04-15 22:13:17 451 5

原创 mac下安装pylucene

安装jdk,javajdk1.8.0java1.6安装Apache Antbrew install ant安装后执行ant -version，出现对应版本号则安装成功配置环境变量vim ~/.bash_profile在文件中添加如下内容后重新运行shellexport JAVA_HOME=$(/usr/libexec/java_home)下载并安装pylu...

2019-04-11 23:32:26 955 3

weixin_41640828的博客