自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 lstm如何解决梯度消失\爆炸

RNN梯度消失的原因是,随着梯度的传导,梯度被近距离梯度主导,模型难以学习到远距离的信息。具体原因也就是∏Tk=t+1∂h(k)∂h(k−1)部分,在迭代过程中,每一步∂h(k)∂h(k−1)始终在[0,1]之间或者始终大于1。tanh的导数总是小于1 的, 如果Ws也是一个大于0小于1的值, 那么随着t的增大, 上述公式的值越来越趋近于0, 这就导致了梯度消失问题。 那么如果Ws很大, 上述公式会越来越趋向于无穷, 这就产生了梯度爆炸.LSTM遗忘门值可以选择在[0,1]之间,让LSTM来..

2021-04-14 15:51:04 5555

原创 XGB,LGB,GBDT区别

XGB和LGB区别:1、直方图优化,对连续特征进行分桶,在损失了一定精度的情况下大大提升了运行速度,并且在gbm的框架下,基学习器的“不精确”分箱反而增强了整体的泛化性能;2、goss 树的引入;3、efb,对稀疏特征做了“捆绑”的优化功能;4、直接支持对于类别特征进行训练(实际上内部是对类别特征做了类似编码的操作了)5、树的生长方式由level-wise变成leaf-wise;XGB和GBDT的区别有哪些1、算法层面:(1)损失函数的二阶泰勒展开;(具体的二阶泰..

2021-04-14 11:21:05 2959

原创 lightgbm处理类别特征

Lightgbm可以直接支持category特征的处理,在用pandas结构使用LGB时可以指定哪一列是类别型数据,省去one-hot的步骤。如果类别过多,如商品ID,在one-hot处理后数据会变得过于稀疏,大大增加了训练集的大小,浪费计算资源。而LGB则会采用一种直方图式的方法去处理,max bin的默认值是256,对于category类型的feature,则是每一种取值放入一个bin,且当取值的个数大于max bin数时,会忽略那些很少出现的category值。在求split时,对于category

2021-04-14 10:37:28 3094

原创 为什么CART可以做回归而ID3、C4.5只能做分类?

主要原因是特征分裂的评价标准不一样,cart有两种评价标准:Variance和Gini系数。而ID3(信息增益)和C4.5(信息增益率)的评价基础都是信息熵。信息熵和Gini系数是针对分类任务的指标,而Variance是针对连续值的指标因此可以用来做回归。此外,CART生成的树是二叉树,分类时的损失函数是最小化均方差,预测值等于该节点所有值的平均。参考:https://www.zhihu.com/question/299719792/answer/807545759...

2020-12-08 22:17:37 1164 1

原创 python读文件 并实现wordcount

def word_count(docs): word_count={} for word in docs: word = word.strip('".():!?;,[]+') if word not in word_count.keys(): word_count[word]=1 else: word_count[word]+=1 return sorted(word_count.ite

2020-09-13 14:44:06 276

原创 python实现矩阵相乘 计算矩阵的四次幂

## define the matrix multiply functiondef multiply_matrix(matrix,n): result=[] for i in range(n): rows=[] for j in range(n): column=[a[j] for a in matrix] ans=0 for m in range(n): .

2020-09-13 14:42:23 1046

原创 可视化决策树(不用graphviz)

由于graphviz包需要配置环境比较麻烦,因此使用sklearn 0.21版本更新的plot_tree方法来可视化决策树。下面展示一些 内联代码片。import matplotlib.pyplot as pltfrom sklearn.datasets import load_irisfrom sklearn.tree import DecisionTreeClassifierfrom sklearn import treecn=['0','1']# Setting dpi = 300

2020-08-27 18:29:39 857

原创 excel中快速填充下拉方法

众所周知,excel中拖住右下角可以在一列中自动填充公式,但是当一列数据太多,有上万条数据,下拉太慢怎么办呢?将鼠标放在单元格右下角小方块上,当鼠标变成黑色加号➕时,双击小方块,就可以快速填充一列的数据了~...

2020-07-30 18:57:30 5472 1

原创 使用hue将excel中的数据导入hive表中

这种方法直接用hue,不用预先在hive中建表,非常方便1.点击左上角按钮到文件页面2.点击➕,上传自己电脑上存放数据的excel、txt、csv文件到服务器上,上传成功后可以在下方看到自己上传的文件(dau for tableau.csv)3.右键刚刚上传的文件,点击open in importer4.在name中自己想要创建的表名即可下方可以修改字段名和类型5.上传完成后直接提交,就成功将excel中的数据导入hive表了。...

2020-07-30 18:52:34 4759 1

原创 二叉树的前序中序后序遍历真题

一颗二叉树的前序遍历是ABCDFGHE,后序遍历是BGHFDECA,中序遍历是?A.GHBADFCEB.DGBAFHECC.BADGFHCED.BAGDFHEC正确答案:C牛客网来源:https://www.nowcoder.com/questionTerminal/a408937129ec48edadb405eb24c31895这道题的正确答案为C,但由于只有前序、后序遍历并不能确定一棵二叉树。此题存在两种情况,如下图所示:...

2020-05-18 16:03:43 4181 3

原创 Pylucene7.6创建倒排索引

import os,sys,globimport luceneimport pandas as pdimport sys, os, lucene, threading, timefrom java.io import Filefrom java.nio.file import Pathsfrom org.apache.lucene.analysis.miscellaneous ...

2019-04-15 22:13:17 451 5

原创 mac下安装pylucene

安装jdk,javajdk1.8.0java1.6安装Apache Antbrew install ant安装后执行ant -version,出现对应版本号则安装成功配置环境变量vim ~/.bash_profile在文件中添加如下内容后重新运行shellexport JAVA_HOME=$(/usr/libexec/java_home)下载并安装pylu...

2019-04-11 23:32:26 955 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除