自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 收藏
  • 关注

原创 item2Vector

简介最早看到Item2vec是微软研究院的Neural Item Embedding for Collaborative Filtering,发表于2016年ICML。本文主要是对这篇论文做一些介绍,Item2vec主要思想是借鉴了Word2Vec,并且采用SGNS(Skip-gram + Negative Sampling,思想是用中心词预测周围的词)的方法来生成物品向量,最后只需要计算当前浏览的物品与其它物品的向量相似度,从而找到相似物品。一般像电商网站的“看了也看”、“买了也买”、“相似物品”模块

2022-01-04 20:55:12 583

原创 机器学习模型相关

1、过拟合欠拟合判断1、过拟合:指算法模型在训练集上的性能非常好,但是泛化能力很差,泛化误差很大,即在测试集上的效果却很糟糕的情况。过拟合的原因:将训练样本本身的一些特点当作了所有潜在样本都具有的一般性质,这会造成泛化能力下降;另一个原因是模型可能学到训练集中的噪声,并基于噪声进行了预测; 过拟合无法避免,只能缓解。因为机器学习的问题通常是 NP 难甚至更难的,而有效的学习算法必然是在多项式时间内运行完成。如果可以避免过拟合,这就意味着构造性的证明了P=NP。2、欠拟合:模型的性能非常差,..

2021-10-10 11:05:28 425

原创 xgboost问题整理

哈哈哈哈哈哈哈

2021-09-20 14:47:31 1272

原创 LR面试总结

简介逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,基于此实现分类。简单的可以概括为:逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。其中隐含了以下几个方面1:逻辑回归的假设2:逻辑回归的损失函数3:逻辑回归的求解方法4:逻辑回归的目的5:逻辑回归如何分类逻辑回归的基本假设任何的模型都是有自己的假设,在这个假设下模型才是适用的。逻辑回归的第一个基本假设是假设数

2021-09-08 16:49:23 223

原创 Product-based Neural Networks

Product-based Neural Networks

2020-09-20 21:36:01 546

原创 机器学习中的数据清洗与特征处理综述

1、采样:分类问题:选取正例,负例,比例确定。 回归问题:评测样本的大致分布,根据目标制定采样规则;采样的方法包括随机采样,固定比例采样等方法2、数据清洗结合业务情况进行数据的过滤 去除crawler抓取,spam,作弊等数据3、特征分类根据不同的分类方法,可以将特征分为(1)Low level特征和High level特征。(2)稳定特征与动态特征。(3)二值特征、连续特征、枚举特征。Low level特征是较低级别的特征,主要是原始特征,不需要或者需要非常少的人工处理和干预,例如文

2020-09-12 19:12:12 701

原创 安装pip最新版 20.1

You are using pip version 19.3.1; however, version 20.1 is available.看了很多帖子各种试水不成功,多方尝试终于成功官网下载了一份whl文件(官网地址:https://pypi.org/project/pip/#files) 保存到自己的目录下 pip install pip-20.1-py2.py3-none-any.whl --user whl文件地址 链接: https://pan.baidu.com/s/1...

2020-05-13 23:14:58 5100 2

原创 Pool实现多进程并行

Pool 模块来自于 multiprocessing 模块。 multiprocessing 模块是跨平台版本的多进程模块,像线程一样管理进程,与 threading 很相似,对多核CPU的利用率会比 threading 好的多。Pool 类可以提供指定数量的进程供用户调用,当有新的请求提交到Pool中时,如果池还没有满,就会创建一个新的进程来执行请求。如果池满,请求就会告知先等待,直到池...

2020-04-28 23:33:14 780

原创 Elasticsearch——概念

集群(cluster) 一个集群就是由一个或多个节点组织在一起,它们共同持有你整个的数据,并一起提供索引和搜索功能。一个集群由一个唯一的名字标识,这个名字默认就是“elasticsearch”。这个名字是重要的,因为一个节点只能通过指定某个集群的名字,来加入这个集群。在产品环境中显式地设定这个名字是一个好习惯,但是使用默认值来进行测试/开发也是不错的。节点(node) ...

2020-04-10 11:23:07 99

原创 lucene与ElasticSearch

LuceneLucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。 目前已经有很多应用程序的搜索功能是基于 Lucene 的,比如 Eclipse 的帮助系统的搜索功能。Lucene 能够为文本...

2020-04-09 10:54:41 711

原创 LR 和 SVM 的区别与联系

LR 和 SVM 的区别与联系LR 和 SVM 的区别与联系联系不同点LR 和 SVM 的选择SVM 的 kernel 一般怎么选择?联系 都是分类算法 在很大一部分人眼里,LR是回归算法。我是非常不赞同这一点的,因为我认为判断一个算法是分类还是回归算法的唯一标准就是样本label的类型,如果label是离散的,就是分类算法,如果label是连续的,就是回归算...

2020-03-22 12:31:09 207

原创 GBDT

GBDT 的全称是 Gradient Boosting Decision Tree,梯度提升树,是GB(梯度提升)+DT(决策树),在传统机器学习算法中,GBDT算的上TOP3的算法。想要理解GBDT的真正意义,那就必须理解GBDT中的Gradient Boosting 和Decision Tree分别是什么?目录1. Decision Tree:CART回归树2. Gradie...

2020-03-22 12:16:48 353

原创 Xgboost

首先说下决策树 决策树是啥? 举个例子,有一堆人,我让你分出男女,你依靠头发长短将人群分为两拨,长发的为“女”,短发为“男”,你是不是依靠一个指标“头发长短”将人群进行了划分,你就形成了一个简单的决策树,官方细节版本自行baidu或google 划分的依据是啥? 这个时候,你肯定问,为什么用“头发长短”划分啊,我可不可以用“穿的鞋子是否是高跟鞋”,“有没有喉结”等等这些来划...

2020-03-18 11:33:54 259

原创 SVM总结

1、whatSVM是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化。或者简单的可以理解为就是在高维空间中寻找一个合理的超平面将数据点分隔开来,其中涉及到非线性数据到高维的映射以达到数据线性可分的目的。2、SVM 基本概念将实例的特征向量(以二维为例)映射为空间中的一些点,就是如下图的实心点和空心点,它们属于不同的两类。那么 SV...

2020-03-16 18:28:19 740

原创 逻辑回归(LR)

1. LR的直观表述1.1 直观表述  今天我们来深入了解一个工业界应用最多,虽然思想简单但也遮挡不住它NB光芒的绽放的一个分类预测模型,它就是LR模型。LR模型可以被认为就是一个被Sigmoid函数(logistic方程)所归一化后的线性回归模型!为啥这么说呢?我们来看一下它的假设函数的样子:    首先来解释一下的表示的是啥?它表示的就是将因变量预测成1(阳性)的概率,具体来说...

2020-03-15 14:17:17 563

原创 Word2Vec

word2vector,顾名思义,就是将语料库中的词转化成向量,以便后续在词向量的基础上进行各种计算。why?机器学习任务需要把任何输入量化成数值表示,然后通过充分利用计算机的计算能力,计算得出最终想要的结果。在word2vec出现之前,自然语言处理经常把字词转为离散的单独的符号,也就是One-Hot Encoder。one-hot一种最简单的词向量方式是 one-hot represen...

2020-03-15 13:43:41 218

原创 逻辑回归

1. LR的直观表述1.1 直观表述  今天我们来深入了解一个工业界应用最多,虽然思想简单但也遮挡不住它NB光芒的绽放的一个分类预测模型,它就是LR模型。LR模型可以被认为就是一个被Sigmoid函数(logistic方程)所归一化后的线性回归模型!为啥这么说呢?我们来看一下它的假设函数的样子:    首先来解释一下的表示的是啥?它表示的就是将因变量预测成1(阳性)的概率,具体来说...

2020-03-05 09:44:49 239

原创 linux文件与目录管理

Linux目录结构为树状结构,最顶级为‘/’ .,其他目录挂载到树中,先了解一下绝对路径和相对路径:  >>绝对路径: 由根目录 / 写起,如:/data/hosts  >>相对路径: cd ../man --不从根目录开始目录操作常用命令:目录下所有子目录和文件 : ls 当前所在目录 : pwd 切换目录 :cd /...

2019-11-17 12:02:36 89

原创 linux文件权限与目录配置

Linux的每个文件中,可分别给予使用者、群组与其他人三种身份个别的 rwx 权限;更改文件的群组支持可用chgrp,修改文件的拥有者可用chown,修改文件的权限可用chmod;chmod修改权限的方法有两种,分别是符号法与数字法,数字法中r,w,x分数为4,2,1; 利用ls -l显示的文件属性中,第一个字段是文件的权限,共有十个位,第一个位是文件类型, 接下来三个为一组共三组,为使用者、...

2019-11-13 20:07:49 115

原创 XGB for Rank

常规参数  XGBoost全名叫(eXtreme Gradient Boosting)极端梯度提升,经常被用在一些比赛中,其效果显著。它是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包。XGBoost 所应用的算法就是 GBDT(gradient boosting decision tree)的改进,既可以用于分类也可以用于回归问题中。  1...

2019-11-13 17:22:12 613

转载 nlp总体框架

https://blog.csdn.net/valada/article/details/80892583获取语料语料,即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。所以,人们简单地用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。我们把一个文本集合称为语料库(Corpus),当有几个这样的文本集合的时候,我们称之为语料库集合(Corpora)...

2019-05-18 08:42:20 699

原创 nlp资料总结

学习路线 https://blog.csdn.net/asialee_bird/article/details/85702874 学习资源 https://blog.csdn.net/weixin_44356285/article/details/86004347 https://blog.csdn.net/u013510838/article/deta...

2019-05-17 21:09:45 331

原创 中文分词技术——字符串匹配的方法

中文分词,即 Chinese Word Segmentation,即将一个汉字序列进行切分,得到一个个单独的词。基于规则的分词方法这种方法又叫作机械分词方法、基于字典的分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串,则匹配成功。该方法有三个要素,即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描...

2019-05-17 15:34:21 3299 1

转载 hanlp

maven方式https://www.cnblogs.com/shaosks/p/8317611.htmlhttps://github.com/hankcs/HanLPhanlphttps://gitee.com/micdp/hanlp

2019-05-17 11:29:41 732

转载 Git使用教程,最详细,最傻瓜,最浅显,真正手把手教

https://blog.csdn.net/qq_36150631/article/details/81038485

2019-05-04 20:43:48 107

原创 c/c++命名空间

C++名字空间/C++命名空间 0、序言名字空间是C++提供的一种解决符号名字冲突的方法。一个命令空间是一个作用域,在不同名字空间中命名相同的符号代表不同的实体。通常,利用定义名字空间的办法,可以使模块划分更加方便,减少模块间的相互影响。 1、名字空间的成员定义在名字空间中的实体称为名字空间的成员。名字空间内的名字可以被该名字空间内的其他成员直接访问,名字空间外的代...

2018-09-04 08:02:14 768

转载 PCA

http://www.cnblogs.com/pinard/p/6239403.htmlhttp://www.cnblogs.com/pinard/p/6239403.html

2018-08-22 11:15:14 90

转载 平衡二叉树

平衡二叉树,是一种二叉排序树,其中每个结点的左子树和右子树的高度差至多等于1。它是一种高度平衡的二叉排序树。高度平衡?意思是说,要么它是一棵空树,要么它的左子树和右子树都是平衡二叉树,且左子树和右子树的深度之差的绝对值不超过1。    将二叉树上结点的左子树深度减去右子树深度的值称为平衡因子BF,那么平衡二叉树上的所有结点的平衡因子只可能是-1、0和1。只要二叉树上有一个结点的平衡因子的绝对值...

2018-08-18 09:19:35 3127 1

原创 常用的图像空间

常用的图像空间。颜色空间也称彩色模型(又称彩色空间或彩色系统)它的用途是在某些标准下用通常可接受的方式对彩色加以说明。颜色空间有许多种,常用有RGB,CMY,HSV,HSI等。RGB颜色空间 :在计算机技术中使用最广泛的颜色空间是RGB颜色空间,它是一种与人的视觉系统结构密切相关的模型。根据人眼睛的结构,所有的颜色都可以看成三个基本颜色-红色(red)、绿色(green)和蓝色(blue)的...

2018-08-16 16:33:51 6411

原创 传值,传指针和传引用区别和联系

传值,传指针和传引用区别和联系其实,不用分为三类,只有两类即可。传值和传引用。为什么会出现传地址(即传指针)呢?本质就是大家一致对传值和传地址概念的理解错误导致,也是对指针的概念的理解错误导致。指针:指针就是一个变量,如果非要说是一个特殊的变量也不为过,因为指针的初始化和解引用等不同的操作方式而已。就内存的分布来说,指针和一个变量在内存中存放是没有任何区别的,无非指针存放的是变量的地址。...

2018-08-16 15:25:30 338

原创 指针和引用

相同点它们都是地址的概念,其中指针指向一块内存,它的内容是所指内存的地址;而引用是某块内存的别名,具体来说,指针是一个变量的地址,引用是一个变量的别名。引用和指针有什么区别?本质:引用是别名,指针是地址,具体的:指针是一个实体,而引用仅是个别名。程序为指针变量分配内存区域,而不为引用分配内存区域,因为引用声明时必须初始化,从而指向一个已经存在的对象。 指针在运行时可以改变其所指向...

2018-08-16 10:54:08 85

原创 static关键字

static小结:隐藏:当同时编译多个文件时,所有未加static前缀的全局变量和函数都具有全局可见性。static可以用作函数和变量的前缀,对于函数来讲,static的作用仅限于隐藏. static的第二个作用是保持变量内容的持久:存储在静态数据区的变量会在程序刚开始运行时就完成初始化,也是唯一的一次初始化。共有两种变量存储在静态存储区:全局变量和static变量,只不过和全局变量比起来,...

2018-08-16 09:43:04 147

原创 C++中malloc / free 与C中 new / delete

1、malloc与free是C++/C语言的标准库函数,new/delete是C++的运算符。它们都可用于申请动态内存和释放内存。2、对于非内部数据对象来说,只使用malloc是无法完成动态对象要求的,一般在创建对象时需要调用构造函数,对象消亡时,自动的调用析构函数。而malloc free是库函数而不是运算符,不在编译器控制范围之内,不能够自动调用构造函数和析构函数。而NEW在为对象申请分配...

2018-08-16 08:44:29 141

原创 图像特征

1.表示图像的特征有哪些?图像特征主要有图像的颜色特征、纹理特征、形状特征和空间关系特征。颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质。 由于颜色对图像或图像区域的方向、大小等变化不敏感,所以颜色特征不能很好地捕捉图像中对象的局部特征。颜色直方图是最常用的表达颜色特征的方法, 其优点是不受图像旋转和平移变化的影响,进一步借助归一化还可不受图像尺度变化的影响,特别适用...

2018-08-15 22:07:24 3385

原创 const关键字用法

一.定义常量(1)const修饰变量 int const a=5; const int a=5; 这两种定义方法是一样的,都是不希望a的值发生改变(2)const修饰指针1.指针是常量不可变char * const p;2.指针指向的内容不可变 char const *p; const char *p; 3.指针与指向的内容都不可变...

2018-08-15 10:36:38 278

原创 C VS C++

 c语言是结构化模块化的语言,是面向过程的程序设计。c++既可以面向过程,也可以面向对象的程序设计(增加了面向对象机制)。c语言的头文件都有.h后缀名,c++中用户自己编制的头文件带.h,系统提供的头文件无后缀名,c++兼容c的头文件。c语言的结构体struct只能包含数据成员,c++的类可以包含数据成员和成员函数。c++中使用using namespace作为命名空间,当含有系统头文件时必须...

2018-08-08 09:48:24 1028

转载 Caffe官方教程中译本+caffe网络模型各层详解(中文版)pdf

https://blog.csdn.net/qq_16234613/article/details/80100946

2018-07-13 08:48:51 835

转载 使用Caffe对图像做训练、分类的流程总结

http://www.voidcn.com/article/p-nigpneqn-bac.html

2018-07-13 08:46:48 289

转载 新手使用caffe

https://www.jianshu.com/p/a76c18a3c6d5

2018-07-13 08:44:21 234

转载 测试

https://www.cnblogs.com/gatherstars/p/6084696.htmlhttps://blog.csdn.net/u010159842/article/details/53082003

2018-06-25 15:09:27 88

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除