2 鸡汤本汤

尚未进行身份认证

暂无相关简介

等级
TA的排名 13w+

centos7安装docker

参考博客

2020-05-31 16:24:09

centos7使用清华镜像安装miniconda3并且创建新的环境

1、镜像下载安装包wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh如果之前没有安装过wget,则会报错如下:使用如下语句安装wgetyum install wget2、安装miniconda3bash Miniconda3-latest-Linux-x86_64.sh之后,按照指示输入一次回车,接受协议,遇到选择yes就可以,就可以安装好了3、打开

2020-05-31 00:00:49

yum安装mysql57

参考博客:博客1(安装),博客2(密码修改,以及安装好之后安装包删除)

2020-05-30 11:32:09

想要显示hadoop结点正常启动的界面

在本机浏览器输入: 192.168.52.100:50070 (也就是自己的虚拟机ip加上:50070)在本机浏览器输入:192.168.52.100:8088 (也就是自己的虚拟机ip加上:8088)当然,如果虚拟机已经更改了名字,想直接用名字也是可以的。假设我的一个虚拟机ip为192.168.52.100,如果我在虚拟机配置里将这个虚拟机取名为node01,那么我也可以通过node01:50070 或者node01:8088查看。如果这样查看不了,一般是因为没有在本机配置hosts文件。h

2020-05-23 23:09:11

论文阅读:Financial news recommendation based on graph embeddings

基于图嵌入的金融新闻推荐证券公司需要将合适的金融新闻推荐给特定用户,但现有的推荐方法在推荐金融新闻方面表现不够好。一方面,金融新闻一般包含着很多与公司和股票有关的外部知识。...

2020-05-14 22:27:12

使用filezilla将本机Windows中的文件传到虚拟机(centos)中

踩了很多坑。filezilla有服务器端和客户端两种,看到网上很多是两个都要安装,实际上,如果只是想要将自己电脑上的文件更加方便地复制到自己虚拟机系统中,只需要下载filezilla客户端就行(client)。我的本机是Windows系统,虚拟机时centos6.5。只需要在Windows系统安装filezilla就可以啦。filezilla到官网下载即可,或者我这里百度云盘有分享提取码:...

2020-04-29 19:10:34

centos6.5设置固定IP,桥接模式联网

参考博客

2020-04-27 20:25:04

推荐系统论文阅读:User Profiling based Deep Neural Network for Temporal News Recommendation

摘要:用户时序行为建模在推荐系统中是一个很重要,同时富有挑战性的任务。时序行为建模为模型求参增加了困难,同时时序数据建模意味着更大的数据量需求。本文作者提出了一个两层次的深度学习框架,首先将新闻文本表示成doc2vec词向量,然后利用这些doc2vec词向量以及用户阅读历史生成用户画像。使用用户画像以及和用户对应的大量正样本、负样本训练模型。训练好的模型在真实数据集上进行了实验,与一些优秀的bas...

2020-03-31 21:59:46

推荐系统之位置敏感的评价指标--MAP和NDCG

recall在topN推荐中,我们为用户推荐N个item,如何来评价此推荐的效果呢?比较常用的是Recall(或者hitratio)也就是计算我们正确推荐的item数量占用户总的item数量的比重。举个新闻推荐的例子,假设我们为某个用户推荐了10条新闻,假设其中有5条新闻是用户喜欢的,用户点击新闻进行了阅读,但实际上,用户这一时间段共阅读了20条新闻,所以recall=520=0.25recal...

2020-03-28 12:38:48

bagging 与boosting的联系与区别

区别:1、样本选择上。bagging使用自助采样方法每轮抽取局部数据训练基模型,boosting使用全部样本训练基模型。2、样例权重。bagging中每个样本所占的权重是一样的,boosting中开始时样本权重一样,但在每轮的训练中会减小分类正确的样本的权重,增大分类错误的样本的权重。3、模型是否并行。bagging可以并行训练模型,boosting不能并行,一个模型训练完成之后才能训练下一...

2020-03-25 10:25:05

剑指offer--从头到尾打印链表(python)

题目描述:输入一个链表,按链表从尾到头的顺序返回一个ArrayList。思路1:可以使用栈结构,从头到尾遍历链表放入栈中,根据栈先入后出的性质,可以实现将链表从尾到头返回。在python中可以用列表结构来实现栈的功能。def printListFromTailToHead(self, listNode): # write code here arrayLis...

2020-03-18 10:25:10

xgboost中用来防止过拟合的措施

1、损失函数中加入了正则化项,相当于预剪枝2、shrinkage即在迭代中为树的叶子结点乘以一个权重衰减稀疏,以削弱每棵树的影响力,为后面的树留下提升空间33、列采样,即特征采样。有按层采样和建树之前随机采样两种方式。其中按层采样是在同一层的结点进行分裂之前随机选择部分特征,对这些部分特征进行遍历,寻找最优切分点,而不用遍历全部特征。建树之前随机选择特征是在建树之前就选择部分特征,在之...

2020-03-17 23:00:56

GBDT算法原理及常见面试问题

文章目录1、介绍GBDT2、GBDT如何做特征选择3、GBDT如何构建特征4、GBDT如何做分类1、介绍GBDTGBDT是一种基于boosting集成方法的加法模型,在每一轮迭代中,产生一棵cart回归树来拟合损失函数在当前模型—也就是前t-1棵树叠加构成的模型下的负梯度值。训练过程描述如下:输入:训练数据,损失函数输出:提升树模型(1)初始化,估计使得损失函数最小化的常数值f0(x...

2020-03-17 22:16:50

决策树的预剪枝和后剪枝

为了防止决策树模型的过拟合,有预剪枝和后剪枝两种剪枝方法。预剪枝:在决策树生成的过程中,预先估计对结点进行划分能否提升决策树泛化性能。如果能提升,则对此结点进行划分,否则不划分。优点:1、使用预剪枝,决策树中很多分支未展开,可以很好的防止过拟合。2、因为是在构造决策树的过程中进行的,所以时间开销比较小。缺点:1、预剪枝是基于贪心的策略。虽然一个结点进行划分不能带来泛化性能的提升,但很...

2020-03-11 15:25:21

决策树--缺失值如何处理

参考博客参考的博客中介绍得通俗易懂,大家可以看看。决策树如何处理缺失值?也就是面对两个问题:1、如果样本某个属性有缺失值,那么怎么计算使用这个属性划分结点时的信息增益呢?2、在第一步的基础上,即使信息增益计算出来了,那么由于样本这一属性值缺失了,应该将这一样本划分到哪个子结点呢?我们分别来看一下训练集、测试集上怎么处理缺失值。训练集:对于问题1,在计算某一个属性的信息增益时,如果有的...

2020-03-11 14:29:58

机器学习原理扫盲系列(三)LR与SVM的联系与区别

联系:1、都是监督学习的分类算法2、当不考虑核函数时,LR和SVM都是线性分类模型3、都是判别模型区别:1、本质上的不同是loss的不同,也就是分类原理的不同。LR的目标是最小化模型分布与经验分布之间的交叉熵SVM的目标是最大化分类间隔2、SVM决策边界只考虑分界面附近的点,即支持向量,对异常点相对不敏感,LR考虑全体数据,对异常点敏感。3、svm不能产生概率值,LR能产生概率值...

2020-03-07 12:15:45

核函数及SVM核函数的选择

核函数:当数据非线性可分时,可将数据从低维空间映射到高维空间,使数据在高维空间线性可分,之后在优化时需要计算内积,复杂度很高。而核函数准确地说是一种核技巧,能够简便的计算内积,从而能够简便地解决非线性问题。SVM核函数的选择:吴恩达老师老师的建议:1、当样本特征数目远远大于样本数量时,特征维度已经够高,这个时候往往数据线性可分,可考虑使用线性核函数。2、当样本数量一般,样本特征维度也不高...

2020-03-06 21:48:07

机器学习原理扫盲系列(二)逻辑回归如何实现多分类?

三种方式1、假设类别有n个,则每一种类别训练一个logistic分类器每一个分类器能够区分某个类和其余的类。在进行预测的时候,使用n个分类器对样本进行预测,哪个类别的概率最大则将样本预测为这个类别。优点:普适性好,多少类别训练多少分类器,效率较好缺点:训练二分类器时,将一类样本标记为1,其余类别的所有样本标记为0,很可能会出现严重的样本不平衡问题,影响分类器的准确性。2、假设有n个类别,...

2020-03-06 18:04:02

交叉熵理解(从信息量--熵--相对熵(KL散度)到交叉熵--对数损失函数)

在机器学习中,经常用交叉熵来衡量预测值与真实值之间的差距,要想真正理解交叉熵,我们要依次了解信息量、熵、相对熵,交叉熵实际上是相对熵的一部分。不要被这些字眼吓到,实际上我们一步步看下来还是很容易理解的。文章目录1、信息量。2、熵3、相对熵(即KL散度)4、交叉熵5、单标签多分类与多标签分类中的交叉熵1、信息量。首先我们来了解信息量,有以下两个事件事件A:巴西队进入了2018世界杯决赛圈。...

2020-03-06 16:33:55

一文搞懂stacking集成方法

stacking集成方法(1)在集成学习中,将训练出的多个个体学习器(弱分类器)结合在一起的时候使用的方法叫做结合策略。(2) 个体学习器结合策略:Bagging :多个个体学习器投票(分类)或求均值(回归)boosting:多个个体学习器加权融合stacking:使用机器学习算法将个体学习器得到的结果结合在一起(3)在stacking方法中,我们把个体学习器叫做初级学习器,用于结合的...

2020-03-05 14:45:48

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。