5 weixin_30629977

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 6w+

LR与Sigmod函数

在使用LR时,经常用Sigmod函数来表示一个概率,为什么LR可以使用Sigmod函数呢? 首先,LR的假设只有一个,就是两个类别的特征服从均值不等、方差相等的高斯分布。为什么假设它服从高斯分布?一方面,高斯分布容易理解;另一方面,从信息论的角度看,当均值和方差已知时,高斯分布是熵最大的分布。当熵分布最大时,可以平摊风险。就如二分查找法,每次都将中间作为...

2019-09-28 08:23:00

相似度计算

很多时候,相似度可以理解为两样物体的距离,相似度计算在数据挖掘和推荐系统中有着广泛的应用场景。例如:CF协同过滤算法中,可以利用相似度计算用户之间(User-Based)或者物品之间(Item-Based)的相似度;在利用k-means进行聚类时,判断个体所属类别,可以使用相似度计算公式计算个体到簇类中心的距离;利用KNN进行分类时,也可以利用相似度计算个体与已知类别之间...

2019-09-28 07:41:00

K最近邻算法

一、原理 K最近邻算法(K-Nearest Neighbor, KNN)是最基本的分类算法,其基本原理是:从最近的K个邻居(样本)中,选择出现次数最多的类别作为判定类别。K最近邻算法可以理解为是一个分类算法,常用于标签的预测,如性别。实现KNN算法核心的一般思路:相似度计算——计算未知样本和每个训练样本的距离;排序——按照距离的递增关系排序;统计标签——...

2019-09-27 09:19:00

数据离散化与Python实现

一、原理 数据离散化(也称,数据分组),指将连续的数据进行分组,使其变为一段离散化的区间。 根据离散化过程中是否考虑类别属性,可以将离散化算法分为:有监督算法和无监督算法。事实证明,由于有监督算法充分利用了类别属性的信息,所以再分类中能获得较高的正确率。常用的数据离散化方法:等宽分组等频分组单变量分组基于信息熵分组 ...

2019-09-27 08:31:00

数据标准化与Python实现

一、原理 数据标准化(Normalization):将数据按照一定比例进行缩放,使其落入到一个特定的小区间。数据标准化的类别:Min-Max标准化Z-Score标准化(Standard Score,标准分数)小数定标(Decimal scaling)标准化均值归一化向量归一化指数转换1、Min-Max标准化 Min-...

2019-09-27 07:58:00

pclzip 解压的文件去掉文件夹

< ?PHP require_once('pclzip.lib.php'); $archive = new PclZip('archive.zip'); $v_list = $archive->add('dev/file.txt', ...

2019-09-26 15:33:00

tail 命令 没有内容输出,记录一种解决

1. 没有内容输出的命令:tail - f /test/platform/jtimer.log   控制台:2. 当切换到此文件的当前路径后才有:使用:tail - f jtimer.log   转载于:https://www.cnblogs.com/mobaids/p/11590360.html...

2019-09-26 13:18:00

注册frpc为windows服务,可在未登录用户时启动

说明:在Windows中配置启动项仅是在用户登录后运行。在登录前要启动就需要将其配置为“服务”。简介:之前介绍过如何使用frp进行端口转发和二级域名自定义,方便公司进行统一管理和监控。但在实际生产过程中,开发人员发现frpc的窗口为应用窗口,极易出现误操作而关闭应用窗口,为了解决此问题,建议将frpc注册为windows服务,方便使用。此方法使用nssm(稳定版本)工具...

2019-09-22 17:03:00

python3接口测试之webservice接口测试第三方库选择及新手问题

一、使用python3做webervice接口测试的第三方库选择suds-jurko库,可以直接pip命令直接下载,也可以在pypi官网下载压缩包进行手动安装二、安装好后,导入Client:from suds.client import Client。发送一条请求from suds.client import Clienturl = 'http://www.webxm...

2019-09-14 13:29:00

质数

质数在日常开发中应用不多,然而在算法中却经常出现,在此记录两种求质数的方法。1. 思路:按照定义,质数是只能被1和自身整除的数,只要循环判断即可。let isPrime = true // 假设是质数for (let i = 2; i < target; i++) { if(target%i==0){ isPrime = false; // ...

2019-09-12 21:12:00

IDEA 热部署

第一:settings => compiler => build project automatically .第二:CTRL + SHIFT + A,输入Registry,找到并勾选compiler.automake.allow.when.app.running,直接关闭即可第三:在项目中添加依赖<dependency> <group...

2019-09-11 12:59:00

Docker ASPNetCore https 四步教你搭建一个网站

序本教程需要有自己已经申请好的证书 ,没有证书请参照官方教程。 Docker就不多说了,咱只要知道怎么用先。环境 core:asp net core 2.2开发机:win10 LTS服务器:window server 2019 (这里应该给我一顶原谅帽) 参考:Hosting ASP.NET Core Images with Docker over HT...

2019-09-09 18:10:00

mysql5.6.0 的存储过程 与 定时器 实例

一、写mysql存储过程应注意的几点:1、声明变量(declare)时要注意字符集,用变量存储表字段时,表字段与变量的字符编码要一致。2、mysql的字符合并不能用‘+’号,必须用concat函数。3、每个游标必须使用不同的declare continue handler for not found set done=1来控制游标的结束。实例:delimiter ...

2019-09-08 21:55:00

本地windows 修改mysql 的root密码无效,论 127.0.0.1与 localhost,搞明白所有方式

先说我遇到的问题:  有个项目中使用了127.0.0.1来连接本地的数据库,现在要设置本地数据库的密码。于是通过cmd 窗口使用命令:#mysql -uroot -p // 已经知道原来是不设密码的,这里可以登录mysql>update mysql.user set password=password(‘mypassword’) where user=’root...

2019-09-08 11:11:00

centos7环境下 搭建单机版zookeeper集群

感谢博主的分享:https://www.cnblogs.com/zjiacun/p/7598294.html本文修正了博主的一些细节。第一步:下载zookeeper:wget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.14/zookeeper-3.4.14.tar.gz第二步:修改配置:解压文...

2019-09-05 21:14:00

Item协同过滤(基于Python实现)

在众多召回策略里面,基于Item与基于User(可参考:https://www.cnblogs.com/SysoCjs/p/11466424.html)在实现上非常相似。所以这里使用了跟基于User协同过滤的数据u.data。u.data数据格式(user_id, item_id, rating, timestamp)实现原理: 区别于Use...

2019-09-05 16:16:00

Spark实现TF-IDF——文本相似度计算

在Spark1.2之后,Spark自带实现TF-IDF接口,只要直接调用就可以,但实际上,Spark自带的词典大小设置较于古板,如果设置小了,则导致无法计算,如果设置大了,Driver端回收数据的时候,容易发生OOM,所以更多时候都是自己根据实际情况手动实现TF-IDF。不过,在本篇文章中,两种方式都会介绍。数据准备: val df = ss.s...

2019-09-05 16:10:00

User协同过滤(基于Spark实现)

项目地址:https://github.com/ChanKamShing/UserCF_Spark.git推荐系统的作业流程:召回/match(推荐引擎)-> 物品候选集 -> 过滤 -> 排序 -> 策略(保证结果多样性) -> 推荐list协同过滤CF属于第一阶段,我们常常称之为“推荐引擎”。“推荐引擎”可以有多个基准,包括:基于相似用户、基...

2019-09-05 15:45:00

User协同过滤(基于Python实现)

项目地址:https://github.com/ChanKamShing/UserCF_python.git推荐系统的作业流程:召回/match(推荐引擎)-> 物品候选集 -> 过滤 -> 排序 -> 策略(保证结果多样性) -> 推荐list协同过滤CF属于第一阶段,我们常常称之为“推荐引擎”。“推荐引擎”可以有多个基准,包括:基于相似用户、...

2019-09-05 15:35:00

Spark存储原理——数据写入过程

Spark数据的写入过程的入口点位doPutIterator方法。下面是一些方法的调用关系图: 在该方法中,根据数据是否缓存到内存中处理。如果不缓存到内存中,则调用BlockManager的putIterator方法直接存储到磁盘中;如果缓存到内存中,则先判断数据存储级别是否对数据进行了反序列化操作:如果设置了反序列化操作,则调用putIterato...

2019-09-05 15:25:00

查看更多

勋章 我的勋章
  • 1024超级勋章
    1024超级勋章
    授予原创文章总数达到1024篇的博主,感谢你对CSDN社区的贡献,CSDN与你一起成长。
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。