自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 问答 (1)
  • 收藏
  • 关注

原创 FP Tree算法原理

作为一个挖掘频繁项集的算法,Apriori算法需要多次扫描数据,I/O是很大的瓶颈。为了解决这个问题,FP Tree算法(也称FP Growth算法)采用了一些技巧,无论多少数据,只需要扫描两次数据集,因此提高了算法运行的效率。下面我们就对FP Tree算法做一个总结。1. FP Tree数据结构为了减少 I/O 次数,FP Tree算法引入了一些数据结构来临时存储数据。这个数据结构包括三...

2019-06-17 09:59:57 5770 1

原创 矩阵分解在协同过滤推荐算法中的应用以及简单的代码实现

转载出处代码出处1. 矩阵分解用于推荐算法要解决的问题在推荐系统中,常常遇到用户-物品矩阵稀疏性问题,即:有很多用户和物品,也有少部分用户对少部分物品的评分,我们希望预测目标用户对其他未评分物品的评分,进而将评分高的物品推荐给目标用户。比如下面的用户物品评分表:用户\物品物品1物品2物品3物品4物品5物品6物品7用户13-5--1-用户...

2019-06-11 17:28:25 1039

原创 Apriori算法原理总结

转载Aprior算法是常用的用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合,找出这些集合的模式有助于我们做一些决策。比如在常见的超市购物数据集,或者电商的网购数据集中,如果我们找到了频繁出现的数据集,那么对于超市,我们可以优化产品的位置摆放,对于电商,我们可以优化商品所在的仓库位置,达到节约成本,增加经济效益的目的。下面我们就对Apriori算法做一个总结。1.频繁项集...

2019-06-03 17:42:44 905

原创 局部线性嵌入 (Locally linear embedding-LLE)原理总结

局部线性嵌入(Locally Linear Embedding) 是非常重要的姜维方法。与传统的PCA,LDA等关注样本方差的降维方法相比,LLE关注降维时保持样本局部的线性特征,由于这个特性,它广泛运用于图像识别,高维数据可视化等领域。1· 流形学习概述LLE属于流形学习(Manifold Learning)的一种。流形学习是一大类基础流形的框架。数学意义上的流形比较抽象,不过我们可以认为...

2019-05-22 16:48:09 3666 1

原创 奇异值分解(SVD)原理与在降维中的应用

转载:刘建平Pinard奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SVD的。1. 回顾特征值和特征向量我们首先回顾下特征值和特征向量的定...

2019-05-19 17:02:44 224

原创 感知机学习算法的实现以及收敛性的简单证明

感知机分为原始形式和对偶形式两种,是针对二分类问题,利用分离超平面进行分类的判别模型。分类策略与方法是基于误分类的损失函数,利用梯度下降对损失函数进行极小化。感知机具有简单易于实现的特点。定义:假设输入空间(特征空间)是 χ ⊆ Rn,输出空间是y=(+1,−1)。输入χ∈X表示实例的特征向量,对应于输入空间的点;输出y∈γ表示实例的类别。由输入空间到输出空间的如下函数:称为感知机。其...

2019-04-18 11:52:33 2287

原创 Leetcode 131周赛

LeetCode 第131场 周赛5016 . 删除最外层的括号有效括号字符串为空 ("")、"(" + A + “)” 或 A + B,其中 A 和 B 都是有效的括号字符串,+ 代表字符串的连接。例如,"","()","(())()" 和 “(()(()))” 都是有效的括号字符串。如果有效字符串 S 非空,且不存在将其拆分为 S = A+B 的方法,我们称其为原语(primitive)...

2019-04-13 12:15:46 174

原创 大数据机器学习-chapter 7-决策树与随机森林

决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策树模型的特点1、模型具有可读性,分类速度快,推理过程容易理解2、决策推理过程可以表示成If Then形式3、可以认为是定义在特征空间与类空间上的条件概率分布4、推理过程完全依赖于属性变量的取值特点5、可自动判断属性变量的重要性,忽略对目标变量没有贡献的属性...

2019-04-04 11:25:11 521

原创 Leetcode 130周 周赛 题目和答案

校招小白 非科班出身 刚开始刷题 求大佬指路# 第一题 能否被5整除# 给定由若干 0 和 1 组成的数组 A。我们定义 N_i:从 A[0] 到 A[i] 的第 i 个子数组被解释为一个二进制数(从最高有效位到最低有效位)。# 返回布尔值列表 answer,只有当 N_i 可以被 5 整除时,答案 answer[i] 为 true,否则为 false。# 例一# 输入:[0,1,1]...

2019-03-31 16:44:12 548

原创 Selenium + Python + Chrome 中国大学慕课网视频爬取

准备放寒假啦,爬取一些MOOC上的课程爬回家去看。爬取的课程是北京大学的离散数学概论其实GitHub有可以直接用的程序 但是我半路出家 不怎么会用HOST请求 所以直接用selenium简单粗暴了。网页解析我用的是BeautifulSoup。思路其实很简单了,直接在课件网页里面把每一个chapter里的每一个lesson的所有unit里的视频都拿下来就可以了。所以就直接嵌套循环就OK了。...

2019-01-11 16:48:19 2011

原创 Python 如何解决'NoneType' object has no attribute '...'的问题

Python 如何解决’NoneType’ object has no attribute '…'的问题用 Python + selenium 和Beautifulsoup 爬取MOCC中国大学慕课网上某网上课程的课堂评论,在爬取少量数据时不出现标题所示错误,在爬取大量数据(运用到翻页操作)时出现 ‘NoneType’ object has no attribute ‘text’ 的错误。请...

2018-10-29 15:06:47 178134 8

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除