Siven_L-CSDN博客

原创 FP Tree算法原理

作为一个挖掘频繁项集的算法，Apriori算法需要多次扫描数据，I/O是很大的瓶颈。为了解决这个问题，FP Tree算法（也称FP Growth算法）采用了一些技巧，无论多少数据，只需要扫描两次数据集，因此提高了算法运行的效率。下面我们就对FP Tree算法做一个总结。1. FP Tree数据结构为了减少 I/O 次数，FP Tree算法引入了一些数据结构来临时存储数据。这个数据结构包括三...

2019-06-17 09:59:57 5770 1

原创矩阵分解在协同过滤推荐算法中的应用以及简单的代码实现

转载出处代码出处1. 矩阵分解用于推荐算法要解决的问题在推荐系统中，常常遇到用户-物品矩阵稀疏性问题，即：有很多用户和物品，也有少部分用户对少部分物品的评分，我们希望预测目标用户对其他未评分物品的评分，进而将评分高的物品推荐给目标用户。比如下面的用户物品评分表：用户\物品物品1物品2物品3物品4物品5物品6物品7用户13-5--1-用户...

2019-06-11 17:28:25 1039

原创 Apriori算法原理总结

转载Aprior算法是常用的用于挖掘出数据关联规则的算法，它用来找出数据值中频繁出现的数据集合，找出这些集合的模式有助于我们做一些决策。比如在常见的超市购物数据集，或者电商的网购数据集中，如果我们找到了频繁出现的数据集，那么对于超市，我们可以优化产品的位置摆放，对于电商，我们可以优化商品所在的仓库位置，达到节约成本，增加经济效益的目的。下面我们就对Apriori算法做一个总结。1.频繁项集...

2019-06-03 17:42:44 905

原创局部线性嵌入 (Locally linear embedding-LLE)原理总结

局部线性嵌入(Locally Linear Embedding) 是非常重要的姜维方法。与传统的PCA，LDA等关注样本方差的降维方法相比，LLE关注降维时保持样本局部的线性特征，由于这个特性，它广泛运用于图像识别，高维数据可视化等领域。1· 流形学习概述LLE属于流形学习(Manifold Learning)的一种。流形学习是一大类基础流形的框架。数学意义上的流形比较抽象，不过我们可以认为...

2019-05-22 16:48:09 3666 1

原创奇异值分解(SVD)原理与在降维中的应用

转载：刘建平Pinard奇异值分解(Singular Value Decomposition，以下简称SVD)是在机器学习领域广泛应用的算法，它不光可以用于降维算法中的特征分解，还可以用于推荐系统，以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结，并讨论在在PCA降维算法中是如何运用运用SVD的。1. 回顾特征值和特征向量我们首先回顾下特征值和特征向量的定...

2019-05-19 17:02:44 224

原创感知机学习算法的实现以及收敛性的简单证明

感知机分为原始形式和对偶形式两种，是针对二分类问题，利用分离超平面进行分类的判别模型。分类策略与方法是基于误分类的损失函数，利用梯度下降对损失函数进行极小化。感知机具有简单易于实现的特点。定义：假设输入空间（特征空间）是 χ ⊆ Rn，输出空间是y=(+1,−1)。输入χ∈X表示实例的特征向量，对应于输入空间的点；输出y∈γ表示实例的类别。由输入空间到输出空间的如下函数：称为感知机。其...

2019-04-18 11:52:33 2287

原创 Leetcode 131周赛

LeetCode 第131场周赛5016 . 删除最外层的括号有效括号字符串为空 ("")、"(" + A + “)” 或 A + B，其中 A 和 B 都是有效的括号字符串，+ 代表字符串的连接。例如，""，"()"，"(())()" 和 “(()(()))” 都是有效的括号字符串。如果有效字符串 S 非空，且不存在将其拆分为 S = A+B 的方法，我们称其为原语（primitive）...

2019-04-13 12:15:46 174

原创大数据机器学习-chapter 7-决策树与随机森林

决策树（Decision Tree）是一种简单但是广泛使用的分类器。通过训练数据构建决策树，可以高效的对未知的数据进行分类。决策树模型的特点1、模型具有可读性，分类速度快，推理过程容易理解2、决策推理过程可以表示成If Then形式3、可以认为是定义在特征空间与类空间上的条件概率分布4、推理过程完全依赖于属性变量的取值特点5、可自动判断属性变量的重要性，忽略对目标变量没有贡献的属性...

2019-04-04 11:25:11 521

原创 Leetcode 130周周赛题目和答案

校招小白非科班出身刚开始刷题求大佬指路# 第一题能否被5整除# 给定由若干 0 和 1 组成的数组 A。我们定义 N_i：从 A[0] 到 A[i] 的第 i 个子数组被解释为一个二进制数（从最高有效位到最低有效位）。# 返回布尔值列表 answer，只有当 N_i 可以被 5 整除时，答案 answer[i] 为 true，否则为 false。# 例一# 输入：[0,1,1]...

2019-03-31 16:44:12 548

原创 Selenium + Python + Chrome 中国大学慕课网视频爬取

准备放寒假啦，爬取一些MOOC上的课程爬回家去看。爬取的课程是北京大学的离散数学概论其实GitHub有可以直接用的程序但是我半路出家不怎么会用HOST请求所以直接用selenium简单粗暴了。网页解析我用的是BeautifulSoup。思路其实很简单了，直接在课件网页里面把每一个chapter里的每一个lesson的所有unit里的视频都拿下来就可以了。所以就直接嵌套循环就OK了。...

2019-01-11 16:48:19 2011

原创 Python 如何解决'NoneType' object has no attribute '...'的问题

Python 如何解决’NoneType’ object has no attribute '…'的问题用 Python + selenium 和Beautifulsoup 爬取MOCC中国大学慕课网上某网上课程的课堂评论，在爬取少量数据时不出现标题所示错误，在爬取大量数据（运用到翻页操作）时出现 ‘NoneType’ object has no attribute ‘text’ 的错误。请...

2018-10-29 15:06:47 178134 8

莫罗列科夫斯基先生的博客