nine_mink-CSDN博客

原创 Recommender System复习（考试向）

对于基于邻域的机器学习算法来说，如果要给一个用户推荐商品，那么有两种方式。一种是基于物品的，另一种是基于用户的。基于物品的是，从该用户之前的购买商品中，推荐给他相似的商品。基于用户的是，找出于该用户相似的用户，然后推荐给他相似用户购买的商品。但是，推荐系统除了这两种之外，还有其他的方式。例如如果知道该用户的兴趣分类，可以给他推荐该类别的商品。为了实现这一功能，我们需要根据用户的行为数据得到用户对于不同分类的兴趣，以及不同商品的类别归属。

2023-11-03 16:54:22 167

原创 Graph 部分复习（考试向）

在没有Dead Ends的情况下，每次迭代后向量v各项的和始终保持为1，而有了Dead Ends，迭代结果将最终归零处理Dead Ends的方法如下：迭代拿掉图中的Dead Ends节点及Dead Ends节点相关的边（之所以迭代拿掉是因为当目前的Dead Ends被拿掉后，可能会出现一批新的Dead Ends），直到图中没有Dead Ends。由于下面的算法，没有页面的PageRank会是0。PageRank计算得出的结果是网页的重要性评价，这和用户输入的查询是没有任何关系的，即算法是主题无关的。

2023-11-03 13:08:12 442

原创 Data Stream 复习（考试向）

因为每个球的放置是相互独立的，所以多个球都不被放入这个箱子的概率就是这些独立事件的乘积。所以，一个箱子没有球的概率是 (1 - 1/n)^m，其中 m 是球的数量，n 是箱子的数量。对于第二个球，同样地，每个箱子都有 1/n 的概率收到第二个球，因为球被放入箱子的概率是相同的，而且与之前球放在哪个箱子无关。因此，每个球被放入一个箱子的概率都是 1/n，而且这些概率是相互独立的，因为一个球的放置不受另一个球的放置影响。对于第三个球，同样地，每个箱子都有 1/n 的概率收到第三个球，以此类推。

2023-10-31 17:09:13 165

原创 LSH 复习（考试向）

但是，虽然我们降低了特征复杂度，如果用户非常多的话，我们的计算量依然是非常大的（O(n**2)），如果我们能先粗略地将用户分桶，将可能相似的用户以较大概率分到同一个桶内，这样每一个用户的“备选相似用户集”就会相对较小，降低寻找其相似用户的计算复杂度，LSH就是这样一个近似算法。比如，对于红色的第一列随机行号S1来说，D1的一列中D1[n] == 1所对应的行号的集合为{4，2，6，3，5}，其中最小的是2，所以D1在S1上的MinHash Value是2，以此类推。

2023-10-31 10:37:34 99

原创数据预处理（Data Preprocessing）

本文将基于UoA的课件介绍机器学习中的数据预处理。涉及的英语比较基础，所以为节省时间（不是full-time，还有其他三门课程，所以时间还是比较紧的），只在我以为需要解释的地方进行解释。此文不用于任何商业用途，仅仅是个人学习过程笔记以及心得体会，侵必删。Noisy Data。

2023-04-24 23:06:14 1322 1

原创回归问题（Regression）

本文将基于UoA的课件介绍机器学习中的回归问题。涉及的英语比较基础，所以为节省时间（不是full-time，还有其他三门课程，所以时间还是比较紧的），只在我以为需要解释的地方进行解释。此文不用于任何商业用途，仅仅是个人学习过程笔记以及心得体会，侵必删。

2023-04-24 19:23:28 638 3

原创集成学习（Ensembles）

本文将基于UoA的课件介绍机器学习中的集成学习。涉及的英语比较基础，所以为节省时间（不是full-time，还有其他三门课程，所以时间还是比较紧的），只在我以为需要解释的地方进行解释。此文不用于任何商业用途，仅仅是个人学习过程笔记以及心得体会，侵必删。AdaBoost算法的训练过程会不断增加那些被之前的分类器错分的样本的权重，这样最后一些分类器就会更关注那些难以分类的样本，从而提高整个模型的泛化能力。

2023-04-24 11:02:47 1192 6

原创贝叶斯学习（Bayesian Learning）提高篇

本文将基于UoA的课件，连接上一篇博文介绍机器学习中的贝叶斯。看不太懂的读者请先阅读：贝叶斯学习（Bayesian Learning）基础篇涉及的英语比较基础，所以为节省时间（不是full-time，还有其他三门课程，所以时间还是比较紧的），只在我以为需要解释的地方进行解释。此文不用于任何商业用途，仅仅是个人学习过程笔记以及心得体会，侵必删。

2023-04-23 22:11:56 772

原创贝叶斯学习（Bayesian Learning）基础篇

本文将基于UoA的课件介绍机器学习中的贝叶斯。涉及的英语比较基础，所以为节省时间（不是full-time，还有其他三门课程，所以时间还是比较紧的），只在我以为需要解释的地方进行解释。此文不用于任何商业用途，仅仅是个人学习过程笔记以及心得体会，侵必删。

2023-04-23 22:11:20 2095

原创机器学习必知的基础概念（Fundamental Theories of Machine Learning）

以决策树入门后，如果想要训练出更加优秀的模型或者进修其他算法，一些机器学习的基础概念还是需要理解的，本篇博文将以UoA的课件为提纲，介绍一些ML的基础概念。涉及的英语比较基础，所以为节省时间（不是full-time，还有其他三门课程，所以时间还是比较紧的），只在我以为需要解释的地方进行解释。此文不用于任何商业用途，仅仅是个人学习过程笔记以及心得体会，侵必删。

2023-03-20 08:53:57 374

原创以决策树(Decision Tree)作为入门

就，没啥可多说的。第一个定义可读性更强，第二个定义专业性更强，根据个人喜好喜欢哪个就去理解哪个吧。我个人是更喜欢第二个，因为在看身为百度AI首席工程师（不知道现在还是不是）的吴恩达Deep Learning 课程的时候，他就是使用这个定义入门的，虽然比较绕口，但是确确实实是ML这个东西做事的本质。这篇文章以及这个系列会包含很多UoA上课讲的一些内容，完全是个人学习的理解以及笔记记录，没有任何商业用途，侵必删。

2023-03-13 20:30:36 631 1

原创一文入门HTML+CSS+JS（样例后续更新）

层叠样式表提供了丰富的功能，如字体、颜⾊、背景的控制及整体排版等。

2023-03-11 21:23:20 2845 2

原创简单实用的Python图像处理库Pillow

Pillow 是Python Imaging Library 的简称，是Python 语言中最为常用的图像处理库。Pillow 库提供了对 Python3 的支持，为 Python3 解释器提供了图像处理的功能。通过使用 Pillow 库，可以方便地使用 Python 程序对图片进行处理，例如常见的尺寸、格式、色彩、旋转等处理。

2022-11-16 09:30:18 6718 2

原创真良心干货保姆级手把手教你Python网络编程，学不会我去你家教你

在Python语言标准库中，使用socket模块提供的socket对象，可以在计算机网络中建立可以互相通信的服务器与客户端。在服务器端需要建立一个socket对象，并等待客户端的连接。客户端使用socket对象与服务器端进行连接，一旦连接成功，客户端和服务器端就可以通信了。在Python中，通常使用一个Socket表示“打开了一个网络连接”，语法格式如下：其中参数family: 套接字家族可以是AF_UNIX或者AF_INET；

2022-11-11 19:56:29 1760

原创理解思想：Python多线程和并发编程

其实这里只是用Python去体会并发的思想和一些算法思想，真正想要并发的高性能还是得用C。Python作为解释型语言本身效率就远不如C。很多Python的高性能库，比如Numpy都是用C写的。所以这里只是作为并发编程的体会，并不建议真正开发的时候使用Python玩并发。

2022-11-09 10:40:35 284

原创使用Matplotlib让你轻松入门Python数据可视化

Matplotlib 是一个Python的 2D绘图库。通过 Matplotlib，开发者可以仅需要几行代码，便可以生成绘图，直方图，功率谱，条形图，错误图，散点图等。通过学习Matplotlib，可让数据可视化，更直观的真实给用户。使数据更加客观、更具有说服力。Matplotlib是Python的库，又是开发中常用的库。

2022-11-07 11:53:48 625

原创一文带你熟悉简单实用的Python科学计算库NumPy

NumPy(Numerical Python) 是科学计算基础库，提供大量科学计算相关功能，比如数据统计，随机数生成等。其提供最核心类型为多维数组类型（ndarray），支持大量的维度数组与矩阵运算，Numpy 支持向量处理 ndarray 对象，提高程序运算速度。

2022-11-02 22:54:37 766

原创 Python闭包的连体婴：装饰器

这里在定义闭包的时候，如果没有其他需求，可以将闭包的内函数func_in()的形参和其函数体里面用于运行原函数的对象func()的形参设置成对应原函数的形参个数，然后平行地传进实参即可，而对于其他形参数量不同的元函数，可以多写几个闭包，然后用装饰器执行。思考：但是，似乎这种方式有点麻烦，如果所有函数都需要同样的新增功能，那岂不是要给所有形参数量不同的函数挨个写闭包？之前的装饰器都应用在原函数不涉及传参的情况，那么当原函数涉及传参的时候，应该如何设计装饰器呢？【注意】装饰器的名称应该是闭包。

2022-11-01 17:20:09 419

原创 10分钟让你熟练Python闭包

闭包的本质是函数。

2022-10-31 22:22:25 327

原创保姆级教程：Python数据库编程（SQLite3+MySQL）

从Python3.x版本开始，在标准库中已经内置了SQLlite3模块，它可以支持SQLite3数据库的访问和相关的数据库操作。在需要操作SQLite3数据库数据时，只须在程序中导入SQLite3模块即可。Python语言操作SQLite3数据库的基本流程如下所示。

2022-10-31 09:34:56 2655

原创一文带你吃透Python异常处理

程序开发中，有时候我们也需要自己定义异常类。自定义异常类一般都是运行时异常，通常继承 Exception 或其子类即可。命名一般以 Error、Exception 为后缀。自定义异常由 raise 语句主动抛出。

2022-10-30 22:14:11 370

原创看了这篇，你也是Python文件操作高手

Python 标准库中，如下是文件操作相关的模块，我们会陆续给大家介绍。在操作文本文件时，经常会操作中文，这时候就经常会碰到乱码问题。为了让大家有能力解决中文乱码问题，这里简单介绍一下各种编码之间的关系。

2022-10-30 21:21:33 165

原创你所熟悉的Python模块

“量变引起质变”是哲学中一个重要的理论。量变为什么会引起质变呢？本质上理解，随着数量的增加，管理方式会发生本质的变化；旧的管理方式完全不适合，必须采取新的管理方式。

2022-10-29 23:26:16 168

原创如何深度解析Python面向对象

面向对象（Object oriented Programming，OOP）编程的思想主要是针对大型软件设计而来的。面向对象编程使程序的扩展性更强、可读性更好，使的编程可以像搭积木一样简单。面向对象编程将数据和操作数据相关的方法封装到对象中，组织代码和数据的方式更加接近人的思维，从而大大提高了编程的效率。Python 完全采用了面向对象的思想，是真正面向对象的编程语言，完全支持面向对象的基本功能，例如：继承、多态、封装等。Python 中，一切皆对象。我们在前面学习的数据类型、函数等，都是对象。

2022-10-28 17:23:05 195

原创带你弄懂Python 函数用法和底层分析

函数是可重用的程序代码块。函数的作用，不仅可以实现代码的复用，更能实现代码的一致性。一致性指的是，只要修改函数的代码，则所有调用该函数的地方都能得到体现。在编写函数时，函数体中的代码写法和我们前面讲述的基本一致，只是对代码实现了封装，并增加了函数调用、传递参数、返回计算结果等内容。

2022-10-28 11:05:12 212

原创 K-means算法和KNN算法的区别

KNN算法是分类算法，分类算法肯定是需要有学习语料，然后通过学习语料的学习之后的模板来匹配我们的测试语料集，将测试语料集合进行按照预先学习的语料模板来分类K-means算法是聚类算法，聚类算法与分类算法最大的区别是聚类算法没有学习语料集合。K-means算法K-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据他们的属性分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。详细可以参考我的这篇博文：Python机器学习K-means..

2021-01-12 09:31:19 661

原创在开始之前你所需要准备或者看到的

文章目录1. 环境1.1 Anaconda的安装1.2 Pycharm的安装1.3 Pycharm设置Anaconda为默认环境2. 有关GUI界面常用的GUI 库tkinter 模块3. 有关轻量级数据库SQLlite3.1 使用数据库的宏观过程3.2 数据库使用3.2.1 导入数据库模块3.2.2 打开数据库3.2.2.1 建立数据库3.2.3 创建游标3.2.4 执行SQL语句3.2.4.1 创建表3.2.4.2 新增数据3.2.4.3 更新数据3.2.4.4 删除数据3.2.4.5 查询数据3.2.

2020-08-28 10:24:44 230

空空如也

梯度下降法结合损失函数进行参数优化和使用比如GridSearch进行调参对于调整的参数来说有什么区别？