PasPerCon-CSDN博客

原创《学习《推荐系统与深度学习》读书笔记1》

2019.10.11至2019.10.13期间，自己阅读了《推荐系统与深度学习》这本书。通过对书中的内容的学习，自己了解和掌握了推荐系统的基本知识、算法和架构。下面，自己将按照书中的内容顺序对每章的内容进行整理。第一章　什么是推荐系统（对相关内容的简介）1.1 推荐算法和系统基于内容的推荐算法：涉及TF-IDF。主流推荐算法：基于协同过滤的推荐算法。...

2019-10-26 20:20:38 313

原创《剑指offer—算法篇》题解—Python实现

本篇博客介绍算法部分，涉及的算法有排序、回溯、动态规划、斐波那契数列、查找、位运算、全排列，还涉及数学知识、规律总结和扩展思维题目。六、排序篇（2道题）涉及内容：数组中的逆序对（归并排序）最小的K个数（快速排序等）42.最小的K个数题目描述：输入n个整数，找出其中最小的K个数。例如输入4,5,1,6,2,7,3,8这8个数字，则最小的4...

2019-09-24 23:46:15 384

原创《剑指offer—数据结构篇》题解—Python实现

本篇博客将给出每种数据结构中的每道题的解题思路和代码注释。具体的数据结构有：链表、树、栈、队列、哈希表、列表、数组、字符串。一、链表篇（9道题目）涉及问题：从尾到头打印链表反转链表链表中倒数第K个结点合并两个/K个有序链表...

2019-09-24 23:45:45 211

原创《学习《大数据技术原理与应用—厦门大学》课程的学习笔记》

在知乎上查找“大数据”的相关资料时，找到了一篇相关的文章，里面推荐了厦门大学的《大数据技术原理与应用》这门课程。自己在“网易云课堂”上对课程进行了系统的学习，并结合厦门大学的数据库实验室的“大数据课程公共服务平台”完成了实操。相关内容的链接请在本篇文章的最后进行查看。经过学习，自己感觉受益匪浅，解决了一些自己之前疑惑的问题，实现了对大数据相关知识的整体梳理。自己对课程的相关知识整理成...

2019-09-16 23:18:05 1102

原创《学习《Spark编程基础（Scala版）—厦门大学》课程的学习笔记》

经过对于前期的《大数据技术原理与应用》课程的6天学习，自己梳理了整体的学习内容。接下来，经过3天的学习，自己完成了对于网页版《Spark编程基础（Scala版）—厦门大学》内容的学习，解决了之前自己在工作中使用到Scala和Spark时遇到的一些问题，自己的主要学习内容如下：1. Scala相关基础和数据结构等；2. Scala高级进阶：类、对象、继承、函数式编程等；3. Spark的...

2019-09-16 23:09:16 693

原创《图解TCP/IP（第五版）读书笔记》一

结合工作经验，觉得自己对于计算机网络部分的知识有些淡忘了，为了温故这部分的知识，自己重新看了《图解TCP/IP（第五版）》的内容，并整理了如下的笔记。第1章：网络基础知识1. 按照规模，将计算机网络划分为WAN（Wide Area Network，广域网）和LAN（Local Area Network，局域网）。2. 协议是计算机进行网络通信需要事先达成的一种“约定”。这种“约定”使得...

2019-09-05 17:59:04 361

原创《特征工程入门与实践》读书笔记三

介绍读书笔记二之后的内容。文中涉及的代码均来自于《特征工程入门与实践》的对应章节的内容。7. 特征转换和特征选择相比，区别在于：特征选择得到的特征属于原始数据集中的特征集合，但是特征转换得到的特征并不是如此。本部分将介绍3部分的内容：（1）PCA；（2）LDA；（3）机器学习流水线。下面将对其进行介绍。（1）PCA 原理：最大化数据的方差...

2019-09-04 19:24:23 668

原创《TensorFlow实战Google深度学习框架》读后小结（三）

本部分是书中的第六章至第十章的内容。第六章图像识别与CNN1. 引入池化层的必要性：有效地缩小矩阵的尺寸和削减“过拟合”情况的发生，加快计算的速度。2. 池化层与卷积层的区别：卷积层中的卷积核/过滤器是横跨整个深度/信道的，而池化层只作用于一个深度。和卷积层类似，池化层也是可以使用全0填充的。代码示例如下：pool=tf.nn.max_pool(actived_c...

2019-08-31 17:52:41 89

原创《特征工程入门与实践》读书笔记二

续接《特征工程入门与实践》读书笔记一的内容。4. 特征增强本节将介绍两方面的问题：定型数据的缺失值问题和定量数据的归一化/标准化问题。（1）缺失值在实际中，我们应该尽可能地挖掘出获得的数据集的信息。当数据集的缺失值占比较多时，应该进行填充，而且应该保证线下训练和线上实施的策略是一致的。首先，我们需要识别缺失值。对于公开的数据集，我们需...

2019-08-24 12:49:11 368

原创《特征工程入门与实践》读书笔记一

自己在实际的工作和平时的学习中，深深地感受到数据和特征的重要性。正如“Garbage in, garbage out”（错进，错出）所说，对于机器学习中，数据和特征往往决定了结果的上限，模型、算法和优化策略则是逐步在逼近这个上限（注：该话的大意来自于《百面机器学习》这本书的第一章—特征工程）。自己查到了市面上关于介绍“特征工程”的书籍，从讲解的详细程度和实践性出发，选择了《特征工程入...

2019-08-23 23:16:22 2283

原创《对菜鸟教程中Python语言的学习总结二》

结合菜鸟教程，对知识点进行查漏补缺。总结中的代码均为菜鸟教程上的源代码（菜鸟教程的网址：https://www.runoob.com/python3/python3-tutorial.html）。现将第二部分的内容总结如下：11. 编程第一步对于表达式：a, b=b, a+b，它的执行顺序为：m=bn=a+ba=mb=n即按照从左至右的顺序来执行。end：使得pri...

2019-08-13 00:05:05 299

原创《对菜鸟教程中Python语言的学习总结一》

结合菜鸟教程，对知识点进行查漏补缺。总结中的代码均为菜鸟教程上的源代码（菜鸟教程的网址：https://www.runoob.com/python3/python3-tutorial.html）。现将第一部分的内容总结如下：1. 简介查看python的关键字：使用Python标准库中的keyword模块，可以输出当前版本的所有关键字。>>> import keywor...

2019-08-11 23:51:41 319

原创《对廖雪峰老师的Python教程的学习小结六》

下面是第5部分的内容。内容中涉及的程序均来源于廖老师的Python教程（网址为https://www.liaoxuefeng.com/wiki/1016959663602400/）。十五、异步IO结合之前介绍的IO密集型的内容，由于大多数的任务都是IO密集型的，所以可以使用异步IO的方式完成多任务。同步IO和异步IO的对比：同步IO下，当前线程被挂起，其它需要CPU执行的代码无法被当前...

2019-08-11 00:10:47 112

原创《对廖雪峰老师的Python教程的学习小结五》

下面是第4部分的内容。内容中涉及的程序均来源于廖老师的Python教程（网址为https://www.liaoxuefeng.com/wiki/1016959663602400/）。十三、访问数据库程序运行时，数据是在内存中的。当程序终止时，通常要将数据保存在磁盘中。这时，定义数据的存储格式便是一个大问题。自己可以按照自己定义的格式来存储数据。由于只有将数据全部读到内存中才能自己遍历，...

2019-08-09 23:37:49 123

原创《对廖雪峰老师的Python教程的学习小结四》

下面是第四部分的内容。内容中涉及的程序均来源于廖老师的Python教程（网址为https://www.liaoxuefeng.com/wiki/1016959663602400/）。十、IO编程IO：Input、Output。Input：数据从外面流入到内存中；Output：数据从内存流入到外面。例如：你打开浏览器，访问新浪首页，浏览器这个程序就需要通过网络IO获取新浪的网页。浏览...

2019-08-08 22:36:07 135

原创《对廖雪峰老师的Python教程的学习小结三》

下面是第三部分的内容。内容中涉及的程序均来源于廖老师的Python教程（网址为https://www.liaoxuefeng.com/wiki/1016959663602400/）。七、面向对象编程面向对象相比函数更加抽象了些。面向对象涉及：类，对象（即实例），方法和属性。封装、继承和多态是面向对象的三大特点。1. 类和实例类的方法和普通的函数是没有区别的，因而之前说的“函...

2019-08-07 21:08:40 166

原创《对廖雪峰老师的Python教程的学习小结二》

将以下内容作为第二部分。内容中涉及的程序均来源于廖老师的Python教程（网址为https://www.liaoxuefeng.com/wiki/1016959663602400/）。四、高级特性引入高级特性，可以缩减代码量。1. 切片L[0:3]取列表中的前3个元素，等价于L[:3]。L[-2:]获取最后的2个元素。L[-2:-1]获取倒数第2个元素。L[:10:2]从第...

2019-08-06 21:04:14 85

原创《对廖雪峰老师的Python教程的学习小结一》

由于学习、工作等原因，差不多一年过后，自己重新开启了博客的书写之路。这里整理和记录了自己的每天点滴学习、思考等相关内容。自己最近重新看了廖雪峰老师的Python教程（网址为：https://www.liaoxuefeng.com/wiki/1016959663602400），系统地回顾了Python语言的相关内容，并将以小结的内容形式进行展示。首先，将下面的几部分内容作为学习小结一...

2019-08-06 20:49:30 241

原创《TensorFlow实战Google深度学习框架》读后小结（二）

本部分是书中的第五章内容。第五章 MNIST数字识别问题1. TensorFlow提供了封装好的MNIST数据处理类，在这里将直接使用这个类，将数据从原始的数据包中解析成训练和测试神经网络所使用的格式。每一张图片是一个28*28的大小，处理后的图片是一个长度是784的一维数组。数组中的数字大小在[0 1]之间。2. 训练、验证和测试使用神经网络进行训练数据集。因为神经网络...

2018-08-28 15:11:12 204

原创《TensorFlow实战Google深度学习框架》读后小结（一）

这部分涉及书中的前四章内容。代码网址：https://github.com/caicloud/tensorflow-tutorial。TensorFlow的优势：（1）强大的分布式支持，适合在海量数据集上对模型进行训练。（2）有强大的可移植性，支持GPU、CPU、安卓、iOS等平台。第一章深度学习的简介1. ...

2018-08-27 18:48:45 263

原创机器学习实战读书笔记（五）

本部分介绍Apriori算法用于关联分析以及FP-growth算法来高效发现频繁项集。10. Apriori算法（1）关联分析从大规模数据集中寻找物品间的隐含关系被称为关联分析。关联分析有两种形式：频繁项集或关联规则。频繁项集：经常在一起的物品的集合；关联规则：暗示两种物品之间存在很强的关系。定义频繁项集中最重要的是支持度和可信度。支持度是数据集中包含该项集的记录所占的比例。可...

2018-08-26 23:37:45 298

原创机器学习实战读书笔记（四）

这部分介绍降维常用的方法。12. PCA1. 简要介绍降维技术可以在已标记的数据上采用降维技术，也可以在未标记的数据上采用降维技术。降维的目标是对输入的数目进行削减，来剔除数据中的噪声并提高机器学习方法的性能。主要有三种降维技术：a. 主成分分析（PCA）第一个新坐标轴选择原始数据中方差最大的方向，第二个新坐标轴选择与第一个坐标轴正交且具有次最大方差的方向。一直重复该过程，重复...

2018-08-25 21:12:47 203

原创机器学习实战读书笔记（三）

从本节开始，将介绍无监督学习。今天整理了无监督学习中的k均值聚类算法和MapReduce部分的内容。本部分是8月24号的内容。9. k均值聚类算法（1）k均值聚类算法优点：易于实现。缺点：可能收敛到局部最小值，在大规模的数据集上的收敛速度慢。适用数据类型：数值型。可以用的误差指标如误差的平方和（Sum of Squared Error，即SSE）来评价算法的效果。k值是需要...

2018-08-25 18:46:39 300

原创机器学习实战读书笔记（二）

第二部分将介绍回归问题，采用的方法有线性回归、局部加权回归、收缩方法（第7小节）树回归（第8小节）。该部分是8月23号的更新内容。7. 回归采用或者预测值与数据的拟合度来分析模型的拟合程度。（1）线性回归优点：易于理解，计算不复杂。缺点：对于非线性的数据拟合不好。适用数据类型：数值型和标称型。求解系数：逆可能不存在；采用正规矩阵的...

2018-08-24 08:52:24 206

原创机器学习实战读书笔记（一）

针对于分类问题，书中介绍了K近邻、决策树、朴素贝叶斯、Logistic回归、支持向量机和AdaBoost方法。下面将介绍其优缺点。1. K近邻优点：精度高、对异常值不灵敏、无数据输入假定（例如Logistic回归中x0=1等）。缺点：计算复杂度高，空间复杂度高。无法给出任何数据的基础结构信息。适用数据范围：数值型、标称型。2. 决策树优点：计算复杂度不高，输出结果容易理解（...

2018-08-22 23:42:32 448

原创 Git学习总结（四）

5.标签管理标签其实就是指向某个commit的指针（commit编号是16进制的，跟分支很像。但是分支可以移动，标签不能移动），所以，创建和删除标签都是瞬间完成的。tag便于被识别，是和commit捆绑在一起。（1）创建标签标签不是按时间顺序列出，而是按字母排序的。标签总是和某个commit挂钩。如果这个commit既出现在master分支，又出现在dev分支，那么在这两个分...

2018-08-21 22:11:08 121

原创 2018年秋招大疆机器学习算法工程师在线笔试答题总结

1. Adagrad同其它方法相比的优劣势https://blog.csdn.net/u014595019/article/details/529893012. BP神经网络的反向传播的推导3. 图像增强的方法http://www.doc88.com/p-678855356872.html4. ReLU、Leaky ReLU、Sigmoidhttps://www.v2ex....

2018-08-21 21:29:26 2197

原创 Git的使用总结（三）

3.远程仓库若只是对比管理文件的历史的话，那么混帐与SVN是没有什么差别的git的的优势在于远程仓库。可以在一台电脑上克隆多个仓库，不过一般不这么做，因为在一台电脑上搞好几个远程是没有意义的，而且硬盘挂了的话所有的库都会挂掉。实际情况往往是这样，找一台电脑充当服务器的角色，每天24小时开机，其他每个人都从这个“服务器”仓库克隆一份到自己的电脑上，并且各自把各自的提交推送到服务器仓库里，也从...

2018-08-21 21:28:47 99

原创 Git的使用总结（二）

从本次总结开始，有三次总结（总结（二），总结（三），总结（四））来简要介绍下Git的使用。可以将这三部分内容与我之前写的“Git的简单使用技巧“相结合，以了解和掌握对的混帐的常用命令和技巧的使用参考网址是：https://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000。简介GitGI...

2018-08-20 23:25:05 107

原创知乎专栏 —机器学习笔试题精选试题总结（三）

参考网址：http://redstonewill.com/1487/1. KNN：距离度量方式。得到的边界可能不是线性的。2. 在一个测试集上可以得到准确率是100%的模型在另一个测试集上不一定是100%（例如现实数据存在噪声）。3. 交叉验证：如Bootstrap、留一法、k折交叉检验Bootstrap：从含有n个样本的样本集中有放回地随机选取一个（即下一次选取的样本可能和上一次...

2018-08-14 23:24:38 279

原创机器学习学习小结（3）

1. scikit-learn环境在Anaconda常用的命令（在Anaconda Prompt中键入）：https://www.jianshu.com/p/169403f7e40c若在window命令窗口中直接输入conda list会提示不是内部或外部命令：https://blog.csdn.net/idlethetimewithu/article/details/78913418...

2018-08-12 23:00:56 175

原创机器学习学习小结（2）

1. 相比于学习小结中的（1）中所说的类型，这里涉及常用的文本文章中的词袋法和TF-IDF。1）词袋法：文本中出现的词条及其出现次数。例如单词A、B、C...，怎么得到对应的出现频率呢？有两种方法：a）在整个文档中考虑所有的词汇，得到每个词汇出现的次数，计算频率；b）只在对应领域内的专业词汇的范围内考虑，得到在该范围内对应词汇出现的频率。将次数/频率及对应的单词以字典的形式...

2018-08-10 14:29:40 215

原创机器学习学习小结（1）

1. 廖雪峰的网站博客网址：https://www.liaoxuefeng.com/如何学习机器学习网址：https://www.liaoxuefeng.com/discuss/001409195742008d822b26cf3de46aea14f2b7378a1ba91000/001533286342441c4da9d8faeba4c1db70a5142872e408700...

2018-08-09 23:15:56 263

原创知乎专栏 —机器学习笔试题精选试题总结（二）

参考博客：http://redstonewill.com/1207/机器学习笔试题精选试题六1. 对于大量的训练数据以及特征的维数比较大时，怎么进行训练模型呢？可以采用的方法有：1）对训练集随机采样，在随机采样的数据上建立模型；2）尝试使用在线机器学习算法；3）使用 PCA 算法减少特征维度。对于2）而言，离线学习是我们最为常见的一种机器学习算法模式，使用全部数据参与训练...

2018-08-02 10:44:40 841

原创知乎专栏 —机器学习笔试题精选试题总结（一）

参考网址：http://redstonewill.com/category/written-interview/机器学习笔试题精选试题一1. 在线性回归问题中，利用R平方（R-Squared）来判断拟合度：数值越大说明模型拟合的越好。数值在[0 1]之间。随着样本数量的增加，R平方的数值必然也会增加，无法定量地说明新增的特征有无意义。对于新增的特征，R平方的值可能变大也可能不变，两者不...

2018-07-31 20:55:21 2678 1

原创牛客网机器学习笔记(5)

1. 可以用于特征降维的方法包括：主成分分析PCA；线性判别分析LDA；深度学习SparseAutoEncoder；矩阵奇异值分解SVD。2. 数据清洗中处理缺失值的方法有：估算，整例删除，变量删除，成对删除。3. 时间序列模型中，可以较好地拟合波动性的分析和预测的模型是：GARCH模型。4. 位势函数法的积累势函数K(x)的作用相当于Bayes判决中的：后验概率；...

2018-07-13 16:36:18 176

原创牛客网机器学习笔记(4)

1. 在统计模式识分类问题中，当先验概率未知时，可以使用：在贝叶斯决策中，对于先验概率p(y)，分为已知和未知两种情况。1) p(y)已知，直接使用贝叶斯公式求后验概率即可；2) p(y)未知，可以使用聂曼-皮尔逊决策(N-P判决)来计算决策面。聂曼-皮尔逊决策（N-P判决）可以归结为找阈值a，即：如果p（x|w1）/p（x|w2）>a，则 x属于w1；如果p（x|w1）/p（x|w...

2018-07-12 00:06:25 254

1. 准确率、召回率和F1值。2. 线性分类器最佳准则：只有三个准则，即感知器准则、SVM和Fisher准则，贝叶斯分类器不是线性分类器。只有特定的某些朴素贝叶斯分类器是线性分类器。1) 感知器准则：以使错分类样本到分界面距离之和最小为原则。感知器是神经网络的基础。2) SVM：使两类之间的间隔最大，优化目标是最大化间隔，又称最大化间隔分类器，是一种典型的线性分类器（使用核函数可以解决非线性问题）...

2018-07-10 22:25:22 319

原创牛客网机器学习笔记(2)

1. 引入L1和L2正则化:http://blog.csdn.net/zouxy09/article/details/24971995L1:做特征选择；L2：在一定程度上减少过拟合。2. 类域界面方程法中，有H-K算法：在最小均方误差准则下求得权矢量，二次准则解决非线性问题。感知器算法：线性分类模型。3. KNN在样本较少且典型性较好的情况下效果较好。4. 解决隐马尔可夫中预测问题的算法是：维特比...

2018-07-10 21:40:44 356

原创牛客网机器学习笔记(1)

1. SVM常用核函数：1）线性核函数；2）多项式核函数；3）径向基函数；4）Sigmoid核函数。2. 生成式模型和判别式模型：1）直接学习得到条件概率分布P(Y|X)或决策函数Y=f(X)的方法是判别方法，比如：感知机、K近邻、决策树、逻辑回归（区分度训练是逻辑回归中的知识）、支持向量机、条件随机场、提升方法、神经网络等。2）首先学习联合分布概率P(X,Y)，从而求得条件概率分布P(Y|X)的...

2018-07-08 23:10:04 324

空空如也

空空如也