自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

PasPerCon

生活就像一盒巧克力,你永远不知道下一颗是什么味道。

  • 博客(44)
  • 收藏
  • 关注

原创 《学习《推荐系统与深度学习》读书笔记1》

2019.10.11至2019.10.13期间,自己阅读了《推荐系统与深度学习》这本书。通过对书中的内容的学习,自己了解和掌握了推荐系统的基本知识、算法和架构。下面,自己将按照书中的内容顺序对每章的内容进行整理。第一章 什么是推荐系统(对相关内容的简介)1.1 推荐算法和系统基于内容的推荐算法:涉及TF-IDF。主流推荐算法:基于协同过滤的推荐算法。...

2019-10-26 20:20:38 313

原创 《剑指offer—算法篇》题解—Python实现

本篇博客介绍算法部分,涉及的算法有排序、回溯、动态规划、斐波那契数列、查找、位运算、全排列,还涉及数学知识、规律总结和扩展思维题目。六、排序篇(2道题)涉及内容:数组中的逆序对(归并排序) 最小的K个数(快速排序等)42.最小的K个数题目描述:输入n个整数,找出其中最小的K个数。例如输入4,5,1,6,2,7,3,8这8个数字,则最小的4...

2019-09-24 23:46:15 384

原创 《剑指offer—数据结构篇》题解—Python实现

本篇博客将给出每种数据结构中的每道题的解题思路和代码注释。具体的数据结构有:链表、树、栈、队列、哈希表、列表、数组、字符串。一、链表篇(9道题目)涉及问题:从尾到头打印链表 反转链表 链表中倒数第K个结点 合并两个/K个有序链表...

2019-09-24 23:45:45 211

原创 《学习《大数据技术原理与应用—厦门大学》课程的学习笔记》

在知乎上查找“大数据”的相关资料时,找到了一篇相关的文章,里面推荐了厦门大学的《大数据技术原理与应用》这门课程。自己在“网易云课堂”上对课程进行了系统的学习,并结合厦门大学的数据库实验室的“大数据课程公共服务平台”完成了实操。相关内容的链接请在本篇文章的最后进行查看。经过学习,自己感觉受益匪浅,解决了一些自己之前疑惑的问题,实现了对大数据相关知识的整体梳理。自己对课程的相关知识整理成...

2019-09-16 23:18:05 1102

原创 《学习《Spark编程基础(Scala版)—厦门大学》课程的学习笔记》

经过对于前期的《大数据技术原理与应用》课程的6天学习,自己梳理了整体的学习内容。接下来,经过3天的学习,自己完成了对于网页版《Spark编程基础(Scala版)—厦门大学》内容的学习,解决了之前自己在工作中使用到Scala和Spark时遇到的一些问题,自己的主要学习内容如下:1. Scala相关基础和数据结构等;2. Scala高级进阶:类、对象、继承、函数式编程等;3. Spark的...

2019-09-16 23:09:16 693

原创 《图解TCP/IP(第五版)读书笔记》一

结合工作经验,觉得自己对于计算机网络部分的知识有些淡忘了,为了温故这部分的知识,自己重新看了《图解TCP/IP(第五版)》的内容,并整理了如下的笔记。第1章:网络基础知识1. 按照规模,将计算机网络划分为WAN(Wide Area Network,广域网)和LAN(Local Area Network,局域网)。2. 协议是计算机进行网络通信需要事先达成的一种“约定”。这种“约定”使得...

2019-09-05 17:59:04 361

原创 《特征工程入门与实践》读书笔记三

介绍读书笔记二之后的内容。文中涉及的代码均来自于《特征工程入门与实践》的对应章节的内容。7. 特征转换 和特征选择相比,区别在于:特征选择得到的特征属于原始数据集中的特征集合,但是特征转换得到的特征并不是如此。 本部分将介绍3部分的内容:(1)PCA;(2)LDA;(3)机器学习流水线。下面将对其进行介绍。(1)PCA 原理:最大化数据的方差...

2019-09-04 19:24:23 668

原创 《TensorFlow实战Google深度学习框架》读后小结(三)

本部分是书中的第六章至第十章的内容。第六章 图像识别与CNN1. 引入池化层的必要性:有效地缩小矩阵的尺寸和削减“过拟合”情况的发生,加快计算的速度。2. 池化层与卷积层的区别:卷积层中的卷积核/过滤器是横跨整个深度/信道的,而池化层只作用于一个深度。 和卷积层类似,池化层也是可以使用全0填充的。代码示例如下:pool=tf.nn.max_pool(actived_c...

2019-08-31 17:52:41 89

原创 《特征工程入门与实践》读书笔记二

续接《特征工程入门与实践》读书笔记一的内容。4. 特征增强 本节将介绍两方面的问题:定型数据的缺失值问题和定量数据的归一化/标准化问题。(1)缺失值 在实际中,我们应该尽可能地挖掘出获得的数据集的信息。当数据集的缺失值占比较多时,应该进行填充,而且应该保证线下训练和线上实施的策略是一致的。 首先,我们需要识别缺失值。对于公开的数据集,我们需...

2019-08-24 12:49:11 368

原创 《特征工程入门与实践》读书笔记一

自己在实际的工作和平时的学习中,深深地感受到数据和特征的重要性。正如“Garbage in, garbage out”(错进,错出)所说,对于机器学习中,数据和特征往往决定了结果的上限,模型、算法和优化策略则是逐步在逼近这个上限(注:该话的大意来自于《百面机器学习》这本书的第一章—特征工程)。自己查到了市面上关于介绍“特征工程”的书籍,从讲解的详细程度和实践性出发,选择了《特征工程入...

2019-08-23 23:16:22 2283

原创 《对菜鸟教程中Python语言的学习总结二》

结合菜鸟教程,对知识点进行查漏补缺。总结中的代码均为菜鸟教程上的源代码(菜鸟教程的网址:https://www.runoob.com/python3/python3-tutorial.html)。现将第二部分的内容总结如下:11. 编程第一步对于表达式:a, b=b, a+b,它的执行顺序为:m=bn=a+ba=mb=n即按照从左至右的顺序来执行。end:使得pri...

2019-08-13 00:05:05 299

原创 《对菜鸟教程中Python语言的学习总结一》

结合菜鸟教程,对知识点进行查漏补缺。总结中的代码均为菜鸟教程上的源代码(菜鸟教程的网址:https://www.runoob.com/python3/python3-tutorial.html)。现将第一部分的内容总结如下:1. 简介查看python的关键字:使用Python标准库中的keyword模块,可以输出当前版本的所有关键字。>>> import keywor...

2019-08-11 23:51:41 319

原创 《对廖雪峰老师的Python教程的学习小结六》

下面是第5部分的内容。内容中涉及的程序均来源于廖老师的Python教程(网址为https://www.liaoxuefeng.com/wiki/1016959663602400/)。十五、异步IO结合之前介绍的IO密集型的内容,由于大多数的任务都是IO密集型的,所以可以使用异步IO的方式完成多任务。同步IO和异步IO的对比:同步IO下,当前线程被挂起,其它需要CPU执行的代码无法被当前...

2019-08-11 00:10:47 112

原创 《对廖雪峰老师的Python教程的学习小结五》

下面是第4部分的内容。内容中涉及的程序均来源于廖老师的Python教程(网址为https://www.liaoxuefeng.com/wiki/1016959663602400/)。十三、访问数据库程序运行时,数据是在内存中的。当程序终止时,通常要将数据保存在磁盘中。这时,定义数据的存储格式便是一个大问题。自己可以按照自己定义的格式来存储数据。由于只有将数据全部读到内存中才能自己遍历,...

2019-08-09 23:37:49 123

原创 《对廖雪峰老师的Python教程的学习小结四》

下面是第四部分的内容。内容中涉及的程序均来源于廖老师的Python教程(网址为https://www.liaoxuefeng.com/wiki/1016959663602400/)。十、IO编程IO:Input、Output。Input:数据从外面流入到内存中;Output:数据从内存流入到外面。例如:你打开浏览器,访问新浪首页,浏览器这个程序就需要通过网络IO获取新浪的网页。浏览...

2019-08-08 22:36:07 135

原创 《对廖雪峰老师的Python教程的学习小结三》

下面是第三部分的内容。内容中涉及的程序均来源于廖老师的Python教程(网址为https://www.liaoxuefeng.com/wiki/1016959663602400/)。七、面向对象编程面向对象相比函数更加抽象了些。面向对象涉及:类,对象(即实例),方法和属性。封装、继承和多态是面向对象的三大特点。1. 类和实例类的方法和普通的函数是没有区别的,因而之前说的“函...

2019-08-07 21:08:40 166

原创 《对廖雪峰老师的Python教程的学习小结二》

将以下内容作为第二部分。内容中涉及的程序均来源于廖老师的Python教程(网址为https://www.liaoxuefeng.com/wiki/1016959663602400/)。四、高级特性引入高级特性,可以缩减代码量。1. 切片L[0:3]取列表中的前3个元素,等价于L[:3]。L[-2:]获取最后的2个元素。L[-2:-1]获取倒数第2个元素。L[:10:2]从第...

2019-08-06 21:04:14 85

原创 《对廖雪峰老师的Python教程的学习小结一》

由于学习、工作等原因,差不多一年过后,自己重新开启了博客的书写之路。这里整理和记录了自己的每天点滴学习、思考等相关内容。自己最近重新看了廖雪峰老师的Python教程(网址为:https://www.liaoxuefeng.com/wiki/1016959663602400),系统地回顾了Python语言的相关内容,并将以小结的内容形式进行展示。首先,将下面的几部分内容作为学习小结一...

2019-08-06 20:49:30 241

原创 《TensorFlow实战Google深度学习框架》读后小结(二)

本部分是书中的第五章内容。第五章  MNIST数字识别问题1. TensorFlow提供了封装好的MNIST数据处理类,在这里将直接使用这个类,将数据从原始的数据包中解析成训练和测试神经网络所使用的格式。每一张图片是一个28*28的大小,处理后的图片是一个长度是784的一维数组。数组中的数字大小在[0 1]之间。2. 训练、验证和测试使用神经网络进行训练数据集。因为神经网络...

2018-08-28 15:11:12 204

原创 《TensorFlow实战Google深度学习框架》读后小结(一)

这部分涉及书中的前四章内容。代码网址:https://github.com/caicloud/tensorflow-tutorial。TensorFlow的优势:(1)强大的分布式支持,适合在海量数据集上对模型进行训练。                                  (2)有强大的可移植性,支持GPU、CPU、安卓、iOS等平台。第一章   深度学习的简介1. ...

2018-08-27 18:48:45 263

原创 机器学习实战读书笔记(五)

本部分介绍Apriori算法用于关联分析以及FP-growth算法来高效发现频繁项集。10. Apriori算法(1)关联分析从大规模数据集中寻找物品间的隐含关系被称为关联分析。关联分析有两种形式:频繁项集或关联规则。频繁项集:经常在一起的物品的集合;关联规则:暗示两种物品之间存在很强的关系。定义频繁项集中最重要的是支持度和可信度。支持度是数据集中包含该项集的记录所占的比例。可...

2018-08-26 23:37:45 298

原创 机器学习实战读书笔记(四)

这部分介绍降维常用的方法。12. PCA1. 简要介绍降维技术可以在已标记的数据上采用降维技术,也可以在未标记的数据上采用降维技术。降维的目标是对输入的数目进行削减,来剔除数据中的噪声并提高机器学习方法的性能。主要有三种降维技术:a. 主成分分析(PCA)第一个新坐标轴选择原始数据中方差最大的方向,第二个新坐标轴选择与第一个坐标轴正交且具有次最大方差的方向。一直重复该过程,重复...

2018-08-25 21:12:47 203

原创 机器学习实战读书笔记(三)

从本节开始,将介绍无监督学习。今天整理了无监督学习中的k均值聚类算法和MapReduce部分的内容。本部分是8月24号的内容。9. k均值聚类算法(1)k均值聚类算法优点:易于实现。缺点:可能收敛到局部最小值,在大规模的数据集上的收敛速度慢。适用数据类型:数值型。可以用的误差指标如误差的平方和(Sum of Squared Error,即SSE)来评价算法的效果。k值是需要...

2018-08-25 18:46:39 300

原创 机器学习实战读书笔记(二)

第二部分将介绍回归问题,采用的方法有线性回归、局部加权回归、收缩方法(第7小节)树回归(第8小节)。该部分是8月23号的更新内容。7. 回归采用或者预测值与数据的拟合度来分析模型的拟合程度。(1)线性回归优点:易于理解,计算不复杂。缺点:对于非线性的数据拟合不好。适用数据类型:数值型和标称型。求解系数:逆可能不存在;                  采用正规矩阵的...

2018-08-24 08:52:24 206

原创 机器学习实战读书笔记(一)

针对于分类问题,书中介绍了K近邻、决策树、朴素贝叶斯、Logistic回归、支持向量机和AdaBoost方法。下面将介绍其优缺点。1. K近邻优点:精度高、对异常值不灵敏、无数据输入假定(例如Logistic回归中x0=1等)。缺点:计算复杂度高,空间复杂度高。无法给出任何数据的基础结构信息。适用数据范围:数值型、标称型。2. 决策树优点:计算复杂度不高,输出结果容易理解(...

2018-08-22 23:42:32 448

原创 Git学习总结(四)

5.标签管理标签其实就是指向某个commit的指针(commit编号是16进制的,跟分支很像。但是分支可以移动,标签不能移动),所以,创建和删除标签都是瞬间完成的。tag便于被识别,是和commit捆绑在一起。(1)创建标签标签不是按时间顺序列出,而是按字母排序的。标签总是和某个commit挂钩。如果这个commit既出现在master分支,又出现在dev分支,那么在这两个分...

2018-08-21 22:11:08 121

原创 2018年秋招大疆机器学习算法工程师在线笔试答题总结

1. Adagrad同其它方法相比的优劣势https://blog.csdn.net/u014595019/article/details/529893012. BP神经网络的反向传播的推导3. 图像增强的方法http://www.doc88.com/p-678855356872.html4. ReLU、Leaky ReLU、Sigmoidhttps://www.v2ex....

2018-08-21 21:29:26 2197

原创 Git的使用总结(三)

3.远程仓库若只是对比管理文件的历史的话,那么混帐与SVN是没有什么差别的git的的优势在于远程仓库。可以在一台电脑上克隆多个仓库,不过一般不这么做,因为在一台电脑上搞好几个远程是没有意义的,而且硬盘挂了的话所有的库都会挂掉。实际情况往往是这样,找一台电脑充当服务器的角色,每天24小时开机,其他每个人都从这个“服务器”仓库克隆一份到自己的电脑上,并且各自把各自的提交推送到服务器仓库里,也从...

2018-08-21 21:28:47 99

原创 Git的使用总结(二)

从本次总结开始,有三次总结(总结(二),总结(三),总结(四))来简要介绍下Git的使用。可以将这三部分内容与我之前写的“Git的简单使用技巧“相结合,以了解和掌握对的混帐的常用命令和技巧的使用参考网址是:https://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000。简介GitGI...

2018-08-20 23:25:05 107

原创 知乎专栏 —机器学习笔试题精选试题总结(三)

参考网址:http://redstonewill.com/1487/1. KNN:距离度量方式。得到的边界可能不是线性的。2. 在一个测试集上可以得到准确率是100%的模型在另一个测试集上不一定是100%(例如现实数据存在噪声)。3. 交叉验证:如Bootstrap、留一法、k折交叉检验Bootstrap:从含有n个样本的样本集中有放回地随机选取一个(即下一次选取的样本可能和上一次...

2018-08-14 23:24:38 279

原创 机器学习学习小结(3)

1. scikit-learn环境在Anaconda常用的命令(在Anaconda Prompt中键入):https://www.jianshu.com/p/169403f7e40c若在window命令窗口中直接输入conda list会提示不是内部或外部命令:https://blog.csdn.net/idlethetimewithu/article/details/78913418...

2018-08-12 23:00:56 175

原创 机器学习学习小结(2)

1. 相比于学习小结中的(1)中所说的类型,这里涉及常用的文本文章中的词袋法和TF-IDF。1)词袋法:文本中出现的词条及其出现次数。例如单词A、B、C...,怎么得到对应的出现频率呢?有两种方法:a)在整个文档中考虑所有的词汇,得到每个词汇出现的次数,计算频率;b)只在对应领域内的专业词汇的范围内考虑,得到在该范围内对应词汇出现的频率。将次数/频率及对应的单词以字典的形式...

2018-08-10 14:29:40 215

原创 机器学习学习小结(1)

 1. 廖雪峰的网站博客网址:https://www.liaoxuefeng.com/如何学习机器学习网址:https://www.liaoxuefeng.com/discuss/001409195742008d822b26cf3de46aea14f2b7378a1ba91000/001533286342441c4da9d8faeba4c1db70a5142872e408700...

2018-08-09 23:15:56 263

原创 知乎专栏 —机器学习笔试题精选试题总结(二)

参考博客:http://redstonewill.com/1207/机器学习笔试题精选试题六1. 对于大量的训练数据以及特征的维数比较大时,怎么进行训练模型呢?可以采用的方法有:1) 对训练集随机采样,在随机采样的数据上建立模型;2)尝试使用在线机器学习算法;3)使用 PCA 算法减少特征维度。对于2)而言,离线学习是我们最为常见的一种机器学习算法模式,使用全部数据参与训练...

2018-08-02 10:44:40 841

原创 知乎专栏 —机器学习笔试题精选试题总结(一)

参考网址:http://redstonewill.com/category/written-interview/机器学习笔试题精选试题一1. 在线性回归问题中,利用R平方(R-Squared)来判断拟合度:数值越大说明模型拟合的越好。数值在[0 1]之间。随着样本数量的增加,R平方的数值必然也会增加,无法定量地说明新增的特征有无意义。对于新增的特征,R平方的值可能变大也可能不变,两者不...

2018-07-31 20:55:21 2678 1

原创 牛客网机器学习笔记(5)

1. 可以用于特征降维的方法包括:主成分分析PCA;线性判别分析LDA;深度学习SparseAutoEncoder;矩阵奇异值分解SVD。2. 数据清洗中处理缺失值的方法有:估算,整例删除,变量删除,成对删除。3. 时间序列模型中,可以较好地拟合波动性的分析和预测的模型是:GARCH模型。4. 位势函数法的积累势函数K(x)的作用相当于Bayes判决中的:后验概率;...

2018-07-13 16:36:18 176

原创 牛客网机器学习笔记(4)

1. 在统计模式识分类问题中,当先验概率未知时,可以使用:在贝叶斯决策中,对于先验概率p(y),分为已知和未知两种情况。1) p(y)已知,直接使用贝叶斯公式求后验概率即可;2) p(y)未知,可以使用聂曼-皮尔逊决策(N-P判决)来计算决策面。聂曼-皮尔逊决策(N-P判决)可以归结为找阈值a,即:    如果p(x|w1)/p(x|w2)>a,则 x属于w1;如果p(x|w1)/p(x|w...

2018-07-12 00:06:25 254

原创 牛客网机器学习笔记(3)

1. 准确率、召回率和F1值。2. 线性分类器最佳准则:只有三个准则,即感知器准则、SVM和Fisher准则,贝叶斯分类器不是线性分类器。只有特定的某些朴素贝叶斯分类器是线性分类器。1) 感知器准则:以使错分类样本到分界面距离之和最小为原则。感知器是神经网络的基础。2) SVM:使两类之间的间隔最大,优化目标是最大化间隔,又称最大化间隔分类器,是一种典型的线性分类器(使用核函数可以解决非线性问题)...

2018-07-10 22:25:22 319

原创 牛客网机器学习笔记(2)

1. 引入L1和L2正则化:http://blog.csdn.net/zouxy09/article/details/24971995L1:做特征选择;L2:在一定程度上减少过拟合。2. 类域界面方程法中,有H-K算法:在最小均方误差准则下求得权矢量,二次准则解决非线性问题。感知器算法:线性分类模型。3. KNN在样本较少且典型性较好的情况下效果较好。4. 解决隐马尔可夫中预测问题的算法是:维特比...

2018-07-10 21:40:44 356

原创 牛客网机器学习笔记(1)

1. SVM常用核函数:1)线性核函数;2)多项式核函数;3)径向基函数;4)Sigmoid核函数。2. 生成式模型和判别式模型:1)直接学习得到条件概率分布P(Y|X)或决策函数Y=f(X)的方法是判别方法,比如:感知机、K近邻、决策树、逻辑回归(区分度训练是逻辑回归中的知识)、支持向量机、条件随机场、提升方法、神经网络等。2)首先学习联合分布概率P(X,Y),从而求得条件概率分布P(Y|X)的...

2018-07-08 23:10:04 324

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除