自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 资源 (1)
  • 收藏
  • 关注

原创 总结 | DataFrame、Series、array、tensor的创建及相互转化

最近在入门图像识别,自然也会用到深度学习框架,也接触到了一个新的数据结构——tensor(张量)。除此之外,也有一些很常用的数据结构,比如DataFrame、Series、array等,这篇文章主要对这几种数据结构的创建及相互转换做一个小总结。创建方法DataFrame这里就不在单独贴出每种数据结构的示例图,只是简单描述一下各个数据结构的特点。DataFrame类似于一个二维矩阵,但它的行列都有对应的索引。DataFrame创建方法很多,这里给出比较常用的三种方法:1、通过字典创建2、通过元组

2020-08-25 16:01:17 4573

原创 这是一份 pip 常用命令小结~

pip 这个工具我们经常会用到,毕竟 python 是一门以第三方库庞大而著名的编程语言,所以我们总会用 pip 安装一些依赖库,当然这只是 pip 最常用的一个命令,下面就来介绍一下 pip 中你需要掌握的一些命令。我个人用的是Anaconda,所以需要在Anaconda Prompt中操作,如果你用的是官网下载的 python 版本,就可以直接在cmd中操作。pip直接输入 pip 可以查看所有的命令参数以及可选项:查看pip所在位置:where pip更新pip的版本:pip i

2020-08-23 11:02:35 443

原创 Flask从零到一 2 | flask相关参数配置

上一篇文章介绍了学习flask之前需要的准备工作,也就是Git工具的下载和虚拟环境的配置,还介绍了如何编写一个最简单的flask程序,还捎带讲了一下有关于静态目录和模板目录的知识,这篇文章会深入讲解一下flask一些参数的配置。app初始化参数上一篇文章我们提及过在当前模块的根目录下会默认存在一个static,当然这是我们不在网页加任何修饰的情况。但如果我们需要将一些静态文件展示到网页中,我们就需要创建一个static文件夹来保存这些静态文件,它应该与当前模块处于同级目录。之前我们通过访问绑定的url

2020-08-14 10:57:51 413

原创 Python制作图片验证码?也就三行代码罢了

现在验证码的种类真的是越来越多,短信验证码、语音验证码、图片验证码、滑块验证码 … 我们在 PC 的网页端或者手机上的 app 进行登录或者注册时,应该总会遇见图片验证码,比如下面这类:上面这些图片验证码都是通过Python制作出来的,方法有很多,但主要都是依赖Python强大的第三方库,下面就介绍一下制作图片验证码的三种方法,难度由高到低。Pillow库Pillow是一个非常强大的图片处理模块,其中Image是Pillow中最为重要的类,实现了Pillow中大部分的功能,这个类的主要用来表示图片对

2020-08-11 09:56:52 3097

原创 Python之错误和异常、模块(基础系列第四篇)

系列第四篇主要讲两方面,错误和异常以及模块。在编程时遇见错误信息在所难免,Python中会也有很多种错误信息,常见的两种就是语法错误和异常,这两个是完全不同的概念,下面就开始介绍一下这两个概念的相关知识。错误和异常语法错误语法错误英文表示为SyntaxError,后面会跟着一些关于错误的解释信息,方便你查找语句中的bug,如下:In [5]: print('naitangmao) File "<ipython-input-5-d5b793a8884b>", line 1 pr

2020-08-10 14:39:37 399

原创 Flask从零到一 1 | 虚拟环境和第一个flask程序

大约还有二十天假期时间,这二十天我准备跟进一个Flask入门系列,大致会分为10-12篇文章。虽然我以后不想做开发,但是Web开发热度还是挺高的,所以就用了一段时间学习了一下,下学期也会有与Web有关的课程,如果对Flask感兴趣的话,可以持续跟进,希望这个系列可以帮到伙伴们。第一篇主要包括两个方面,一方面是学习Flask之前的准备工作,比如配置相应的环境以及下载一些工具;另一方面就是编写第一个Flask简易程序。Flask是支持Python2 和 Python3两个版本的,但是在我接触Python的时

2020-08-06 10:45:20 210

原创 全!Python函数和文件操作合集(长文系列第三篇)

系列第三篇来说一下函数和文件。函数在编程中是一个很重要的角色,我们可以将若干个语句组合形成一个函数,它可以接受传入参数,并在内部进行相关计算后产生输出,将语句封装成函数是为了避免重复使用几个语句造成代码冗杂,让代码更简洁可观性更强。文件的操作主要是介绍一些关于文件的读取及写入的方法,以及每个方法的不同点和需要注意的事项,最后会介绍一下利用pickle模块存储复杂数据的方式。函数函数主要包括两个方面:内置函数自定义函数内置函数就是python自带的一些函数,我们只需要给函数传入相关参数就可以进

2020-08-05 14:19:05 320

原创 Python的循环、判断和各种表达式(长文系列第二篇)

流程控制是python语法很重要的一个分支,主要包括我们经常用到的判断语句、循环语句以及各种表达式,这也是上一篇文章没有介绍表达式的原因,在这篇文章中会更加系统全面的讲解这三方面的基础知识。判断语句(if)判断语句中最有名的应该就是if-else的组合,并且很多语言都通用这种格式,但是对于elif而言,不同语言表达形式可能会不同:In [1]: x = 5In [2]: if x>0: ...: print('正整数') ...: elif x<0: ...:

2020-08-04 10:08:08 465

原创 干货!Python常用数据类型的基本操作(长文系列第一篇)

Python基础系列会将基础内容大致分为四到五个板块,每篇文章着重讲一方面,知识不会很难,主要是以小例子的形式解读,如果你已经入门Python,希望可以帮你温习一下;如果你想入门Python,希望可以帮你越过这个门槛。Python原生数据类型主要有Number、String、Byte、Boolean、None、List、Tuple、Set、Dict这九种,这篇文章主要讲一下字符串、列表、元祖、集合、字典这五种,剩下的四种大家可以自己了解一下。字符串初始化一个字符串,方便后面在字符串上做一些操作。In

2020-07-31 11:32:19 252

原创 干!一张图整理了 Python 所有内置异常

在编写程序时,可能会经常报出一些异常,很大一方面原因是自己的疏忽大意导致程序给出错误信息,另一方面是因为有些异常是程序运行时不可避免的,比如在爬虫时可能有几个网页的结构不一致,这时两种结构的网页用同一套代码就会出错,所以我们就需要捕获出现的异常,以防止程序因为错误信息而终止运行。Python有很多的内置异常,也就是说Python开发者提前考虑到了用户编程过程中可能会出现这类错误,所以制造了这些内置异常可以快速准确向用户反馈出错信息帮助找出代码中的bug。Python官方文档中也给出了所有内置异常及触发条

2020-07-29 11:02:59 1868 2

原创 Tips | 如何用二元分类器解决一个多分类任务?

二元分问题会是我们生活中比较常见的一类问题,比如邮件可以分为垃圾邮件和非垃圾邮件、一个人患病或者不患病,但除此之外也会遇到一些多元分类问题,比如天气可以分为晴、阴、雨、雪等等。我们通过算法构建的分类器就以分为二元分类器和多元分类器,前者可以区分两个类别标签,后者则可以区分两个以上的类别标签。对于算法而言,像SVM、逻辑回归等是严格的二元分类算法,而像朴素贝叶斯、随机森林这类算法则可以直接处理多元分类问题。但利用二元分类器处理多分类问题是可行的,下面将以逻辑回归结合鸢尾花数据集为例介绍。OvA、OvO策略

2020-07-24 10:07:52 2081

原创 实战 |利用机器学习实现一个多分类任务

对于机器学习而言,如果你已经大致了解了相关算法的原理、理论推导,你也不是大家口中刚入门的小白了。接下来你需要将自己所学的知识利用起来,最好的方式应该就是独立完成几个项目实战,项目难度入门级即可,因为重点是帮助你了解一个项目的流程,比如缺失值和异常值的处理、特征降维、变量转换等等。Kaggle毋庸置疑是一个很好的平台,里面的泰坦尼克号、房屋价格预测、手写数字都是非常非常经典的入门实战项目,如果你独立完成这三个项目后感觉可以提升一下难度,就可以继续在Playground中寻找适合自己的项目。但如果你感觉还需要

2020-07-17 10:09:09 2454

原创 二分查找及对应的几道经典题目

二分查找(Binary Search)属于七大查找算法之一,又称折半查找,它的名字很好的体现出了它的基本思想,二分查找主要是针对的是有序存储的数据集合。假设有一个集合和一个待查找的目标值,每次都通过将目标值和处于集合中间位置的元素比较,将待查找区间收缩为之前区间的一半,比如目标值小于一次二分查找区间的中间值,则下次查找区间就为原区间的左边一半,重复此过程直至找到目标值或者区间被收缩为0.下面这幅动图就为二分查找的基本过程,也是最简单的一种二分查找。最开始我们总是维护两个指针,分别指向数组的起始位置和

2020-07-02 10:14:29 1374

原创 安利十二个常用的IPython魔法命令

不能以偏概全哈,就我个人而言,在日常编程中一般都会用到两个编译器——Pycharm和Jupyter,在刷算法、写爬虫时会用到前者,因为我习惯用Pycharm里的Debug功能调试,很容易找出代码中的Bug。而进行数据分析、机器学习时就会用到后者,因为Jupyter编译器利用的IPython是一种交互式计算和开发环境,对数据的可视化十分友好,这类单元格的形式每一步都有运行结果,便于整理自己思路,并且很大程度上节约了运行时间,在调试的时候只需要运行出错的部分代码,而不是全部。IPython中有一些特有的魔法

2020-06-30 09:06:47 877

原创 Python数据分析——《隐秘的角落》开播之后就没下过热搜?

不会吧、不会吧,不会还有朋友没看《隐秘的角落》吧,如果没有断网的话,最近朋友圈、微博等都应该被这部只有十二集的国产网剧刷屏了。开播初豆瓣评分就已经达到9.0,甚至一度窜到9.2,要知道国产电视剧过9分的都寥寥无几,更何况还只是一部网剧,可能绝大部分人与这部剧本无缘,但是选择看剧的契机也正是这超高的评分。经过朋友圈和微博的强烈安利,又在高评分的诱惑下,和家人一天刷完了这部神剧,看完这部剧主要有两个感受:全员演技都在线细~真的细、细到爆炸平时看电视剧不多,国产剧就更少了,最大的一个感受就是有些演技真

2020-06-28 10:26:26 16428 42

原创 一文凑齐四种变量转换方法!

在一份数据集中通常会遇见两类数据——数值型与类别型,数值型变量通常就是int、float类型,类别型变量就是object类型,也就是我们总说的字符型变量。如果更官方地讲,数值型变量被称作定量变量、类别型变量被称作定性变量。数值型变量主要体现在连续值和离散值:连续值:体温、房屋面积等离散值:人数、个数等我们都知道在大多数机器学习算法中都要与"距离"多多少少都会有些关系,所以只允许传入数值型变量,在不需要做其它处理的前提下,原始数据集中的数值型变量都是可以直接使用的,典型的算法代表有支持向量机、逻辑

2020-06-26 09:45:11 3495

原创 Kaggle竞赛入门实战——机器学习预测房屋价格

这篇文章是介绍一个完整的机器学习小项目——预测房屋价格,它是Kaggle竞赛中入门级的题目,和我们比较熟悉的泰坦尼克号生存预测处于同一等级。在之前介绍KNN算法时,曾用过这个数据集,但只是通过简单的建模帮助理解KNN的思想,本文会更加全面地介绍完成一个小项目的流程,如何在科学分析的辅助下预测出我们需要的目标值。在分析之前我们应该提前明确我们的目的,中途可能需要处理的问题,可以归纳成以下几点:了解标签变量:可以通过目标变量大致分析出解决问题是需要分类算法还是回归算法。粗略了解特征:因为特征标签都为英文

2020-06-22 09:49:06 1112

原创 不能不用也不可乱用的标准化和归一化处理

今天这篇还是讲特征工程那一堆事,准确点说是数据预处理范畴内的,在做PCA降维时,我发现利用方差过滤出的主成分和利用PCA降维得到的主成分对应位置的方差有些不同:VarianceThreshold:[90370.21684180899, 55277.04960170764, 51395.858083599174]PCA:[176251.93379431,74196.48270488,55716.27982124]之前说过PCA降维可以将原来高维的数据投影到某个低维的空间上并使得其方差尽量大。如果数据其

2020-06-15 11:19:07 3178

原创 20年前的几行代码竟如此牛逼?惊了

最近在知乎上看到了一个话题:世界上有哪些代码量很少,但很牛逼很经典的算法或项目案例?其中有一个回答是雷神之锤3中的快速逆平方根算法,我本以为是电影中雷神3中出现的代码,就特别好奇点进去看了一下,结果真是对应了代码注释中的一句话“what the fuck?”。越不会越好奇,查过之后才知道这是一款游戏中的部分代码,1999年发布,2005年开源,距离现在已经有20年了,据说这部分代码出现在公共场合时,几乎震住了所有人,也就是下面这几行代码:float Q_rsqrt( float number ){

2020-06-08 10:04:24 29486 78

原创 这几道经典例题帮你轻松搞透贪心算法

贪心算法概念叙述运用贪心算法求解问题时,会将问题分为若干个子问题,可以将其想象成俄罗斯套娃,利用贪心的原则从内向外依次求出当前子问题的最优解,也就是该算法不会直接从整体考虑问题,而是想要达到局部最优。只有内部的子问题求得最优解,才能继续解决包含该子问题的下一个子问题,所以前一个子问题的最优解会是下一个子问题最优解的一部分,重复这个操作直到堆叠出该问题的最优解。贪心算法最关键的部分在于贪心策略的选择,贪心选择的意思是对于所求问题的整体最优解可以通过一系列的局部最优选择求得。而必须注意的是,贪心选择必须具备

2020-06-03 09:36:00 1342

原创 想机器学习实战却不会特征降维?这可不行

最近期末需要交的论文有些多,所以更新进度有些慢,为了弥补空白期,以后也会给大家转载一些好文,感谢各位哥哥姐姐一直以来的支持。如果只对降维的代码部分感兴趣可以直接划至文末一直都在研究关于机器学习相关算法的理论,最近准备打算在Kaggle参加些竞赛,但只会一些理论知识是不足以针对给定的数据建立一个比较不错的模型,这其中还包括很多必要的操作,比如缺失值处理、特征工程等等。今天来说一下特征降维,我们在练习时通常会用sklearn自带的数据集,比如鸢尾花数据集,通常这类数据集是经过处理的,特点就是规模小.

2020-06-01 11:11:57 531

原创 请查收这份“位运算”的装Bi指南

运算可谓是与编程息息相关,我们编写的每一个程序可能都带有加减乘除,当然这是最基础的运算了。在大一下的时候学了第一门编程语言C,随着也学到了取余(%)和三目运算符(? :),当时就觉得(? :)真的NiuBi,但在编程时却很少用到,因为if和else已经刻在我的脑子里。不同语言中的运算符也会有一些偏差,像Python中的整除(//)是C中没有的,C中的三目运算符在Python中也有着不同的表现形式,比如np.where和if、else组合。下面介绍个人认为比较高大上的位运算符,说它高大上很大一方面是因为位

2020-05-22 10:57:58 558

原创 回溯法、分支限界法两种思想帮你轻松搞定旅行售货员问题(TSP)

问题描述某售货员要到若干城市去推销商品,已知各城市之间的路线(或旅费)。要选定一条从驻地出发,经过每个城市一遍,最后回到驻地的路线,使总的路程(或总旅费)最小。本文只考虑4个城市的情况,下面这个带权图即为问题的转化。由于只有4个城市,如果规定售货员总是从城市1出发,那么依据排列组合可以得到6种不同的旅行方案,比如12341、13241等等。在这些排列组合基础上可以很容易绘制出一棵排列树,也是该问题的解空间树,排列树如下:根据解空间树可以得到一些有用的信息:该树的深度为5两个节点之间路径上的标

2020-05-18 09:20:39 5542 2

原创 别再暴力匹配字符串了,高效的KMP才是真的香!

如果你想了解KMP算法,请静下心读完这篇文章,一定不会辜负你的时间暴力匹配(BF)字符串匹配是我们在编程中常见的问题,其中从一个字符串(主串)中检测出另一个字符串(模式串)是一个非常经典的问题,当提及到这个问题时我们首先想到的算法可能就是暴力匹配,下面的动图就展示了暴力匹配的流程。上图中箭头指向的字符都为蓝色时代表二者匹配,都为黑色时代表二者不匹配,红色则代表在主串中找到模式串。这种算法大致思路就是每当模式串和主串中有字符不匹配,模式串与主串对应的位置整体向后移动一位,再次从模式串第一位开始比.

2020-05-11 09:51:56 3468 11

原创 LeetCode小白入门——简单题目八题合集,每题两解

本文共包括八个题目,来源于LeetCode简单难度,每个问题会给出两种解法,第一种偏暴力、易理解一些,第二种会更加高效一些,尽可能会避免利用Python的内置函数,便于真正理解算法原理。来源:LeetCode(力扣)链接:https://leetcode-cn.com/problemset/all/?difficulty=%E7%AE%80%E5%8D%951.两数之和题目描述:给定一...

2020-05-06 09:20:23 1734

原创 机器学习笔记(十四)——线性回归及其两种常用的优化方法

何为回归回归的目的是预测数值型的目标值,最直接的办法是依据输入写出一个目标值的计算公式,比如要计算一个男生可以找到女朋友的概率:P=0.4∗财产+0.3∗长相+0.3∗身高P = 0.4\ast财产+0.3\ast长相+0.3\ast身高P=0.4∗财产+0.3∗长相+0.3∗身高这意味着要综合财产、长相、身高三个因素来判断概率,其中财产也是最重要的因素。这个式子就可以被称作回归方程,其中...

2020-05-01 11:19:11 3193

原创 机器学习笔记(十三)——重中之重的性能度量方式你要懂

性能度量本文参考《机器学习》和《机器学习实战》在之前讲述的所有分类介绍中,我们都是假设所有类别的分类代价是一样的,由于主要探讨的是二分类问题,所以可看作1和0的分类代价相同。而对于分类代价相同的问题,我们通常利用正确率或错误率来评价所构建分类器性能的好坏。比如手写数字识别系统,对于测试数据集,它的准确率可以达到98%,就可以说这个模型比较不错。但是我们现在考虑癌症检测问题,我们也通过某...

2020-04-27 09:56:10 590

原创 机器学习笔记(十二)——集成学习方法之AdaBoost

集成学习方法本文参考于《机器学习实战》和《机器学习》在此之前一共介绍了五种分类算法,分别为KNN、决策树、朴素贝叶斯、逻辑回归、支持向量机,可以看到每一种算法都有各自的优缺点,以及适合的数据集。集成学习方法可以将不同分类算法构建的分类器组合在一起,更加高效准确的分类。使用集成学习方法时可以有多种形式:可以是不同算法的集成,也可以是同一算法在不同设置下的集成,还可以是数据集不同部分分配给不...

2020-04-22 10:23:07 1399 3

原创 机器学习笔记(十一)——学支持向量机怎能不懂“核“

非线性支持向量机对于线性分类问题,线性分类支持向量机是一种非常有效的方法。但是有的分类问题是非线性的,这时就可以使用非线性支持向量机对分类问题求解,其主要的特点是利用核技巧(kernel trick),下面通过一个通俗的小栗子介绍核技巧。核方法与核技巧假设有一个二维平面上有4个点,两个红色点、两个绿色点,这4个点位于一条直线上,如下:对于这个问题,我们是无法利用一条直线准确将红色点和绿色...

2020-04-19 09:19:33 976

原创 机器学习笔记(十)——这样推导SMO算法才易理解

线性支持向量机上一篇文章对支持向量机的间隔、对偶和KKT条件做了详细推导,但前文的基础是原始问题为线性可分问题,所以对线性不可分训练数据是不适用的,这时需要引入一个新定义:软间隔。假如训练数据中有一些特异点,也就是分类会出错的样本点,将这些特异点除去后,剩下的大部分样本点组成的集合是线性可分的,训练数据线性可分时所对应的间隔也被称为硬间隔。线性不可分也就意味着某些样本点不能满足函数间隔大于等...

2020-04-15 09:08:23 2030

原创 机器学习笔记(九)——手撕支持向量机SVM之间隔、对偶、KKT条件详细推导

SVM概述支持向量机(SVM)是一种有监督的分类算法,并且它绝大部分处理的也是二分类问题,先通过一系列图片了解几个关于SVM的概念。上图中有橙色点和蓝色点分别代表两类标签,如果想要将其分类,需要怎么做呢?可能有的伙伴会想到上一篇文章讲到的逻辑回归拟合决策边界,这肯定是一种不错的方法,本文所讲的SVM也是可以解决这种分类问题的;既然都是分类算法,所以通过一个例子可以比对出二者的相同点和不同点。...

2020-04-11 11:22:19 2186 1

原创 机器学习笔记(八)——随机梯度上升(下降)算法调优

前言概述上一篇文章对逻辑回归的原理和基本思想做了一些简要介绍,并通过引入Sigmoid函数和梯度公式成功推导出了梯度上升和梯度下降公式,上文分类实例是依据全批量提升上升法,而本文会介绍全批量梯度上升的一种优化算法——随机梯度上升,如果还未懂得逻辑回归思想和推理公式的原理,还请观看上一篇文章:机器学习笔记(七)——初识逻辑回归、不同方法推导梯度公式。随机梯度上升区别对比在讲解全批量梯度上升和...

2020-04-06 09:01:55 3295 1

原创 机器学习笔记(七)——初识逻辑回归、不同方法推导梯度公式

算法概述逻辑回归(Logistic)虽带有回归二字,但它却是一个经典的二分类算法,它适合处理一些二分类任务,例如疾病检测、垃圾邮件检测、用户点击率以及上文所涉及的正负情感分析等等;首先了解一下何为回归?假设现在有一些数据点,我们利用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合的过程就称作回归。利用逻辑回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。线...

2020-04-03 08:32:27 2962

原创 机器学习笔记(六)——朴素贝叶斯构建“饥饿站台”豆瓣短评情感分类器

前文回顾上一篇文章介绍了朴素贝叶斯算法的相关知识,包括以下几方面:朴素贝叶斯算法的基本原理公式推导贝叶斯准则(条件概率公式)构建训练、测试简易文本分类算法拉普拉斯平滑修正其中公式推导这一部分较为重要,利用条件概率解决问题也是朴素贝叶斯的基本思想,所以理解贝叶斯准则如何得到,以及如何应用十分重要,也是后期构建算法的基础。现实生活中朴素贝叶斯算法应用广泛,如文本分类,垃圾邮件的分类,...

2020-03-30 18:52:49 770

原创 机器学习笔记(五)——轻松看透朴素贝叶斯

一、算法概述贝叶斯算法是基于统计学的一种概率分类方法,而朴素贝叶斯是其中最简单的一种;朴素贝叶斯属于监督学习的算法之一,一般用来解决分类问题,我们之所以称之为"朴素",是因为整个形势化过程只做最原始、最简单的假设,即假设数据集所有的样本之间都是独立存在,互不影响的。用一个条件概率公式更好的理解这个假设条件,假设一个样本中有(a1、a2、a3、… an)共n个样本,若有P(a1,a2,a3,…,...

2020-03-25 16:13:21 687 2

原创 机器学习笔记(四)——决策树的构建及可视化

前文简介上一篇文章中主要介绍了以下几方面:决策树的简介决策树的流程熵的定义及如何计算熵信息增益的定义及如何计算信息增益依据信息增益划分数据集本文以一个新的数据集(隐形眼镜数据集)为基础实现构建决策树、决策树的保存与加载、利用决策树分类、决策树的可视化,前文的知识不在过多概述,着重介绍这四个方面。先大致了解一下数据集:这份数据源至UCI数据库,其共有4个特征分别为age(年龄...

2020-03-19 19:12:53 1420

原创 机器学习笔记(三)——搞懂决策树必备的信息增益

一、何为决策树决策树是监督学习算法之一,并且是一种基本的分类与回归方法;决策树也分为回归树和分类树,本文讨论的是分类树。如果了解或者学过数据结构,肯定对"树"这个概念是不陌生的,在此基础上学习掌握决策树也会更加容易,下面通过一个小例子帮助理解何为决策树。下图所示流程图即为一个决策树,矩形代表判断模块、椭圆形则代表终止模块,表示已经得出结论可以终止程序的运行;左右箭头表示分支,可以通过它到达另一...

2020-03-15 17:01:21 904

原创 机器学习笔记(二)——KNN算法之手写数字识别

简介手写数字识别是KNN算法一个特别经典的实例,其数据源获取方式有两种,一种是来自MNIST数据集,另一种是从UCI欧文大学机器学习存储库中下载,本文基于后者讲解该例。基本思想就是利用KNN算法计算出如下图一个32x32的二进制矩阵代表的数字是出于0-9之间哪一个数字。这份数据集呢...

2020-03-10 18:12:07 2830 4

原创 机器学习笔记(一)——KNN针对泰坦尼克号生存记录建模的两种方法

KNN算法原理本篇博客基于《机器学习实战》实现算法原理简要概括,重在代码实现k-近邻算法(kNN)的工作原理是:存在一个样本数据集合,称训练样本集,并且样本集中每个数据都存在标签,即样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似的数据(距离最近)的分类标签。如图,图中绿点的标签是未知的,但...

2020-03-06 18:08:50 1617

原创 Python做一份简易旅行攻略——疫情之后,若条件允许,可愿意用一场旅行“弥补”自己

诞生背景2019年的春节假期会给我们留下深刻的印象,没有拜年、没有家庭聚餐、没有三五好友的寒暄嬉闹;2020年的春天也会给我们这代人留下深刻的印象,非典时期的我们还是两三岁傻乎乎的孩子,却在这个春天迎头撞上了新冠,选择宅在家大概是我们普通人仅有的贡献,虽经历了确诊人数的峰值时期,但也见证了这个曲线逐渐缓和,渐渐“春暖了雪也融了”。今天是假期的第55天,是我宅在家中的第40天,也是网课开始的第5...

2020-02-29 13:44:55 5657 10

数据库课程设计:Oracle+Java实现酒店管理系统(c/s结构)

本人数据库课程设计题目,利用主要利用java的GUI做框架结合Oracle数据库实现一个酒店管理系统,是c/s结构的

2020-07-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除