自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 LDA简介

注:最近在看LDA,其实之前也看过,也了解过LDA,但是最近想要追根溯源,想去看看LD的发展的路径,所以决定从头开始看LDA。LDA简介问题描述算法求解这篇博客中介绍的LDA是最原始的,Fisher的论文(The use of multiple measurements in taxonomic problems)中介绍的,此处介绍一下这篇论文中针对LDA的求解方法以及思路。问题描述Fisher最初引入LDA是为了解决二分类问题,在论文中用的例子是比较经典的鸢尾花的分类问题。说是有三类鸢尾花,每个鸢

2021-03-31 18:25:39 953

原创 LaTeX插入参考文献并引用

今天在写论文时,需要插入参考文献,之前一直是懒人模式,手动输入,然后在引用的地方手动添加,今天特地上网查了一下,学会了用bib来自动插入参考文献,现在把步骤分享在这里。首先需要打开我们的LaTeX:然后呢,在网页上输入我们要插入的参考文献的标题:点进去:...

2020-07-24 21:23:47 29832 10

原创 CSDN如何查看自己关注的博客专栏

之前关注了几个博主的博客专栏,今天周末准备去学习一下,结果画了好长时间才找到关注的专栏,步骤如下:首先进入CSDN点击上图右上角自己的头像,进入我的资料页面,如下:在点击右边的个人主页,进入个人主页:然后点击进入专栏那一项:最后一步就点击“TA关注的专栏”,就可以看见自己关注的专栏了:啦啦啦,搞定啦!!!...

2020-05-31 13:57:47 2420 2

原创 Matplotlib可视化教程

转载自微信公众号:大邓和他的Pythonimport matplotlib.pyplot as pltimport numpy as npimport random基础图表基本示例# 生成数据x = np.linspace(0, 10, 100)y = x ** 2plt.figure()plt.plot(x, y)plt.show()另一种实现方式# 生成数据x = np.linspace(0, 10, 100)y = x ** 3fig, ax = plt.su

2020-05-24 12:42:16 202

原创 如何证明次对角线均不为零的三对角矩阵的秩为n或者n-1

此处,我是用的归纳法来证明的。假设该结论成立。1.当n=1时,此时矩阵为一个实数,结论成立。2.假设n=k-1时,结论成立,记此时的矩阵为AkA_kAk​,即r(Ak)=k−1r(A_k)=k-1r(Ak​)=k−1或者r(Ak)=k−2r(A_k)=k-2r(Ak​)=k−2。则当n=kn=kn=k时,我们先给矩阵AkA_kAk​添加一行,结果为[Aka1T]\left[\begin{matrix}A_k\\a_1^T\end{matrix}\right][Ak​a1T​​]其中

2020-05-23 19:25:03 1222

原创 为什么次对角线元素均不为零的三对角矩阵为不可约矩阵

不可约矩阵的定义及判定方法可见:参考这里,我们从有向图的角度来进行证明。因为我们讨论的是次对角线元素均不为零的三对角矩阵,所以我们可以得到aij=aji≠0,i≠ja_{ij}=a_{ji}\ne0,i\ne jaij​=aji​​=0,i​=j,从aij≠0a_{ij}\ne 0aij​​=0我们可以得到该对称三对角矩阵对应的有向图中,顶点iii可以达到顶点jjj,同理,从aji≠0a_{ji}\ne 0aji​​=0我们可以得到该对称三对角矩阵对应的有向图中,顶点jjj可以达到顶点iii。而

2020-05-23 17:13:05 1632

原创 第二章——模型评估与选择

2.1 经验误差与过拟合先介绍几个专业名词:错误率(error rate): 通常我们把分类错误的样本数占样本总数的比例称为错误率;即如果在mmm个样本中有aaa个样本分类错误,则错误率E=a/mE=a/mE=a/m;相应的,1−a/m1-a/m1−a/m称为 “精度”;即“精度=1-错误率”。误差(error): 我们把学习器的实际预测输出与样本的真实输出之间的差异称为"误差"。学习器在训...

2020-04-23 17:34:46 2320

原创 markdown的一些简单介绍

最近在CSDN上写博客,用的是Markdown来写的,之前也操作过typora,但是也只是会一些很基础的操作,其他一些稍微高级一点的操作并不会,昨天看到一篇微信公众号,上面教了如何写Markdown文档,我就把它搬到这里来了,文章来源自微信公众号:杰哥的IT之旅。一、什么是Markdown?Markdown是一种轻量级标记语言,创始人是约翰.格鲁伯(John Gruber)。允许人们使用易读易...

2020-04-22 15:37:57 311

原创 python3.6安装pyspider报错

最近在学python爬虫,在安装pyspider库的时候,爆了一堆的错,查了好久才解决了,我把这些错误都集中记录在这个帖里,给大家做个参考。首先是安装,用pip安装,用如下命令:pip install pyspider -i https://pypi.tuna.tsinghua.edu.cn/simple博主的python没有永久更换源,所以在安装命令中临时用了更换源的命令。使用了上述命...

2020-04-20 19:38:41 1303

原创 四元数系列3——利用实表示来实施一些简单的数值算法

前面介绍了四元数的定义以及什么是四元数的实保结构算法,接下来,我将介绍几个简单的利用实保结构算法的数值算法。Givens变换在数值算法中有一种算法叫做Givens变换,先简单介绍一下:Givens变换是指形如:的矩阵,其中c,s∈Rc,s\in\mathbb{R}c,s∈R满足∣c∣2+∣s∣2=1|c|^2+|s|^2=1∣c∣2+∣s∣2=1。有时我们亦称Givens变换为(i,j)...

2020-04-14 15:19:07 646

原创 四元数系列2——什么是保结构算法

首先说一下我对保结构算法的理解吧,所谓的四元数保结构算法,就是指可以将四元数矩阵表示为一种实数矩阵的形式,通过对该实数矩阵实施数值算法,进而实现对四元数矩阵实施该数值算法。为什么叫保结构算法呢?因为该实数矩阵在形式上具有某种结构,并且在整个算法实施过程中,该结构是一直保持着的,所以叫保结构算法。可能上面的描述有些啰嗦,那么接下来,我们就从理论上来看看什么是四元数的保结构算法。四元数的实表示形式...

2020-04-14 11:13:09 1989

原创 神经网络简介

神经网络的动机没有训练过的神经网络就像刚出生的婴儿:他们对于世界还一无所知(就白板理论而言),只有通过与世界的接触,如获得后验知识,才能慢慢改变他们的无知。算法则是通过数据感受世界——我们通过基于相关数据集训练神经网络来改变它的无知。在这个过程中我们评价的方法是监测神经网络产生的错误。在深入神经网络的世界前,了解神经网络背后的动机,并理解他们的工作原理是很重要的。为此,我们先简要介绍一下log...

2020-04-13 16:34:29 533

原创 数据分析初步

探索性数据分析(Exploratory Data Analysis, EDA)是指对已有的数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征等手段探索数据的结构和规律的一种数据分析方法。数据及背景https://tianchi.aliyun.com/competition/entrance/231784/information(阿里天池-零基础入门数据挖掘)EDA的目标熟悉数据集...

2020-04-10 19:01:29 730

原创 四元数系列1——什么是四元数

什么是四元数在介绍四元数之前,我们先来回顾一下复数,对于复数,一个比较直观的介绍就是形如a+bia+bia+bi的形式的数,其中,iii为虚部单位,满足i2=−1i^2=-1i2=−1。从复数的定义中我们可以看出,复数是由一个实部和一个虚部构成的,那么如果一个数有不止一个虚部的话,比如2个,或者3个,那么这个数该怎么称呼呢?这里,我们就引入了四元数。四元数(quaternion):类似于上文复...

2020-04-10 18:15:43 1854

原创 关于python使用seaborn画图报错

最近在学习用python进行数据分析,在用seaborn画热力图的时候,出现报错:Cannot cast array data from dtype(‘int64’) to dtype(‘int32’) according to the rule ‘safe’。在网上找了好久,终于解决了。参考链接我是在Windows环境下,用专业版pycharm中的jupyter notebook做数据分析时...

2020-04-10 17:29:50 1356 1

原创 数据分析——特征工程简介

特征工程(Feature Engineering)对特征进行进一步分析,并对数据进行处理。常见的特征工程包括:异常值处理、缺失值处理、数据分桶、特征处理、特征构造、特征筛选及降维等。异常值处理常用的异常值处理操作包括BOX-COX转换(处理有偏分布),箱线图分析删除异常值,长尾截断等方式当然这些操作一般都是处理数值型的数据。BOX-COX转换关于BOX-COX转换,一般是用于连续的变量不满...

2020-04-09 20:01:20 1739

原创 python中一些好用的内置函数

python中一些好用的内置函数(持续更新)python中有很多内置函数,不像print那么广为人知,但他们却异常强大,用好了可以大大提高代码效率。本文收集了一些博主认为比较好用的内置函数。set():当需要对一个列表进行去重操作时,set()函数就派上用场了。a = [1,2,3,4,56,2,3,4,9,1]print(set(a))# 输出{1, 2, 3, 4, 9, 56}...

2020-04-07 16:33:03 113

原创 python安装fancyimpute遇见的问题总结

本人在安装fancyimpute的时候,遇见了一些问题,弄了好久才终于解决了,也是查看了好几个博客,把几个博客的答案都用到了才解决的,接下来,我将介绍一下我的解决的方法。安装准备过程:安装fancyimpute需要先安装几个其他的库,安装方法如下:进入该链接:Whl类库到了这个页面之后,直接Ctrl+F 查找 cvxopt、scs、ecos、CVXcanon、fastcache、cvxp...

2020-04-06 18:37:16 3944 8

原创 PCA与ICA的介绍

Background做一个数据分析业务之前,往往需要对反映事物的多个特征变量进行大量的观测,收集大量数据以便进行分析寻找规律。多个特征变量确实会提供丰富的信息,但是很多情况下变量之间可能会存在相关性,如果用全部特征变量去拟合模型,可能在训练集的效果上会表现的很好,但是在测试集的效果上可能很差。这就存在模型(过度自信)的问题。因此需要找到一种合理的方法,在减少需要分析的特征变量同时,尽量减少特征变...

2020-04-06 12:27:21 4143

原创 最大似然估计介绍

最大似然估计假设当下我们有一枚硬币,我们想知道这枚硬币抛出去之后正面朝上的概率是多少,于是我们抛了10次硬币做了一个实验。发现其中正面朝上的次数是5次,反面朝上的次数也是5次。所以我们认为硬币每次正面朝上的概率是50%。从表面看,这个结论非常正确,理所应当。但我们仔细分析就会发现这是有问题的,问题在于我们做出来的实验结果和实验参数之间不是强耦合的。也就是说,如果硬币被人做过手脚,他正面朝上...

2020-04-03 11:06:14 808

原创 python的pandas库基础

@TOCpython的pandas库在数据分析中常用的函数及其功能(持续更新中)导入pandas库import pandas as pd数据的读取pandas中提供了七种常用的读取数据的方式:读取CSV文档:pd.read_csv(filename, headers=None)注意此处的headers参数,在导入CSV文件时,pandas默认文件的第一行为列名称,不是数据,...

2020-03-30 21:30:09 382

机器学习实战(Peter Harrington 著)数据集.zip

机器学习实战(Peter Harrington 著)书中涉及的数据集,在学习这本书的过程中,不可避免要用到该书中的数据集进行练习,此处提供书中涉及到的数据集,供大家下载学习使用。

2020-03-30

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除