10 陈震

西南大学 - 研究人员

我要认证

trustyourself,thensuccesswillfollowyou.

等级
TA的排名 1k+

支持向量机(SVM)

大约从硕士阶段就听说过 SVM 了,但是没有真正用过,这几天刚好看了看相关的内容,就简单写一下心得,供以后查阅用。支持向量机是一个二分分类方法,比较适合判断只有两个类别的分类问题。从几何意义上看,SVM 的基本思想是找到一个分类的直线(或平面,或者非线性曲线或平面),将两个类别的数据分开。在数学原理上,优化目标是让中间的分割线离两类数据边缘的距离最大。构建一个数学优化模型,并利用拉格朗日对偶模型求解,具体可以参考这篇博客,比英文维基百科介绍地都清楚:https://blog.csdn.net/BIT

2020-08-03 14:51:37

非线性规划的对偶问题

线性规划的对偶问题很容易写出,但非线性规划的对偶问题有点不一样。考虑非线性规划问题:min⁡xf(x)s.t.gi(x)≥0,i=1,…,m,hj(x)=0,j=1,…,l,x∈D.\begin{aligned}\min_{\textbf x}\quad & f(\bf x)&\\\text{s.t.}\quad & g_i(\textbf x)\geq 0, & i= 1, \dots, m,\\& h_j(\textbf x)=0, & j=

2020-08-02 23:37:07

sklearn 中的数据预处理函数

sklearn 是 python 中一个常用的机器学习与统计分析包,功能十分强大,即能做普通的统计分析,也可以做一些常用的机器学习。在分析数据前,一般要对数据进行预处理,常用的数据预处理函数有:scale: 对每列数据进行快速标准化(z 标准化),以均值为0,标准差为1的正态分布对每列数据进行标准化MinMaxScaler: 标准化后每一列数据都落在 [0, 1] 之间StandardScaler: 类似于 Scale,只不过可保存训练集中的均值、方差参数Normalize: 对每一行按p-范

2020-07-31 01:01:50

想起了清华校长的几句话

读博时,注意到了清华大学前校长陈吉宁先生的在一次毕业典礼的几句话,这些天又忽然想起。我相信,你们作为一名清华学生,有战胜懈怠的毅力,有走出彷徨的智慧,也有耐得住寂寞的情怀,但你们更需要的是不唯众、不跟风,不在意在普通的道路上是否比别人走得更快,而是具有从容地行走在无人知晓的荒原上的勇气。因为只有这样,你们才能看到别人看不到的风景。读博时深有感触,因为大部分同学都很努力,但是成果却差别很大,这也影响了不少人日后的就业和人生轨迹,有时候难免会急躁气馁。虽然我不是清华大学的毕业生,但是陈校长上面的几句话具

2020-07-01 10:26:52

主成分分析 python, sklearn

六月份似乎太忙,将近一个月没有写博客,于是挑一个多元统计分析中的方法写一篇 python 操作实现的。主成分分析(Principle Component Analysis, PCA)是数据降维的一个方法:原始的统计数据中有很多变量,可以采用主成分分析方法将原始数据降维为少数几个变量的数据。主成分分析的求解一般采用特征根分解,即求解原始数据协方差矩阵或相关系数矩阵最大特征根对应的特征向量,即为第一主成分,第二主成分为第二大特征根对应的特征向量,其他的主成分可以依次得出。主成分贡献率为对应特征根占所有特征根

2020-06-24 15:27:03

PP图,QQ 图,及 python 画图

统计学中有时会会用到 PP 图 或 QQ 图

2020-05-24 20:55:13

Durbin-Watson 检验

Durbin-Watson 检验,又称 DW 检验,是用来检验残差的自相关性的。假设残差为 ete_tet​,各残差的相关性方程用 et=ρet−1+vte_t=\rho e_{t-1}+v_tet​=ρet−1​+vt​,检验的原假设为:ρ=0\rho=0ρ=0,备选假设:ρ≠0\rho\neq 0ρ​=0,检验统计量:d=∑t=2T(et−et−1)2∑t=1Tet2d=\frac{\sum^{T}_{t=2}(e_t-e_{t-1})^2}{\sum^{T}_{t=1}e_t^2}d=∑t=1T

2020-05-16 13:54:07

对国内学术环境的乐观与悲观

虽说我国学术界有不少问题,但是近几年的进步也是显而易见的,首先就是我国教师的收入比以前好多了。尤其是地方城市,为了吸引博士,都有很多引进政策。基本上能过上地方城市的中等或以上的物质生活。另外,我国及地方对科研还是比较重视,如果能发出优秀的论文,科研奖励和荣誉也是不会少的悲观的地方确实也有不少点,这里就引用知乎(https://www.zhihu.com/question/35...

2020-05-02 10:54:18

java 运行时间显示小数秒

java 计算程序运行时间时,常用的类为:System.currentTimeMillis()。显示计算机的当前时间,单位为毫秒。若要显示程序运行时间,则前后两个 System.currentTimeMillis() 相减即可。结果的单位是毫秒,若要显示为秒,则需要除以 1000;若要显示为小数秒,则需要除以 1000.0。直接除以整数 1000时,显示的是四舍五入的整数秒。举例:pub...

2020-04-23 11:52:11

线性分式规划

对于一个线性分式规划,可以将其转化为线性规划问题求解。

2020-04-20 20:03:02

spss 的判别分析输出结果解读,P(D>d|G=g), P(G=g|D=d),个案输出结果 casewise statistics

经过查阅资料,终于弄明白了 spss 判别分析的一些结果:预测组,给出的结果是贝叶斯判别的预测结果P(D>d|G=g):在既定组内,大于某样本的概率。设既定组的累计分布函数为 Fg()F_g()Fg​(),样本向量表示为 x\bf xx,则它的值为,1−Fg(x)1-F_g(\bf x)1−Fg​(x)P(G=g|D=d):该样本的后验概率到质心的平方距离:该样本的 fishe...

2020-04-17 16:57:55

python 聚类分析 k means

下面是一个简单利用 kmeans 聚类分析的例子,数据为某一年全国31个省市的居民消费支出数据:

2020-04-04 12:04:32

python 金融数据包 pandas_datareader, tushare 与 yfinance

python 提供金融股票数据的包,国外的包有 yfinance, 国内的包有 tushare。都是免费的,因此这两个包维护更新不快,有部分功能可能待修复。1. yfinance之前的名字叫 fix-yahoofinance,官方说明:https://pypi.org/project/yfinance/可以抓取雅虎财经网站上的股票信息,似乎全是美股。这几天国内不能用,可能雅虎财经的网...

2020-03-29 12:14:13

python 爬虫入门--抓取名著古籍

古诗文网中的名著古籍比较多,选取从这个网站上抓。https://so.gushiwen.cn/guwen/可以在上面选取任一个古籍,点击打开复制链接,然后在下面代码中替换相应古籍的链接。下面代码中,抓取的是《西游记》:# -*- coding: utf-8 -*-"""Created on Fri Mar 27 20:14:04 2020@author: zhen chenMI...

2020-03-27 21:52:24

python 爬虫入门--抓取红楼梦小说

爬虫抓取网页的三个基本步骤:获取网页 html (用 request 包)解析网页,找到我们想要的内容(用 beautifulsoup 包等)输出内容找到一个在线红楼梦网址:http://www.shicimingju.com/book/hongloumeng.html从这个网站抓取红楼梦,不过这个网站缺少 28 回,代码如下:# -*- coding: utf-8 -*-"""...

2020-03-27 20:12:53

贵在坚持

颜真卿曾有一首劝学诗,其中两句是 “三更灯火五更鸡,正是男儿读书时”。后来一位著名人物反其意而用之,写了一副对联:“贵有恒,何必三更起,五更眠;最无益,最怕一日曝,十日寒”。做大事者,不是突击,贵在每天的坚持与积累。Step by step....

2019-01-28 12:11:07

生成随机数的原理,生成多元分布随机数

如何生成随机数及多元分布的随机数,发现佐治亚理工的一个课件,讲的特别详细,包括多种方法,以及如何生成多元正态分布的随机数:https://www2.isye.gatech.edu/~sman/courses/6644/Module07-RandomVariateGenerationSlides_171116.pdf要是打开速度慢的话,从 csdn 下载:https://download.cs...

2020-03-15 14:35:56

spss 系统聚类里的组内连接法

做系统聚类时,spss 提供了好几种定义类距离的方法,其中,组间连接(between groups)就是教科书中的类平均法。组内连接(within groups)一直没找到定义,用谷歌搜索了下,终于找到了一个资料:http://www.norusis.com/pdf/SPC_v13.pdf组内连接的意思是:两个类中所有样品两两之间的距离平方和的均值。而组间连接只计算不同类中样品的距离,同类中样...

2020-03-05 18:22:45

经验分布函数 与 bootstrap 方法

当总体分布函数未知时,当样本容量足够大时,可以用经验分布函数替代。经验分布函数的定义为:设 X1X_1X1​, X2X_2X2​, …, XnX_nXn​ 为总体分布的一个样本, −∞<x<∞-\infty<x<\infty−∞<x<∞,用 S(x)S(x)S(x) 表示 X1X_1X1​, X2X_2X2​, …, XnX_nXn​ 中不大于 xxx 的随机...

2020-02-27 12:14:30

Excel 中的协方差阵

Excel 的数据分析可以直接求得样本的协方差阵,但是经过我验证,发现得到的样本协方差阵并不是那个无偏的协方差阵,需要乘以nn−1\frac{n}{n-1}n−1n​才是,因为 Excel 中的计算公式为:Σ^=1nA\hat{\Sigma}=\frac{1}{n}AΣ^=n1​A其中,A 为样本离差阵,而无偏的样本协方差阵为S=1n−1AS=\frac{1}{n-1}AS=...

2020-02-23 15:10:56

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • 领英
    领英
    绑定领英第三方账户获取
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 阅读者勋章Lv1
    阅读者勋章Lv1
    授予在CSDN APP累计阅读博文达到3天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。