自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 常用运筹学软件整理

1. 问题最近在折腾运筹学的一些东西。理论学完了肯定是要借助工具,手算的时代已经过去了。那么常用的软件包有哪些呢?2. 分析2.1. Excel把Excel排在第一肯定有很多人不服,毕竟这看起来也太不专业了。但就像我们之前说的,讨论工具的鄙视链没有意思。Excel简单易用,普及范围最广,和其他软件结合也是最方便的。Excel求解线性规划、整数规划等需要用到Solver工具包,Excel自带,免费使用。如果想要更强大的工具包,可以考虑其付费升级版Analytic Solver for Excel .

2020-06-12 11:26:33 4583

原创 模型匹配分析

1. 问题讨论了这么多模型,有一个问题逐渐浮现了出来,这些模型的效果怎么样?我们需要一些对模型效果进行评价的方法。2. 分析最简单的评估方法,是把所有误差平方加总,于是我们有了RSS(Residual Sum of Error)RSS=∑i=1n(yi−y^i)2RSS=\sum_{i=1}^n(y_i-\hat{y}_i)^2RSS=i=1∑n​(yi​−y^​i​)2RSS的问题是,随着样本数的增加,RSS会一直增加,这就很难评估模型效果。所以我们引入MSE(Mean of Squar.

2020-05-31 15:18:29 1634

原创 如何通过样本数据推断其分布

1. 问题运筹模拟的时候,我们通常会给定,某事件服从正态分布/指数分布之类。问题是,我们通常只能观察到样本数据,没有办法观察到其具体服从的分布。所谓服从什么分布,是需要我们从样本数据推测的。那么问题来了,怎样从数据推测出其所服从的分布(goodness of fit)呢?2. 分析市面上有一些专业的统计软件,可以做到从数据到分布的推测。比如Stat::Fit。但289美元的价格可着实不低。所以我们需要另想办法。常见分布匹配的方法有很多,比如Bayesian information crite.

2020-05-28 22:43:13 3598

原创 一文道尽 Excel 的 Criterion

1. 问题Excel 有众多统计函数(Statistical functions),比如 CountIf、SumIf等,可以根据指定条件(Criterion)进行相关操作。其中 Criterion 应该怎么设置写的比较函数,今天咱一起来总结下。2. 分析根据 Office Online 的帮助文档,我们可以总结出,Criterion 的标准语法应该是"Logic Operator" & Expression具体来说,Logic Operator 有=><>=.

2020-05-26 23:49:36 872

原创 用 R 语言打个印咋就这么费事儿呢

1. 引子前两天还说 R 语言不是不好,(只是不适合咱用)[],今天就想收回这话了。这货用着也太别扭了,一个最简单的可视化差点憋死我。就像马保国,名气大,实则很完蛋。2. 问题比如一个最简单的csv,想打印成 Bar Plot。数据长的像下面这样skillsnumbermachine learning7255communication skill2970fast pace1672software develop1356track record.

2020-05-22 21:32:50 188

原创 东哥和刘亦菲的故事

1. 问题R 语言作为统计学家御用语言,数据类型和语法规则和常见的给程序员使用的编程语言多有不同。不能说人家坏,只是不适合。就像东哥就是刘亦菲永远都得不到的人(^_−)☆。2. 分析先丢下咱的刘亦菲,继续聊聊 R 语言这些怪异的数据类型。下面这个表格很清楚的显示了R语言常见复合数据类型HomogeneousHeterogeneous1DVectorList2DMatrixDataFramenDArray/有些数据是单一数据类型(Homogene.

2020-05-19 13:54:37 278 2

原创 NumPy 运算规则总结

1. 问题ndarray 是 NumPy 的基础元素,NumPy 又主要是用来进行矩阵运算的。那么具体来说,ndarray 是如何进行普通矩阵运算的呢?2. 分析首先,在矩阵用 +-*/ 这些常规操作符操作的时候,是对元素进行操作。这和其他诸如 MATLAB 等语言不一样。比如ar = np.array([[20, 21, 22], [23, 24, 25]])ar *...

2020-05-07 21:13:30 645

原创 Python 中怎样合并数据

1. 问题数据连接是数据处理中经常需要用到的操作。Python 常见的数据类型,都应该怎样进行连接呢?2. 分析2.1. listlist 的连接是最容易的,直接用 Python 语法即可。a = [1, 2, 3]b = [4, 5, 6]c = a + bprint(c)d = [a, b]print(d)输出结果[1, 2, 3, 4, 5, 6][[1, 2,...

2020-05-07 02:07:38 1488

原创 韦小宝真的幸福吗 | Random Forest

1. 问题昨天我们聊应该选赵敏还是小昭,有朋友留言说,当然应该都要了。仔细一琢磨,这话也很有道理。杨过专情,一心只爱小龙女,但也有韦小宝,全面发展一概通吃。到底专一好,还是通吃好,咱得捋捋。2. 分析多,有时候还真是好事儿。比如随机森林,就是用很多棵树,来解决决策树只有一棵树的问题。决策树的最大问题,是容易过拟合,导致对训练模型匹配完美,但是没有泛化能力。scikit-learn是采用...

2020-05-02 14:19:32 115

原创 选赵敏还是选小昭,这可真是个问题 | Decision Tree

1. 问题张无忌在金大侠的世界里面就是一个Bug级别的存在。无论走到什么地方,都有美女一见倾心。虽然金庸自己说,小昭是他所有角色中最喜欢的,偏偏和张无忌走到走后的却是赵敏,不由让人遗憾。于是我在琢磨,如果上天把她俩摆在我的面前,我会怎么选呢?2. 分析这可真是个难题,所以我们需要辅助工具。比如决策树(Decision Tree),就是一个非常好的办法。Decision Tree 是监督...

2020-05-01 21:15:14 117

原创 为了联盟还是为了部落 | K means

1. 问题人类有个很有趣的现象,一群人在一起,过一段时间就会自发的形成一个个的小团体。好像我们很擅长寻找和自己气质接近的同类。其实不只是人类,数据也有类似情况,这就是聚类(Clustering)的意义所在。今天我们就一起来了解下聚类中最简单的一个算法,k 均值法(k means)。2. 分析乍一看,k means 和之前我们提到过得 K-nearest Neighbors 很像。其实这是...

2020-04-29 08:15:14 216

原创 K-nearest Neighbors,隔壁小芳可还好 | 机器学习

1. 问题蒋方舟有句话说的挺好,大意是人应该多读书,那样才能开阔眼界,不读书的话,你的见识就是由你身边的亲戚朋友决定的。话说的不那么动听,但道理是这么个道理。这说明了周围环境对个人的影响。其实不只是人,数据也是,比如 K-nearest Neighbors(k-NN),就是利用身边最近的邻居来进行预测的一种算法。2. 分析K-nearest Neighbors 的原理很好理解。我们以二维平...

2020-04-28 11:43:03 183

原创 怎样用支持向量机从零制作一个垃圾邮件识别器 | 机器学习

1. 问题支持向量机(Support Vector Machines)是当下最流行的机器学习算法之一,今天我们一起来了解下,并来个实战。2. 分析支持向量机属于有监督学习,主要有三个用途分类(Classification);回归(Regression);异常检测(Outliers Detection);功能强大实用,可以说集美貌与才华于一身。相比其他模型,支持向量机的主要优势有...

2020-04-27 20:35:41 547

原创 大火的神经网络到底是什么 | 机器学习

1. 问题神经网络这几年成了最炙手可热的技术,大有一统江湖的气势。不搞懂神经网络,出去都不好意思和人吹牛自己学过机器学习。今天我们就来剖析一下神经网络到底是怎么回事。2. 分析2.1. 正向传播之前我们讨论的逻辑回归,可以用图形表示为x0+---+ |x1+---+ |x2+-------g(z)--> Output y |x3+---...

2020-04-26 10:44:48 183

原创 逻辑回归模型原理及实现 | 机器学习

1. 问题上次我们聊了线性回归模型。线性回归模型得出的结果是连续的,但有时候我们并不需要连续解,而是需要是非解。比如来看病的人是否真的生病,照片里的人是否是本人,信用卡本笔消费是否诈骗等。这类问题统一称为分类(Classification)。逻辑回归模型(Logistic Regression)是分类问题中一种基础且应用广泛的模型。2. 分析线性回归模型为hθ(x)=θTx,−∞<...

2020-04-24 09:03:43 918 1

原创 参数标准化 | 机器学习

1. 问题机器学习的各个参数,也叫feather,可谓千差万别。在正式建模之前,需要把这些参数标准化(Normalization)。具体情况是怎样的呢?2. 分析还是那之前提到的房价案例为例。简单举例,影响房价的参数可能有房价大小,以平方米记,例如从50~200平方米;还有里面的房间数量,比如一室一厅就记为2,三室两厅就记为5。显然,房间数量和平米数有数量级的差异。140平米的房子,房间...

2020-04-21 19:18:52 751

原创 线性回归模型 | 机器学习

1. 问题机器学习是怎么一回事儿呢?听着好神秘。今天我们就开启一段旅程,一点一点揭开她的神秘面纱。2. 分析说机器学习就离不开各种模型。我们先从最简单的一种模型,线性回归(Linear Regression)说起。以房价为例,假如我们想要让机器学习一个估算房价的模型。影响房价的因素可以有地理位置、楼层、房间大小、房间数量等。我们用 x⃗\vec xx 来表示这些变量,其中x⃗\vec x...

2020-04-20 23:47:46 187

原创 Numpy 中如何矩阵的特征对排序

1. 问题用 Numpy 求解矩阵特征对的时候,返回结果大小是随机的,而我们数据挖掘求解的时候常需要把特征值按从大到小的顺序排列。如何简单的实现对特征值和特征向量排序呢?2. 分析Numpy 的 argsort 函数,可以提取排序后的索引。举例来说a = np.array([3, 1, 2, 4])b = np.argsort(a)其结果为array([1, 2, 0, 3])...

2020-04-15 09:27:22 2136 5

原创 怎样在Anaconda环境里面安装新的Python库

今天要用pandas,导入的时候提示没有安装。怪怪,一直用的好好的啊。看来得重装一下了。打开命令行,输入conda的安装命令conda install pandas等待一会儿,就安装好了。重新输入jupyter notebook,然后导入pandasimport pandas as pd,Done。...

2019-11-26 10:50:32 989

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除