CAM-TAY-CSDN博客

原创 Quantities

time-series data vs cross-sectional data:time-series data: observations taken over a period of time at a specific spaced time intervals 在一个时间段内以某个时间间隔划分得到的观测值cross-sectional data: observations take...

2019-12-07 21:34:20 395

原创 latex常用操作总结，更新……

1、引入bib参考文献，通常使用的模板中会有bst文件来规定参考文献的格式。做法：新建一个bib文件，加入各个需要引用的文中bibtex；在文章末尾\end{document}之前添加：\bibliographystyle{IEEEtran}\bibliography{filename}其中第一行IEEEtran为bst文件的名称，第二行filename为自己新建的bib文件的名称...

2018-11-28 14:08:16 1184

原创梯度下降

梯度下降定义梯度方向梯度更新缺点批量梯度下降 Batch Gradient Descent功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图...

2018-11-28 14:02:55 380

原创 java注解

java注解何为注解内置注解注解的定义及使用注解处理器注解元素何为注解也称为元数据，为在代码中添加信息提供一种形式化的方法，使我们可以在稍后某个时刻非常方便地使用这些数据。将元数据和源代码二建结合起来，而不是保存在外部文档中。能够提供更加干净易读的代码以及编译期类型检查。内置注解@Override：表示当前方法定义将覆盖超类中的方法@Deprecated：使用此注解，编译器会发出警告信...

2018-11-27 16:45:37 158

原创配置中文XeLaTex环境

本人初始时懒人一键使用了CTex安装，但无奈写中文论文时版本太低不支持使用的模板，所以开始自行配置TexLive+WinEdt+SumatraPDF的环境。【TeXworks个人觉得真的不太好用其中使用TexLive时遇到的一些问题及解决方案如下： fontspec.cfg: Erroneous variable \c__fontspec_shape_n_n_tl used...

2018-11-12 10:11:54 12390

原创 mac os 更改mac地址

mac os 更改mac地址ifconfig en0 | grep etheropenssl rand -hex 6 | sed ‘s/(…)/\1:/g; s/.$//’ | xargs sudo ifconfig en0 ether这样再通过第一个命令就可以看到修改后的mac地址。如果发现网络有不正常，则断开wifi再重新连接即可。注意：mac地址在电脑重启会变回原来的地址，所以...

2018-09-19 16:23:46 3221 1

原创 Angular 入门

一、安装 module load ossjs/node/8.11.1 //load Node.js npm install -g @angular/cli ng version //angular version npm run start // run the application locally 通过在package.json文件中修改st...

2018-09-07 13:50:28 439

原创 fontawesome使用方法

fontawesome中提供了很多各式各样的icon，可以用来增加网页的美观性。使用方法： 1）在index.html的head部分添加：<linkrel="stylesheet"href="https://use.fontawesome.com/releases/v5.2.0/css/all.css"integrity="sha384-hWVjflwFxL6sNzntih27...

2018-09-04 10:36:12 3551 2

原创 angular + typescript一些知识点

RestFul常用方法：在app.module.ts中 -import {HttpClientModule} from “@angular/common/http”; -在@NgModule中的imports部分加入HttpClientModule在service.ts文件中 -import {HttpClient, HttpParams} from “@angular/comm...

2018-09-03 18:16:20 1283

原创 Primeng中一些组件的格式调整以及css设置

个人觉得primeng提供了很多比较好看的组件，包括输入框input、表格table、按钮button、交互框dialog等等，样式要比angular material好看一些，也比较好上手，官网提供了很多示例代码以及参数的使用说明。但是某些组件的元素样式说明可能没有很直接，所以想开这篇文章，介绍一下我在使用其中一些组件时遇到的问题，以及对应的解决方案，包括一些内部元素的css设置。m...

2018-09-03 17:40:30 6321 1

原创聚类、降维与度量学习

降维的必要性高维数据中很容易出现样本稀疏、距离计算困难等问题，即“维度灾难”，为了缓解维度灾难，常用的就是降维。因为数据样本虽然在高维空间中，但与学习任务相关的可能仅仅是一个低维分布，即高维空间的低维嵌入，所以能够进行降维。常用方法：特征值分解主成分分析PCA：对样本进行中心化后，计算协方差矩阵，对协方差矩阵进行特征值分解，取最大的k个特征值对应的特征向量形成投影矩阵。核化线性降...

2018-07-29 21:20:56 877

原创机器学习中缺失值处理

1）平均值、中值、分位数、众数、随机值等替代 2）用其他变量做预测模型来算出缺失变量。 3）把变量映射到高维，也即是把有n个值的特征转化为一个n维特征并进行01填充；连续值特征可以离散化后再做处理。这是在n不是很大的情况下这样处理。如果n很大，可以将nan作为一个值 4）如果只有train中有缺失值，则使用1处理；否则，如果train和test都有很多缺失值，可以将这个作为一个bool型/0...

2018-07-29 17:59:19 875 3

原创特征选择

本文基于周志华老师的《机器学习》中的内容做知识点总结使用特征选择的原因：解决维度灾难：只挑选重要特征；去除不相关特征，降低学习任务的难度。 1）无关特征：与当前学习任务无关的特征 2）冗余特征：包含的信息可以从其他特征中衍生出来子集搜索：前向搜索：从特征集合中挑选一个最优特征，放入子集；然后在剩余特征中选择一个加入子集，选择最优组合来作为这一轮的子集；当选...

2018-07-29 17:50:45 610

原创集成学习总结

内容基于周志华老师的《机器学习》书籍。集成学习通常将多个“弱学习器”结合从而得到显著优越的泛化性能。如果希望学习器的个数较少，通常会选用较强一些的学习器。 Boosting: 个体学习器间存在强依赖关系，必须串行生成的序列方法Bagging & random forest：个体学习器间不存在强依赖关系，可同时生成的并行化方法。 Bagging和rando...

2018-07-28 21:51:23 295

原创线性模型

y=wx+b优点：可解释性强；非线性模型可以通过在线性模型的基础上引入层级结构或者高维映射而得。将特征转化为模型的输入值离散属性：如果存在序关系（高中低），可以将其转化为对应的连续值；如果不存在序关系（不太相关的值），则可以将其转化为k维向量，k为属性的取值个数。性能度量：均方误差最小化，对应的方法称为“最小二乘法”。如果xTx是一个满秩矩阵的话，那么w能够得...

2018-07-28 16:23:04 1896 1

原创 Spark GBDT vs Random Forests vs xgboost

参考spark API文档算法层面比较： GBDT vs Random Forests （RF）1) GBDT一次只训练一棵树，而RF一次可以并行地训练多棵树，所以GBDT的训练时间更长。所以，GBDT通常会使用更小的树，同时也减少训练一棵树的时间。2）RF更不容易过拟合，训练更多的树能够降低RF过拟合的可能性，却增加GBDT过拟合的可能性。（因为在统计学角度，RF通过训练更多的树降...

2018-07-22 17:42:54 722

原创统计学习方法：逻辑斯蒂回归与最大熵模型 (六)

逻辑斯蒂回归模型 logistic regression逻辑斯蒂分布函数 logistic distribution 对应下面两张示意图摘自维基百科逻辑斯蒂密度函数二项回归模型：将x对应的样本归于概率值较大的分类...

2018-06-14 22:12:22 281

转载连续特征如何离散化，为什么要离散化，常用于逻辑回归模型

转自：连续特征离散化达到更好的效果,特征选择的工程方法连续特征的离散化：在什么情况下将连续的特征离散化之后可以获得更好的效果？Q:CTR预估，发现CTR预估一般都是用LR，而且特征都是离散的。为什么一定要用离散特征呢？这样做的好处在哪里？A:在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：0、离散特征的增加和减...

2018-06-14 15:30:24 4941

原创统计学习方法：决策树 (五)

目标：找到一个与训练数据矛盾较小的决策树，同时具有很好的泛化能力。基本过程：从根结点开始，递归地选择最优特征，根据该特征对训练数据进行分割，直到每个子集都被分到叶结点上，有了明确的分类；但是这样得到的决策树在已知数据上表现完美，但在未知数据上表现未知，可能发生过拟合，所以需要进行剪枝，去掉过分细分的叶结点。如果特征数量过多，可以在开始时就进行特征选择，只使用对训练数据有足够分类能力的特征...

2018-06-13 19:54:11 216

原创 mac使用git报错xcrun: error: invalid active developer path

mac使用git突然报错，结果如下：xcrun: error: invalid active developer path (/Library/Developer/CommandLineTools), missing xcrun at: /Library/Developer/CommandLineTools/usr/bin/xcrun

2018-06-13 11:05:06 183

原创 java并发、多线程知识点总结

1、Web库类、Sevlet天生有多线程性。2、定义任务：使用Runnable接口并实现run()方法。而将runnable (不返回任何值) 对象编程工作任务的方式为Thread t = new Thread(new Task()); t.start();这里start()会迅速返回，因为每个任务都由不同的线程执行，不影响main()中的其他任务操作。如果想要添加更多的线程，就可以使用f...

2018-06-13 11:03:54 200

原创统计学习方法：朴素贝叶斯法 (四)

主要思想：通过训练数据学习先验概率分布P(Y=c)和条件概率分布P(X=x|Y=c)，从而学习联合概率分布P(X=x, Y=c)。所以是生成模型。计算公式：后验概率最大化，将实例分到后验概率最大的类中。每一个概率可通过极大似然估计 (通过采样估计真实分布中的参数值，在参数的所有可能取值中寻找一个值能够最大化采样结果的可能性)得到。而极大似然估计的准确性依赖于样本量的大小，样本量越大，越能反映真实分...

2018-06-13 11:01:58 194

原创统计学习方法：感知机 (二)

感知机：线性分类模型；二分类；输入为特征向量，输出为实例类别 (+1或-1)；判别模型。公式：线性可分：存在某个超平面，能够将正例和负例划分到超平面两侧。损失函数：其中M为误分类点的集合梯度：沿着梯度方向函数值增长最快随机梯度下降法：随机挑选一个误分类点，即满足y(wx+b)<=0，使其梯度下降根据随机梯度下降法，我们可以发现直到收敛，w和b可以表示为：其中每一个代表使用每个样本i进行更新对...

2018-06-12 21:45:04 142

原创统计学习方法：概论 (一)

损失函数：0-1损失：预测和实际相同时损失为0，不同时为1。平方损失：预测与实际的误差平方值。绝对损失：预测与实际的误差绝对值。对数损失：-logP(Y|X)，在当前模型下对于输入X预测得到的真实类别Y的概率为P(Y|X)，模型好的情况下这个值应该为1，对应的对数值应该为0，最小化对数损失。经验风险与结构风险：经验风险：在训练数据上的累积误差，即所有样本的损失之和。结构风险：除了考虑经验风险，还考...

2018-06-12 17:41:02 148

原创深度学习最基础理论知识总结 (CS231课程总结，持续更新)

因为有在看CS231学习深度学习的简单知识，所以打算整理成blog，持续更新中。。。一、损失函数loss function1、SVM：最简单的loss function 其中为真实label对应的分数，为label j对应的分数，Li为每个样本的分类损失，目的是最大化真实label对应分数。在初始化时，Li的初始值接近于C-1，其中C为分类的个数，因为所有的分数都接近于0...

2018-05-27 21:38:01 11060 1

转载 Java 8特性 (接口、Lambda等)

转自：https://blog.csdn.net/haiyoung/article/details/52693212本教程将Java8的新特新逐一列出，并将使用简单的代码示例来指导你如何使用默认接口方法，lambda表达式，方法引用以及多重Annotation，之后你将会学到最新的API上的改进，比如流，函数式接口，Map以及全新的日期API“Java is still not dead—and ...

2018-05-03 11:09:54 808

原创生成模型 VS 判别模型（含义、区别、对应经典算法）

从概率分布的角度考虑，对于一堆样本数据，每个均有特征Xi对应分类标记yi。生成模型：学习得到联合概率分布P(x,y)，即特征x和标记y共同出现的概率，然后求条件概率分布。能够学习到数据生成的机制。判别模型：学习得到条件概率分布P(y|x)，即在特征x出现的情况下标记y出现的概率。数据要求：生成模型需要的数据量比较大，能够较好地估计概率密度；而判别模型对数据样本量的要求没有那么多。两者的优缺点如下图...

2018-03-29 22:44:30 73682 2

原创图论算法总结

一幅含有V个结点的图是一棵树的条件：1) 有V-1条边且不含有环；2) 有V-1条边且连通；3) 连通，但删除任意一条边都不连通；4) 无环图，但添加任意一条边都会形成环；5) 任意一对顶点间仅存在一条路径。图的数据结构表示：1) 邻接矩阵：使用V*V的矩阵，当顶点v和顶点w之间有边相连时，位置(v, w)处值为true2) 边的数组：使用Edge类，内含有2个int实例变量3) 邻接表数组：使用...

2018-03-26 22:02:20 1159

原创查找算法总结(顺序查找、二分查找、二叉树、平衡二叉树、红黑树、散列表hash)

符号表查找以键值对进行存储，每个键对应一个不重复的值。关键函数：put(key, value)、get(key)、delete(key)、contains(key)常用的数据结构一、链表每个节点存储key、value、next；get的实现为遍历链表并找到相同的键；put的实现为遍历链表判断是否有相同的键，如果有则更新值，否则在链表头新增节点。优点：适用于小问题缺点：大型数据查找较慢二、有序数组使...

2018-03-11 22:47:54 5197

原创排序算法总结

本文主要学习了《算法》(Robert Sedgewick Kevin Wayne)中的排序章节，并对所有的重要知识点进行总结1、选择排序算法：从数组中找到最小的元素，和第一个元素交换；在剩余N-1个数中找到最小的元素，和第二个元素交换。特点：1) 运行时间和输入无关，需要N^2/2次比较和N次交换；2) 数据移动是最小的，交换次数和数组大小是线性关系。void sort(int[] a){ ...

2018-03-05 16:26:18 169

原创 union-find算法解析(并查集)

本文主要学习了《算法》(Robert Sedgewick Kevin Wayne)中关于union-find的介绍，并对所有的重要知识点进行总结。1、定义p、q代表单个触点，整数对(p,q)代表这两个值代表的点相连。每次输入一对(p,q)时判断两个点是否连通，如果不连通则添加连接。2、应用1) 大型网络中，已知一些计算机相连，判断任意两个点是否连通2) 变量名等价性：给定两个变量，这两个变量指向同...

2018-03-04 21:37:55 907

原创 java知识点 (继承、对象、复用类、初始化、访问权限控制等)

本文作者阅读了《java编程思想》的前七章，并且在阅读过程中记录下了下面的知识点。1、对象的复制相当于引用，例如直接使用b=a复制数组，对b的改变会直接对a产生影响。2、静态方法只能调用类中的静态变量，可以通过类名.静态方法名进行调用。3、递归方法：可以自己调用自己4、String类的函数codePointAt：x.codePointAt(i)代表x的第i个字母对应的ASCII码...

2018-02-18 23:25:27 238

原创 python matplotlib 多个子图、堆积柱状图、频次/频率直方图绘画

子图的绘画通过add_subplot进行。如下所示，先根据figsize定义的图片大小调用plt.figure画图，然后通过返回的fig对象，调用fig.add_subplot函数进行对应子图的绘画，前两个参数是每行以及每列的子图个数，下面代码所示为2*2的由4个子图构成的图片。第三个参数代表子图的编号，按行开始从1开始编号1、2、3、4……figsize = 18,18 fig = plt.f...

2018-02-09 19:18:29 21116 2

原创 python matplotlib 画图刻度、图例等字体、字体大小、刻度密度、线条样式设置

设置输出的图片大小：figsize = 11,9figure, ax = plt.subplots(figsize=figsize)画简单的折线图，同时标注线的形状、名称、粗细：A,=plt.plot(x1,y1,'-r',label='A',linewidth=5.0,ms=10)其中线条样式以及颜色设置可参考：https://blog....

2017-12-26 21:35:14 280799 12

原创 R语言——4高级数据管理

数学函数：trunc(x)：截取x的整数部分signif(x,digits=n)：将x四舍五入为n位小数log(x,base=n)：以n为底数对x取对数log(x)：自然对数 log10(x)：以10为底数取对数统计函数：mad(x)：绝对中位差quantile(x,probs)：分位数，probs为数值向量[0,1]，按probs划分得到各分段界限dif

2017-12-04 15:05:20 722

原创 R语言——3图形初阶

abline(lm(varible1~varible))：加直线，lm为线性模型，线性拟合绘制多幅图形且保证前面的图形不关闭：dev.new() statementsto create graph 1dev.new() statementsto create graph 2etc. 绘图：plot(x,y,type=”b”)，type=

2017-12-04 15:03:46 343

原创 R语言——2变量操作

增加新变量：1)使用dataframe$variable 变量重编吗：variable[condition] within（）函数可修改数据框变量重命名：1）交互式：fix(dataframe)，然后在对话框中修改命名2）编程式：names(dataframe)[column_number] NA: not available，缺失值Inf：正

2017-12-04 15:02:25 3139

原创 R语言——1初学

R语言赋值：注释：# 输入输出：1）输入：source(“filename.R”)2）文本输出：sink(“filename”)，参数append=TRUE将文本追加到文件后而不覆盖原文件，参数split=TRUE将输出同事发送到屏幕和文件；sink()输出到屏幕。3）图形输出：bmp() jpeg() pdf() png() postscript() svg()

2017-12-04 15:00:27 952

原创将python脚本转化为可执行文件exe

1、安装pywin322、安装pyinstaller3、将需要转换的.py脚本拷贝至pyinstaller安装文件夹下4、在cmd控制台下进入安装目录下，并且运行如下命令python pyinstaller.py --console --onefile .py5、运行完毕后，在当前安装目录下会生成一个与python_file_name同名的文件夹，对应的

2017-12-04 14:22:43 1375 1

转载 matlab r2013a 激活

matlab 激活：安装目录 -> licenses -> license.lic 打开文件，使用下面内容替换INCREMENT Aerospace_Blockset MLM 99 permanent uncounted \ A05070F00D1EB1F92326 VENDOR_STRING=QQ=47399897 HOSTID=ANY \ ck=216 SN=88888

2017-12-04 10:35:41 840

空空如也

空空如也