J-Ombudsman-CSDN博客

转载 screen命令

linux screen 命令详解一、背景系统管理员经常需要SSH 或者telent 远程登录到Linux 服务器，经常运行一些需要很长时间才能完成的任务，比如系统备份、ftp 传输等等。通常情况下我们都是为每一个这样的任务开一个远程终端窗口，因为它们执行的时间太长了。必须等待它们执行完毕，在此期间不能关掉窗口或者断开连接，否则这个任务就会被杀掉，一切半途而废了。二、简介GNU Screen是一款...

2018-06-08 15:15:57 4286

转载 python import导入的路径问题

转载：http://www.jb51.net/article/102252.htm前言Python 相对导入与绝对导入，这两个概念是相对于包内导入而言的。包内导入即是包内的模块导入包内部的模块。Python import 的搜索路径在当前目录下搜索该模块在环境变量 PYTHONPATH 中指定的路径列表中依次搜索在 Python 安装路径的 lib 库中搜索Python import 的步骤pyt...

2018-04-30 21:13:50 53731

转载 2017 深度学习前沿方向

作者：萧瑟链接：https://www.zhihu.com/question/46485555/answer/119428123来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。当前深度学习技术主要是data driven的，即对一个特定任务来说，只要增加训练数据的规模，深度学习模型的表现就可以得到提高。但是发展到今天，这种思路面临很多挑战。主要面临下面几个问题：很多领...

2018-03-18 22:05:12 3042

原创 spark python草稿

=============================================================首先是自己pip安装pyspark 报错，memery error。。虚拟机内存不够，由1.5g改为4g好了。其次，不需要安装pyspark，通常也不会兼容，，'JavaPackage' object is not callable错误解决办法在windows的pycharm开...

2018-03-06 19:59:40 1958

转载安装spark

一、依赖文件安装JDK和scala： http://blog.csdn.net/hit0803107/article/details/52794875hadoop：http://blog.csdn.net/pucao_cug/article/details/71698903 1.1 JDK 参见博文：http://www.cnblogs.com/liugh/p/6623530...

2018-03-04 21:15:48 193

转载 vmware虚拟机共享文件夹

虚拟机系统 centos71，，安装vmware toolscentos7运行命令./vmware-install.pl报错，bad interpretor。一般来说是perl解释器没有安装好。解决方法如下：然后，运行./vmware-install.pl命令，可以还会发现一个错误，找不到kernel headers。如下：我执行上了上述步骤，还是报错，说不是合法的headers路径，所以我就输...

2018-03-03 18:17:28 281

转载 vmware配置虚拟机网络

VMware配置网络的3种方式：NAT、Host-Only、Bridged首先，大家知道一下网络常识： 1.网络中对电脑的访问是通过ip定位的。　　就好像我们的身份证号，可以唯一辨识一个人。ip是用来区分网络中的电脑的，因此同一网络(准确讲是“网段”)中，ip地址不能相同。如果同一网络中有相同的ip存在，经常发生无法联网或者经常掉线的情况。 2.网络是分段管理的。　　拿局域网为例，我们通常的网...

2018-03-03 16:25:22 506

原创 LDA

自己写一下lda，并实践。看完变分，在回顾看下mcmc的视频每个主题的模型：对于主题ϕ\phi来说ϕ={ϕ1,ϕ2,...,ϕK}\phi=\{\phi_1,\phi_2,...,\phi_K\}，对应每个单词的概率。类似于筛子每个面朝上的概率。狄里克雷分布是多项分布参数的分布，ϕ\phi是服从狄里克雷分布。 p(ϕ|β)=Γ(∑Kk=1βk)∏Kk=1Γ(βk)∏Kk=

2018-01-23 16:48:03 212

原创泛函，变分，欧拉-拉格朗日方程

∫f(Z)p(Z)dZ" role="presentation" style="position: relative;">∫f(Z)p(Z)dZ∫f(Z)p(Z)dZ\int f(Z)p(Z) dZ如何理解？假设Z={z1,z2,...,zn}" role="presentation" style="position: relative;">Z={z1,z2,...,zn}Z={z1

2018-01-21 16:42:07 3824

转载 EM算法

要点： Jensen不等式。函数的期望，大于等于期望的函数，对于凸函数，E(f(x))>=f(E(x))。如果是凹函数，不等号方向相反，E(f(x))<=f(E(x))。EM算法只能求得局部极值点---------------------EM和坐标上升的区别：如果是坐标上升，其实是固定一部分参数，另一部分参数求导等于0，交替进行优化，首先EM中的似然函数，不可直接对Z和θ求导。切记EM...

2018-01-19 12:01:01 1143

转载随机采样-mcmc，拒绝采样，转载，

mcmc只关注，概率比较大的那些样本，对于计算期望来说影响不大，而且可以用来估计参数。。根据吉布斯采样，也不一定需要知道联合分布，只需要知道条件概率即可。采样的样本也可以作为样本计算统计量。蒙特卡洛告诉我们，一个概率分布难计算，可以用采样来估计。马尔科夫链平稳收敛告诉我们，可以构造任意概率分布的生成器，产生的样本服从目标概率分布p(x)。所以，mcmc。用来估计原概率分

2018-01-18 10:22:37 1335

转载 pagerank的mapreduce

2018-01-18 10:05:46 339

原创数学之旅上海交通大学

1，绪论点和无穷大是给不出来的，什么多东西都是抽象的。要习惯抽象思维。距离，两个人之间的距离，可以是重心的距离，可以是头与头之间的距离，也可以是心灵的距离。数学上的距离，满足交换律，非负性，三角不等式。数数，数人，数苹果，数小狗。。我们忽略了人，苹果，狗的很多属性。只抓住了数量的属性。。知道关注的对象，以及关注的对象的属性，这是很重要的，要忽略抵制其它很多东西。比如拓扑学中圆和椭圆

2018-01-14 17:44:17 1916

原创 SVM

1，svm的损失函数超平面wx+b=0wx+b=0的公式形式有很多，比如w和bw和b同时扩大或缩小相同的倍数，超平面不变。wx+b=0wx+b=0与k∗wx+k∗b=0k*wx+k*b=0是一样的。点x1x_1到超平面wx+b=0wx+b=0的几何距离，也就是实际物理意义的距离，为|wx1+b|||w||\frac{|wx_1+b|}{||w||}，无论超平面wx+b=0wx+b=0或k∗

2018-01-05 16:09:08 393

原创分割线---------------------------------------------

分割线---------------------------------------------##fontcolor=#ff0000>**1，svm的损失函数**font>

2018-01-05 15:19:03 436

原创 whoosh学习

先了解基本概念和步骤：Quick Start Whoosh是一个索引文本和搜索文本的类库，他可以为你提供搜索文本的服务，比如如果你在创建一个博客的软件，你可以用whoosh为它添加添加一个搜索功能以便用户来搜索博客的入口下面是一个简短的例子：>>>from whoosh.index importcreate_in>>>from whoosh.fields import *

2017-08-13 19:10:34 6120 1

原创 kvm安装ubuntu虚拟机错误总结

知识点：kvm的使用，vnc的使用一，安装虚拟机1，查看已经安装的虚拟机列表及状态virsh -c qemu:///system list --all2，定义虚拟机映像qemu-img create myname.img 10G参数-f 可以指定镜像的格式如： qemu-img create -f qcow2 myname.img 10G常用的

2017-07-26 15:51:50 6254 1

转载线段树

最主要的是，下面的两个模板，一个是求区间和，一个求区间最小值转载：http://blog.csdn.net/metalseed/article/details/8039326 转载： http://blog.csdn.net/ruangongshi/article/details/47376965线段树一：线段树基本概念

2017-07-14 17:16:44 260

原创乘法逆元、扩展欧几里得算法、二元一次方程、a的n次方取余

知识点：乘法逆元，逆元的求法，二元一次方程求通解，a的n次方求余数一，乘法逆元乘法逆元的概念类似于倒数（ax=1,a−1=xax=1,a^{-1}=x），不过是在取余数的情况下的倒数。如果(a×x)%p=1(a\times x)\%p = 1，则称x是a模p的逆元。另一种记法：ax=1( mod p)ax=1(\ mod \ p)，即等式两边去膜pp运算。显然xx有无限多个（如果有）。没有逆元我

2017-07-10 10:29:58 6279 3

原创傅里叶变换和正弦函数和欧拉公式

知识点：重点讲解正弦函数和欧拉公式的关系，以及它们在傅里叶变换中的作用，附加：傅里叶变换和卷积公式这是我第二次学习傅里叶变换，其实第一次就已经懂了时域和频域的关系，也知道一维傅里叶变换就是将一个函数转化为很多频率不同的正弦函数的和，二维图片傅里叶中的频率指的是图像中像素的梯度。频率高的代表图像的变换，频率低表示图像温和。但是我还是不会自己编写代码，最让我不理解的就是为什么DFT的求解方程式就是Xk=

2017-06-27 15:43:51 36396 4

转载降维的四种方法：PCA、LDA、LLE、Laplacian Eigenmaps

知识点：降维的四种方法，PCA、LDA、LLE、Laplacian Eigenmaps注意区分LDA：信息检索中也有LDA(Latent Dirichlet allocation)，主题模型,，表示文档的生成过程：先根据超参选择主题，在根据主题的分布采样得到单词，重复直至文章写完。机器学习降维中也有LAD（Linear Discriminant Analysis），常用来和PCA作

2017-04-24 17:36:06 8438

转载模型优化中的过拟合与欠拟合

知识点：过拟合、欠拟合，以及它们与正则化的权重、模型参数的复杂度、和训练集样本数的关系图转载：http://blog.csdn.net/lonelyrains/article/details/49305795模型不理想时，怎么调整模型？是要更多样本？是要更多或者少的附加其他特征或者多项式特征？正规化的λ参数应该更大或者更小？怎么评价模型是否理想？欠拟合或

2017-04-21 09:58:57 2134

原创 python输入，格式化输入，以及scanf的替代方案

一，普通读入数据有一下5种方式：n, m = [int(i) for i in temp.split(' ')]n, m = map(int,raw_input().split(' ')) import sysfor line in sys.stdin: for data in line.split(' '): print data impo

2017-04-14 00:30:12 40308 4

转载 python 变量名中的下划线、双下划线含义

Python 用下划线作为变量前缀和后缀指定特殊变量/方法。主要存在四种情形object # public__object__ # special, python system use, user should not define like it__object # private (name mangling during runtime) _object

2017-04-14 00:01:36 1384

原创常用的概率分布:二项式分布，贝塔分布，狄里克雷分布

知识点：伯努利分布、二项式分布、多项式分布、先验概率，后验概率，共轭分布、贝塔分布、贝塔-二项分布、负二项分布、狄里克雷分布，伽马函数、分布一，伯努利分布(bernouli distribution)又叫做0-1分布，指一次随机试验，结果只有两种。也就是一个随机变量的取值只有0和1。记为：0-1分布或 B(1,p)B(1,p)，其中pp表示一次伯努利实验中结果为正或为1的概率

2017-04-13 20:38:42 16086

原创信息检索中常用的评价指标：MAP,nDCG,ERR,F-measure

知识点文本检索常用的评价指标：MAP、nDCG、ERR、F-score/F-measure以及附加的Precision、Recall、AveP、CG、DCG、IDCG、MRR、cascade models一，MAPPrecision(P)：准确率(精确度)是指检索得到的文档中相关文档所占的比例，公式如下： precision=|{relevantdocuments}⊆{ret

2017-04-10 01:14:51 17071 5

原创 logistic回归

模型知识点：logistic详解，logistic与softmax 与 Lasso regression 与 ridge regression ， L0、L1、L2范式。

2017-03-20 20:32:55 1074

转载损失函数目标函数

转载：http://blog.csdn.net/shenxiaoming77/article/details/51614601损失函数，目标函数都是用来衡量，模型在该参数下的好坏。MLE最大似然估计就是一种简单的衡量参数的目标函数。------------------------------------------------------------------------------

2017-03-20 17:16:08 3087

原创 strcpy、memset和memcpy的使用

strcpy原型：extern char *strcpy(char *dest,char *src);功能：把src所指由NULL结束的字符串复制到dest所指的数组中。说明：src和dest所指内存区域不可以重叠且dest必须有足够的空间来容纳src的字符串。返回指向dest的指针。memcpy原型：extern void *memcpy(void *dest, void

2017-03-11 21:35:09 406

原创狄里克雷平滑(Dirichlet)、线性插值平滑(Linear Interpolated)、拉普拉斯平滑(Laplacian)

一元语言模型（Unigram Language Model）就是关于全部单词上的一个概率分布，它认为每篇文章都对应一个一元语言模型，文章中的单词都是从这个概率分布中采样得到。所以计算文章和查询语句之间的相关性，相当于计算文章对应的一元语言模型产生出查询语句的概率。通常我们统计文档中的单词频率分布来估计文章对应的一元语言模型，但是未出现在文档中的单词的概率就被设置为0了，这显然是不合理的。所以需

2017-03-11 11:53:31 6758

转载转载：10种检测Python程序运行时间、CPU和内存占用的方法

原文网址：http://www.jb51.net/article/63244.htm

2017-03-05 13:58:09 1226

原创 python引用计数和gc垃圾回收

一，引用计数和垃圾回收介绍：python采用"引用计数"和"垃圾回收"两种机制来管理内存。引用计数通过记录对象被引用的次数来管理对象。对对象的引用都会使得引用计数加1，移除对对象的引用，引用计数则会减1，当引用计数减为0时，对象所占的内存就会被释放掉。引用计数可以高效的管理对象的分配和释放，但是有一个缺点，就是无法释放引用循环的对象。最简单的就是下面的自己引用自己的例子：

2017-03-05 13:46:15 4723

原创最大似然估计、梯度下降、EM算法、坐标上升

主要讲解的是机器学习中参数学习算法之间的区别，以及应用的场景。最大似然估计：其中目标函数是对数似然函数。为了求目标函数取最大值时的theta。有两个关机键步骤，第一个是对目标函数进行求导，第二个是另导数等于0，求解后直接得到最优theta。两个步骤缺一不可。梯度下降：对目标函数进行求导，利用导函数提供的梯度信息，使参数往梯度下降最快的方向移动一小步，来更新参数。为什

2017-03-01 21:31:12 4814

原创 python装饰器、with和contextmanager

1，装饰器：装饰器是一种简单的记号而已，有如下等价的转换规则（带不带参数的装饰器都一样，只要是一个可调用对象即可）。@foodef bar: pass等价于：x = foobar = x(bar)'----------------'@foo('abc')def bar: pass等价于：x = foo('abc')bar = x

2017-02-21 18:41:53 779

原创 python迭代器、生成器、yield和xrange

1，迭代器：支持next和__iter__方法的类，其中next需要抛出StopIteration异常或返回迭代值，__iter__需要返回迭代器自己，也可以实现send函数，但要保证send函数调用next。class MyIterator(object): def __init__(self, step): self.step = step

2017-02-21 17:57:37 1376

原创 new、init和metaclass

1，__new__和__init__方法：__new__方法限于新式类，是静态方法，且不是类方法，用来创建对象。__init__方法是普通方法，用来初始化对象。流程是（不完全正确）: obj = classObj.__new__(classObj); type(obj).__init__(obj); （属性方法的访问，请参考前面的文章）返回的obj可以和classObj没有任何关

2017-02-21 17:33:28 521

原创 python属性和方法的访问

以下的讨论都限于，新式类(个人认为最好限于新式类)1，python一切皆对象除了object和type，两个逆天的存在，不是说它们不是，而是它们更高级一点。第一个区分的就是对象之间的关系，由__bases__和__class__两个主线来关联完成。2，属性的分类（作者自己的分类，仅供参考）Python-provided属性和用户属性：Python-provide

2017-02-13 11:00:41 4175

原创熵的总结

知识点：自信息量，熵，交叉熵，相对熵，联合熵，条件熵，信息增益

2017-02-09 19:38:04 5562

空空如也

a hosted copy是什么意思？

opencv 源码 Mat& operator =