自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

转载 非常好的理解遗传算法的例子

转载自:http://blog.csdn.net/b2b160/article/details/4680853遗传算法的手工模拟计算示例为更好地理解遗传算法的运算过程,下面用手工计算来简单地模拟遗传算法的各个主要执行步骤。   例:求下述二元函数的最大值:(1) 个体编码     遗传算法的运算对象是表示个体的符号串,所以必须把变量 x1, x2 编码为一种

2017-04-04 16:23:10 416

转载 梯度下降算法

https://mp.weixin.qq.com/s/5utbOLwOy2RwyrI1OfJjDQ

2017-04-04 14:49:21 282

转载 北大、宾州语法树标记集合

北大标注集词性编码词性名称注解Ag形语素形容词语素。形容词代码为a,语素代码为g前面置以Aa形容词取英语形容词adjective的第1个字母ad副形词直接作状语的形容词。形容词代码a和副词代码d并在一起an名形词具有名词功能的形容词。形容词代码a和名词代码n一起b

2017-03-04 14:37:57 1365

原创 jieba词性和句法分析树标注集

句法分析树标注集:ROOT 原始语句;IP简单句;NP 名词短语;VP动词短语;PU 断句符,通常是句号、问号、感叹号等标点符号;LCP 方位词短语;PP介词短语;CP 由’的‘构成的修饰性关系的短语;DNP由’的‘构成的表示所属关系的短语;ADVP 副词短语;ADJP 形容词短语;DP 限定词短语;QP     量词短语;NN常用名词;NR 固有名词;NT

2017-03-01 17:07:18 6873

转载 语料库知识

知名中文语料库:1. 中央研究院近代汉语标记语料:http://www.sinica.edu.tw/Early_Mandarin/ (台湾的繁体,在NLTK中有)2.中央研究院汉籍电子文献 http://www.sinica.edu.tw/ftms-bin/ftmsw3 3. 国家现代汉语语料库 http://124.207.106.21:8080/  这个没搜索到4.国家语委现代

2017-03-01 15:56:24 2683

原创 NLTK中使用Stanford parser 构建中文语法树

我的环境是ubuntu16.10,最新的stanford parser 需要Java8环境,因此首先需要安装JDK。然后到http://nlp.stanford.edu/software/lex-parser.shtml#Download网址下载stanford-parser-full-xxxx-xx-xx.zip,将这个压缩包解压。如果是用Java进行开发,则就很容易了,将解压包里的几个ja

2017-03-01 10:38:27 10891 2

原创 spark2.0

从网站上搜寻了些关于spark2.0的新特性:1. DataFrame引入了schema和off-heapSchema(数据结构信息) : RDD每行的数据,结构都是一样的。这个结构就存储在schema中。Spark通过schema能够读懂数据。因此在通信和IO时就只需序列化和反序列化数据,而结构的部分就可以省略。Off-heap : 意味着JVM堆以外的内存,这些内存直接受系统管理,

2017-01-04 16:29:42 356

原创 springmvc线程安全问题

springmvc的controller默认是singleton的(非线程安全的)。在使用springmvc的controller时,应避免在controller中定义实例变量。要想使用实例变量解决的方法是(1)在controller中使用threadlocal变量;(2)在spring配置controller中声明scope=prototype,每次都创建新的controller。

2016-10-15 14:00:42 506

原创 各向同性高斯滤波

1.各向同性高斯核函数一般的高斯滤波模板选择5x5,方差1.0,模板的(0,0)位置在模板中心。模板与图像卷积进行图形滤波、平滑。计算高斯模板的代码如下import mathimport numpy as npdef test(dirt,x,y): result=1/(2*math.pi*math.pow(dirt,2))*math.exp(-(math.p

2016-04-20 20:30:05 4397

原创 矩阵卷积

以在图像处理中的应用为例:假设矩阵A、B,A代表源图像,B代表卷积模板(二维卷积)函数给出的形式;   计算过程,将卷积模板旋转180度,然后将模板依次从上到下,从左往右滑动,计算在模板与原图像交集元素的乘积和,作为卷积以后的数值。例:将模板翻转计算过程计算结果shape的取值有三种,full代表返回卷积以后的全部数据,size为(mA+

2016-04-20 20:19:44 706

原创 Hbase笔记(不全面)

因为看的时候不是在一个电脑上看的,所以笔记没有整理全面。create 'mytable', 'cf'  --表名,列族名put 'mytable', 'first','cf:message','hello hbase'  --表名,行名键,列族:列名,数据get 'mytable','first'  --表名,行键(读取一行数据)scan 'mytable' --(返回的行是按行的

2016-04-04 15:06:38 357

原创 排序算法

1.      归并排序,时间复杂度是O(NlogN)基本思想是将已经排序好的子序列做排序,归并为一个有序的大序列。(分治算法)。2.      排序的稳定性:一般说,如果排序过程中,只有相邻元素进行比较,是稳定的,如冒泡排序、归并排序(可以算作相邻元素比较);如果间隔元素进行比较,往往是非稳定的,如堆排序、快速排序。直接插入排序是稳定的;但是二分插入排序本身不稳定,如果要稳定,需要向

2016-04-04 15:03:30 204

原创 JUnit4测试

使用JUnit4进行单元测试1.将JUnit4单元测试包引入项目。2.生成测试框架:右击需要测试的类-new-JUnit Test Case。3.在弹出的对话框中进行选择,设置。4.在测试类上单击右键-Run as-JUnit Test运行测试。5.测试方法要用@test标注,以表明这是一个测试方法,返回值void,而且不能有任何参数。如果违反这些规定,  会在运行时抛出一

2016-04-02 14:53:10 445

转载 Windows + IDEA + SBT 打造Spark源码阅读环境

转自 :http://guozhongxin.com/pages/2014/10/15/spark_source_code.htmlSpark源码阅读环境的准备Spark源码是有Scala语言写成的,目前,IDEA对Scala的支持要比eclipse要好,大多数人会选在在IDEA上完成Spark平台应用的开发。因此,Spark源码阅读的IDE理所当然的选择了IDEA。本文介

2016-03-12 21:18:08 242

转载 Spark的TaskScheduler和DagScheduler

转自http://yangyoupeng-cn-fujitsu-com.iteye.com/blog/2040748在Spark中一个核心的是模块就是调度器(Scheduler),在spark中Scheduler有两种TaskScheduler(是低级的调度器接口),DagScheduler(是高级的调度) 我们在创建SparkContext对象的时候,sparkcontext内部就会

2016-03-09 17:09:14 358

转载 举例说明Spark RDD的分区、依赖

转自http://www.jianshu.com/p/6b9e4001723dscala> val textFileRDD = sc.textFile("/Users/zhuweibin/Downloads/hive_04053f79f32b414a9cf5ab0d4a3c9daf.txt")15/08/0307:00:08 INFO MemoryStore: ensureFr

2016-03-06 21:52:42 388

转载 理解Spark的核心RDD

转自http://www.infoq.com/cn/articles/spark-core-rdd与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的编程抽象(

2016-03-06 21:31:14 254

原创 python下spark_RDD认识与操作

RDD是一个不可修改的,分布的对象集合。每个RDD由多个分区组成,每个分区可以同时在集群中的不同节点上计算。RDD可以包含Python,Java和Scala中的任意对象。1.RDD不存在迭代器,遍历需要使用foreach()函数2.RDD的子元素是list,具有迭代器3.transformation接受RDD,返回RDD。转换采用惰性调用机制,每个RDD记录父RDD转换的方法,这种

2016-03-06 20:12:07 991

转载 凸优化之凸函数与拟凸函数

函数f(x),对定义域S(凸集)上任意两点x1,x2∈S,Θ∈[0,1],如果有f[Θx1+(1-Θ)x2]≤max{f(x1),f(x2)},则称函数f(x)是拟(准)凸的;如果有f[Θx1+(1-Θ)x2]≤Θf(x1)+(1-Θ)f(x2),则称函数f(x)是凸的。 凸函数一定是拟凸函数,但反向则不一定成立,如同是单调的函数的凹函数、线性函数、凸函数的图形中,同样满足

2015-09-22 22:07:04 1566

原创 svm几个参数



2015-09-20 23:49:07 448

原创 最大似然估计

其思想是取到已知样本的概率最大。在概率中所依赖参数的取值范围内寻求某个值使得这个概率最大化。得到的参数与样本有关,相应的统计量称为参数的极大似然估计量。根据样本求解极大似然估计量的函数称为似然函数。

2015-09-19 23:41:33 444

原创 bayes statistics

2015.9.19晚读贝叶斯统计(权作读书笔记)一. 基本概念1.先验信息--在抽样之前有关统计问题的一些信息,一般说来,先验信息主要来源于经验和历史资料。2.基于总体信息、样本信息和先验信息进行的统计推断称为贝叶斯统计学。他与经典统计学的主要差别在于是否利用先验信息。贝叶斯学派重视已出现的样本的观察值,而对尚未发生的样本观察值不予考虑。3.贝叶斯学派的最基本的观点是:任一个未知量

2015-09-19 19:25:35 760

原创 Java语法几点注意

1.类内final字段可以在声明时给定初始值,也可以在构造函数中初始化2.接口中可以定义字段,但是要public类型的;接口不能有构造函数3.abstract定义抽象类,抽象类可以部分实现接口,不能实例化,但是可以子类化4.静态方法不能被子类重写5.Java有四种访问权限, 其中三种有访问权限修饰符,分别为private,public和protected,还有一种不带任何修饰符。

2015-08-06 18:41:30 311

原创 Java类型与变量问题

使用一个变量要有如下几步:(1)变量声明--申请地址名称,类似c++指针、地址(2)new分配地址空间,如果没有提供初始值则默认初始化(3)显式初始化,赋值注:  int[] arr={1,2,3,4,5,6,7,8};         int[] b=arr;         如此的赋值,只是传递引用,两个变量都为同一个地址的引用

2015-08-06 18:05:09 273

转载 什么是信息熵

信息理论的鼻祖之一Claude E. Shannon把信息(熵)定义为离散随机事件的出现概率。计算公式H(x) = E[I(xi)] = E[ log(2,1/p(xi)) ] = -∑p(xi)log(2,p(xi)) (i=1,2,..n)一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。变量的不确定性

2015-08-06 09:46:34 572

转载 TF-IDF自动提取关键词

TF-统计    IDF逆文档频率算法思想:在一个文章中某个词的词频越大越有可能是关键词,如果一个词越少见,权重越大。用统计学语言表达,就是在词频的基础上,要对每个词分配一个"重要性"权重。最常见的词("的"、"是"、"在")给予最小的权重,较常见的词("中国")给予较小的权重,较少见的词("蜜蜂"、"养殖")给予较大的权重。这个权重叫做"逆文档频率"(Inverse Docume

2015-08-05 21:01:58 634

转载 "余弦相似性"(cosine similiarity)比较相似文章

基本思路是:如果这两句话的用词越相似,它们的内容就应该越相似。因此,可以从词频入手,计算它们的相似程度(1)利用分词器分词(2)词频统计(3)组建词频向量(4)对两向量求解余弦值注: 中科大的ICTCLAS分词系统摘抄自网络http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

2015-08-05 20:48:34 738

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除