9 云聪

尚未进行身份认证

我要认证

喜欢简洁的抽象,也着迷神奇的细节,我担心自己因为过于偏向抽象而变得肤浅,也害怕自己因为太过深入细节而迷失,这让我很痛苦,但是我不会放弃挣扎,因为我相信挣扎的过程就是成长。

等级
TA的排名 1w+

批量删除github项目-Java实现

项目源起 之前在github上了放了很多项目,但是大部分都是因为学习一项工具或者新技术时用示例代码创建的,意义不大,于是决定先把这部分项目导入到私有的gitlab里,然后在github里删除这部分项目;问题来了,github里删除一个项目比较繁琐,删除大量项目更是耗时耗力,于是写了一个项目用于批量删除github里的项目

2017-06-18 19:11:54

Spark中使用HanLP分词

1.将HanLP的data(包含词典和模型)放到hdfs上,然后在项目配置文件hanlp.properties中配置root的路径,比如: root=hdfs://localhost:9000/tmp/2.实现com.hankcs.hanlp.corpus.io.IIOAdapter接口: public static class HadoopFileIoAdapter implements

2017-06-08 18:09:53

从误用TreeSet到思考Java有序集合对相等和顺序比较一致性的要求

一、 发现问题 有这样一个任务:对一堆学生按照成绩进行排序。为了能够快速的获得有序结合,我选择了TreeSet这个有序数据结构来帮我完成这个任务。有两点让我认为TreeSet能够帮我快速获得有序的学生集合: (1)TreeSet基于红黑树实现,而红黑树是一个平衡二叉树,也就说,它的排序时间复杂度是nlognnlogn; (2)在插入的初期lognlogn较小。

2017-05-14 17:28:38

HttpClient4.3.6源码阅读 RequestConfig.Builder(Builder模式实践)

Builder(org.apache.http.client.config.RequestConfig.Builder) 是RequestConfig(org.apache.http.client.config.RequestConfig) 的内部类,专门用于创建RequestConfig。我经常这样创建RequestConfig: RequestConfig requestCon

2017-01-15 10:18:38

基本算术编码

1.基本思想 算术编码,就是用一个数编码一串字符串。

2017-01-15 01:21:38

集束搜索学习资料

Beam Search(集束搜索/束搜索) Beam Search Algorithm (Draft by Andrew Jungwirth)

2016-11-25 12:45:29

A*(A星)算法学习资料

A*算法原理_面向初学者 A*算法原理图文详解 A*算法-java代码实现 堪称最好的A*算法

2016-11-22 21:20:57

python使用opencv读取图片失败

>>> import cv2>>> img = cv2.imread('D:\test\8.png',cv2.IMREAD_COLOR)>>> cv2.imshow('origin',img)OpenCV Error: Assertion failed (size.width>0 && size.height>0) in cv::imshow, file ..\..\..\..\opencv\

2016-11-12 23:52:08

weka 3.6.13-SNAPSHOT 过滤器StringToWordVector参数含义解释

IDFTransform: 值为true时,把文档中单词出现的次数val(或者TFTransform转化后的值)转化为 val∗Math.log(doc_total_num/doc_num_contain_this_word)val*Math.log( doc\_total\_num/doc\_num\_contain\_this\_word )

2016-10-16 17:20:36

降维——PCA(主成分分析)

降维技术使得我们可以用低维向量表示高维向量。PCA是降维技术的一种,它的思想是,把一个高维向量投影到低维子空间中,子空间基的选择原则是尽量使得投影前不同的向量在投影后依旧不同。接下来,我们就具体介绍PCA的工作原理。

2016-09-15 00:25:16

线性回归——最小二乘求解

线性回归 线性回归用于数值预测,它的主要思想是利用预定的权值将属性进行线性组合来表示类别: y=w0+w1x1+w2x2+...+wnxny = w_0 + w_1x_1 + w_2x_2 + ... + w_nx_n

2016-09-11 14:47:04

zookeeper学习资料

Zookeeper与paxos算法 ZooKeeper 安装部署及hello world 分布式理论之一:Paxos算法的通俗理解

2016-09-08 22:12:58

层次聚类——自底向上方法

直观认识 假设数据集D={a,b,c,d,e}D=\{a, b, c, d, e\}, 在D上运行自底向上的层次聚类算法的过程如下图所示:

2016-09-04 22:51:44

划分聚类——Kmeans算法

划分聚类 聚类是针对一堆没有类别属性的对象的,它把这一大堆对象分成一些小堆,并保证小堆内的对象之间彼此相似,小堆之间的对象彼此不同。划分聚类是聚类的一种,由它生成的小堆,小堆间没有一样的元素,大堆小堆之间关系和大集合与它的的分割一样。

2016-09-04 21:07:45

序列模式挖掘——GSP算法

序列模式挖掘的基本概念 项目全集I、项集X和事务集合T的概念和文章关联规则挖掘——Apriori算法 中定义的一致。一个序列(Sequence)是一个有序的项集列表,这个有序通常是指时间有序。

2016-09-01 20:29:31

关联规则挖掘——Apriori算法

前言 大二的时候,一个老师为了勾起我们对数据挖掘的兴趣,老是问我们这个问题:你们知道超市为什么要把啤酒跟尿布放在一起吗?但是从来没告诉我们答案。现在,很多人都听过这个问题,觉得很平常,但是那时的我真觉得挺神奇的。直到后来,了解了关联规则挖掘,学习了关联规则挖掘的代表性算法Apriori,才终于知道了答案。关联规则挖掘,就是找出那些经常同时出现的事物,比如啤酒和尿布。

2016-08-31 00:26:42

KNN(K-最近邻)

算法介绍 KNN分类算法应该是最容易理解的机器学习算法了。它是惰性学习法的一种,它并不从训练数据集中得到一个分类模型,而是简单的存储这些训练数据,当一个待分类数据X到来时,它计算X和训练数据集中所有数据的距离,然后选择离X最近的k个数据,这k个数据称为X的k最近邻,并把这k个数据中出现次数最多的类别赋给X。

2016-08-29 00:07:53

决策树

基础 熵 如果X是一个离散型随机变量,取值空间为R,其概率分布为p(x)=P(X=x),x∈Rp(x) = P(X = x), x \in R。那么,X的熵定义为: H(X)=−∑x∈Rp(x)log2p(x)H(X) = - \sum_{x \in R}p(x)log_2p(x)

2016-08-27 00:00:12

朴素贝叶斯文本分类

基础知识 1.多项式定理 (x1+x2+...+xr)n=∑(n1,...,nr):n1+...+nr=n(nn1,n2...nr)xn11xn22...xnrr(x_1 + x_2 + ... + x_r)^n = \sum_{(n_1,...,n_r):n_1+...+n_r=n}(_{n_1,n_2...n_r}^n)x_1^{n_1}x_2^{n_2}...x_r^{n_r}

2016-08-24 22:29:24

朴素贝叶斯分类

基础知识

2016-08-23 12:31:58

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!