自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

C_son的专栏

最新的博客请见: http://shenchao.me/

  • 博客(22)
  • 资源 (1)
  • 收藏
  • 关注

原创 【开源】爬取QQ空间说说及简易数据分析

前几天,一直在学习爬虫,然后最近想到了一个不错的idea,想以这个小demo来结束爬虫的学习。       是这样的:登入qq空间,爬取自己或者好友的所有说说记录,然后区统计分析一共发了多少说说,每条说说的评论有多少,谁评论的最多,有多少赞,谁赞最多,还有可以找出你的qq好友中男女比例多少,来自哪里,什么星座等等。       这里讲下具体思路,具体代码我托管到github,有兴趣的朋友可

2015-02-14 17:48:23 17141 16

原创 【JAVA实现】单例模式(singleton)

一  定义保证一个类只有仅有一个实例,并提供一个访问它的全局访问点。二  案例一个很简单的案例,读取配置文件,这里读取properties文件。三  未使用模式的情况很容易写出如下代码:import java.io.IOException;import java.io.InputStream;import java.util.Properties;/

2016-04-12 22:06:39 787

原创 【JAVA设计模式】外观模式(Facade Pattern)

外观模式 -- JAVA实现

2016-04-11 15:31:54 1316

原创 【JAVA设计模式】简单工厂模式(Simple Factory Pattern)

简单工厂设计模式,java实现

2016-03-27 11:03:36 1886

转载 【JAVA线程】SwingWorker的用法

Swing应用程序员常见的错误是误用Swing事件调度线程(Event DispatchThread,EDT)。他们要么从非UI线程访问UI组件;要么不考虑事件执行顺序;要么不使用独立任务线程而在EDT线程上执行耗时任务,结果使编写的应用程序变得响应迟钝、速度很慢。耗时计算和输入/输出(IO)密集型任务不应放在SwingEDT上运行。发现这种问题的代码并不容易,但Java SE6提供了java

2015-03-22 23:48:43 1064

原创 【JAVA实现】用Logistic回归进行分类

package logistic;import java.util.List;public class Horse { private List attributes; private String label; public List getAttributes() { return attributes; } public void setAttributes(L

2015-03-14 22:54:16 5372 5

原创 【JAVA实现】朴素贝叶斯分类算法

之前博客提到的KNN算法以及决策树算法都是要求分类器给出“该数据实例属于哪一类”这类问题的明确答案,正因为如此,才出现了使用决策树分类时,有时无法判定某一测试实例属于哪一类别。使用朴素贝叶斯算法则可以避免这个问题,它给出了这个实例属于某一类别的概率值,然后通过比较概率值,可以找到该实例最有可能属于哪一类别。       该算法可以用如下形式表示:       直接求解概率值很困难,

2015-03-13 17:12:38 9948 12

原创 2014-2015学年大三上半学期总结,下学期展望

我一直视大三是大学最重要的一年,因为在这个时候,我觉得每个人的知识水平达到最高点,这时候你可能最需要的是一个施展才华的地方。对于一个搞开发的人,我觉得这时候最需要的是项目。学了这么多语言,看了这么多编程书,做了这么多比赛,总希望有一个能够真正发布的自己参与的应用。       对于我的大三上学期,总觉得这学期一直是在徘徊选择中度过,考研?就业?选择哪个让我纠结了一段时间。最终我选择考研,我想从

2015-03-02 17:25:43 2082 3

原创 【JAVA实现】K-近邻(KNN)分类算法

KNN算法属于监督学习算法,是一种用于分类的非常简单的算法。简单的说,KNN算法采用测量不同特征值之间的距离方法进行分类。具体算法如下:       1)计算已知类别数据集中的点与当前点之间的距离       2)按照距离递增次序排序       3)选取与当前距离最小的k个点       4)确定前k个点所在类别的出现频率       5)返回前k个点出现频率最高的类别作为当

2015-02-26 21:43:40 11187 10

原创 【JAVA图表】Jfreechart常用图表总结

这个寒假在学习机器学习,很多案例中的数据集需要用图表呈现,因此,我总结了一些常用的图表代码,为日后使用提供方便。       说明:以下的代码只涉及极少一部分jfreechart的API,如果想进一步了解,请访问它的主页http://www.jfree.org/jfreechart/ 。并且,以下的代码均不可以直接复制然后运行,需要进一步实现自己的数据集,数据集的接口,我已经预留,大家实现即可

2015-02-26 17:12:38 4034

原创 【JAVA实现】K-means聚类算法

上一篇博文介绍了层次聚类算法的实现http://blog.csdn.net/c_son/article/details/43900503 ,可以发现其效率比较低下,因为每次迭代都要计算每两个聚簇之间的距离。这次的k-means算法在效率上要优于层次聚类算法。              算法实现:       1)从样本D中随机选取K个元素,作为K个簇的中心       2)分别计算剩下

2015-02-22 23:29:15 5241 2

原创 【JAVA实现】层次聚类算法

聚类算法属于机器学习中一种无监督学习算法。聚类方法一般可以分为层次聚类与非层次聚类两种。其中层次聚类算法又可以分为合并法与分解法;同样非层次聚类算法也可以分为多种,常用的有K-means算法。这篇博客先来实现层次聚类算法中的合并法,我会在下一篇博文中讲述K-means算法。       其中,合并法是指:初始阶段,将每个样本点当做其类簇,然后合并这些原子类簇直至达到预期的类簇数或者其他终止条件

2015-02-21 22:39:15 6889 2

原创 【JAVA实现】基于欧几里得度量的相似度计算

前文讲了基于皮尔逊相关系数的相似度计算方法,这次介绍一个更加简单的相似度计算算法——欧几里得度量。       算法描述如下:       欧几里得度量定义欧几里得空间中,点x =(x1,...,xn)和 y =(y1,...,yn)之间的距离为       很简单吧,我也不多做描述了,直接贴代码。package euclideanMetric;/** * @auth

2015-02-20 16:39:40 6410

原创 【JAVA实现】基于皮尔逊相关系数的相似度计算

最近在看《集体智慧编程》,相比其他机器学习的书籍,这本书有许多案例,更贴近实际,而且也很适合我们这种准备学习machine learning的小白。       这本书我觉得不足之处在于,里面没有对算法的公式作讲解,而是直接用代码去实现,所以给想具体了解该算法带来了不便,所以想写几篇文章来做具体的说明。以下是第一篇,对皮尔逊相关系数作讲解,并采用了自己比较熟悉的java语言做实现。

2015-02-18 12:51:00 10359

原创 【开源】scrapy爬取亚马逊商品评论

一、前言       上一篇博文http://blog.csdn.net/c_son/article/details/43267551对亚马逊商品的爬取,这次在上一篇的基础之上,对爬取到的商品,我们再进行用户评论的爬取。源码见github https://github.com/jerry-sc/AmazonIphone6CommentsSpider.git二、items.py

2015-01-29 20:32:38 5268 2

原创 【思路】基于互联网电子产品评论的舆情分析

一、前言       最近在一位研究生的带领下,在研究互联网电子产品评论的舆情分析。觉得这个项目挺有意义的,跟我感兴趣的大数据,数据挖掘这块也很沾边。也看了不少论文了,在此写点我的心得,以及整个project实现的思路。下面我将以某一手机品牌为研究对象。整个工程可以分为数据获取,数据预处理,评论情感分析,成果展示这四个方面。二、数据获取       数据来源的途径有很多,我将它分为两种

2015-01-29 14:11:57 1751

原创 【开源】scrapy爬取亚马逊商品信息

一、前言       最近的一个项目需要用到爬虫,虽然以前用JAVA也写过爬虫,不过实现的都是一些简易的功能,比如我开发的一个微信公众号(叫“妈妈再也不担心”,大家可以关注下),里面比如的NBA赛事查询功能,热播电影查询等。不过从许多论文里面提及的,以及很多人推荐的,好像python更适合做爬虫,又了解到python里面有个框架叫scrapy,所以最近想研究下这个,去爬取批量的数据。这次我先拿

2015-01-29 10:29:18 10628 5

转载 PYTHON风格规范——Google 开源项目风格指南

Python风格规范分号Tip不要在行尾加分号, 也不要用分号将两条命令放在同一行.行长度Tip每行不超过80个字符例外:长的导入模块语句注释里的URL不要使用反斜杠连接行.Python会将 圆括号, 中括号和花括号中的行隐式的连接起来 , 你可以利用这个特点. 如果需要, 你可以在表达式外围增加一对额

2015-01-27 20:00:22 970

原创 ubuntu下eclipse pydev 离线 环境搭建 及相关问题解决

最近项目需要用到python,然后就屁颠屁颠的去学python,首先IDE的选择,由于之前一直用eclipse开发java,当然对eclipse也是有一定了解,所以这次还是选eclipse作为IDE。百度随便一搜,eclipse pydev环境搭建,相信肯定有一大堆教程,我看了下,好像大多数都是在线安装,跟着试了试,相信大家十有八九会失败,因为该地址被和谐掉了,当然可以通过翻墙设置代理等把它下

2015-01-24 10:18:19 1677

原创 git 命令集合

一口气读完了廖神的博客,真心觉得太赞,非常通俗易懂,里面的python教程也非常棒。推荐大家访问他的个人网站http://www.liaoxuefeng.com/。初学git也记不了这么多命令,写个文章把里面的命令整理下,方便日后查找。1.将所在目录变成git可以管理的仓库git init2.将修改提交到暂存区git add filename3.一次性将暂存区所

2015-01-23 22:29:57 675

原创 ubuntu 64位 WPS安装问题的解决

今天用Ubuntu(64位)装WPS时碰到了各种问题,通过各种资料查找,总算成功了,下面来总结下。首先,去官网下载WPS的deb包,这个不多说,附上链接http://community.wps.cn/download/原以为安装好就OK了,可是发现怎么点都点不开,原来,官网提供的WPS是32位的操作系统,所以64位的操作系统不能用。因此我们还要安装32位操作系统的库文件。可通过下面命令安装

2015-01-19 23:41:59 2718

原创 【JAVA实现】基于决策树的ID3算法

这个系列的第一篇博客,按照顺序从C4.5算法,了解到它是ID3的升级版,所以决定先对ID3探个究竟。       先申明一下,代码也都是建立在他人的代码之上,所以感谢他们的帮助,我只是在这之上做了一部分修改,并加上了更详尽的注释。“原创”二字满足下虚荣心。废话不多少,直接上代码,至于算法描述,请自行google。       首先是数据集,这里和网上大多数例子一样,用了weka的weath

2014-08-17 22:17:16 1739

数据挖掘ID3算法(JAVA实现)

数据挖掘ID3算法(JAVA实现),在许多网上的例子上进行了一部分修改以及加上了更多的注释,希望可以给小白们带来帮助

2014-08-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除