自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (8)
  • 收藏
  • 关注

原创 SaveAsPDFandXPS + jacob实现word转pdf(Java版)

word转pdf

2022-08-31 15:10:52 533 1

原创 python爬虫采集网络信息

from bs4 import BeautifulSoupimport reimport urllib.parseimport urllib.requestimport osimport datetimeimport json# params CategoryId=808 CategoryType=SiteHome ItemListActionName=PostList Page...

2018-07-27 11:11:20 1183 2

原创 MySql使用笔记

1、replace函数去除company_name这一列中包含‘/’这一字符 update stang_bid_envelope set company_name=REPLACE(company_name,’/’,”) WHERE company_name LIKE ‘%/’2、SUM函数根据company_name分组统计span字段大于0、等于0、小于0的次数 SELECT...

2018-07-23 10:37:44 677

原创 python+nltk安装+jieba分词安装

jieba(结巴)是一个强大的分词库,完美支持中文分词,且适用于python语言,本文对其安装做了简单的笔记。

2018-07-20 11:29:33 1374

原创 Maven本地加入第三方依赖包

Netbeans构建时有些第三方依赖包无法构建成功,就需要手动加入依赖包,方法如下:

2018-07-20 11:21:27 994

原创 NetBeans+spring+Mybatis+MVC web项目框架搭建

以前笔记喜欢记在本子上,可是本子过段时间可能就搞丢了(o(╯□╰)o),然后又不像写博客,所以就只能拍照上传,方便查阅。

2018-07-20 11:08:28 3563 2

原创 使用Eclipse搭建Hadoop编程环境

懒得写博客,直接上图,方便以后查看。

2018-07-20 10:57:44 231

原创 Java实现给定字符串或者链表的排列组合

需求介绍:1、已知字符串chs = {‘a’, ‘b’, ‘c’},实现a,b,c的所有排列组合(可重复排列) 思路: abc三个字符组成的所有长度为3的字符串,aaa,aab,aac……ccc 一共27种 利用递归的思想,第一个字符可以从abc中选择一个,三种选择,之后问题转化为abc组成长度为2的字符的情况,循环递归后可以求出所有的可能。控制好循环退出条件即可。 利用递归可以处理,...

2018-06-29 17:46:10 1071

原创 虚拟机上搭建storm集群详细教程

vmware+ubuntu+storm集群搭建前言Storm是一个分布式的、高容错的实时计算系统。 Storm对于实时计算的的意义相当于Hadoop对于批处理的意义。Hadoop为我们提供了Map和Reduce原理,使我们对数据进行批处理变的非常的简单和优美。同样,Storm也对数据的实时计算提供了简单Spout和Bolt原理。 Storm适用的场景: 1、流数据处理:Storm...

2018-05-04 15:13:58 2052

原创 Ubuntu17.04配置SSH服务

ssh是一种安全协议,主要用于给远程登录会话数据进行加密,保证数据传输的安全,现在介绍一下如何在Ubuntu 17.04上安装和配置ssh.方法和步骤一、配置ssh服务1、更新源列表打开”终端窗口”terminal,输入”sudo apt-get update”–>回车–>”输入当前登录用户的管理员密码”–>回车,就可以了。更新可能需要等待一两分钟。...

2018-03-20 11:49:43 2069

转载 方差、标准差、均方差、均方误差区别总结

一、百度百科上方差是这样定义的:方差(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。 看这么一段文字可能有些绕,那就先从公式入手, 对于一组随机变量或者统计数据,其期望...

2018-03-09 11:33:55 2786 1

原创 机器学习算法——PCA算法介绍以及Java实现

PCA算法一、算法概述主成分分析(PCA)是多元统计分析中用来分析数据的一种方法,PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。PCA方法最著名的应用应该是在人脸识别中特征提取及数据维,我们知道输入200*200大小的人脸图像,单单提取它的灰度值作为原始特征,则这个原始特征将达到40000维,这给后面分类器的处理将带来极

2018-02-07 11:45:38 6041 14

转载 Java调用jama实现矩阵运算

一、jama简介Jama是一个基本的线性代数java包。包括一个基本的Matrix类和5个矩阵分解类。Matrix类提供了基本的线性代数数值运算的功能,不同的构造函数可以构造双精度和浮点精度的二维数组,而不同的gets和sets方法可以返回子矩阵和矩阵元素。 二、矩阵操作2.1 对象操作(1)构造函数 利用二维数组a[][]创建矩阵并打印矩阵。 (2)set方法

2018-02-07 10:28:19 916

原创 机器学习算法——决策树ID3算法介绍以及Java实现

一、 决策树算法决策树:是一种用于对实例进行分类的树形结构,可以是二叉树或非二叉树,由节点(node)和有向边(directed edge)组成。其中每个非叶子节点表示一个特征属性,叶子节点代表类别属性,它的值由根节点到叶子节点这一分支的属性值确定。使用决策树进行分类的过程,就是从根节点出发,训练数据的分支走向,直到得到叶子节点的值停止计算,这时即可输出类别。决策树算法是从数据的属性(或者

2018-02-05 17:50:57 3852

原创 java 中List排序函数Collections.sort的用法详解

List排序函数Collections.sort1.Java提供的默认排序算法List list = new ArrayList();list.add(53.6);list.add(45.9);list.add(75.1);list.add(89.3);list.add(20.8);//升序Collections.sort(list);System.out.pri

2018-01-11 16:14:46 2502

原创 TF-IDF算法讲解和Java实现

一、 TF-IDF算法原理TF-IDF是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。TF-IDF是一种统计方法,用以评估某个字词对于一个语料库中的其中一份文本的重要程度。字词的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相

2017-12-27 10:42:32 5468 2

原创 Java 时间、时间戳相互转化

Java 时间、时间戳相互转化 /** * Data型时间戳转换成String时间 * @return String时间 */ public static String dataToString(){ SimpleDateFormat simpleDateFormat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss")

2017-11-28 17:37:35 1491

原创 基于HanLP分词的命名实体提取

文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。对于文本来说,由于语言组织形式各异,表达方式多样,文本里面提到的很多要素,如人名、手机号、组织名、地名等都称之为实体。在工程领域,招投标文件里的这些实体信息至关重要。利用自然语言处理技术从形式各异的文件中提取出这些实体,能有效提高工作效率和挖掘实体之间的潜在联系。文本预处理1、文本清洗目前,

2017-11-03 17:43:57 13895 19

原创 使用git上传项目到Github之新手教程

gitHub是一个面向开源及私有软件项目的托管平台。作为一名码农,我们经常需要把本地项目上传到github平台上,方便团队开发与管理。所以总结了第一次使用github的新手教程。目录注册账户以及创建仓库安装git客户端配置git上传本地项目注册账户以及创建仓库第一步,当然是登录github官网,注册账号;打开github,填写用户名,邮箱和密码,点击 sign in 注册。第二步,登录后,就

2017-10-13 18:03:27 617 1

原创 Java实现验证码的生成

今天按组长要求,实现了前端登录界面验证码生成及识别功能,确保网站的安全性,无聊之余,总结今天的工作内容。下面是部分代码的讲解。上图为前端代码,img标签里加入src的链接,CheckCodeAction.java为后台验证码的生成和验证。changImg()鼠标点击事件为调用后台CheckCodeAction生成验证码,打印到前端。changImg()事件的实现如下:public class Che

2017-10-13 16:07:31 511

原创 虚拟机VMware+Ubuntu系统的安装教程

虚拟机VMware+Ubuntu系统的安装教程本文介绍虚拟机上安装Ubuntu系统,适合程序员小白练手。 1、虚拟机VMware的下载和安装 2、Ubuntu的下载和安装 1、虚拟机的安装在百度上搜索VMware即可下载,下载后为exe执行文件,双击点击安装即可。 双击后弹出安装 根据安装向导点击下一步,直至安装完成 安转完成,双击打开2、Ubuntu下载下载后为镜像文件 3

2017-10-13 16:03:34 1790

原创 根据IP获取地理位置——Java实现

依赖第三方接口,根据IP获取地理位置,Java实现代码如下:

2017-10-13 15:55:28 1232 1

原创 文本挖掘——基于TF-IDF的KNN分类算法实现

[TOCM]一项目背景二项目实施1属性词典的构造2文本向量TF-IDF的计算3分类器的训练测试文本类别的判断分类精度的计算三项目总结一、项目背景此项目是用于基建大数据的文本挖掘。首先爬虫师已经从各个公开网站上采集了大量的文本,这些文本是关于基建行业的各种招中标公告,文本里会有部分词汇明显或者隐晦的介绍此项目是关于哪一工程类别的,比如公路工程,市政工程,建筑工程,轨道交通工程,等等。所以,拿

2017-10-13 15:30:04 4673 1

原创 机器学习算法——KNN分类算法介绍以及Java实现

KNN分类算法介绍一、什么是分类分类是指通过对大量的训练样本进行提取和分析,训练出用来分类的规则,即分类器或者分类模型,最终判断未知样本的类别。常见的分类算法有:决策树(ID3和C4.5),朴素贝叶斯,人工神经网络 (Artificial Neural Networks,ANN),k-近邻(kNN),支持向量机(SVM),基于关联规则的分类,Adaboosting方法等等。这篇文章主要介绍KNN算法

2017-10-13 15:19:19 3408 1

原创 Hbase与Elasticsearch的jar包冲突解决办法

问题当项目中同时集成Hbase和Elasticsearch时,经常遇到依赖包冲突的问题,如com.google.guava,org.joda等。造成guava冲突是因为集成Hbase和ES时都用到了guava包,但是两者要求的版本不一样,ES 2.0 版本以上的要求guava(19.0+),Hbase 1.0要求的guava为16.0,如果把guava统一为16.0,则ES会因为guava的版本太低

2017-10-13 15:16:43 2983

原创 Titan图形数据库的应用实例讲解

前言因公司业务发展,需要建立完整的关系图谱检索系统。经各种比较与考量,我们采用Titan图形数据库来处理复杂的逻辑关系。这篇《Titan数据库快速入门之神的光芒》同事已经详细介绍了Titan数据库的安装与使用,这里不再赘述。此篇博客介绍Titan的实际应用与成果展示,方便读者更好的理解Titan。项目背景本项目基于工程大数据进行研究,下图为Hbase中的部分数据展示。通常,一个工程项目有一个或者多个

2017-10-13 15:12:35 7864 3

原创 利用余弦定理计算文本相似度

做文本挖掘时,我们可能需要分析不同文本之间的关联,最简单的就是分析两文本是否相似,是否在陈述相同的事情。文本属于非数值数据,通常可根据分词,把文本转化成数值向量,进一步根据相似度度量进行分析。   相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。   余弦相似度(Cosine Similarity

2017-10-13 15:02:33 4129

原创 VS2013+OpenCV环境搭建

VS2013+OpenCV环境搭建一、准备工作 1、安装VS2013, 破解码为:BWG7X-J98B3-W34RT-33B3R-JVYW9 2、安装opencv-3.1.0,并配置环境变量。 环境变量:把D:\opencv\build\x64\vc11\bin加入系统变量Path里面。二、在vs里配置Opencv 1、打开vs,点击文件—>新建—>项目—>win32控制台空项目

2016-10-27 19:32:03 514

Word转PDF或XPS插件(SaveAsPDFandXPS)

Word转PDF或XPS插件(SaveAsPDFandXPS)

2022-08-31

Hanlp分词实现从网络片段中提取省份和城市

Java语言实现从网络片段中提取省份和城市,用到Hanlp分词和高德地图接口。

2018-07-26

Qt中用SIFT算法实现图像拼接

在Qt中调用Opencv,利用SIFT算法实现图像拼接,代码结构明了,能快速上手。

2018-07-23

用java编写的验证码识别

java实现通过滴水算法识别验证码,内附验证码图片,可直接运行。

2018-07-23

python实现决策树分类算法

python实现机器学习之决策树分类算法,简单易学,而且可直接运行。

2018-07-23

python实现KNN算法

python实现KNN算法,压缩包里附txt格式的训练数据和测试数据,可直接运行。

2018-07-23

OpenCV官方教程中文版(For Python)

python语言实现OpenCV图像处理,简单易学,比c++简单多了

2018-07-20

CSS示例代码

CSS特效示例代码,可直接运行浏览器查看,还有CSS的详细代码。

2018-07-20

支持向量机算法实现(Java、python、matlab)

Java、python、matlab三种语言实现svm算法,可直接运行查看结果。

2018-07-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除