6 墨竹 | kevinelstri

尚未进行身份认证

暂无相关描述

等级
TA的排名 3k+

【统计学习方法系列】- 01.统计学习方法概述

文章目录统计学习方法监督学习、非监督学习、半监督学习和强化学习区别分类与回归之间的区别是什么?统计学习方法三要素:模型、策略和算法模型选择:正则化、交叉验证和泛化能力监督学习方法:分类问题、标注问题和回归问题分类问题:**监督学习从数据中学习一个分类模型或分类决策函数,称为分类器**分类器对新的输入的进行输出的预测,称为分类**二分类问题的评价指标:精确率、召回率和F1值...

2019-04-14 20:36:06

【Java核心技术 02】对象和类

1、面向对象的程序是由对象组成的,每个对象包含对用户公开的特定功能部分和隐藏的实现部分2、类是构造对象的模板或蓝图,由类构造的对象的过程称为创建类的实例3、对象中的数据称为实例域,操作数据的过程称为方法,对于每个特定的类实例都有一组特定的实例域值4、实现封装的关键在于绝对不能让类中的方法直接访问其他类的实例域,程序仅通过对象的方法与对象数据进行交互5、在Java中,所有的类都源于一个“神通...

2018-12-14 22:37:00

【Java核心技术 01】基本理论

开篇:一门新的语言,一门新的理论,打破屏障,继续前行。。。publicclassHelloWorld{ publicstaticvoidmain(String[]args){ System.out.println("Thisisthefirstjavacode"); }}1.Java区分大小写2.Java全部内容都必须放在类中3.关键字class后紧跟着类...

2018-12-10 22:27:22

Installer integrity check has failed 疑难杂症

Installerintegritycheckhasfailed疑难杂症安装pycharm遇到问题:~~~Installerintegritycheckhasfailed.Commoncausesincludeincompletedownloadanddamagedmedia.Contacttheinstaller’sauthortoobtain

2017-08-24 09:41:40

Chunkize warning while installing gensim 疑难杂症

UserWarning:detectedWindows;aliasingchunkizetochunkize_serialwarnings.warn("detectedWindows;aliasingchunkizetochunkize_serial")解决方案:在importgensim前面加入:importwarningswarnings.filterwar

2017-08-16 19:16:17

基于同义词词林的文本相似度算法研究语料库

本文是基于大学排行榜指标体系进行实验分析的,从指标体系中获取10个指标进行数据实验分析,数据的采集是使用2017年大学排名前100所高校的高校简介进行文本分析,下面是100所高校简介的链接地址:编号高校高校简介URL地址1北京大学http://www.pku.edu.cn/about/index.htm2清华大学http://www.tsinghu

2017-07-06 10:27:19

聚类的评价指标(无监督学习)

详细理论说明,可以查看其他博客:#coding:utf-8fromsklearnimportmetrics"""聚类性能评估""""""1、AdjustedRandindex(ARI)优点:1.1对任意数量的聚类中心和样本数,随机聚类的ARI都非常接近于0;1.2取值在[-1,1]之间,负数代表结果不好,越接近于1越好;

2017-05-08 15:02:24

python使用JPype来运行java文件

1、下载JPype(注意版本,这里就不介绍了)2、使用方法:#-*-coding:utf-8-*-#importjpype##jvmPath=jpype.getDefaultJVMPath()#默认JVM路径#jpype.startJVM(jvmPath)#start#jpype.java.lang.System.out.println("hellowo

2017-04-27 12:30:59

文本分析--停用词集合(结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等)

文本分析过程中,中文文本分析是一个非常重要的环节,而停用词表的选择也是非常关键的,网络流行了多种版本的停用词表,都具有各自的特点,现在对网络流行的多种停用词表继续去重处理,综合实现新的停用词表。不同版本的停用词表:去重合并:#-*-coding:utf-8-*-importos"""合并文本文件"""mergefiledir=os.getcwd()+'\\stopwor

2017-04-18 14:20:32

文本分析--基于gensim的文本主题模型分析

#!/usr/bin/python#-*-coding:utf8-*-importosimporttimeimportreimportjieba.analyseimporttime#关键词获取defpost_cut():fr=open("post_data.txt")#源文件fo=open("post_key.txt","a+")

2017-04-12 18:05:21

文本分析--校园新闻:聚类

#-*-coding:utf-8-*-importjiebaimportosimportcodecsfromsklearnimportfeature_extractionfromsklearn.feature_extraction.textimportTfidfTransformerfromsklearn.feature_extraction.textimport

2017-04-12 18:04:00

文本分析--校园新闻:关键词获取

新闻数据:      每行都是一个文档,并且已经进行了分词和停用词处理。#-*-coding:utf-8-*-importunioutimportjieba.analysefromsklearnimportfeature_extractionfromsklearn.feature_extraction.textimportTfidfTransformerfroms

2017-04-12 17:56:52

文本分析--Gensim向量空间

#-*-coding:utf-8-*-importgensim"""Tutorial1:CorporaandVectorSpaces"""importlogginglog=logging.basicConfig(format='%(asctime)s:%(levelname)s:%(message)s',level=logging.INFO)"""

2017-04-12 17:51:58

文本分析--Gensim概述

#-*-coding:utf-8-*-importgensim"""GettingStartedwithgensimGensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算

2017-04-12 17:51:01

文本分析--NLTK访问文件

#-*-coding:utf-8-*-from__future__importdivisionimportnltk,re,pprint"""从网络和硬盘中访问文本:1、电子书2、处理的html3、处理搜索引擎的结果4、读取本地文件5、从pdf,word及其他二进制格式中读取

2017-04-12 17:47:38

文本分析--NLTK语料库选择

#-*-coding:utf-8-*-"""fromnltk.bookimport*获取所有的语料库""""""古滕堡语料库"""#fromnltk.corpusimportgutenberg#直接加载某个具体语料库##printgutenberg.fileids()#语料库的文本##emma=gutenberg.words(

2017-04-12 17:45:29

文本分析--NLTK自然语言处理

#-*-coding:utf-8-*-from__future__importdivisionfromnltk.bookimport*"""搜索文本"""#printtext1#printtext1.concordance('monstrous')#查找有这个单词的句子,并显示出来#print'---------------------------

2017-04-12 17:44:34

文本分析--simhash算法进行文本相似度判断

simhash算法分析:文本相似度算法:1、TF-IDF:TF(词频),IDF(逆词频)利用tf-idf得到一个词语的权重,来计算一篇文章的关键词2、simhash:局部敏感hash局部敏感:A、B具有一定相似性,在hash后,仍然保持相似性。通过将关键词集合hash成一串二进制,直接对比二进制数,来看其相似性得到两篇文档的相似性,查看相似性的时候采用海明距离(二进制数之间计算)。对文章simhas

2017-04-12 10:20:24

文本分析--关键词获取(jieba分词器,TF-IDF模型)

关键词获取可以通过两种方式来获取:      1、在使用jieba分词对文本进行处理之后,可以通过统计词频来获取关键词:jieba.analyse.extract_tags(news,topK=10),获取词频在前10的作为关键词。      2、使用TF-IDF权重来进行关键词获取,首先需要对文本构建词频矩阵,其次才能使用向量求TF-IDF值。#-*-coding:ut

2017-04-11 15:44:24

文本分析--遍历文件夹和读写文件

分析:1、读取指定目录下的所有文件2、读取指定文件,输出文件内容3、创建一个文件夹,并将内容放到指定文件中输入文件存放样例:输入文件夹News_split下的所有文件:输出文件存放样例:创建一个文件夹News_split_cut,并将文件保存到文件夹下:实现:#-*-coding:utf-8-*-importsysimportreimportcodecsim

2017-04-11 14:08:39

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!