7 墨竹 | kevinelstri

尚未进行身份认证

暂无相关简介

等级
TA的排名 3k+

windows下pip换源

1、打开appdata文件夹,在资源管理器的地址栏输入%appdata%后回车:C:\Users\kevinelstri\AppData\Roaming\3、新建一个pip文件夹,在pip文件夹里面新建一个配置文件pip.ini:[global]timeout = 6000index-url = https://pypi.tuna.tsinghua.edu.cn/simpletrus...

2019-12-09 21:54:44

【统计学习方法系列】- 01.统计学习方法概述

文章目录统计学习方法监督学习、非监督学习、半监督学习和强化学习区别分类与回归之间的区别是什么?统计学习方法三要素:模型、策略和算法模型选择:正则化、交叉验证和泛化能力监督学习方法:分类问题、标注问题和回归问题分类问题:** 监督学习从数据中学习一个分类模型或分类决策函数,称为分类器** 分类器对新的输入的进行输出的预测,称为分类** 二分类问题的评价指标:精确率、召回率和F1值...

2019-04-14 20:36:06

Installer integrity check has failed 疑难杂症

Installer integrity check has failed 疑难杂症安装pycharm遇到问题:~~~ Installer integrity check has failed. Common causes include incomplete download and damaged media. Contact the installer’s author to obtain

2017-08-24 09:41:40

Chunkize warning while installing gensim 疑难杂症

UserWarning: detected Windows; aliasing chunkize to chunkize_serial warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")解决方案: 在import gensim前面加入:import warningswarnings.filterwar

2017-08-16 19:16:17

基于同义词词林的文本相似度算法研究语料库

本文是基于大学排行榜指标体系进行实验分析的,从指标体系中获取10个指标进行数据实验分析,数据的采集是使用2017年大学排名前100所高校的高校简介进行文本分析,下面是100所高校简介的链接地址: 编号 高校 高校简介URL地址 1 北京大学 http://www.pku.edu.cn/about/index.htm 2 清华大学 http://www.tsinghu

2017-07-06 10:27:19

聚类的评价指标(无监督学习)

详细理论说明,可以查看其他博客:# coding:utf-8from sklearn import metrics""" 聚类性能评估"""""" 1、Adjusted Rand index (ARI) 优点: 1.1 对任意数量的聚类中心和样本数,随机聚类的ARI都非常接近于0; 1.2 取值在[-1,1]之间,负数代表结果不好,越接近于1越好;

2017-05-08 15:02:24

python使用JPype来运行java文件

1、下载JPype(注意版本,这里就不介绍了) 2、使用方法:# -*-coding:utf-8-*-# import jpype## jvmPath = jpype.getDefaultJVMPath() # 默认 JVM 路径# jpype.startJVM(jvmPath) # start# jpype.java.lang.System.out.println("hello wo

2017-04-27 12:30:59

文本分析--停用词集合(结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等)

文本分析过程中,中文文本分析是一个非常重要的环节,而停用词表的选择也是非常关键的,网络流行了多种版本的停用词表,都具有各自的特点,现在对网络流行的多种停用词表继续去重处理,综合实现新的停用词表。不同版本的停用词表: 去重合并:# -*-coding:utf-8-*-import os""" 合并文本文件"""mergefiledir = os.getcwd()+'\\stopwor

2017-04-18 14:20:32

文本分析--基于gensim的文本主题模型分析

#!/usr/bin/python# -*- coding:utf8 -*-import osimport timeimport reimport jieba.analyseimport time# 关键词获取def post_cut(): fr = open("post_data.txt") # 源文件 fo = open("post_key.txt", "a+")

2017-04-12 18:05:21

文本分析--校园新闻:聚类

# -*-coding:utf-8-*-import jiebaimport osimport codecsfrom sklearn import feature_extractionfrom sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.feature_extraction.text import

2017-04-12 18:04:00

文本分析--校园新闻:关键词获取

新闻数据:       每行都是一个文档,并且已经进行了分词和停用词处理。 # -*-coding:utf-8-*-import unioutimport jieba.analysefrom sklearn import feature_extractionfrom sklearn.feature_extraction.text import TfidfTransformerfrom s

2017-04-12 17:56:52

文本分析--Gensim向量空间

# -*-coding:utf-8-*-import gensim""" Tutorial 1: Corpora and Vector Spaces"""import logginglog = logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)"""

2017-04-12 17:51:58

文本分析--Gensim概述

# -*-coding:utf-8-*-import gensim""" Getting Started with gensim Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中, 无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA, 和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算

2017-04-12 17:51:01

文本分析--NLTK访问文件

# -*-coding:utf-8-*-from __future__ import divisionimport nltk, re, pprint""" 从网络和硬盘中访问文本: 1、电子书 2、处理的html 3、处理搜索引擎的结果 4、读取本地文件 5、从pdf,word及其他二进制格式中读取

2017-04-12 17:47:38

文本分析--NLTK语料库选择

# -*-coding:utf-8-*-""" from nltk.book import * 获取所有的语料库"""""" 古滕堡语料库"""# from nltk.corpus import gutenberg # 直接加载某个具体语料库## print gutenberg.fileids() # 语料库的文本## emma = gutenberg.words(

2017-04-12 17:45:29

文本分析--NLTK自然语言处理

# -*-coding:utf-8-*-from __future__ import divisionfrom nltk.book import *""" 搜索文本"""# print text1# print text1.concordance('monstrous') # 查找有这个单词的句子,并显示出来# print '---------------------------

2017-04-12 17:44:34

文本分析--simhash算法进行文本相似度判断

simhash算法分析:文本相似度算法:1、TF-IDF:TF(词频),IDF(逆词频)利用tf-idf得到一个词语的权重,来计算一篇文章的关键词2、simhash:局部敏感hash局部敏感:A、B具有一定相似性,在hash后,仍然保持相似性。通过将关键词集合hash成一串二进制,直接对比二进制数,来看其相似性得到两篇文档的相似性,查看相似性的时候采用海明距离(二进制数之间计算)。对文章simhas

2017-04-12 10:20:24

文本分析--关键词获取(jieba分词器,TF-IDF模型)

关键词获取可以通过两种方式来获取:      1、在使用jieba分词对文本进行处理之后,可以通过统计词频来获取关键词:jieba.analyse.extract_tags(news,topK=10),获取词频在前10的作为关键词。      2、使用TF-IDF权重来进行关键词获取,首先需要对文本构建词频矩阵,其次才能使用向量求TF-IDF值。#-*-coding:ut

2017-04-11 15:44:24

文本分析--遍历文件夹和读写文件

分析: 1、读取指定目录下的所有文件 2、读取指定文件,输出文件内容 3、创建一个文件夹,并将内容放到指定文件中输入文件存放样例: 输入文件夹News_split下的所有文件: 输出文件存放样例: 创建一个文件夹News_split_cut,并将文件保存到文件夹下: 实现:# -*-coding:utf-8-*-import sysimport reimport codecsim

2017-04-11 14:08:39

文本分析--数据收集

在进行文本分析的过程中,数据的获取是非常重要的,不同的网站所具有的结构也是不同的。下面将使用python进行解析网页,并且通过比较不同的数据爬虫包,选择了soupy包来进行爬取。       下面将对soupy进行详细的说明:(记录一下,待更新。。。)

2017-04-11 13:52:42

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!