自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

kerry_55的博客

一起学习,一起努力,一起进步。

  • 博客(47)
  • 资源 (8)
  • 收藏
  • 关注

原创 第五章 关联分析-apriori算法知识点详细总结

关联分析及apriori算法代码实现

2022-06-14 18:13:32 651 1

原创 python 相关性分析原理及代码详细介绍

相关性分析原理及代码详细介绍,附python实现代码

2022-01-06 15:35:58 7368

原创 python 10行代码生成词云图片(基础词云、形状词云)

wordcloud原理介绍及详细参数解释,实践代码参考

2021-12-22 17:05:39 9593 1

原创 python 基本语法numpy库使用

1、np.concatenate : 数组拼接例如: np.concatenate([[1,2,3],[4,5,6]],axis=0) # 默认情况下,axis=0可以不写# out: array([1, 2, 3, 4, 5, 6])2、np.diff : 计算离散差值例如:np.diff([2,4,1,5,6])# Out[5]: array([ 2, -3, 4, 1])...

2021-09-01 15:08:00 122

原创 python 计算idf 自定义逆向文件频率IDF

python3jieba分词代码如下:import jiebaimport jieba.analyseimport mathimport pandas as pdimport os#获取停用词stopwords_path = 'data/stopword.txt'stopwords_list = [line.strip() for line in open(stopwords_path,'r',encoding='utf-8').readlines() ]# 获取数据d

2021-09-01 14:39:35 373

原创 python List常用操作

1、list列表里元素/字符串按长度排序方法一:l = ['hello','I','world','hi'] sorted_l = sorted(l,key = lambda i:len(i),reverse=True) print(sorted_l) 方法二:l = ['hello','I','world','hi'] l.sort(key = lambda i:len(i),reverse=True) print(l)...

2021-08-27 18:13:26 136

原创 python MemoryError: Unable to allocate 165. MiB for an array with shape

python3MemoryError: Unable to allocate 165. MiB for an array with shape ... ...解决方法:把电脑打开的其它程序退出关了,减少占用内存资源,就可以了。

2021-08-27 18:01:15 8027

原创 python gensim AttributeError: ‘Doc2Vec‘ object has no attribute ‘dv‘

python3gensim 4.0.1我的代码:Doc2Vec加载doc2vec模型文件的时候报错了from gensim.models import Doc2Vecdoc2vec_model = Doc2Vec.load('data/doc2vec.model')“AttributeError: 'Doc2Vec' object has no attribute 'dv'”解决方法:可能是最新版本的一些问题,换版本!!!我把gensim卸载了 pip uninstal.

2021-08-27 17:41:24 2871 1

原创 第四章 分类模型-支持向量机SVM知识点详细总结

机器学习算法系列第一章 Python/Spark分类模型-逻辑回归知识点详细总结第二章分类模型-决策树知识点详细总结第三章分类模型-随机森林知识点详细总结第四章分类模型-支持向量机SVM知识点详细总结目录机器学习算法系列前言一、SVM简介二、基本原理三、实现步骤四、求解模型五、参数说明六、SVM算法的优缺点七、应用领域八、模型代码前言本章主要讲解SVM的基本原理、实现步骤、模型参数说明及优缺点等。一、SVM简介......

2021-05-10 17:41:24 2781 1

原创 第三章 分类模型-随机森林知识点详细总结

机器学习算法系列第一章 Python/Spark分类模型-逻辑回归知识点详细总结第二章分类模型-决策树知识点详细总结目录机器学习算法系列前言二、了解什么是集成学习三、随机森林工作原理(构建过程)四、特征重要性五、随机森林分类模型参数说明六、随机森林优缺点七、应用领域八、随机森林代码前言 本章节内容主要介绍随机森林,集成学习、随机森林工作原理、特征重要性、随机森林参数说明并附上部分代码、随机森林优缺点。一、随机森林简介...

2021-03-29 17:54:57 2712

原创 第二章 分类模型-决策树知识点详细总结

机器学习算法系列目录机器学习算法系列前言二、决策树的生成原则三、信息增益四、分类条件选择五、停止规则六、决策树预剪枝和后剪枝七、决策树分类模型参数说明八、决策树优缺点九、决策树代码前言本章节内容主要介绍决策树,包括决策树简介、生成规则、信息增益、决策树分类条件选择、决策树预剪枝和后剪枝、决策树参数说明并附上部分代码、决策树优缺点。一、决策树简介决策树是一种树形结构,树内部每个节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶子节点代表.

2021-03-23 13:54:45 2500 1

原创 第一章 分类模型-逻辑回归知识点详细总结

系列文章目录第一章 Python 逻辑回归--分类目录系列文章目录第一章 Python 逻辑回归--分类前言一、逻辑回归简介二、基本假设三、损失函数四、求解参数方法五、应用逻辑回归的目的六、应用领域七、逻辑回归模型参数说明八、逻辑回归优缺点前言本章节内容主要介绍逻辑回归,包括逻辑回归简介、逻辑回归基本假设、逻辑回归损失函数、逻辑回归优化方法、逻辑回归参数说明并附上部分代码、逻辑回归优缺点。一、逻辑回归简介简单介绍一下逻辑回归...

2021-03-17 13:54:16 1415

原创 pycharm pydevconsole.py: error: unrecognized arguments: --mode=server

使用argparse报错:pycharm pydevconsole.py: error: unrecognized arguments: --mode=server原代码:args = parser.parse_args()语法格式都没错,最终解决方法:修改后的代码: args = parser.parse_args(args=[])参考:https://freexyz.cn/dev/22918.html...

2020-09-21 15:30:23 3557 1

原创 Python 繁简转换

两种方式任选一种安装运行。(1) pip install opencc-python-reimplementedt2s 繁体转为简体s2t 简体转为繁体mix2t - Mixed to Traditional Chinesemix2s - Mixed to Simplified Chinesefrom opencc import OpenCCtt = OpenCC('t2s') # 繁转简text = '一目瞭然'result = tt.convert(...

2020-09-04 17:56:18 613

原创 python读取json格式数据

python读取json格式数据import jsonimport osimport pandas as pddef get_json_file(self, file_path): # 读取json格式数据 cur_dir = '/'.join(os.path.abspath('__file__').split('/')[:-1]) file = open(os.path.join(cur_dir, file_path), 'r', encoding='utf-8')

2020-05-26 18:21:07 1398

原创 python连接mysql数据库

一、安装pymysql安装方式: pip install pymysql二、python连接mysql环境:linux, python3.6#os.environ['NLS_LANG'] = 'AMERICAN_AMERICA.AL32UTF8'import pymysqlconn= pymysql.connect(host=host,user=user,password...

2020-04-27 14:18:15 141

原创 python 连接hive数据库

一、安装hivelinux 环境,Anaconda3 python3.6安装方式:pip install pyhive 或是 conda install pyhive通常会少些包报错,例如:ModuleNotFoundError: No module named 'thrift'ModuleNotFoundError: No module named 'past' (futur...

2020-04-27 14:02:39 7908

原创 python: (linux环境)Anaconda切换python版本

例如切换为3.6的版本:conda create -n py36 python=3.6创建好之后 ,激活启动:source activate py36退出:source deactivate

2020-04-08 13:59:33 2100

原创 python: 哈工大pyltp分词工具安装

环境:linux, python3.6安装方式1:pip install pyltp若报错: error: command 'gcc' failed with exit status 1解决办法:yum install gcc-c++ python-devel.x86_64 cyrus-sasl-devel.x86_64yum -y install gccyum -...

2020-04-07 15:44:28 575

原创 python: DataFrame常用操作语法

1.查找是否有空值及位置 参见:https://blog.csdn.net/htbeker/article/details/80071900 df['col'][df['col'].isnull().values==True] #查找空值# 删除某列空值所在行数据data_result['result'].isnull().value_counts()data_resu...

2020-03-25 18:21:59 972

原创 NLP基础二:python 词性标注

一、jieba词性标注"""词性标注"""import jieba.posseg as psegresult = pseg.cut("我是来自韩山师范学院,数学与统计学院的一名学生")for w in result:print(w.word,"/", w.flag, ",", end=' ')打印输出:我/r 是/v 来自/v 韩山/ns 师范学院/n ,/x 数学/n...

2019-09-17 22:52:04 543

原创 NLP基础一:python 中文分词

jieba 哈工大LTP hanlp pkuseg 分词工具一:jiebaimport jieba# 分词cut_list = jieba.cut("我是来自韩山师范学院,数学与统计学院的一名学生", cut_all=True)print("全模式: " + ",".join(cut_list))cut_list = jieba.cut("我...

2019-09-17 22:49:26 240

原创 python读取oracle数据库数据报编码错误

UnicodeDecodeError:'gbk'codeccan'tdecodebyte0xa7inposition2:illegalmultibytesequence解决方法:根据数据库不同的编码设定,编写的python脚本中需要相对应的加入如下几句 import os os.environ['NLS_LANG'] = 'AMERICAN_AMERI...

2019-07-03 18:46:10 709

原创 Spark 读取csv文件/读取mysql数据

1、spark读取csv数据文件https://www.cnblogs.com/gaopeng527/p/4961464.html val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "/tmp/model/nlp/lda/data_result_0605_new.txt", "header"-&gt...

2019-06-26 19:06:05 1190

原创 Linux环境下Anaconda安装过程详解

Linux环境Anaconda安装包下载链接:https://repo.continuum.io/archive/index.html下载后上传至linux,输入以下命令:(1) bash Anaconda3-5.1.0-Linux-x86_64.sh(2) 根据提示按 enter(3) 当提示 yes or no ,输入 yes (4) 根据...

2019-06-24 18:58:42 3326

原创 python连接Oracle数据库代码

import cx_Oracle as oracle# db = oracle.connect('用户名/密码@IP:端口号/SERVICE_NAME')db = oracle.connect('admin/password@IP:1521/DataBase')cursor = db.cursor()# execute sqlcursor.execute("'SELECT * FRO...

2019-06-23 17:28:14 1131

原创 windows环境下neo4j下载安装配置

neo4j 下载链接windows64 ziphttps://neo4j.com/artifact.php?name=neo4j-community-3.1.0-windows.zip下载后解压,打开cmd.exe,右键以管理员身份运行,进入以解压的目录bin下,接下来进行安装:输入 :neo4j install-service (安装) //neo4j uninstall-...

2018-08-08 22:18:52 3145

原创 windows mysql 下载安装配置(附上全程图解)

mysql下载地址: https://dev.mysql.com/downloads/windows/1、下载后解压:(没有mysql.ini,可参考我的配置文件,直接复制粘贴用就行)2、新建文本文件,复制以下内容(修改basedir和datadir,datadir目录下的data文件夹是没有的,可以自己建 也可以不用管会自动帮你建的,安装成功后里面就有东西了),修改文本名称 my...

2018-08-07 22:11:31 131

原创 HDFS Java API实战:创建目录,上传,下载,删除代码

HDFS Java API实战:创建目录,上传,下载,删除代码如下:package javaApi;   import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs....

2018-06-27 10:11:25 879

原创 hadoop MapReduce 实战(java):单词计数

hadoop MapReduce 实战(java):单词计数点击【File】—>【Project】,选择【Map/ReduceProject】,输入项目名称test,一直回车。在WordCount项目里新建class,名称为WordCount,代码如下:package test;   import java.io.IOException;   import org.apache....

2018-06-26 15:39:40 523

原创 Hadoop IDE开发环境配置(Eclipse配置)

ü  安装eclipseü  下载 hadoop-eclipse-plugin-2.6.0.jarü  放在 Eclipse的plugins目录下 1.      若安装hadoop插件成功,打开eclipse, 打开【Windows】—>【Preferences】后,在窗口左侧会有Hadoop Map/Reduce选项,点击此选项,在窗口右侧设置hadoop安装路径,然后点击【OK】。2....

2018-06-26 10:01:08 813

原创 Hbase与Hive区别

Hbase:全称Hadoop database,适用于存储非结构化数据,是Nosql(key-value)数据库,主要针对OLTP应用。适用场景:主要适用于海量(亿级)数据的随机实时查询。1)日志信息的存储;2)交易清单;3)轨迹行为。Hive:适用于存储结构化数据,是hadoop的数据仓库,主要针对OLAP应用,用于查询分析。适用场景:通过sql来计算和处理hdfs上的结构化数据,适用于离线的批...

2018-05-28 13:16:05 688

原创 Hive语法入门练习

创建数据库:create database_name;查看数据库:show databases;使用数据库:use database_name;查看数据表:show tables;按正则表达式显示表:show tables 's.*';显示hive函数:show functions;显示表中有多少分区:show partitions table_name;显示表结构信息:desc table_na...

2018-05-28 10:06:41 621

原创 zookeeper启动报错:-bash: zkServer.sh: command not found

zkServer.sh: command not found 明明已经进入了zookeeper的安装目录bin下了,执行zkServer.sh start 没有这个命令?有这个命令,但启动不了我的两种解决方法:(1)一种是到zookeeper的安装目录bin下,将命令换成 ./zkServer.sh start  ;(2)一种是配置环境变量:vim /etc/profile ,添加:       ...

2018-05-15 10:33:29 24930 8

原创 Hive:Unable to open a test connection to the given database. JDBC url = jdbc:mysql://master12:3306

hive启动不成功,一直报各种错,我是执行这条命令出的错:hive --service metastore这个问题困扰了我两三天一直没解决,网上找了各种方法基本都试过,还是不行,可能每个人的原因也不太一样吧,我说我的解决方法,可以试下:1、检查是否有设置用户名和密码,在hive配置文件里:hive-site.xml ;如 用户名:root,密码:password2、进入mysql: mysql&g...

2018-05-11 19:33:47 12691 10

原创 Linux中安装mysql:Can't connect to local MySQL server through socket '/var/lib/mysql/mysql.sock'

启动mysql的时候报了这个错:查看是否安装了mysql,是有的;那怎么解决呢?百度找了好多解决方法~都是:先查看mysqld是否启动: /etc/rc.d/init.d/mysqld status这里我查看后又引出另一个错误信息:-bash: /etc/rc.d/init.d/mysqld: No such file or directory然后我对这个错又百度找问题解决~ 方法不说了各种不行,...

2018-05-10 19:02:26 5062 2

原创 Linux安装mysql报错:NOKEY error: Failed dependencies:

遇到这个问题的解决方法如下:1、先挂载 mount /dev/dvd /media/2、yum clean all3、yum -y install libaio4、yum install numactl*5、开始安装  rpm -ivh MySQL-server-5.6.36-1.el6.x86_64.rpm就可以了。...

2018-05-10 14:38:18 1516

原创 Java:org.apache.hadoop.security.AccessControlException: Permission denied: user=Administrator, acces

解决方法:在开头加上 System.setProperty("HADOOP_USER_NAME","用户名");用户名为你Hadoop上的linux的用户名,再次运行就可以了。 

2018-05-08 20:30:15 1265 2

原创 hadoop Permission denied: user=dr.who, access=READ_EXECUTE

解决方法来自:https://blog.csdn.net/fansy1990/article/details/20615867查看hdfs://hostname:50070/tmp下面的文件,在$HADOOP_HOME运行bin/hadoop dfs -chmod -R 755 /tmp

2018-05-07 19:30:00 1392

原创 hadoop开发环境配置,eclipse配置,运行wordcount实例

运行报错:Protocol message end-group tag did not match expected tag.; Host Details : local host is: "XXX"; destination host is: "XXX":XXX; 可参考以下链接:https://blog.csdn.net/songchunhong/article/details/4704670...

2018-05-07 17:17:02 203

tesseract-ocr-w64-setup-v5.0.0.20190623.zip

图片识别文字tesseract-ocr配置安装包,解压即为exe安装包

2022-01-07

ansj分词ansj_seg-5.1.5.jar

ansj分词配置jar包,结合nlp-lang的配置jar使用。

2022-01-05

nlp-lang-1.7.6.jar

nlp分词jar包,结合ansj_seg的jar包一起使用。

2022-01-05

zhconverter-0.0.5.jar

简繁体字转换spark scala配置jar包

2022-01-05

jar包fastjson-1.2.75.zip

fastjson由alibaba开源的一套json处理器。与其他json处理器(如Gson,Jackson等)相比有比较明显的性能优势。

2022-01-05

junit-4.13.2.jar

在用spring框架做项目的时候若出现import org.junit.Test 和@Test报错,需导入该包junit-4.13.2.jar,不同环境可能版本不适用

2021-11-23

哈工大ltp安装wheel.rar

哈工大pyltp安装的wheel文件,下载后在下载文件的目录,执行 pip install pyltp-0.2.1-cp36-cp36m-win_amd64.whl

2021-08-24

pyltp-0.2.1-cp36-cp36m-win_amd64.zip

若安装pip install pyltp报错缺少wheel,可先下载pyltp-0.2.1-cp36-cp36m-win_amd64.whl,然后pip pyltp-0.2.1-cp36-cp36m-win_amd64.whl 再重新安装

2019-08-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除