自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 Linux环境配置升级python

通过Xshell在Linux上升级python2.7.5到python3.8.3。

2022-11-07 16:20:06 2717 2

原创 爬虫设置定时任务增加网站活跃量

为爬虫程序设置定时启动,选取指定的hour,分钟通过随机获取,上代码,逻辑简单清晰:from selenium import webdriverfrom datetime import datetime, timedeltaimport timeimport sysimport randomimport os#设置定时def main(h, m): while True: now = datetime.now() #获取当前时间 print (

2022-04-08 17:01:09 846

原创 爬虫模拟鼠标点击动态下载PDF文件

爬虫模拟鼠标点击动态下载PDF文件

2022-04-06 16:44:38 884

原创 1455. 检查单词是否为句中其他单词的前缀

给你一个字符串 sentence 作为句子并指定检索词为 searchWord ,其中句子由若干用 单个空格 分隔的单词组成。请你检查检索词 searchWord 是否为句子 sentence 中任意单词的前缀。如果searchWord 是某一个单词的前缀,则返回句子sentence 中该单词所对应的下标(下标从 1 开始)。如果 searchWord 是多个单词的前缀,则返回匹配的第一个单词的下标(最小下标)。如果 searchWord 不是任何单词的前缀,则返回 -1 。字符串 S 的..

2020-09-10 15:51:54 221

转载 347. 前 K 个高频元素

给定一个非空的整数数组,返回其中出现频率前k高的元素。示例 1:输入: nums = [1,1,1,2,2,3], k = 2输出: [1,2]示例 2:输入: nums = [1], k = 1输出: [1]提示:你可以假设给定的k总是合理的,且 1 ≤ k ≤ 数组中不相同的元素的个数。你的算法的时间复杂度必须优于 O(n log n) ,n是数组的大小。题目数据保证答案唯一,换句话说,数组中前 k 个高频元素的集合是唯一的。你可以按任意顺序返回答案。来源...

2020-09-07 16:30:11 94

转载 每日一练:332. 重新安排行程

给定一个机票的字符串二维数组 [from, to],子数组中的两个成员分别表示飞机出发和降落的机场地点,对该行程进行重新规划排序。所有这些机票都属于一个从 JFK(肯尼迪国际机场)出发的先生,所以该行程必须从 JFK 开始。说明:如果存在多种有效的行程,你可以按字符自然排序返回最小的行程组合。例如,行程 ["JFK", "LGA"] 与 ["JFK", "LGB"] 相比就更小,排序更靠前所有的机场都用三个大写字母表示(机场代码)。假定所有机票至少存在一种合理的行程。示例 1:输入: [[

2020-08-27 23:59:12 106

原创 每日一练:17. 电话号码的字母组合

给定一个仅包含数字2-9的字符串,返回所有它能表示的字母组合。给出数字到字母的映射如下(与电话按键相同)。注意 1 不对应任何字母。示例:输入:"23"输出:["ad", "ae", "af", "bd", "be", "bf", "cd", "ce", "cf"].说明:尽管上面的答案是按字典序排列的,但是你可以任意选择答案输出的顺序。来源:力扣(LeetCode)链接:https://leetcode-cn.com/problems/letter-combinations..

2020-08-26 23:21:01 177

原创 每日一练:491. 递增子序列

给定一个整型数组, 你的任务是找到所有该数组的递增子序列,递增子序列的长度至少是2。示例:输入: [4, 6, 7, 7]输出: [[4, 6], [4, 7], [4, 6, 7], [4, 6, 7, 7], [6, 7], [6, 7, 7], [7,7], [4,7,7]]说明:给定数组的长度不会超过15。数组中的整数范围是[-100,100]。给定数组中可能包含重复数字,相等的数字应该被视为递增的一种情况。class Solution: def findSubs.

2020-08-25 22:52:28 118

原创 每日一练:459. 重复的子字符串

给定一个非空的字符串,判断它是否可以由它的一个子串重复多次构成。给定的字符串只含有小写英文字母,并且长度不超过10000。输入: "abab"输出: True解释: 可由子字符串 "ab" 重复两次构成。class Solution: def repeatedSubstringPattern(self, s: str) -> bool: if not s: return False ss = (s + s)[1:-1]

2020-08-24 23:16:41 150

原创 doc文档转换成docx文档

因为之前在网上爬下来的文档为PDF格式,用了一个转换工具转换成了word,但是word格式不统一,有的是doc有的是docx,在GitHub上发现了一个转换的小程序,感觉还挺好用,链接放在下面https://github.com/erlieStar/doc2docx...

2020-08-11 10:49:57 755

转载 TypeError: can‘t pickle _thread.RLock objects

用Keras的model保存模型出错,以下是我在Stack Overflow找到的解决办法:https://stackoverflow.com/questions/55280201/keras-typeerror-cant-pickle-thread-rlock-objects

2020-07-11 09:58:58 2927

原创 命名实体识别:将自己标注的数据集转换成BIO格式的简单代码

我用的标注工具是YEDDA:https://github.com/jiesutd/YEDDA,挺好用的。右侧就是我自己修改的标签,实时保存很方便。他自己也带了转换的功能,如果符合你的要求可以用,我是想要BIO格式的,就自己敲了几行代码,一开始接触的同学可以借鉴嘻嘻。import ref = open("E:\命名实体识别实验数据\数据拆分\\train.txt.ann","r",encoding='utf-8')//插入自己的文件路径line = f.readline()line =.

2020-06-10 21:03:16 12759 36

原创 fake_useragent包添加代理,解决爬虫时遇到Remote end closed connection without response 问题

原代码(主要部分):#下载一个网页url = "https://zhidao.baidu.com/" # 模拟浏览器发送HTTP请求response = requests.get(url)导入fake_useragent包,后修改为:from fake_useragent import UserAgent#下载一个网页url = "https://zhida...

2020-01-06 15:17:37 453

翻译 Ubuntu16.04安装Neo4j

首先检查是否安装了Java,(我是重装的系统所以装了一遍Java)Java -version依次执行以下命令:(使用debian reporsitory安装)wget -O - https://debian.neo4j.org/neotechnology.gpg.key | sudo apt-key add -echo 'deb https://debian.neo4j.org...

2019-11-22 13:23:41 177

转载 解决Ubuntu apt安装时连接超时Connection timed out [IP: 2001:67c:1562::16 80]

我当时是想用Neo4j,sudo apt-get install neo4j,然后报:Connection timed out [IP: 2001:67c:1562::16 80],如图:解决办法:sudo gedit /etc/gai.conf找到:# precedence ::ffff:0:0/96 100找到这一行将#去掉解决时长问题。...

2019-11-22 00:59:20 7133 1

转载 ImportError: /usr/local/cuda-9.0/lib64/libcudnn.so.7: file too short导入TensorFlow报错

动态库链接出了问题:首先我们要进入到/usr/local/cuda/lib64下执行rm libcudnn.so.7 libcudnn.so.7.4.1 然后切换到你下载的cudnn目录执行cp libcudnn.so.7.4.1 /usr/local/cuda/lib64 最后一定要记得切回/usr/local/cuda/lib64 再执行ln -s l...

2019-11-20 17:22:52 998

原创 ubuntu18.04更换清华源

1.使用root用户:sudo -s2.sources.list备份:cp /etc/apt/sources.list /etc/apt/sources.list.bak3找到sources.list文件:sudo gedit /etc/apt/sources.list4.更换文件中的内容如下:# 默认注释了源码镜像以提高 apt update 速度,如有需要可...

2019-11-11 20:15:12 1991

原创 AttributeError: module 'tensorflow_core._api.v2.train' has no attribute 'Optimizer',tensorflow报错

tensorflow版本不对卸载重新安装pip uninstall tensorflow我之前是2.0.0的版本,然后重装的1.5.0,没有再报这个错误pip install tensorflow==1.5.0

2019-11-07 10:54:18 26067 9

原创 Windows下安装ubuntu子系统

1.首先打开Windows开发者模式,然后通过Windows搜索找到:“启用或关闭Windows功能”界面(如下),勾选“适用于Linux的Windows的”2打开微软应用商店,搜索Ubuntu,并下载18.04或16.04安装,第一个装上报错亲测3.安装后启动,如果报错:Installing, this may take a few minutes...Installat...

2019-11-06 16:07:17 986

原创 TypeError: unsupported operand type(s) for >>: 'builtin_function_or_method' and '_io.TextIOWrapper'.

python 版本问题,老的代码导致的 print>>wf,'%d\t%s' % (wid, w)换成print(wf,'%d\t%s' % (wid, w))

2019-11-06 00:41:14 4575

原创 ModuleNotFoundError: No module named 'tools.nnwrap',torch包安装

点击下方链接,下载对应版本的包,CP37就是3.7,CP36是3.6https://www.lfd.uci.edu/~gohlke/pythonlibs/然后在包所在路径下打开黑窗口(cmd)输入pip install torch-1.0.1-cp36-cp36m-win_amd64.whl...

2019-11-05 15:23:05 2164

原创 UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 119221: illegal multibyte

文件编码错误修改之前 with open("attribute_"+data_type+"_sample.txt", "w") as f: f.write("\n".join(training_seq_result))之后 with open("attribute_"+data_type+"_sample.txt", "w",encoding="utf-8")...

2019-10-28 21:58:19 1211

原创 AttributeError: 'str' object has no attribute 'decode'

源码entities = t_str.split("|||")[0].split(">")[1].strip().decode("utf-8")修改entities = t_str.split("|||")[0].split(">")[1].strip().encode("utf-8").decode("utf-8")

2019-10-28 20:50:08 453

转载 AttributeError: module 'ahocorasick' has no attribute 'Automaton'解决

在运行中科院软件所刘老师的代码时出现的小bug,感谢!问题:AttributeError: module ‘ahocorasick’ has no attribute ‘Automaton’原因:导入了ahocorasick-python这个包,把他删了,然后再重新导入pyshocorasick源代码...

2019-07-29 16:02:18 2604 1

原创 ModuleNotFoundError: No module named 'sklearn.cross_validation'问题解决

错误:from sklearn.cross_validation import train_test_split更改为from sklearn.model_selection import train_test_split由于sklearn.cross_validation的弃用。 请用sklearn.model_selection替换sklearn.cross_validation...

2019-07-25 20:17:00 551

转载 jieba工具包对文件进行简单分词、去停用词

个人认为结巴分词从分词时间及分词效果上都还不错代码示例import jieba# 创建停用词列表def stopwordslist(): stopwords = [line.strip() for line in open('stopwords.txt',encoding='UTF-8').readlines()] return stopwords# 对句子进行中文分...

2019-07-10 22:19:53 2820 1

转载 pkuseg模型配置及简单文件分词、去停用词

https://github.com/lancopku/pkuseg-python安装下载之类的准备事项不再描述。模型配置pkuseg.pkuseg(model_name = "default", user_dict = "default", postag = False) model_name 模型路径。 "default",默认参数,表示使用我们预训练好的混合领...

2019-07-10 22:16:44 4051

转载 THULAC清华大学中文分词分析工具使用方法

THULAC清华大学中文分词分析工具使用方法分词和词性标注程序python版接口使用示例接口参数命令行运行(限pip安装使用)获取模型生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入分词和词性标注程序python版...

2019-07-03 14:48:34 8006 1

原创 Tensorflow简单安装

1.首先检查自己机器上的python的版本是否是64bit的,如若不是请卸载重新安装。Python下载链接2.这里建议您下载3.6版本。3.下载好以后打开pycham,通过下面的命令安装:(下载时间可能会久一点保持网络畅通)pip3 install --upgrade tensorflow4.import TensorFlow测试安装...

2019-03-29 15:35:38 101

转载 如何运用python的pdfminer3k包将PDF文件转化为Word文件

源码下载地址:https://github.com/python-fan/pdf2word pip install -r requirements.txt修改config.cfg文档中的pdf_folder为自己需要转化的PDF文件存放的路径,将word_folder为自己要将转化好的文件存放到什么位置。运行main代码即可。...

2019-03-26 22:19:02 2338

原创 Twisted-18.9.0-cp37-cp37m-win_amd64.whl is not a supported wheel on this platform.问题解决

Twisted-18.9.0-cp37-cp37m-win_amd64.whl is not a supported wheel on this platform.问题解决当安装scrapy时要导入twisted如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,...

2019-03-20 22:21:21 9497

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除