自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(223)
  • 资源 (1)
  • 收藏
  • 关注

原创 Ubuntu开机出现Welcome to emergency mode解决办法

笔记本电脑安装了windows 10和ubuntu 16.04双系统,windows系统关机时按电源键强制关机,再次开机进入Ubuntu系统时无法进入图形界面,出现Welcome to emergency mode。修复完之后会重启,然后即可正常进入Ubuntu图形界面。修复过程中出现的询问,均选择。

2023-12-04 22:52:55 885 1

原创 使用关键词一站式精准搜索指定期刊或会议论文集中的论文

根据关键词在指定会议或期刊中检索论文,一站式,巧用谷歌学术。

2023-08-12 22:36:59 931

原创 Typora + Github构建免费高效个人知识库

构建免费、可高效搜索、无限空间的个人知识库

2023-08-07 23:06:17 691

原创 Ubuntu 16.04设置Chrome为默认浏览器

Ubuntu 16.04无法安装最新版本的Chrome,原因是软件包依赖缺失,请直接安装旧版本的Chrome,如。Ubuntu 16.04安装Chrome浏览器并将Chrome设置为打开网址和PDF文件的默认浏览器。修改如下配置文件,设置Chrome为PDF的默认打开方式,设置Chrome为点击网址时的默认浏览器。命令安装Chrome即可。解决依赖问题后再次运行。文件中比较重要的一行是。,可直接下载旧版本的。

2023-06-08 16:09:35 975 1

原创 Ubuntu移除PDF密码

加密PDF每次打开均需要使用密码,给查阅和注释带来不便,使用在线工具去除PDF密码,存在文件内容泄露的风险,本地去除PDF密码最为适合,且需要一个轻量级解决方案。在Ubuntu中可使用。

2022-12-02 13:06:34 479 1

原创 Ubuntu下结合GoldDict和谷歌翻译实现快速划译整段文本

Ubuntu实现高效快捷的整段文本准确划译

2022-09-30 10:53:42 949

原创 TextStudio同时浏览切换多个PDF文档

TextStudio同时查看多个源代码对应的PDF文件

2022-06-22 14:24:19 813

原创 latex使用各种系统字体

在latex中使用系统自带字体

2022-06-22 14:00:12 1354

原创 从多个PDF中快速搜索字符串

快速从多个PDF中检索字符串

2022-06-22 13:47:40 868 1

原创 改变latex文档部分文字的大小

问题latex文档一般会在文档头部指定字体大小,但是在正文中我们可能需要改变某一部分字体(图、表等)的大小,以便于突出重点或者排版需求。解决方法foo{\fontsize{11pt}{13.2pt}\selectfont foo}foo第一个数字是字体大小,第二个数字是 \baselineskip,通常是字体大小的 1.2 倍。...

2022-05-06 14:16:41 5235

原创 Ubuntu桌面自动切换壁纸(不用写脚本和xml配置文件)

打开自带的Shotwell软件文件–>从文件夹导入–>把导入的图片全部选中–>文件–>设为桌面幻灯片–>选择切换时间间隔–>确定开始享受自己找的精美壁纸,专心工作别摸鱼…

2021-12-28 13:06:54 1092

原创 TextStudio同时编辑使用不同编译器的Latex文档

问题在TextStudio中,我们可能会同时编辑中文和英文文档,中文文档通常使用XeLatex编译器,英文文档很多是使用pdflatex的,但是TextStudio的默认编译器智能设置一个,这时切换着编译使用不同文档时就很尴尬,手动每次切换编译器显然不现实,使用命令行编译吧,那使用TextStudio的好处就大打折扣了。解决办法在tex文件头添加指定编译器的命令,如下,指定该text文档使用pdflatex编译器,这样九不用手动切换默认编译器了% !TeX program = pdflatex

2021-12-23 11:10:31 1286 1

原创 Ubuntu下批量修正文件名乱码

问题Windows系统下非UTF-8编码创建的文件名,在Ubuntu系统下会显示乱码和无效的编码,导致文件在Ubuntu系统下无法直接打开,如果文件较少,可以手工改一下,但是前提是你知道正确的文件名是什么,否则从乱码中推测文件名也不现实,如果文件较多,即使知道正确的文件名,手工修改也是不划算的。解决办法sudo apt-get install convmv进入只保存有乱码文件名的文件夹convmv -f GBK -t UTF-8 --notest -r */参考资料[1] Ubuntu L

2021-12-23 11:03:35 1073

原创 英文维基百科Python查询API

问题描述维基百科语料库是做文本挖掘和自然语言处理相关实验的一个非常重要的公开可获取大规模语料库(知识库),有时需要对其进行检索并对获取结果页面的相关信息,如正文文本、标题、页面文本长度等。一种常见的做法是把维基百科语料的dump下载到本机使用,但是这种做法对本机的性能(内存、硬盘)等有一定要求,并且要自己进行众多繁琐的预处理,如果要进行检索,则还需要在本地实现检索功能,显然需要的预处理工作量有点大。如果我们不是使用大规模维基百科语料进行模型训练(如预训练模型),那么可以参考维基百科提供的API接口快速调用

2021-08-08 16:49:31 1106

转载 关联规则及Apriori算法Python实例

关联规则学习概述在大型数据库中发现变量之间有趣关系的方法,目的是利用一些有趣的度量识别数据库中的强规则。基于强规则的概念,Rakesh Agrawal等人引入了关联规则以发现由超市的POS系统记录的大批交易数据中产品之间的规律性。例如,从销售数据中发现的规则{薄饼,鸡蛋}->{火腿肠},表明如果顾客一起买薄饼和鸡蛋,他们也有可能买火腿肠(这些顾客是想早饭吃手抓饼吧,哈哈),此类信息可以为大卖场商品组合促销或电商网站产品推荐等相关商业决策提供依据。除了上述的购物篮分析外,关联规则还被应用在许多领域中,

2021-07-17 18:33:52 1644

原创 Ubuntu使用Foxit Reader + GoldenDict实现PDF划译

问题描述为了实现看外文PDF文档时便于翻译,博主之前写过一篇博文,主要思路是将PDF文档转换为结构无损的HTML文件,然后借助Chrome的谷歌翻译插件来划译,但是这样不方便做笔记,那么能不能就直接在PDF上实现划译呢,这样不就方便使用PDF阅读器做笔记和标注了嘛,答案是可以,借助GoldenDict配合命令行翻译软件translate-shell即可,下面就来看看如何将两者组合。解决办法安装GoldenDictsudo apt install goldendict安装translate-

2021-07-12 11:04:55 2800 5

原创 Ubuntu翻译PDF论文

问题描述在Ubuntu中看PDF格式的英文论文,无论用哪种PDF浏览器,都没法很好地支持使用谷歌翻译划译,频繁切换窗口复制粘贴到浏览器中翻译,太麻烦了,要是遇到换行的句子,还得在粘贴之后删除换行符,才能确保翻译结果更准确,更是麻烦。怎样才能像在Chrome浏览器中查看英文网页时,选中英文就可以直接翻译并且不用手动处理换行问题。要是能这样的话,不就能提高点看论文的效率吗。那么先试试用chrome打开PDF,然后选中文字,看看能不能跳出谷歌翻译图标,靠,不能,那么再设置下谷歌翻译插件的扩展程序,让其能够访问

2021-07-06 23:43:33 2843 1

转载 Ubuntu关闭软件更新器开机提醒弹窗

删除更新通知程序sudo apt-get remove update-notifier禁用/删除更新管理器:打开终端(Ctrl+Alt+T ),并运行以下命令在Ubuntu系统上禁用Update Manager自动通知:gconftool -s --type bool /apps/update-notifier/auto_launch false要重新启用Update Manager自动通知,请运行以下命令:gconftool -s --type bool /apps/update-notifi

2021-07-04 10:52:27 4908

原创 Ubuntu安装人脸识别认证软件Howdy

问题Iphone 12已经不支持指纹识别,只支持人脸识别了,好多新出的电脑也是不仅支持指纹识别,也加入了人脸识别功能,刷脸支付也变得很流行,高铁以及各种与钱袋子相关的APP都启用了人脸识别,看来人脸识别解锁是个流行配置。那么在我们的办公神器Ubuntu 16.04 LTS上要不要也整个人脸识别验证,省去sudo操作和进入系统所需的密码输入操作,赶一下时髦。虽非必须,但是值得一用,博主的各种电子设备通常是不设置任何密码的,因为一直以为“设备真丢了,密码也真没什么用,通常我电脑放置的地方也几乎不会有人偷看或偷

2021-07-03 22:17:06 2172 3

原创 PDF转TXT实现PDF文本抽取

问题描述在处理文本数据时,经常会遇到需要将PDF转换为txt的情况,在线转换工具在速度和数量上有限制,现成的免费可批量转换的易用软件比较少,怎么破,博主是在Ubuntu系统上处理数据,所以便想到了使用现成的linux工具,在命令行高效完成。解决办法Ubuntu下安装xpdf工具,命令如下:sudo apt-get update && sudo apt-get install -y xpdf其他unix系统的安装方法类似使用命令行将PDF转换为txt,命令如下:pdftotext

2021-04-20 19:17:08 408

原创 将Chrome作为不限速下载器使用

问题在写小爬虫时,遇到要下载很多PDF文档,如果直接在爬虫代码里实现文件下载功能,需要考虑断点续传、网络不稳定、爬虫被ban等问题,如何不使用代码批量下载这些文档呢,现在已经有了所有文件的下载地址,使用专门的下载软件,也可能会被文件服务器限速或阻止,最好是能用浏览器去下载,充分模拟正常用户的行为,但是把地址一个个输到浏览器中,手动下载,可太耗时了,那就不是模拟正常用户行为,而是真的人工手动下载了,哭唧唧,所以我们要找一个浏览器插件,来接收全部文件地址,实现一键批量下载。解决方法选择Chrome浏览器,

2021-04-20 19:05:11 378

原创 Ubuntu开机启动进入initramfs的解决方案

问题描述博主常年Win 10 + Ubuntu 16.04 LTS 双系统,并且以Ubuntu作为主要系统用于日常工作和学习,但是昨天没关机并且切断了电源,笔记本电量耗尽后,自动关机了,今早打开电闸,开机进入Ubuntu时,没能正常启动,进入了initramfs界面,无奈,没遇到过这种情况,就去网上搜索了一些中英文答案,大多数的解决办法是输入fsck -y /dev/启动盘符命令进行修复,可是博主试了一些盘符名字,都是not exists啊,然后ls /dev,查看了一下,也是看不出哪个是需要修复的启动盘

2021-03-13 12:32:32 7054 3

原创 Python字符统一标准化

问题在Python 3.X环境下使用Hugging Face中Bert模型获取词向量时,发现tokenizer的分词结果出现乱码,如下:# 这是直接在交互式命令行执行的结果tokenizer.tokenize("anti - spam suit")Out[3]: ['anti', '-', 'spa', '##m', 'suit']转念一想,spam这样一个常见词应该在词表里出现啊,那问题应该出现在编码上,只要将字符串编码统一即可,想起之前看github上使用Bert的DNN项目代码,那个项

2021-03-10 16:13:03 574

原创 Ubuntu使用自带的Liboffice Draw去除PDF水印

问题身边没有扫描仪,大家一般会使用一些APP扫描软件,通过拍照,将文件转换为PDF扫描件,但是一般会被APP加上水印logo,在某些情况下出现这些水印是十分不合适的,如果为了去除一张扫描件的水印,开个会员不是很值,这个时候,我们就要想其他办法去除水印。但是呢,无论是在线的PDF去水印网站还是各类PDF编辑软件,也都是要收费开通会员才能使用去水印的功能,何况,在线去水印可能泄露文件内容,而安装破解版的PDF编辑软件,也存在病毒风险。这可怎么办?解决方法利用Ubuntu系统自带的免费办公软件Liboffi

2021-03-10 13:09:14 1440 1

原创 QQ邮箱代收Gmail邮件,微信第一时间通知Gmail新收邮件

问题由于Gmail邮箱访问不方便,导致无法及时查收Gmail收到的重要邮件,要是能用国内的邮箱关联Gmail,然后用Gmail邮件地址收发邮件就好了,但是国内邮箱关联Gmail并不容易,操作上有点繁琐,并且容易关联不成功,这个时候有没有个退而求其次的办法呢,就是能保证自己第一时间收到Gmail邮件,然后再想办法用Gmail回复。解决办法电脑Chrome打开Gmail邮箱,设置(右上角的齿轮)->查看全部设置->转发和 POP/IMAP->将收到的邮件的副本转发给->输入自己的

2021-03-08 20:53:25 14683 1

原创 Ubuntu装机必备软件和设置(持续更新中)

本博文的软件配置适用哪些人群经常在Ubuntu上做开发的程序员不怎么用电脑玩游戏的学生希望提高工具效率的科研人员必备清单(持续更新中)更新软件源为国内阿里云安装搜狗输入法(点我查看步骤)中文系统界面+英文文件夹名称Ubuntu安装Chromewget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb sudo dpkg -i google-chrome-stable_cur

2021-02-05 14:03:20 579

原创 Latex文献引用实用技巧——以natbib包为例说明

问题描述大家在写技术文档、论文、项目书的时候,会引用很多文献,使用Latex可以实现对文献引用的统一自动管理,可以自动生成文献列表,不需要手工罗列,可以自动实现引用的更新和链接,不需要手工管理。但在撰写Latex文档时,默认的引用方式和生成的文献列表可能不满足我们的需求,本文介绍如何使用功能强大的natbib包进行文献引用管理,并针对常见几种常见需求,给出一些基于natbib的解决方法。解决方法在latex文档中如何使用natbib包直接结合代码示例为大家说明,代码及注释如下:\documentc

2021-02-04 19:24:55 10018 3

原创 借助代码托管平台(github或者gittee)搭建内部Wiki

问题描述大家在实验室或者开发团队中,需要共享一下最佳实践,包括但不限于代码、工具、资料、操作手册等,便于快速查找资料,也便于新成员快速了解项目组正在做的工作,所以搭建一个团队内部Wiki便成为一个有效的解决之道,有很多开源和商业Wiki产品可以使用,但是,这些Wiki产品要么是付费的,要么需要托管在服务器上,服务器要么租赁,要么自有,服务器的费用是一笔开支,即使不在乎服务器的开支,也要考虑Wiki的访问速度和稳定性,那么有没有一种方法,既不用担心服务器开支又可以确保wiki稳定性及可访问性的解决方案呢?

2021-02-01 20:59:08 3838

原创 一个Wiki Markdown模板文件(显示版本)

源代码参见:写在前面这是一个Wiki页面模板,包含各种wiki编辑示例操作,编辑页面时可参考该页面的markdown源代码,要查看该页面的源代码,点击页面上的 编辑 按钮。目录标题示例文字示例图片示例3.1 快速插入    3.1.1 三级目录示例(别点我)        3.1.1 四级目录示例(别点我)3.2 居中并带标题表格示例公式示例插入链接文件分享

2021-02-01 20:49:11 1001

原创 网页视频下载方法

问题有时候我们在做PPT或者撰写一些报告、案例的时候,需要一些视频作为素材,网上搜到后,想下载却比较麻烦,有的在专业视频网站上,有的在新闻网站上,有的在机构网站上,有的在社交媒体上,有没有简便、快速、可行的视频下载方法,并且不需要付费或者安装额外软件呢。下面说明几种方法,基本可以涵盖绝大多数情况。解决办法非专业视频网站上的视频以下两种办法需要使用谷歌浏览器Chrome电脑版打开视频所在的网页,右键——>审查元素——>点击左上角的小箭头——>在页面中选中视频界面——>在审查

2021-01-07 20:24:19 5484

原创 K-means文本聚类使用自定义距离函数

问题在使用K-means对文本聚类时,常用余弦距离,但是scikit-learn中的k-mean只支持欧氏距离,简单的解决办法就是将文本向量标准化(模长变为1),此时欧式距离与余弦距离是单调的,选择欧氏距离与选择余弦距离是等价的,需要注意的是余弦距离=1-余弦相似度,该解决方法详见博文《余弦距离与欧式距离》。但是,如果我们想在K-menas中使用自己定义的距离函数,该怎么办呢,计算文本相似度时,经常会遇到根据任务需求自定义相似度计算指标的情况哦,改scikit-learn的源代码或者自己实现一份支持自定义

2020-12-23 08:59:47 7974 7

原创 Python打印彩色文本

Motivation希望高亮突出显示文本数据中的某些片段,这些片段可能是某些任务的gold standard,在做错误分析时,想高亮显示,以便对比预测结果与truth之间的差异。SolutionPython 3.Xfrom termcolor import coloredprint(colored('hello', 'red'), colored('world', 'green'))Result:ReferenceHow to print colored text in Python?

2020-12-02 16:45:31 260

原创 下载知网论文PDF版本

问题需要下载知网上的硕博论文时,会发现只有CAJ格式,没有PDF格式可供下载,很是不方便,怎么下载PDF格式的论文呢,记得以前是有的呀?解决办法本文提供两种解决办法:使用海外版知网,将论文详情页面的kns.cnki.net替换为eng.oversea.cnki.net,或者直接使用知网的海外网址:http://eng.oversea.cnki.net/kns55/chrome浏览器使用油猴脚本:安装Tampermonkey,然后到https://greasyfork.org/zh-CN搜索脚本

2020-09-07 12:48:01 1675

原创 Python正则表达式字符替换时引用pattern

问题python中字符创替换操作通常使用replace函数,如果要批量将一些字符都进行统一替换呢,比如将标点符号都替换为PUNCT,此时大家会想到用正则表达式中的re.sub函数,更进一步,如果在替换时要求保留标点符号并在其两侧加上空格呢?泛化地说就是要求不删除被替换对象,而是在被替换对象本身进行一些修改,此时就需要在替换值参数中引用被替换对象,这就要用到pattern引用了,这么说太抽象,下面举例说明。解决方法使用正则表达式的向后引用功能即可,示例如下:import rere.sub(r'[_&

2020-09-05 16:05:34 1007 1

转载 ubuntu16.04 增加交换空间或swap分区空间

问题训练深度学习模型一般在Ubuntu系统上进行,如果使用PC机训练模型时,内存被吃完了,电脑很卡,什么事情也干不了,如果一时半会训练不完,那就干盯着电脑发呆或者无所事事吗?当然不行,那有没有什么办法能让电脑不卡,一边训练模型一遍做其他事情呢?有,前提是你的CPU没被吃完,一般训练时可以限制使用CPU的个数,如thread、works、cores等参数,切记留一个出来。解决办法通过增加机器的交换空间,也就是分区时设置的swap分区,可以缓解这一现象,并不是从根本上解决哦,临时应付一下可以的,根本之道是

2020-09-04 20:29:47 1622

原创 利用Pycharm在项目中搜索字符串

问题使用Pycharm作为Python IDE,有时需要查找某个字符串或者文本在项目中的哪个位置(哪个文件中)出现,比较常见的是在Debug时,根据logging信息,查找打印该log的代码在哪里,此时怎么查找呢?难道要凭猜测或者逐个文件找吗?No!解决办法利用Pycharm的Find in path功能进行快速定位搜索,快捷键是Ctr+Shift+f,或者Edit-->Find-->Find in path好了,别发愁怎么找某个文本片段在项目中的出现位置了,继续学习代码吧。参考资料:

2020-09-04 19:45:12 7410

原创 Python argparse从本地文件加载命令行参数

问题很多深度学习项目采用shell文件保存命令行参数,并通过shell脚本来运行项目中的模型训练、测试等工作,但是在学习他人项目的过程中,直接在shell命令行运行脚本,不利于debug和学习代码的细节,此时,我们更希望在IDE(如Pycharm)中能以Debug的方式运行,直接在IDE中运行shell脚本的py文件会出错,提示命令行参数的用法,所以就要想办法快速绕过这一步,能够直接实现在IDE中运行,很容易想到直接在py文件中指定参数,但是使用argparse的add_argument方法手工将所有参数

2020-09-04 19:07:41 3005 2

原创 Python解LeetCode 771: Jewels and Stones

给定A字符串,寻找B字符串中有多少字符出现在A中,重复出现的计算次数,拟采用位操作,为两个字符串计算位表示,然后让这两个位表示求与操作,将结果的二进制表示中各个位相加,或者说计算其中有几个数字1。关于字符串的位操作参见Python解LeetCode 318: Maximum Product of Word Lengths,解答代码如下:import stringclass Solution(object): def numJewelsInStones(self, J, S): """ :t

2020-09-02 21:23:17 166

原创 Python解LeetCode 318: Maximum Product of Word Lengths

提供两种解法,第一种利用Python内置的set类型判断两个单词是否有重叠字符,复杂度高,无法通过全部测试;第二种方法使用位运算判断两个单词是否存在重叠字符,复杂度有所降低,可通过全部测试,但是运行时间排名也比较靠后。下述两种答案仅供参考交流,仍有很大的改进空间。第一种解法:from itertools import permutationsclass Solution(object): def maxProduct(self, words): """ :type words: List[st

2020-09-01 22:21:35 176

原创 将本地文件夹上传为远程仓库(Repository)

如果想将本地的文件夹上传为github或者gitee或者gitlab等代码保管平台的一个仓库(repository),可遵循如下步骤:将本地文件夹转换为git管理的仓库 git init将文件夹中全部内容添加到仓库中 git add .将添加的内容进行提交 git commit -m 'initialize a repository'在代码保管平台新建一个仓库,确保与本地文件夹同名(一个字符也不能差),并且不要初始化任何东西(如README,.gitignore等)将本地仓库与远程仓库进行关联

2020-09-01 12:15:11 1846

pywin32-219.win-amd64-py2.7.exe

将python程序打包成.exe文件的插件

2015-02-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除