3 山阴少年

尚未进行身份认证

我要认证

个人博客网站:https://percent4.github.io/ 个人微信公众号:Python爬虫与算法(微信号为:easy_web_scrape)

等级
TA的排名 4k+

Python之利用marshmallow实现序列化与反序列化

  在介绍marshmallow模块前,先简单介绍下什么是序列化与反序列化。  序列化是指将数据对象转化为可储存或可传输的数据类型,也就是将Python的object对象转化为str, dict, list等;而反序列化是指将可存储或可传输的数据类型转化为数据对象,也就是将Python中的str, dict, list等转化为object对象。  marshmallow模块是Python中方便实现序列化与反序列化的第三方模块。本文将会介绍如何使用marshmallow实现序列化与反序列化,marshma

2020-09-07 21:54:16

利用Sublime Text连接Linux服务器并实现文件夹上传、下载

  在我们平时工作中,需要连接Linux服务器,并对服务器中的文件进行修改。但由于在Linux修改文件内容有时并不方便,因此我们会先下载到本地,再上传至Linux。频繁这样操作无疑是不方便的。  有很多方式可以帮助我们避免这么麻烦地查看和修改Linux服务器中的文件。本文将会介绍如何使用Sublime Text来连接服务器,并实现文件的下载和上传。  Sublime Text是一个轻量、简洁、高效、跨平台的编辑器,同时它有可以安装很多扩展包,实现一些更高级的功能。本文就将展示它的其中一个高级功能。安装

2020-09-04 21:21:37

Python之利用Conda管理虚拟环境

  平时我们在使用Python的时候,有可能会使用多个Python环境,有的是Python版本不同,有的则是Python的第三方模块使用情况不同,因此,我们需要对Python进行虚拟环境管理。  使用Python虚拟环境的好处在于,一方面它能为项目的运行提供完整的环境支持,比如Python版本,第三方模块等,另一方面它能为项目的运行指定所需的环境,避免了Python不同版本和不同第三方模块之间的干扰。Python的虚拟环境管理有多种实现方式,比如Conda和Python自带的管理工具virtualenv。

2020-08-27 10:28:16

NLP(三十二)利用doccano进行文档标注

  doccano是一个开源的文本标注工具,适合于机器学习和深度学习的使用者,提供了文档分类、序列标注和sequence to sequence任务的标注,操作简单,上手也快,界面友好,能够让你在几个小时内建立一个可实际训练的数据集。  doccano的Github访问网址为:https://github.com/doccano/doccano 。安装方式  doccano的安装也比较简单,我们可以通过Docker很方便地完成安装。  首先,先从Github上下载该项目,命令如下:$ git cl

2020-07-24 22:02:02

利用Celery实现定时任务

  利用Celery实现定时任务

2020-07-20 23:16:34

使用Hexo+Github搭建个人博客网站

  曾几何时,笔者也幻想过写个项目来搭建属于自己的个人博客。  但是,写程序以及维护的成本,不禁让我犹豫再三,最后还是选择了CSDN等博客网站。将近三年的博客生涯,我尝试了不同的博客网站,各有各的利和弊,不变的是广告,这让人很不爽。  直到今天,我看到了别人写的利用Hexo+Github来搭建个人博客网站,如获至宝。折腾了一阵以后,轻松完成了个人博客的搭建,这种清爽的界面风格,让人耳目一新,同时它又是免费的,功能繁多的,便于维护的。  下面,我将会介绍如何来使用Hexo+Github搭建个人博客网站。

2020-06-09 22:00:10

利用Tornado搭建文档预览系统

  在平时的工作或学习中,我们经常会接触不同格式的文档类型,比如txt,log,Offices文档,编程代码脚本,图片,视频等。本文将会介绍笔者的一个朴素想法,即把不同格式的文档都放在同一个平台中进行预览,这样既方便查看常见文档,又能提升工作和学习效率。  本项目的工程结构如下:...

2020-06-05 22:42:53

Tornado+Pyecharts+LayUI搭建个人足迹地图服务

  在之前的文章 Python之绘制个人足迹地图 中,笔者采用Pyecharts和手动修改HTML代码的方式实现了个人足迹地图。本文将会介绍利用Tornado+Pyecharts+LayUI来搭建个人足迹地图web服务,这样我们只需要通过页面点选的方式就能绘制个人足迹地图,简单高效。  前端框架我们采用layui,后端web框架采用Python的Tornado,地图生成利用Pyecharts。同时,我们需要安装的第三方模块如下:tornado==5.1.1pypinyin==0.35.2pyecha

2020-06-03 22:13:00

Python之绘制个人足迹地图

  前两年,足迹地图小程序风靡朋友圈,一时间大家都流行晒自己的旅行地图。但是,笔者最近体验了好几款足迹地图的小程序,发现这些小程序虽然号称是足迹地图,但最多只是展示到省级别,无法精确到市级别,因此,笔者周末花了点时间,用Python来绘制自己的个人足迹地图,可以精确到市级别。  下面的部分,笔者将介绍如何简单地来绘制个人足迹地图。  首先我们需要安装以下Python的第三方模块:echarts-china-cities-pypkg==0.0.9 echarts-china-province

2020-05-31 11:25:10

目标检测初体验(三)破解滑动验证码

  在我们日常登录或注册某个网站的时候,经常会出现滑动验证码,如下图:  本文将会讲述如何利用darknet来破解滑动验证码,我们只要找到图片中的缺口就可以了。数据的采集和标注  笔者利用爬虫在某网站爬取了约300张带缺口的滑动验证码的图片,并对这些验证码图片进行标注,即标注缺口的位置。  我们使用的标注工具为labelImg,这是图像标注方面一个非常好用的GUI工具。网上已经有很多关于安装labelImg的教程,本文不再具体介绍。我们打开labelImg,如下图:  在labelImg中我们

2020-05-24 20:16:08

如何搭建Git服务器

  本文将介绍如何在Linux系统上搭建Git服务器以及查看Git提交记录。搭建Git服务器  首先,我们需要一台Linux服务器,作为Git服务部署的机器,一般选用Ubuntu或者Debian,请确保拥有sudo权限并且联网。笔者以Mac电脑上的虚拟机为例,系统为Ubuntu 16.04。  我们先安装Git,命令如下:$ sudo apt-get install git  然后,创建一个git用户,用来运行git服务:$ sudo adduser git  接着,创建证书登录。收集所有

2020-05-18 23:06:28

NLP(三十一)短语的语序问题

  所谓的短语的语序问题,即给定一个打乱顺序的短语,我们要按照语义信息将其重新组合,新的语序通顺的短语。  举个简单例子,比如我们在识别验证码中的文字的时候,识别出来的文字分别为“哲”,“思”,“学”,“想”,那么重合调整语序后形成的短语应该为“哲学思想”。  这样的问题也会经常出现,除了验证码识别,还有语音识别等。解决这类的语序问题,我们通常会用到统计方面的语言模型(Language Model,LM),常见的有N-gram问题等。  下面将讲述n-gram问题的解决办法。原理篇  N-gram

2020-05-18 21:27:00

NLP(三十)利用ALBERT和机器学习来做文本分类

  本文的灵感来自于A Visual Guide to Using BERT for the First Time,其作者为Jay Alammar,访问网址为:http://jalammar.github.io/a-visual-guide-to-using-bert-for-the-first-time 。  在文本分类中,有两个大的思路,一个是机器学习,主要是利用n-gram等特征将文本转化为特征向量,这种方法便于操作和理解,但是忽略了文本本身的语义信息;另一个是深度学习,主要是利用word2vec作

2020-05-17 21:56:15

目标检测初体验(二)自制人脸检测功能

  之前笔者在学习OpenCV的时候,曾经接触过人脸检测,那时候我们只需要一个函数就能轻松实现人脸检测。关于如何在OpenCV中实现人脸检测功能,可以参考文章:OpenCV神技——人脸检测,猫脸检测 。那时候的感觉是,CV是如此的神奇,而人脸检测正是笔者迈向CV的关键一步。  以前,笔者从没想过能自己实现人脸检测功能,直到不久前接触了目标检测,接触了darknet,脑海中就有了“自制人脸检测”这个想法。如果能够使用darknet来自己实现人脸检测功能,那该是多么酷的一件事情啊!  经过近两天的探索,笔者

2020-05-12 21:37:20

目标检测初体验(一)

  很久没有写CV方面的文章了,最近笔者接触了一段时间的目标检测的工具:darknet,因此希望能写篇文章记录下,同时希望自己能在目标检测有更深一步的研究。  目标检测是计算机视觉和数字图像处理的一个热门方向,广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域,通过计算机视觉减少对人力资本的消耗,具有重要的现实意义。目标检测即找出图像中所有感兴趣的物体,包含物体定位和物体分类两个子任务,同时确定物体的类别和位置。图像分类的任务我们已经熟悉了,而目标检测与图片分类的不同之处在于,目标检测需要检

2020-05-11 22:15:18

NLP(二十九)一步一步,理解Self-Attention

  本文大部分内容翻译自Illustrated Self-Attention, Step-by-step guide to self-attention with illustrations and code,仅用于学习,如有翻译不当之处,敬请谅解!什么是Self-Attention(自注意力机制)?  如果你在想Self-Attention(自注意力机制)是否和Attention(注意力机制...

2020-05-08 00:03:47

Python爬虫之记录一次下载验证码的尝试

  好久没有写过爬虫的文章了,今天在尝试着做验证码相关的研究时,遇到了验证码的收集问题。  一般,验证码的加载都有着比较复杂的算法和加密在里边,但是笔者今天碰到的验证码却比较幸运,有迹可循。在此,给出本爬虫的相关记录。  注意,文章和代码中均不会给出相关的真实网站的信息,避免不道德的行为。  首先,让我们来看一看该验证码的页面,如下:如果我们尝试着查看该验证码加载时的源代码,会发现源码如...

2020-04-30 21:16:25

Python之学会测试,让开发更加高效(一)

  前几天,听了公司某位大佬关于编程心得的体会,其中讲到了“测试驱动开发”,感觉自己的测试技能薄弱,因此,写下这篇文章,希望对测试能有个入门。这段时间,笔者也体会到了测试的价值,一句话,学会测试,能够让你的开发更加高效。  本文将介绍以下两个方面的内容:Test with CoverageMockTest with Coverage  测试覆盖率通常被用来衡量测试的充分性和完整性。从...

2020-04-27 10:31:46

NLP(二十八)多标签文本分类

多标签文本分类之从电影简介预测影片类型

2020-04-10 10:49:43

一些有用的小工具

  本文将介绍一些有用的小工具,它们能够帮助我们提高工作效率。本文将介绍笔者在近一周发现的三个小工具,写文章以做记录,希望能对大家有所帮助。  本文将介绍的三个小工具如下:在Sublime Text中支持Python运行;在Mac电脑的iTerm2中支持查看图片;Python的typing模块介绍。  详细内容介绍如下。在Sublime Text中支持Python运行  在平时工...

2020-03-30 20:27:57

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。