自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 python-docx读取文档时编号无法读到

最近需要进行docx文档与pdf文件对比的任务,在使用docx包进行读取的时候遇到的问题,自动编号格式的编号无法读出来。网上各种查也没有解决办法。自能自己研究xml。发现带自动编号的都是如下形式: <w:pPr> <w:numPr> <w:ilvl w:val="0"/> <w:numId w:val="4"/> </w:numPr> <w:rPr> <w:rFont

2020-09-22 13:22:40 3720 5

原创 python-docx 识别分页符并在新文件中添加(真实!)

最近在使用docx包进行文档处理时遇到的坑,如何识别分页符,在网上各种搜索都没有满意的结果,自行对源码进行研究终于可以识别到,但是识别到之后因为要写入新文件,要在对应位置添加分页符,一开始又没有添加成功,发现需要到对应的段落的runs里去添加。代码片段如下:doc = docx.Document(doc_dir)for d in range(len(doc.paragraphs)): inline = doc.paragraphs[d].runs #保留原格式 for

2020-09-15 10:37:12 3155 2

原创 文本关键信息抽取整体综述

前言因为最近项目需要,这里基于资料,个人理解与实际应用进行一个整体性的文本关键信息抽取方法总结。大的方向上,我将关键信息抽取分为以下几个点:关键词提取、主题提取、实体抽取、关系抽取。下面进行详细的实现分析。一、关键词提取简介关键词是文本分析中比较传统也比较重要的一项,在繁冗文本中提取到关键词,有助于之后一系列的操作包括主题、推荐、搜索等等。一般进行关键词提取可以分为有监督或者无监督。有监督是对文本中词语进行标注,进而转化成一个二分类问题,对每一个词判别该词语是否是文本的关键词,该方法付..

2020-09-10 16:10:45 3563

原创 Tf-idf实现关键词提取

TF-IDF关键词提取

2020-09-08 09:33:05 265

原创 TextRank原理实现自动摘要

自动摘要

2020-09-08 09:31:42 254

原创 Hanlp基础及进阶任务以及与pyltp简单对比

Hanlp的使用介绍,以及与pyltp简单对比

2020-09-08 09:24:52 2515

原创 pyltp使用基础

pyltp简单的使用基础

2020-09-08 08:54:45 368

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除