- 博客(10)
- 收藏
- 关注
原创 Python pandas将excel的数据按月份分组求平均
先观察一下要处理的数据是怎样的,原始文件是有五组分隔开的数据,第一行是表示组名,第二行是列标签,第三行开始才是真正的数据。很容易就会想到使用pandas来处理这个文件了。首先读取文件并创建一个dataframe对象import pandas as pddf = pd.read_excel('use_nofillvalue(1).xlsx')查看df的内容,可以看到列标签很多都是Unamed,是因为本来文件表格就是空的,因此也读取不到内容。而后面使用mean()求平均时,要使用标签Year和Mon
2021-10-24 17:14:20 13903
原创 写爬虫时的一些小技巧记录
在使用re.compile搭配findall函数来做正则表达式解析html内容的的时候,一般做法是查看网页的源代码,然后观察那一段话进行分析,但是这样子有个不好的地方就是,遇到换行的内容时,会容易出现匹配错误(复制操作也可能出现)...
2021-09-13 18:58:13 113
原创 python 使用Bokeh画柱形图时不显示图像
虽然有很多种方法都可以画图,但是用bokeh画出来的图确实在颜色协调上会更好看。这几天在做爬虫,需要爬取亚马逊的畅销书籍的信息,在最后打算将这些信息进行画柱形图分析的时候,却出现了问题。我是先将爬取到的数据转成Dataframe格式,类似下面这样由于在提取dataframe格式数据的某一列的时候,得到的结果类型是serice类型,因此要先将这种类型转换成列表list形式:x1 = data['Author'].tolist()top1 = data['Price'].tolist()其中画图最
2021-09-12 00:25:06 1091
原创 python-docx 设置中文字体失败的解决办法
在尝试pdf转word的过程中,需要将从pdf文件中读取到的文本内容写入word文档中,但是自动配置的字体格式往往不太美观,因此需要我们手动设置自己喜欢的字体格式。而文本内容又分为中文跟英文,可以分别设置不同的字体。这是源码:def remove_control_characters(content): mpa = dict.fromkeys(range(32)) return content.translate(mpa)def save_text_to_word(content
2021-05-11 21:42:49 3016 1
原创 python pdf转word的两种方法
第一种方法:多线程处理优点:可以同时处理多个文件,速度非常快。缺点:只能识别文字信息,对于图片等非文本内容无法识别;另外,pdf文档中避免出现 ‘\n’ 等转义字符,否则可能会出现一些识别歧义。使用情景:文件量大,且只对文本信息有要求的情况import osfrom configparser import ConfigParserfrom io import StringIOfrom io import openfrom concurrent.futures import ProcessPo
2021-05-11 21:36:50 7925 1
原创 查看网页源码的header
1、首先打开任意一个网页,按下F12快捷键;2、点击"Network"栏;3、按下快捷键Ctrl+R,就可以看到user-agent。
2021-05-11 17:53:34 1220 1
原创 python ppt 转 pdf
跟另外一篇word转pdf的文章类似,这里就直接贴代码了。import win32com.clientfrom os import walkdef ppt2pdf(input_file): PowerPoint = win32com.client.DispatchEx('PowerPoint.Application') ppt = PowerPoint.Presentations.Open(input_file) ppt.SaveAs(input_file.replace(
2021-05-11 17:52:20 332 2
原创 python 批量word文档转pdf
这里使用win32com库来实现word文档转pdf只进行一次word文档转pdf若路径下只有一个word文件需要转换,可以用以下方法:from win32com.client import Dispatchfrom os import walkimport win32comdef doc2pdf(input_file): word = win32com.client.Dispatch('Word.Application') doc = word.Documents.Open
2021-03-31 15:07:49 430 2
原创 python 报错AttributeError: <unknown>.Open解决方案
在进行word文档转pdf,想要连续批量转换多个文件时,报错如下:AttributeError: <unknown>.Open代码如下:from win32com.client import Dispatchfrom os import walkimport win32comdef doc2pdf(input_file): word = win32com.client.Dispatch('Word.Application') doc = word.Document
2021-03-31 15:05:53 3608 1
原创 C++ 类模板实现链表类(实参为 类 类型)的插入、删除、查找、打印操作
由于在实际使用中,存在很多“相似”的类,如果逐个定义类的成员将会十分麻烦,于是就提出了类模板这个概念。意思就是提供一个模板,在实例化过程中才生成一个真正的类。常见的实例化数据类型会有int, char, string等等,但是这里提供一个实参类型为类的链表类,也就是说使用一个类去实例化一个链表的模板类。图例:链表类的数据域也为类代码实例首先 定义节点类型 Node.h#include<iostream>#include<string>using namespace.
2021-03-19 17:14:16 3031 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人