Dcy_ASK-CSDN博客

原创获取某文件夹及子文件夹下特定文件的名字

本次直接上代码，作为日后查询使用所以，文章并未梳理思路和脉络import osdata=[]def findFile(folder,name): for file in os.listdir(folder): if os.path.isdir(folder+file): findFile(folder+file+'/',name) else: if name in file: .

2021-03-28 12:43:45 321

获取文件夹及子文件夹下所有文件名字梳理思路需要用到的算法代码实现结果展示梳理思路文件路径下的构成可能只有文件，也可能是文件夹，或者二者以不同比例的混合，不管有多少个文件夹，文件夹的构成最终都是文件，所以，只要判断获取到的文件是否是文件夹，如果是则以同样的方式继续判断，直到没有文件夹，也就是获取到都是文件需要用到的算法递归思想，即函数自己调用自己os模块中的方法：os.listdir()for file in files:os.path.isdir()with ope

2021-03-28 12:10:17 1273

原创 #代码生活#批量修改文件名-系列化代码

批量修改文件名-系列化代码引入扩展库定义添加前缀的函数定义添加后缀的函数定义替换文件名的函数引入扩展库import os定义添加前缀的函数def AddPreFileName(folder,name): for file in os.listdir(folder): os.rename(folder+file,folder+name+file)定义添加后缀的函数def AddSufFileName(folder,name): for file in os.listdir(folder

2021-03-27 11:34:59 267

原创 #代码生活# 批量给文件添加前缀

批量给文件添加前缀思路分析步骤拆解代码实现结果展示前言：练习代码的过程中，掌握代码思维，用代码去理解工作理解世界绝大部分非计算机专业的人，很少去刻意掌握一项代码能力，也很难体会到真正入门后带来的快感我们生活中突然的改变其实很大程度上跟计算机技术的迅速发展强相关，因此，即便你是非计算机专业，掌握一项代码也是很有必要的，愿我们终身学习，拥抱变化思路分析给文件添加前缀，很容易想到与系统相关的扩展库，os"批量"二字，很容易想到构造循环体步骤拆解获取到所有待批量修改文件：os.listd

2021-03-27 10:36:14 242

原创 #代码人生# 把PDF中的表格提取到Excel中

Python办公自动化：提取PDF表格数据需求解读算法设计扩展库使用代码实现代码调优# 程序目标：把pdf中的表格提取到Excel中#引入扩展库import xlwings as xwimport pdfplumber as ppbwith ppb.open('2020销年1月电暖器销年报告总结.pdf') as pdf: # 创建一个工作簿对象 wb=xw.Book() #sheets表格的序号 i=0 #对PDF的每一页进行循环遍历

2021-03-24 06:45:45 204

原创 #代码生活# 读取PDF文字并存储到word文件中

Python办公自动化：PDF文字提取到word文件中需求解读需要用到的扩展库代码实现# 把pdf中的文字提取到word文件中import pdfplumberimport docx# 利用扩展库打开pdf 文件，并存储pdf内存对象with pdfplumber.open ('D://XX业务/XXX/XXX市场/2020销年1月XXX销年报告总结.pdf') as pdf: #新建一个文档对象 dc=docx.Document() #循环遍历每一页的pdf

2021-03-24 05:51:50 311

原创 #神器#合并多个工作簿中多个工作表

Python办公自动化：合并多个工作簿中多个工作表1.算法设计：2.Python扩展库:3.代码实现：4.心得体会核心思想：外循环使用工作表控制，内循环使用工作簿控制核心工具：pandas合并多张Excel表格中多个sheet1.算法设计：外循环：根据工作表的数量设定外循环- 内循环：循环获取文件夹中的Excel文件- - 读取每个文件的工作簿的某一特定工作表数据到pandas库的DataFrame中- - - 读取每个工作簿的所有工作表数据- - - 合并(拼接)到临时变量中-

2021-03-22 05:13:36 280

原创 #炫酷# 批量合并多个Excel表格

Python自动化(合并多个工作簿中第一个工作表1.1 需求解读1.2 思路梳理(算法设计)1.2.1 实现步骤1.2.2 扩展库使用需要用到的扩展库1.3 代码实现1.4 结果检查1.5 心得体会(合并多个工作簿中第一个工作表))前言：日常办公中遇到大量要处理的Excel表格合并的问题，一个文件夹下由很多张Excel表格，而每张表格的表头是一样的，格式也是相同的，如果单靠人工去合并，3到4张合并还相对OK，但是超过10张，估计手一抖，合并错了，还得重来，真是太反人性了，有这个时间，干点别的不好么

2021-03-21 09:50:33 294 1

原创数据分析、拆分Excel案例及代码实现

数据分析、拆分Excel案例及代码实现DataFrame数据结构读取CSVDataFrame去除重复DataFrame筛选数据Matplotlib针对Pandas进行数据可视化并生成图片DataFrame数据和图片保存到Excel中DataFrame数据结构读取CSVDataFrame去除重复DataFrame筛选数据Matplotlib针对Pandas进行数据可视化并生成图片DataFrame数据和图片保存到Excel中导入相关库 pandas、xlwingsimport pandas

2021-03-14 21:53:49 342

原创爬虫系列文章(一)明确业务需求

明确业务需求1.项目背景2.流程步骤3.工具及技术1.项目背景接到业务部门提出需要在国家电网下载文件，详细沟通后将需求逐步明确和澄清，详见：数据来源http://ecp.sgcc.com.cn/ecp1.0/project_list.jsp?site=global&column_code=014001001&project_type=1抓取国家电⽹电⼦商务平台所有招标公告，下载“项⽬公告⽂件”将下载的项⽬公告⽂件解压后，寻找有’货物清单’字样的Excel表格，将所有的货物

2021-03-07 18:44:17 562 1

原创数据分析-方法&流程&工具

数据分析-方法&流程&工具1.数据分析方法1.1 对比分析法1.2 细分分析法1.3 A/B测试1.4 漏斗分析法2.数据分析过程2.1 业务视角2.3 工程视角3.数据分析工具3.1 分析工具-Excel3.2 分析工具-SQL3.3 Tableau & Power BI3.4 SPSS3.5 Python数据分析是指有针对性的收集、加工、整理数据，并采用统计和挖掘技术分析和解释数据的科学与艺术从行业的角度看，数据分析是基于某种行业目的，有目的进行收集、整理、加工和分析数据

2021-03-01 19:23:58 546 1

原创洞见趋势系列三-模型训练(Baseline模型)

Baseline模型1.数据归一化二级目录三级目录开始Baseline模型训练之前，还需要做数据归一化。数据标准化就是:数据按最小值中心化后,再按极差(最大值-最小值)缩放，数据会被收敛到[0,1]之间，目的是让特征大小变换到统一风格。使用sklearn.preprocessing的MinMaxScaler来实现这个功能1.数据归一化form sklearn.preprocessing import MinMaxScalerlabels_train=df_train['TARGET']fe

2021-02-20 11:55:48 2017

原创洞见趋势系列(二)特征工程

在业界广泛流传这么一句话，数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而异。实际中，构造一个有效的特征带来的回报要比构造复杂模型和调参来的大，由此可见特征工程的重要性。

2021-02-19 22:45:11 322 2

原创 (洞见趋势)数据探索--找出规律揭示奥秘

文章目录1.数据集1.1 数据集介绍1.2 导入必要的工具包1.3 数据读取2.数据探索2.1 查看标签的分布情况2.2 查看缺失值2.3 查看特征数据类型2.4 异常点检测2.5 相关性检验2.6 年龄对还款的影响(探索)2.7 外部数据源文章正文1.1 数据集介绍本次使用的数据集来源于Kaggle平台，由home credict提供，该公司的服务致力于向无银行账户的人群提供信贷。我们只用到以下数据集：application_train/application_t.

2021-02-17 14:20:44 1110 1

原创模型训练之决策树、随机森林、提升树

本节内容包括：树模型的sklearn使用：Decision TreeRandom ForestGBDT分类评价指标说明：AccuracyTPR和FPRROC曲线PR曲线APF1 score交叉验证：k折交叉验证留一交叉验证超参搜索：网格搜索随机搜索hyperopt自动化搜索...

2021-02-15 12:45:06 1076

原创 (深度好文)欠拟合与过拟合解释实例--多项式拟合

欠拟合与过拟合解释实例–多项式拟合1.导入必要的模块import numpy as npimport pandas as pdimport matplotlib.pyplot as plt2.生成数据2.1构建数据生成函数def data_generator(samples,random_seed=0): np.random.seed(random_seed)# 设置随机种子 X=np.random.uniform(-5,5,size=samples)# 从-5到5中随机抽取100个实数

2021-02-14 20:32:19 904 6

原创 Logistic回归的sklearn实现

@[TOC]Logistic回归的sklearn实现导入必要的模块生成数据模型搭建模型训练模型预测查看logistic回归模型画出预测曲线计算评价指标accuracy1.导入必要的模块import numpy as npimport pandas as pdimport matplotlib.pyplot as plt2.生成数据2.1定义数据生成函数def create_data(data_num=100): np.random.seed(21) x1=

2021-02-14 12:17:59 3479 1

原创线性回归的sklearn实现

线性回归sklearn实现1.导入必要的模块2.构建数据集3.数据划分4.模型搭建5.模型训练6.模型预测7.查看线性回归模型8.计算评价指标MSE线性回归sklearn的实现# 安装sklearn!pip3 install sklearn# 1.导入必要的模块import numpy as npimport pandas as pdimport matplotlib.pyplot as plt2.构建数据集x=np.array([50,30,15,40,55,20,45,

2021-02-13 14:14:42 230

原创项目实战-创建学员信息管理系统

项目目标：完成一个在线学员信息管理系统数据临时存放在变量列表中实现学生信息的添加，删除和查询操作通过案例实战，锻炼和巩固Python基础知识如下图所示：学员信息管理系统界面1.初始界面2.添加学员信息3.添加后需要查看学员信息4.删除指定的学员信息5.退出学员信息管理系统拿到一个项目后，先建立分析思路：先分析项目有哪些功能需要实现项目的核心功能有哪些界面展示是什么界面如何和用户交互'''1.学员信息数据源2.实现的功能： 1查看学员信息 2添

2020-12-28 22:28:12 513

原创 Python-函数

函数的本质就是对功能的封装和对代码的抽象函数的作用：1.避免开发重复性相同的代码2.便于程序的理解和维护3.对底层代码的抽象基本的函数格式def 函数名():函数功能代码…函数功能代码…return(没有return,默认返回None)调用函数：函数名()特征：函数定义之后不会自动执行，必须在调用后才会执行函数名的命名规则：驼峰+动词开头带有参数的函数格式def 函数名(参数，参数…)形参：形式上的参数，声明函数时()中的参数就是形参实参：实际上..

2020-12-24 12:31:50 78 1

原创 Python-遍历

遍历就是将每一个元素单独取出。可以遍历比如：字符串、列表、元组、字典、以及嵌套数据结构，代码实现如下：# 遍历listnames=['xh','xj','xm']for name in names: print(name,end=' ')# 在for...in 循环用于遍历容器类的数据(字符串，列表，元组，字典，集合)# 遍历字符串for i in 'abcd': print(i,end=' ')# 遍历列表for n in [10,20,30]: print(n)

2020-12-23 06:37:24 4395

原创 Python循环控制-for

for循环的一般格式：for<variable>in<sequence>: <statements>else: <statements>代码操作如下：# for...in循环#1到10求和sum=0for x in [1,2,3,4,5,6,7,8,9,10]: sum=sum+xprint(sum)# 遍历listnames=['xh','xj','xm']for name in names: print(na.

2020-12-23 05:08:38 367

原创 Python循环控制-While

while循环执行的流程图：实际操作代码：# while 循环和breakn=1while n<=100: if n>10: # 当n=11时，条件满足，执行break语句，跳出while循环体 break print(n,end=',') n=n+1print('END')# while循环，只有条件满足，就不断循环，条件不满足时退出循环# 在循环中，break语句可以提前退出循环# 死循环就是循环不会终止的循环类型i=1sum

2020-12-22 16:44:20 178 2

原创 Python 条件语句

代码执行操作：# 单项分支age=22if age>=18: # 对输入的信息进行条件判断，返回true执行该条件下的代码块，返回false不执行代码块 print('your age is',age) print('adult')print('ok')# 双项分支age=15 #初始化一个年龄if age>=18: print('your age is',age) print('adult')else: print('your ...

2020-12-22 12:17:25 75

原创 Python数据类型-Set(集合)

Set是一个无序不重复的序列可以使用大括号{}，或set()函数来创建注意：创建一个空集合必须使用set()而不是{},因为{}是用来创建空字典的创建格式：{value1，value2，value3，value4…}或者set(value)集合之间可以进行-（差集）&（交集）|（并集）^（反交集）Set（集合）运行代码如下：s=set([1,2,3]) print(s)s=set([1,1,2,2,2,3,3]) #自动去重print(s)s1=set([1,2,3]).

2020-12-22 08:06:48 1269

原创 Python数据类型-dictionary(字典)

Dictionary(字典)Dictionary 是无序集合对象，元素是通过key-value健值对来存取的Dictionary是一种映射类型，用{}来标识，它是一个无序的key:value对集合key必须使用不可变类型，在同一个字典中，key必须是唯一的dictionary也有一些内置的函数，clear(),keys(),values()等dictionary方便我们使用查找和搜索功能创建空的dictionary使用{}具体看代码操作：d={'yh':90,'xh':79,'xm'

2020-12-22 07:11:34 249

原创 Python数据类型-Tuple(元组)

Tuple(元组)Tuple(元组)与列表相似，不同之处在于元组的元素不能修改Tuple(元组)中的元素用小括号括起来，并用逗号隔开Tuple(元组)中的元素类型也可以不同同样支持切片操作索引值从0开始，以-1结束如果Tuple(元素)只有一个，写成(1,)具体的代码运行过程：# 元组t=('a','b','c')t[1]=1 # 元组中的元素不能被修改TypeError Traceback (most recent.

2020-12-22 06:37:10 219

原创 Python数据类型-list(列表)

List(列表)是一种有序集合，可以随时添加和删除其中的元素；列表的元素可以不同；列表同样支持切片，截取语法如下：.变量[起始下标：结束下标：步进].列表格式[‘yh’,‘micheal’,‘jack’] []之间，元素用逗号隔开.索引值从0开始，-1代表末尾.使用(+)可以连接两个列表，(*)是重复操作classmates=['yh','xiaobai','xiaoming']type(classmates)listlen(classmates)3classmates[1]x.

2020-12-21 20:06:23 285

原创 Python数据类型-Number(数字)

Python3中只有一种整型类型int内置的type()函数可以查询变量所指的对象类型也可以使用内置的instance()函数来判断Python中的True值是1，False值是0浮点只有单精度float,没有double双精度In [1]: a=100In [2]: type(a)Out[2]: intIn [3]: b=aIn [4]: bOut[4]: 100In [5]: a='abc'In [6]: b=aIn [7]: type(b)Out[7]: .

2020-12-10 05:58:57 236

原创 Python 基础语法(print,input)

print('hello python')# 用空格来分割输出数字print(1,end=' ')print(2,end=' ')print(3,end=' ')print(4,end=' ')print(5)'''''''print(500)print(500+800) # 先进行运算，输出运算的结果print('500+800=',500+800)# input('请输入一个数字') #一直等待用户输入# print('我输入的是',input('请输入一个数字'))

2020-12-09 21:55:38 235

原创 MySQL组成结构和基础操作

本篇文章从初识数据库对常用的MySQL做个简单的介绍，MySQL的组成结构MySQL基础操作和指令上述基础的操作指令，我们在pycharm中演示下：show databases;create database recommend2 charset utf8;drop database recommend2;create database test2 charset utf8;show variables like 'character_set_database';drop data

2020-12-03 07:55:20 609

原创 Need to set ‘serverTimezone‘ property

pycharm 中创建好数据库，操作数据库指令时比如：show databases;报错：Server returns invalid timezone.Need to set’server Timezone’ property截图如下：根据错误提示，点击set time zone设置serverTimezone为： Asia/Shanghai重新运行后，显示OK：...

2020-12-03 06:50:32 1900

原创组合框-offset-名称-创建动态图表

先声明本次涉及到的内容：根据组合框设置条件格式. row()函数动态的图表使用动态的一行，这行数据可以使用名称来定义offset函数可以得到一行的四个数据，选中显示额区域offse()函数，需要得到数值，需要ctrl+shift+enter得到数组定义一个名称(名称里面取的就是这些数据)最终的显示效果：组合框中选择不同的外卖，表格中的颜色和图表也会同步显示。需要注意的：组合框的条件设置动态图表中的数据来源通过offset截取到一个数组对截取到的数值定义名称动态图表的数据源选择刚

2020-12-02 07:20:12 516 1

原创数据可视化技能之组合框完成动态图表

本文章涉及内容：1.反选2.使用控件，完成动态图表开发者模式显示控件使用组合框+offset+名称构造动态图表使用列表框+辅助表格构造动态图表使用复选框构建动态图表如图所示：最终实现的效果是选择不同的渠道:美团、饿了么、糯米、smartchef,右侧的表格数据和柱形图同步发生变化，展现的是动态图表，具体的实现步骤如下：添加控件，路径为：开发工具>>插入>>组合框(窗体控件)设置控件格式，右击组合框>>设置控件格式>>分别设置数据源区域

2020-12-01 22:27:27 1757

原创项目实战-招标网站关键字段爬取错误分析

项目场景：爬取招标网站必联网，出现KeyERROR问题描述：提示：这里描述项目中遇到的问题：例如：数据传输过程中数据不时出现丢失的情况，偶尔会丢失一部分数据APP 中接收数据代码：@Override public void run() { bytes = mmInStream.read(buffer); mHandler.obtainMessage(READ_DATA, bytes, -1, buffer).sendToTarget

2020-11-22 16:25:38 409

原创 #scrapy实战# 爬取招标网站信息(一)

先贴上项目的背景信息：如上表格即为需要爬取到的信息，根据提取要求，先分析需要提取的内容都分布在目标网站哪里，先打开目标网站，这里以必联网为例，假设搜索的关键字为：路由器此网站打开：https://ss.ebnew.com/tradingSearch/index.htm可以看到的内容包括：信息类型、标题、产品范畴、招标方式、招标截止时间，招标截止时间打开其中一个项目详情，进入到二级页面：可以看到项目编号(这里为空)，所属行业页面继续往下滑动，可以看到项目编号，确认清楚自己需要的内容在页面何处，

2020-11-22 11:10:59 2078

原创 Scrapy异步框架核心原理

文章目录前言一、Scrapy框架是什么？二、Scrapy异步框架原理1.同步与异步的概念2.Scrapy异步框架原理总结前言Scrapy框架实现异步爬虫，提高效率一、Scrapy框架是什么？Scrapy 的一种异步爬虫工具，该工具是为了解决爬取多个url地址实现异步爬取而创建的。二、Scrapy异步框架原理1.同步与异步的概念2.Scrapy异步框架原理ScrapyEngine:Scrapy引擎Spiders:创建的爬虫文件Scheduler:调度器，接收到spider的reques

2020-11-20 17:26:49 1084

原创抓取CSDN博客热门文章

项目需求：下载CSDN博客上有关python的热门文章老规矩在开始上手代码前，先对需求进行分析和梳理将思路先整理出来如何定义该博客为热门博客需要下载多少篇博客下载的博客应该如何命名既然是去CSDN博客上下载，那么首先打开CSDN博客首页：网址：blog.csdn.net[CSDN博客首页]这里有3个关键点：1.如何定义该博客为热门博客–>我们发现有些博客有浏览量，有些没有，先定义有浏览量的为热门博客2.下载的数量–>可以定下载多少页，比如从第一页到第十页3.博客的名称

2020-11-20 12:15:12 283

原创提取csdn学员首页的课程栏目

需求背景：提取CSDN学院首页左侧的课程栏目先声明一点:提取的CSDN学员首页是一个html对象，并且是下载到本地的静态html页面如下为提取的代码实现整个过程，import lxml.etree as le # 在python中如果需要运用xpath,那么就要调用python中的lxml中的etree模块### 要思考一件事，你当前处理的问题在哪个领域范围内的，先定位到所需知识领域，再定位需要解决的问题，在此基本上考虑需要调用哪到的模块## 读取本地保存的一个静态html,读取的路径，以

2020-11-19 15:16:34 263

原创提取微课商城的课程种类和课程名称

项目需求：需要提取到微课商城里面所有的课程种类和课程名称，如下图所示：拿到一个需求后，先别着急上手直接写代码，先思考背后的逻辑：该微课商城的网页结构是什么，组成部分有哪些该微课商城的网页结构层次关系实现该需求使用到的函数会涉及到哪些，比如re模块的， findall提取实现该需求的先后步骤是什么接下来再代码中去实现上述需求：## 本次目标是分析商城的分类结构，提取到课程名称和种类import rewith open('static/html/index.html','r',encod

2020-11-18 22:49:08 374

批量合并文件下的Excel文件.ipynb

空空如也