自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Fire Dog

“不要过早退出循环”

  • 博客(16)
  • 收藏
  • 关注

原创 使用Excel进行帕累托分析

帕累托分布,俗称二八分布,是在自然社会和商业中常见的规律。比如这些例子,80%的收入来自20%的产品,80%的财富由20%的人掌握,80%的开支成本来自20%的事项。在数据分析中使用帕累托分析,可以帮助我们找到相对重要的产品、重要的客户以及大开支,为经营战略提供支持。下图的例子为各产品数量与销售金额分析,在Excel操作上,先将各产品销售金额进行降序排序,求各产品销售金额占全部销售总金额的比例...

2019-05-19 19:28:47 1971

原创 python-KNN算法运用练习之分类

数据来源:ecoli数据集,https://sci2s.ugr.es/keel/dataset.php?cod=61问题描述:通过对细胞7个属性的测量得分,预测蛋白质的定位位点,一共有8个定位点。模型选择与评估:用cross_val_score实现,返回打分结果,分数越高,性能越好。参数cv,表示几折交叉;参数scroing,常用“neg_mean_absolute_error"(MAE相...

2019-04-28 18:55:43 802

原创 使用excel制作动态图表或仪表盘

个人制作各类报表的过程:①确定制作报表目的、报告对象,②确定所使用的指标和要呈现的信息,注意指标统计定义和口径(重要)③拆解数据指标,进行数据收集下面是本人做的一个动态图表小案例。在展示上,可选择产品A或产品B(选项按钮) ,查看最近7天、最近15天或者最近30天的数据走势(下拉框)。建议:office2013以上版本的使用者可以直接用切片器,或者直接上power BI。若不确...

2019-04-24 14:13:57 3198

原创 运用pandas中的apply函数

在写某个程序的过程中,需要对特定三列数据的值做同样的运算,运用到了apply方法,做矢量U运算import pandas as pdimport datetimedate_list=['date_1','date_2’,'date_3','date_4'] #四个关于日期的变量data[date_list].fillna(0) #将缺失值填充为0def turn_to_wo...

2019-02-26 12:03:12 842

原创 python序列数据类型——列表

列表是python内置序列之一,不可哈希,可修改。下面是本人复习《Python基础教程》(Magnus Lie Hetland)第二章的总结笔记。    方法 运用例子 注意事项 增 在末尾增加一个值 append x.append(element)   在末尾增加多个值 extend x.extend(y) y为有多个...

2019-02-13 15:05:59 1405

原创 python内置映射——字典

字典是python中唯一内置映射类型。下面是本人复习《Python基础教程》(Magnus Lie Hetland)第四章的总结笔记。个人对返回值及深浅复制不牢固,因此将其标红。 操作 方法 运用例子 注意事项 创建 直接创建  -  d={k1:v1;k2:v2}   从其他映射或键值对创建 dict(seq) ...

2019-02-13 14:58:38 609

原创 爬取百度糯米信息——深圳所有甜品店

最近在看崔庆才的书《Pyhton3网络爬虫开发实战》,学习爬虫。学习了前三章后,将书中的代码执行了一遍,做了第一个爬虫。主要使用requests库,爬取百度糯米网深圳所有甜品店的店铺名、评分和人均消费。import reimport requestsimport jsonimport timefrom requests.exceptions import RequestExcepti...

2019-02-12 17:05:27 404

原创 python自动生成费用结算表并自动邮件发送后续——模拟十万条数据

接上一篇关于自动生成费用表并添加附件发送的博客,个人认为还需优化的有一处:当数据量大时,所耗时间相应增加,尤其是读取记录的时间。当模拟10万条业务记录的excel,运行所耗时间就比较长了,从查询到生成表格损耗时间为30s左右。自己仍在学习如何优化中,比如使用数据库是否查询效能更快等。 以下为生成模拟十万条记录的python代码,主要用numpy和pandas库。模拟数据保存到本地的新e...

2019-01-21 19:59:30 717

原创 贷后还款日算法-excel公式

2018年9月时,自己负责的工作中包含通知业务员提醒到期客户还款。由于需要登录风控系统查看业务管理信息,打算自己做一个贷后追踪excel表格。跟技术部同事要了风控系统中还款日的算法,自己写出了计算每期还款日的excel公式。下图是贷款业务风控系统中的还款日算法(由技术部提供)。还款日为 :合同日期-1天+(自然月*当期其次)。当合同日为每月第一天、最后第一天或还款月为2月时,需要稍微...

2019-01-21 19:55:53 2678

原创 《python数据分析》第五章pandas-思维导图笔记

2018-12-25 20:45:02 623

原创 《python数据分析》第四章numpy-思维导图笔记

 最近买了原文版的《利用python进行数据分析》第二版,参考着kindle上的中文版。此书可以是我的学习宝典了。

2018-12-13 22:14:59 761

原创 关于“三门问题”的思考

在《隐形的逻辑》这本书中看到了“三门问题”,自己的思考和角度如下:先举一个翻版的例子。假设一共有若干张卡牌,其中只有一张鬼牌,每张牌大小和外观相同,拿得鬼牌的人获胜。参赛者被分牌数量为X,主持人被分牌数为Y。双方不能看牌。当X=1,Y=1,显然,参赛者获胜概率为1/2,主持人获胜概率为1/2。当X=1,Y=99,参赛者获胜概率为1/100,主持人获胜概率为99/100。此处,99张...

2018-10-20 19:44:33 990

原创 判断字符串中是否存在空格符

之前做了一个小练习:定义一个函数,接收字符串,判断其中的元素是否有空格字符,返回判断结果。结合《head first python》第157页bool函数值的内容,整理如下:数据结构为空和数值为空格符,是不一样的。①判断一个字符串、列表、字典是否为空,可用bool(self)函数,空则返回0,非空返回1。bool函数可判断内置数据结构是否为空。② 判断一个字符串是否为空格,可用st...

2018-10-14 21:12:53 22318

原创 python中的Series索引

pandas中的Series可使用字符串型作为索引import pandas as pdimport numpy as npfrom pandas import Seriesprice=np.linspace(10,50,5,dtype=np.int32) #用numpy中的linspace在区间【10,50】平均生成五个数,类型为numpy中的int32型...

2018-09-19 23:52:37 7932

原创 python切片器方法

slice indices must be integers or None or have an __index__ method内置列表切片器方法适用于列表、元祖和字符串。字典和集合本身无序,无索引,不能使用切片器[start:end:step]#从位置start开始,步长step,一直取到end-1。即取头不取尾[::-1] step为负数表逆序切mlist=['ora...

2018-09-19 15:50:15 2566

原创 《think python》第九章笔记

一、读取txt文件内置函数open,接受文件名,返回一个文件对象fin=open('words.txt')for line in fin: word=line.strip() if len(word)>20: print(word) else: pass二、去除首尾空格字符(1)strip函数str.strip(...

2018-09-04 14:12:05 415

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除