自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(61)
  • 资源 (1)
  • 收藏
  • 关注

原创 终于有人说明白系统可用性、稳定性、可靠性和连续性的区别了

百言不如一图,直接上图

2021-04-02 15:14:11 8156

原创 手把手教你建立数据指标体系

数据分析工作中,咱们对于数据指标一定不陌生,而几乎所有数据分析工作都会提“建立数据指标体系”。但是同学们或许有一些现实的困惑:你说报表我就见过,我天天都在更新。可这玩意怎么就体系了呢?做了体系又怎么样呢?为啥我不觉得我做的是体系?今天系统地来分析一下。要讲,就从数据指标讲起。 01为啥需要数据指标 ...

2020-09-30 16:17:40 6335

原创 (极详细版)python计算分位点方法

废话不多说,上函数的常用参数及解释:np.percentile(a, q,interpolation='linear')a:需要进行计算的列名q:取分位点的百分比,0-100之间的数字。如当序列有n个数字,25则表示数字由低到高排序的n*0.25位置的数值interpolation:当n*q的结果不是整数时,分位数的取值逻辑 如当得到的分位位置介于值i和j之间时 linear:分位数=i+(...

2020-09-02 09:08:01 9941

原创 (极详细版)python绘制箱形图方法

废话不多说,上函数的常用参数及解释:df.boxplot(column=None,fontsize=None, grid=True, figsize=None, by=None)df:绘图使用的数据集column:需要绘制箱形图的列名,默认为展示全部数字型列的箱型图fontsize:横坐标字体大小rot:横坐标字体的旋转角度grid:背景网格,默认为展示figsize :输出箱型图的大小,格式为(长,宽)by:分组绘图的列名,设置后按照by的条件分别绘制箱形图注意:boxplot函数只

2020-09-01 17:08:05 4632

原创 python报ValueError: cannot specify both a fill method and value

问题描述:在使用python进行缺失值填充时报该错误源代码:df1['age'].fillna(value=0,method='backfill')故障原因:不能同时指定填充方法和值解决方法:将fillna函数中的value参数配置为None,源代码修改为df1['age'].fillna(method='backfill')后执行成功...

2020-08-31 11:09:57 2228

原创 一分钟搞定jupyter notebook文件转换成pdf(史上最简单的方法)

1)设置电脑的默认浏览器为谷歌浏览器(chorme)设置方法链接,https://support.microsoft.com/zh-cn/help/4028606/windows-10-change-your-default-browser2)Chrome浏览器打开notebook文件,ctrl+p假装打印,点击保存即可。暴力高效!...

2020-06-30 14:30:18 10443 11

原创 python报OSError: Initializing from file failed故障

现象描述:打开文件时,报Initializing from file failed从文件初始化失败。原语句为:df=pd.read_csv(r'作业单按原始期望日期查询529.csv')原因分析:原因为文件路径中包含了中文,由于read_csv函数的默认引擎engine为C,不支持对中文的识别,导致报该错误。在使用notebook打开文件时常见这个问题。解决方法:更改engine='python'即可执行成功。df=pd.read_csv(r'作业单按原始期望日期查询529.

2020-06-22 16:29:55 7733 2

原创 一文看懂用python绘制折线图(吐血整理版)极详细!

折线图的绘制主要分为四步:1)导入相关的库2)做图片输出的通用设置3)设置数据及折现的属性4)设置图的标题案例:import matplotlibimport numpy as npfrom matplotlib import pyplot as plt%matplotlib inline#通用设置matplotlib.rc('axes', facecolor = 'white')matplotlib.rc('figure', figsize = (6, 4))ma

2020-06-20 09:19:41 35955 3

原创 Jupyter Notebooks:一份全面的初学者实用指南

引言应该使用哪个 IDE/环境/工具?这是人们在做数据科学项目时最常问的问题之一。可以想到,我们不乏可用的选择——从 R Studio 或 PyCharm 等语言特定的 IDE 到 Sublime Text 或 Atom 等编辑器——选择太多可能会让初学者难以下手。如果说有什么每个数据科学家都应该使用或必须了解的工具,那非 Jupyter Notebooks 莫属了(之前也被称为 iPython 笔记本)。Jupyter Notebooks 很强大,功能多,可共享,并且提供了在同一环境中执行数据可视

2020-06-19 11:54:07 277

原创 python制作数据透视表pivot_table方法详解

数据透视表(Pivot Table)是一种交互式的表,可以进行某些计算,如求和与计数等。所进行的计算与数据跟数据透视表中的排列有关。之所以称为数据透视表,是因为可以动态地改变它们的版面布置,以便按照不同方式分析数据,也可以重新安排行号、列标和页字段。每一次改变版面布置时,数据透视表会立即按照新的布置重新计算数据。另外,如果原始数据发生更改,则可以更新数据透视表。函数详解df.pivot_table(values=None, index=[列名],columns=[列名], aggfunc='me

2020-06-18 11:35:41 6939

原创 python一行代码完成正态分布检验,附原理详解

在进行数据分析处理的过程中,经常需要判断数据是否符合正太分布,正常的正太分布检验费时费力,本文介绍如何通过python快速实现对正太分布的检验:前方高能!!!看如何一行代码实现数据的正太分布检验from scipy import stats# scipy包是一个高级的科学计算库,它和Numpy联系很密切,Scipy一般都是操控Numpy数组来进行科学计算data = [-15, 15, 9]#需要检验的数据stats.kstest(data, 'norm') #正太分布检验输出:

2020-06-17 17:42:00 1414

原创 一文看懂pandas.read_csv使用方法

pandas.read_csv参数整理读取CSV(逗号分割)文件到DataFrame也支持文件的部分导入和选择迭代更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html参数:filepath_or_buffer: str,pathlib。str, pathlib.Path, py._path.local.LocalPath or any object with a read() method (such as a fi..

2020-06-05 17:58:02 718

原创 沃顿商学院最受欢迎的思维课

概览:我们究竟应该如何与他人共处,为人处世的本质是什么,怎么才能建立起高质量的人际关系网络。评价:强烈推荐 人们普遍认为成功人士普遍的共同特点是动机、能力、机遇。但是聪明的有能力的人有很多,每年都有大批的高等学校的优秀人才进入社会,很多人会竞争一个机遇,但最终能够取得一定成就的人却凤毛麟角。那么以上三个要素是否不够全面,有没有另一种更加重要的因素被我们忽略了呢。本书中给出的答案...

2020-04-20 10:04:06 713

原创 出身普通年轻人的最优奋斗姿态

三个年轻人的故事导演郑琼从2009年起,用了6年时间,跟拍了三个不同家庭背景的孩子从学校步入社会,寻找各自人生出口的故事。1、甘肃会宁,大山深处的女孩马百娟2009年,来自甘肃大山深处的小女孩马百娟,在家呆到10岁,直到野鹊沟小学的校长反复出面游说,她才背上了书包,去到只有5个学生的小学念书。马百娟在日记里写道:“长大后去北京上大学,然后去打工,每个月挣1000块,给家里买面,...

2020-04-16 20:03:17 655

原创 成就:优秀的管理者成就自己,卓越的管理者成就他人(读后感)

阅读时间:2020年4月概览:管理的本质是对人的管理,管理好人,让被信任的人去解决问题。对人的管理的核心是利他,也就是成就别人。评分:***** 坎贝尔作为一个橄榄球教练,之所以能够称之为传奇,是因为一个橄榄球教练知道的公司规模达到了1万亿美金的恐怖规模。更令人佩服的是有那么多的行业大佬把他作为自己最为亲密的人。尽管书中将如何维系一个有战斗力的团队作为了重点的内容,也就是为...

2020-04-16 20:00:13 1817

原创 一分钟学会python的__setitem__方法

在python中__setitem__(self,value,key)方法时python魔法方法的一种,这个方法会让类按照一定的方法存储和key映射的value。该值可以使用另一种魔法方法__getitem__(self,key)来获取。使用场景:当期望定义的类具备按照键存储值时,即类能够执行data['key']=value目的:如果给类定义了__setitem__方法,则可以方便的给类...

2020-04-16 19:56:48 10092

原创 一分钟学会python的__getitem__方法

在python中__getitem__方法被称为魔法方法,这个方法返回所给键对应的值。当对象是序列时,键是整数。当对象是映射时(字典),键是任意值。使用场景:在定义类时,如果希望能按照键取类的值,则需要定义__getitem__方法目的:如果给类定义了__getitem__方法,则当按照键取值时,可以直接返回__getitem__方法执行的结果。class Fib(): ...

2020-04-16 19:34:17 32538 1

原创 数据分析,入门看这篇

数据分析到底有多热门?在国内,数据分析师被《HR 管理世界》评为七大赚钱行业之一,也被视为21世纪的黄金职业。在国外,世界500强企业投行、四大、咨询等,“强制”员工学习数据分析语言。大数据时代,从海量数据中挖掘对企业有价值的知识,已成为国内外的共识。尤其是身处一线大厂,私下问一圈,发现10个同事中就有9个正打算或者已经开始了自学数据分析。大家都趁...

2020-02-20 14:36:20 471

原创 技术公司创始人如何看待2020年的AI行业?

科幻元年2020年马上就要来了。对于技术行业来说,这一年会有哪些值得期待的变化?近期采访了14位科技前沿的技术公司创始人,并汇总了他们眼中的2020年:关于人工智能、数据分析、数据科学、机器学习行业中的一些最具创新性的公司的预测。Alluxio创始人兼CTO李浩源:一个机器学习框架适合任何场景带有模型的机器学习已经到了一个转折点,各种规模和各个阶段的公司都在...

2020-02-20 14:35:08 787

原创 数据分析只需要看懂一张图

在做数据分析的过程中,经常会想数据分析到底是什么?为什么要做数据数据分析?数据分析到底该怎么做?等这些问题。对于这些问题,笔者一开始也只是有个很笼统的认识。最近这两天,笔者读了一下早就被很多人推荐的《谁说菜鸟不会数据分析》这本书。发现对这些问题讲的还是比较透彻,随后笔者对这本书的核心内容做了一个笔记。说明:笔记主要以思维导图的方式呈现。目录一、数据分析概述数据分析指用适当的...

2020-02-20 14:34:04 954

原创 详细全面 :一份完整的数据分析师成长书单

如何快速成为数据分析师?数据分析是一门专业且跨越多个领域的学科,想要成为任何一名数据分析师就需要 掌握相关的专业技能。然而许多跨入这个行业或者说已经在这个行业工作的人是半路出家,或者是纯粹的小白,没有基础或基础不牢,想要学习却没有头绪。但大家都有一个共同点,即迫切的想要快速迈入数据分析师这个门槛,在短时间内高效的掌握数据分析的知识和并找到一份相关的工作。这个时候学习资源就尤为重要了,如果有好书作...

2020-02-20 14:32:48 1125

原创 那些转行数据分析成功的人,都做对了哪些事情?

【转载】转行数据分析是个老生常谈的话题,想要转行数据分析的人很多,其中有些人的工作和数据分析沾边,有的人工作和数据分析八杆子打不着,那是什么原因促使这群人聚在一起转行数据分析呢?大致的回答都是因为看好大数据的发展前景,并且薪酬待遇非常不错。由于互联网的崛起,每天都会有大量的数据产生,“拍脑袋”做决策已经无法满足企业的需求,依靠数据分析进行科学决策才是实现一个好的决策的根本,...

2020-02-20 14:31:25 298

原创 Python一行代码统计字符串里某个字符出现的次数

1)方法输入:字符串.count('要统计的字符')输出:统计数量2)案例:统计'use_data'中字母‘a'的个数输入:'use_data'.count('a')输出:2

2020-02-08 14:48:54 5574

原创 python一行代码生成服从正态分布的随机数

1)生成随机数import numpy as np #导入库random3 = numpy.random.randn(10000) #随机生成10000个服从正态分布的随机数2)结果验证import seaborn as sn...

2020-02-05 15:19:51 20166 4

原创 python报Segmentation fault (core dumped)

问题描述:在linux运行python脚本时,脚本停止,没有任何故障记录,linux界面报Segmentation fault (core dumped)问题分析:网上有很多很高深的故障分析,我的遇到的比较简单,最后分析发现是有部分import的包在当前版本中没有,或者版本太低处理方法:将import的每一个包单独执行试一下,看哪个包导入有问题。如果有问题,install该包或者升级该包即...

2019-10-31 15:30:11 14795 2

原创 python报UnicodeDecodeError故障

问题分析:要读取数据编码方式与python的编码方式不同处理:用txt打开对应的数据点击另存为,选择编码方式:3)在读入数据就ok了...

2019-10-23 20:00:01 2483 1

原创 anaconda升级sklearn版本

1:打开anaconda下的anaconda的Promote2:输入 pip list 可以查看当前已经安装的包和版本3:a:输入”conda update scikit-learn”b:pip install scikit-learn (--proxy http://)(括号内为代理网址,公司限制外网的需要录入)...

2019-10-23 14:57:47 2576

原创 结构思考力-有逻辑的表达,有结构的思考

阅读时间:2019年5月21日星期二概览:有结果的倾听,有逻辑的表达,有结构的思考。帮助我们解决如何接收别人说话的重要信息,如何表达自己的观点和思考的问题的解决方案这三个问题,逻辑清晰,借鉴性强。评分:***** 结构化思维的特点是将生活中常见的问题场景化,结构化。通过一种固定的思维模型,可以让我们快速、有效的给出相同问题不同场景的解决方案。其核心是从各种场景中抽象出共同点...

2019-10-17 15:54:49 2099

原创 品格的力量-读后感

阅读时间:2019年7月概览:究竟什么才是决定一个人取得成就的最大原因。我们向来使用成绩作为评价人的标准,而现实却并非如此。评分:***** 预测能力是所有人都希望拥有的能力,除了对事的揣测以外,预测一个孩子未来能否有出息也是经常家长经常会做的事情。我们经常会听到长辈在评论一个孩子时会说:这个小孩以后一定有出息。而有出息和没出息的标准大多来自于孩子的成绩。但是事实却是:一个...

2019-10-17 15:48:51 1008

原创 智能商业-读后感

阅读时间:2019年5月概览:人工智能技术在未来商业中的应用,介绍未来商业的发展方向,具体的做法等,读后有较大收货,作者是实战派,总结贴合实际,有深度.评分:***** 社会的变革都是由技术引起的,从蒸汽到电力到互联网再到现在的智能技术。一种具备颠覆力的技术出现必然会对社会产生极为深远的影响。处在这个时代中,对能够及时求变,抓住机会的企业或者个人而言是巨大的机会,而对落后的...

2019-05-10 16:53:34 3896

原创 遍历DataFrame行(附各种方法性能对比)

在利用python进行数据分析和处理时,经常会需要遍历DataFrame行,不同的遍历方法会对数据处理的效率有很大的影响。现在有以下的数据import pandas as pdfrom pandas import DataFrame as DFfrom datetime import datetimedata=DF({'data1':np.random.randn(30000),'...

2019-04-02 21:17:22 11204

转载 逻辑回归(logistics regression)原理解析

逻辑回归(logistics regression)前几章分别讲了多元线性回归的推理思路和求解过程(解析解求解和梯度下降求解),文章并不以代码和公式推导过程为重点,目的是跟大家一起理解算法.前两章的内容是学习算法的基础,所以本章会在前两章的基础上讨论逻辑回归(logistics regression).逻辑回归也属于有监督机器学习.之前我们了解到了多元线性回归...

2019-03-19 11:08:59 2075

转载 wxPython安装终极方法

wxPython:Python扩展模块,由wxwidgets(C++)的跨平台GUI工具包第一步:下载下载地址:https://pypi.python.org/pypi/wxPython/4.0.0b2找到合适本机的whl安装包(e.g. xPython-4.0.0b2-cp27-cp27m-win_amd64.whl)第二步:安装下载cmd完进入命令提示符进入python...

2019-01-04 16:41:59 4322

原创 python中pip安装终极方法(极详细版)

 1、先到 pypi 官网下载 setuptools,解压到python的安装路径下 。网址https://pypi.org/project/setuptools/#files             setuptools解压地址如下    2、用cmder或cmd切到解压后的目录,执行命令(cmd进入的相关路径非常重要,路径不正确会导致找不到文件夹。cmd中,cd+文...

2019-01-04 16:39:46 8993 2

原创 机器与人-读后感

阅读时间:2018年12月作者:保罗-多尔蒂 詹姆斯-威尔逊推荐指数:5       在人工智能的应用和未来的工作场景有很独到的见解和理论。由于自己工作的内容就是关于人工智能实际应用的,看完这本书有很大的收获。特别是在人工智能产品在工作中的定位,推广以及人们关注的相关问题上。思考:         在人工智能迅速发展,各种有关人工智能的信息满天飞的今天,有三个问题一直在困扰我们...

2018-12-14 14:17:42 1119

原创 系统设计的逻辑顺序

1:明确需要解决的问题2:寻找描述问题的量化指标3:数据分析,确定问题出现的原因4:确定解决的方案,寻找评价方案的指标5:方案对评价指标的优化效果,及对问题量化指标的表现6:执行开发、上线及验证7:监控及优化方案8:推广...

2018-12-10 14:15:34 996

原创 系统思考-读后感

阅读时间:2018年12月作者:丹尼斯-舍伍德推荐指数:4        系统思维在解决复杂问题时是很好的一个工具,特别是在逻辑关系复杂,系统组织较多的情况下。对模块化思维和思维方式有关注的同学值得一看,可以帮助在解决复杂问题是快速抓住重点。评价:        文章的第一部分讲的是什么是系统思维,如何利用系统思维解决实际问题。因为第一次对系统思维有一个了解,读第一章的时候有一...

2018-12-06 17:45:30 3247

原创 企业经营数据分析-读后感

阅读时间:2018年12月15-2018年12月6推荐指数:3              非专业数据分析的同学可以一看,能够对数据分析在企业中的应用有一个大概的了解。评价:第一篇概述篇,介绍数据分析在企业经营中的一些应用及数据分析的思路和方法,这一部分应该是作者的主业,有一些独到的见解和作者自己的总结,对愿意深入研究数据分析的同学可能会有帮助。第二篇主要讲数据分析的方法论,包括分类、聚...

2018-12-06 17:33:25 4426 2

转载 系统架构设计

首先明确应用架构的定义,从百度百科上即可了解到何为应用架构:应用架构(Application Architecture)是描述了IT系统功能和技术实现的内容。应用架构分为以下两个不同的层次:企业级的应用架构:企业层面的应用架构起到了统一规划、承上启下的作用,向上承接了企业战略发展方向和业务模式,向下规划和指导企业各个IT系统的定位和功能。在企业架构中,应用架构是最重要和工作量最大的部分,...

2018-11-29 15:20:35 3991

原创 Spark简介

1.概述:设计目的是为了让数据分析更快,不仅运算速度快,编程速度也快。既集成了hadoop Mapreduce 的优点,也解决了Mapreduce的缺陷。Spark最大的特点是将数据计算,中间结果都存储在内存中,大大减少了IO开销,因而Spark适合于迭代运算比较多的数据挖掘和机器学习中。2.特点:1)运行速度快:支持循环数据流和内存计算,计算速度是hadoop mapreduce  ...

2018-11-16 09:57:44 373

埃森哲大数据分析方法

埃森哲公司的对外培训材料,详细介绍了数据分析的方法,各类算法的原理,以及进行数据分析和挖掘的具体流程。对学习数据分析和挖掘具有非常好的知道意义

2018-12-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除