自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 Faker库:一个数据造假的神库

'''你还在手敲数据吗?你需要数据造假吗?你想要高效生成数据吗?faker库可以帮到你!!!安装方法:pip install faker'''from faker import Faker #导入一个Faker类faker=Faker()#实例化为faker对象#调用它的name,address,test方法,随机生成看起来很真的英文姓名,地址,长文本!print('nam...

2019-08-07 09:57:33 705

原创 算法和数据结构

**算法和数据结构**122.已知:```AList = [1,2,3]BSet = {1,2,3}```(1) 从 AList 和 BSet 中 查找 4,最坏时间复杂度那个大?(2) 从 AList 和 BSet 中 插入 4,最坏时间复杂度那个大?123.用 Python 实现一个二分查找的函数124.python 单例模式的实现方法125.使用 Python 实现一个斐波...

2019-06-30 20:30:20 304

原创 python数据结构练习

array与DataFramey_train=np.array([-1,-1,1,1,-1,-1,-1,1,1,1,1,1,1,1,-1])print(y_train[0])y=pd.DataFrame(y_train)print(y[0])输出-10 -11 -12 13 14 -15 -16 -17 18 ...

2019-06-30 00:49:38 289

原创 python编程-迭代器(类,方法,继承),函数,数据结构,

a, b = 0, 1while b < 10: print(b) #print(b,end=',') a, b = b, a+b相当于n=bm=a+ba=nb=m输出:112358#输出:1,1,2,3,5,8关键字end可以用于将结果输出到同一行,或者在输出的末尾添加不同的字符!条件控制:1、每个条件后面要使用冒号:...

2019-06-26 23:41:11 750

原创 朴素贝叶斯分类实战:对文档进行分类

朴素贝叶斯分类最适合的场景就是文本分类、情感分析和垃圾邮件识别。其中情感分析和垃圾邮件识别都是通过文本来进行判断。所以朴素贝叶斯也常用于自然语言处理 NLP 的工具。sklearn 机器学习包sklearn 的全称叫 Scikit-learn,它给我们提供了 3 个朴素贝叶斯分类算法,分别是高斯朴素贝叶斯(GaussianNB)、多项式朴素贝叶斯MultinomialNB)和伯努利朴素贝叶斯(...

2019-05-31 19:08:58 1383

原创 朴素贝叶斯分类:原理

贝叶斯原理是英国数学家托马斯·贝叶斯提出的。贝叶斯是个很神奇的人,他的经历类似梵高。生前没有得到重视,死后,他写的一篇关于归纳推理的论文被朋友翻了出来,并发表了。这一发表不要紧,结果这篇论文的思想直接影响了接下来两个多世纪的统计学,是科学史上著名的论文之一。贝叶斯原理贝叶斯为了解决一个叫“逆向概率”问题写了一篇文章,尝试解答在没有太多可靠证据的情况下,怎样做出更符合数学逻辑的推测。什么是“逆...

2019-05-29 15:29:54 90469 32

原创 实战:关联规则挖掘

如何使用 Apriori 工具包Apriori 虽然是十大算法之一,不过在 sklearn 工具包中并没有它,也没有 FP-Growth 算法。。这里教你个方法,来选择 Python 中可以使用的工具包,搜索工具包。efficient-apriori 1.0.0找到这个工具包,然后在终端(windows 中叫anaconda prompt)输入:pip install effici...

2019-05-22 19:05:32 2001 1

原创 关联规则挖掘

关联规则挖掘可以让我们从数据集中发现项与项(item 与 item)之间的关系,它在我们的生活中有很多应用场景,“购物篮分析”就是一个常见的场景,这个场景可以从消费者交易记录中发掘商品与商品之间的关联关系,进而通过商品捆绑销售或者相关推荐的方式带来更多的销售量。所以说,关联规则挖掘是个非常有用的技术。搞懂关联规则中的几个概念我举一个超市购物的例子,下面是几名客户购买的商品列表:支持度支持...

2019-05-22 11:48:39 9476 2

原创 knn实战:如何对手写数字进行识别?

在 Python 的 sklearn 工具包中有 KNN 算法。KNN 既可以做分类器,也可以做回归。如果是做分类,你需要引用:from sklearn.neighbors import KNeighborsClassifier如果是做回归,你需要引用:from sklearn.neighbors import KNeighborsRegressor如何在...

2019-05-19 18:48:06 679 1

原创 KNN算法原理

k-NearestNeighbor,翻译为K最近邻算法,是数据挖掘算法中最简单的一种算法。我们先用一个例子体会下。我们很容易知道,这些电影的类型,那么当有一部新电影出现的时候, 可不可以对其进行自动分类了?我们可以把打斗次数看成 X 轴,接吻次数看成 Y 轴,然后在二维的坐标轴上,对这几部电影进行标记,如下图所示。对于未知的电影 A,坐标为 (x,y),我们需要看下离电影 A 最近的...

2019-05-19 11:46:59 5620

原创 SVM实战:如何进行乳腺癌检测

如何在 sklearn 中使用 SVMSVM 既可以做回归,也可以做分类器。当用 SVM 做回归的时候,我们可以使用 SVR 或 LinearSVR,即support vector regressionLinearSVR用来处理线性可分的数据,也就是说,使用的线性核函数如果是针对非线性的数据,需要用到 SVC。在 SVC 中,我们既可以使用到线性核函数(进行线性划分),也可以使用高纬...

2019-05-18 17:45:05 3964

原创 支持向量机SVM算法原理

SVM 的英文叫 Support Vector Machine,中文名为支持向量机。它是常见的一种分类方法,在机器学习中,SVM 是有监督的学习模型。什么是有监督的学习模型呢?它指的是我们需要事先对数据打上分类标签,这样机器就知道这个数据属于哪个分类。同样无监督学习,就是数据没有被打上分类标签,这可能是因为我们不具备先验的知识,或者打标签的成本很高。所以我们需要机器代我们部分完成这个工作,比...

2019-05-08 17:26:09 1500

原创 python扫盲系列(5)--列表、元组、字典、集合

特征 常见用法 不可变数据 数字=123 用于计算,没有索引;注意优先级(**》*/》not》and》or) >>> 17 % 3 # 取余 2 字符串='' Python 字符串不能被改变,可以添加索引 常用用法:+字符串,*2复制2遍 a='string' a[0]='c' #非法...

2019-05-02 16:52:04 274

转载 如何做到自动化运营--数据驱动

这篇文章,只是以数据分析的视角进行一个自动化运维的解析,不提供代码和具体技术,就当作培养数据思维了。我们都知道很多社交网络上可以刷粉,也可以刷阅读量,这已经形成了一个“产业链”。那么如何通过技术来实现了?首先我梳理了一下整个流程,可以分成 3 个步骤。1. 多个手机号---现在账号注册都是需要绑定手机号的,所以手机号是必备的。2. 多个 IP--共用同一个 IP,一定会被封...

2019-05-02 16:48:38 1446

转载 数据抽象能力---适合任何行业

用户画像的准则首先就是将自己企业的用户画像做个白描,告诉他这些用户都是谁”“从哪来”“要去哪”。设计唯一标识可以从这些项中选择:用户名、注册手机号、联系人手机号,邮箱、设备号、CookieID 等。其次,给用户打标签。“用户消费行为分析”。我们可以从这 4 个维度来进行标签划分。用户标签:它包括了性别、年龄、地域、收入、学历、职业等消费标签:消费习惯、购买意向、是否对促...

2019-05-02 16:48:11 617

原创 python之微信机器人

import itchatimport pandas as pditchat.auto_login(hotReload=True)friends=itchat.get_friends(update=True)def get_attr(friends,key): return list(map(lambda user:user.get(key),friends))ni...

2019-05-02 16:47:40 258

原创 Python科学计算:Pandas

Pandas 提供的基础数据结构 DataFrame 与 json 的契合度很高,转换起来就很方便。如果说,在 NumPy 中数据结构是围绕 ndarray 展开的,那么在 Pandas 中就有Series 和 DataFrame 这两个核心数据结构,分别代表着一维的序列和二维的表结构。数据结构:Series 和 DataFrameSeries 是个定长的字典序列。说是定长是因为在存储的时...

2019-05-02 16:47:07 377

原创 Python科学计算:用NumPy快速处理数据

写在前面:大家再读别人文档的时候,一定有过以下方面的苦恼:1、为啥我复制别人的代码总是执行报错;(内心mmp,劳资就是想学个技术,咋就这么难了???)emmn,一定是你的计算机环境与别人不一样;(强烈建议大家回答问题,写文档时加上自己的开发环境和使用软件的版本。)比如我现在就想学习数据分析,那么第三方库Numpy,Pandas就是必须的;可是,一般的书籍上来就推荐你用python2...

2019-05-02 16:45:17 1012 1

原创 决策树数学原理(ID3,c4.5,cart算法)

上面这个图就是一棵典型的决策树。我们在做决策树的时候,会经历两个阶段:构造和剪枝。构造简单来说,构造的过程就是选择什么属性作为节点的过程,那么在构造过程中,会存在三种节点:根节点:就是树的最顶端,最开始的那个节点。在上图中,“天气”就是一个根节点;选择哪个属性作为更节点!内部节点:就是树中间的那些节点,比如说“温度”、“湿度”、“刮风”;选择哪些属性作为子节点!叶节点...

2019-05-02 16:44:14 1518 1

原创 决策树算法实现

ID3,c4.5只用于做分类,得到的结果是连续值;cart既可以做分类,也可以做回归,得到的结果是连续值。CART 分类树在 Python 的 sklearn 中默认采用的是 CART 分类树。下面,我们来用 CART 分类树,给 iris 数据集构造一棵分类决策树。在 Python 的 sklearn 中,如果我们想要创建 CART 分类树,可以直接使用 DecisionTreeCla...

2019-05-02 16:43:39 282

原创 python扫盲系列--(4)

python中的常用数学函数:import mathprint (abs(-1))print (math.ceil(3.4)) #返回数字的上入整数print (math.ceil(-3.1))print (math.exp(3)) #返回e的x次幂,e=2.718281828459045print (math.log(100,10)) #以10为底数,print(math.l...

2019-05-02 16:42:41 152

原创 python3扫盲系列-(3)

Linux/Unix的系统上,一般默认的 python 版本为 2.x,我们可以将 python3.x 安装在/usr/local/python3目录中。安装完成后,我们可以将路径/usr/local/python3/bin添加到您的 Linux/Unix 操作系统的环境变量中,这样您就可以通过 shell 终端输入下面的命令来启动 Python3 。PATH=$PATH:/us...

2019-05-02 16:41:58 127

原创 python扫盲系列-(2)

Python 使用反斜杠(\)转义特殊字符,如果你不想让反斜杠发生转义,可以在字符串前面添加一个 r,表示原始字符串:--------------------文章内容来自菜鸟教程;(仅用做学习!)Python 中的变量不需要声明。每个变量在使用前都必须赋值,变量赋值以后该变量才会被创建。在 Python 中,变量就是变量,它没有类型,我们所说的"类型"是变量所指的内存中对象的类型。等号...

2019-05-02 16:41:26 166

原创 python 扫盲系列(1)

#!/usr/bin/python3 print("Hello, World!")---------------------内容来自菜鸟教程。(仅作为学习使用!)你可以将以上代码保存在 hello.py 文件中并使用 python 命令执行该脚本文件。$ python3 hello.py关于实例中第一行代码#!/usr/bin/python3的理解:分成两种情况:...

2019-05-02 16:38:07 180

转载 数据分析项目某电商app行为数据分析(1)

安装mysql数据库(官网下载即可,免费)安装过程如下:MySQL数据库安装安装数据库客户端(官网下载试用版或破解版),安装过程如下数据库客户端安装数据集下载:天池竞赛将下载到的csv文件导入到mysql数据库,参考以下:excel导入mysql库拿到数据,先看一眼数据长啥样,是否有null值,什么样的数据类型;select * from tianchi_mobile_rec...

2019-04-27 00:32:16 1849

原创 pycharm使用import numpy报错

遇到这个问题的主要原因是 PyCharm 会给每一个新建的项目都是一个全新的虚拟环境。在这个环境下,默认的包只有 pip、setuptools 和 wheel 这三个工具,你可以在 File-&gt;Settings 里面找到这个界面。这说明 numpy 并没有配置到你创建的这个 Project 下的环境中,需要手动点击右侧的 + 号,对 numpy 进行添加。添加之后就可以正...

2019-01-20 18:18:53 10560 2

原创 R绘图 vs Python绘图(散点图、折线图、直方图、条形图、箱线图、饼图、热力图、蜘蛛图)

写在前面:为啥不用excel绘制这些图,用PoweBI,帆软BI等可视化软件来绘图,不是更方便吗?的确,这些工具都很方便,但同时,它们显得很呆,不够灵活,更为致命的是,它们绘制出的图形,分辨率不够,用来出版论文,是不合格的。所以,要做学术的朋友,对R,Python可视化绘图感兴趣的朋友,不妨下点功夫将这些技术学到手。我之所以,将自己花费4个晚上,8个小时整理出来的文档分享出来,无非是为了减少大...

2019-01-19 00:42:28 7115

原创 数据分析思维框架---认知决定差异

当发现近4天的订单量明显下滑;这就引起了产品经理的注意。产品经理分析:是否有负面报道在被扩散,是否竞争对手在做活动,是否某商品缺货,价格异常,一通发问,并没有找到原因。于是将其当作需求抛给了数据分析团队;BI是这样做的:数据验证:绘制近一周的订单折线图,发现的确有明显的下滑。 数据探索:是不是新增用户过多导致的,绘制同期新增用户图,发现二者从图上看并没有相关关系 是不是日活过...

2019-01-14 18:40:09 416

原创 数据可视化(推荐Tableau、 PowerBI 、FineBI、Echarts、ggplot、PYTHON、R)---数据分析领域的万金油技能

首先,这是一篇扩大知识面的文章,适合收藏起来,在地铁,公交,厕所,睡前,吃饭时看。。。。(耶,恶趣味)其次,本文不放图,节省大家的阅读时间(但还是很有必要看的,它教会你如何做图的主人!)。我们常用的可视化视图超过 20 种,分别包括:文本表、热力图、地图、符号地图、饼图、水平条、堆叠条、并排条、树状图、圆视图、并排圆、线、双线、面积图、双组合、散点图、直方图、盒须图、甘特图、靶心图、气泡图...

2019-01-14 11:41:12 24398 2

转载 数据转换

数据变换是数据准备的重要环节,它通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式。数据平滑:去除数据中的噪声,将连续数据离散化。可以采用分箱、聚类和回归的方式进行数据平滑。数据聚集:对数据进行汇总。数据概化:将数据由较低的概念抽象成为较高的概念,比如说上海、杭州、深圳、北京可以概化为中国。数据规范化:使属性数据按比例缩放。特征工程:对现有属性进...

2019-01-13 23:15:24 420

转载 数据集成--ETL工具

背景:不同平台都可以获得用户,这些用户之间可能是交叉重复,比如你之前在A平台注册了,后来你又在B平台注册了。而不同的平台存储数据的表结构,表字段可能不同。最有代表性的,美团合并了大众点评,两家外卖平台的数据必须整合在一起,才能发挥更大的商业价值----数据集成。数据集成的两种架构:ELT 和 ETL一般来说,数据工程师的工作包括了数据的 ETL 和数据挖掘算法的实现。算法实现可以理解,就是...

2019-01-13 18:04:41 5779

原创 数据清洗---占据了数据分析师80%的时间

以点一份披萨为例,讲清数据分析全流程。01播种农场的西红柿提供了披萨的配料,在农场播种西红柿种子。这就相当于数据生成过程,比如用户操作,触发传感器,前端埋点等。02收获采摘成熟的西红柿。这就相当于数据收集,将用户的交互行为记录为实际数据。友盟等就提供了第三方的埋点支持。03运输西红柿被运往目的地。这就相当于数据被存储在数据库或数据湖中。04选择厨具和设备每种食材...

2019-01-13 17:01:00 1405

转载 如何自动化采集数据

python爬虫会经历三个过程:1,使用Requests爬取内容。2,使用xpath解析内容3,使用pandas保存数据,将数据存储在mysql数据库中常用的软件爬虫:1,火车采集器,使用绝大多数网页,网页中能看到的内容都可以采集2,八爪鱼,免费的采集模板适合电商,生活服务,社交媒体,论坛;云采集,配置好采集任务,就可以交给八爪鱼云端进行采集---八爪鱼一共5000...

2019-01-08 00:55:48 2195

原创 用PYTHON绘制中国地图VS用R绘制中国地图

由于课题的需要,需要根据各省,市的指标数据在地图上进行差异颜色标记,以实现更好的可视化表达。本人对R较为熟悉,遂打算先用R实现需求。计算机环境:MacBook Pro (Retina, 13-inch, Early 2015)软件环境:RStudio Version 1.1.414 – © 2009-2018 RStudio, Inc.install.packages("maps...

2019-01-01 22:34:09 6579 2

原创 python基本语法

写在前面:浙江大学 ACM 的 OnlineJudge,练习python语法结构:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemId=1 leetcode各种编程语言刷题:https://leetcode.com/与解答:https://www.jiuzhang.com/solution/ pycharm(写爬虫做大项目必...

2018-12-23 11:17:53 177

转载 数据分析步骤

数据挖掘的过程可以分成以下 6 个步骤。商业理解:数据挖掘不是我们的目的,我们的目的是更好地帮助业务决策;所以的从实际商业需求出发,在这个基础上,再对数据挖掘的目标进行定义。数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等。这有助于你对收集的数据有个初步的认知。数据准备:开始收集数据,并对数据进行清洗、数据集成等操作模型建立:选择和应用各种数据挖掘模型,...

2018-12-20 01:08:34 821

转载 数据分析全景图

在做数据分析项目时:1. 不重复造轮子一个模型是否有相关的类库可以使用——这几乎是每个程序员入行被告知的第一条准则。我也会对新人反复灌输这个概念。大部分情况下你都能找到类库来完成你的想法。2. 工具决定效率工程师会选择使用者最多的工具。因为:Bug 少、文档全、案例多。学习方式:1、代码一定要敲,写好注释进行分享2、思维导图一定要画,帮你总结得失3、工作中经常做分享...

2018-12-20 00:25:54 1167

转载 数据分析导论

当时恰好赶上 2009 年微博的热潮。我用 3 个月的时间就就积累了 4 万粉丝,一年的时间积累了上百万粉丝。这是怎么做到的呢?通过数据采集,我收集了每天的微博热点,然后对热点进行抓取、去广告,再让机器定时自动进行发布。同时我让账号每天都去关注明星的粉丝列表,这样可以获得 15% 的回粉概率。久而久之,就会有源源不断的粉丝。其实就是数据分析帮我做到了微博的自动化运营。学习数据分析的核心就是...

2018-12-20 00:04:38 711

转载 mysql中一条SQLupdate语句是如何执行的?redo log 与binlog

mysql&gt; create table T(id int primary key,c int);mysql&gt; update T set c=c+1 where id=2;大体流程与查询流程是一样的:先是检查连接权限,然后经过分析器,知道是更行语句,查询缓冲遇到更行语句就清空该表的查询缓存;优化器决定使用id这个索引并生成执行计划;执行器负责执行,找到这一行,并进行更行。与查...

2018-11-17 23:20:17 1098

转载 mysql中,一条select语句是如何执行的?

接下来通过语句弄明白整个Select语句的内部运行状态:连接器:Mysql&gt;mysql -uroot -p你首先连接到这个数据库上;链接器负责跟客户端建立连接,获取权限,维持和管理连接      ●如果密码不对,你会收到“access denied for user”,然后客户端程序执行结束      ●如果密码认证通过,连接器会从权限表里查出你的权限;之后你所有的操...

2018-11-17 23:09:56 1033

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除