柚子哦-CSDN博客

原创数据库管理系统

一、相关概念DB数据库：存储数据的集合，可以理解为多个数据表。DBMS数据库管理系统：可以对多个数据库进行管理，可以理解为DBMS = 多个数据库 +管理程序。DBS数据库系统：包括数据库、数据库管理系统以及数据库管理人员DBA。二、DBMS数据库管理系统因当前主流的DBMS中关系型数据库系统占大多数，DBMS数据库管理系统可分为关系型数据库和非关系型数据库系统。RDBMS...

2019-06-19 15:56:04 418

原创 SQL leetcode 刷题答案（二）

承接上篇 SQL leetcode 刷题答案https://blog.csdn.net/hahaha66888/article/details/899259815、Big Countriesselect name,population,area from World where area > 3000000 or population > 250000006、Empl...

2019-05-13 17:19:51 253

原创 SQL leetcode刷题答案（一）

leetcode上刷SQL题的代码，仅供参考，毕竟答案不唯一，我的代码执行效率也不是很高1、Combine Two Tablesselect FirstName, LastName, City, State from Person left join Address on Person.PersonId = Address.PersonId2、Customers Who Never ...

2019-05-07 17:50:09 721

原创 SQL的locate和substr函数

locate函数：locate(substr,str) 　 substr在字符串str中第一次出现的位置 locate(substr,str,pos) 从位置pos开始，substr在字符串str中第一次出现的位置。若substr不在str中，则返回0。substr函数：substr(str,pos,len) 从位置pos开始，截取len个字符 substr(s...

2019-04-30 16:52:18 1137

原创汽车金融评分卡 from PyWoE import WoE 异常问题解决

关于Hellobi Live | 1小时学会建立信用评分卡（金融数据的小分析-Python）中PyWoE包调用问题anaconda中并没有PyWoE包，需要手动将PyWoE放在anaconda文件下。由于PyWoE源代码中 cuts, bins = pd.qcut(df["X"], self.qnt_num, retbins=True, labels=False)，在pd.qcut部分会出现错...

2019-03-26 11:15:49 771 1

原创数据挖掘实战之信用卡违约率分析

本文通过针对台湾某银行 2005 年 4 月到 9 月的信用卡数据这一数据集构建一个分析信用卡违约率的分类器。数据来源https://github.com/cystanford/credit_default1、数据加载和探索：数据完整，没有缺失值#查看下一个月的违约情况default = data['default.payment.next.month'].value_...

2019-03-14 16:03:49 4892 5

原创数据分析实战之AdaBoost（对房价进行预测）

本文数据源来自于sklearn中自带的波士顿房价数据集。1、加载数据from sklearn.datasets import load_bostondata = load_boston()2、将数据分割成训练集和测试集from sklearn.model_selection import train_test_split #准备训练集和测试集train_x,test_x,...

2019-03-07 17:04:53 2878 2

原创数据分析实战之EM聚类（对王者荣耀英雄分类）

本文主要是王者荣耀的英雄数据进行分类，数据源来源https://github.com/cystanford/EM_data1、数据加载import pandas as pddata = pd.read_csv(r'C:\Users\hzjy\Desktop\heros.csv',encoding='gb18030') #设置参数encoding，是为了防止中文乱码问题数据比...

2019-03-04 11:30:50 2705

原创数据分析实战之K-Means（给球队做聚类）

数据来源是简单整理的2015-2019亚洲球队的排名，如下图所示。通过K-Means做简单聚类分析。1、数据加载import numpy as npimport pandas as pddata = pd.read_csv(r'C:\Users\hzjy\Desktop\data.csv',encoding='gbk')train_x = data[['2019年国际排名...

2019-02-28 11:24:44 2509 2

原创数据分析实战之KNN（对手写数字进行识别）

一、利用sklearn中自带的手写数据集做KNN分类。它包含了1797幅数字图像，每幅图像大小是8*8像素。1、数据加载和数据探索from sklearn.datasets import load_digitsdigits = load_digits() #加载数据data = digits.data2、训练集和测试集的划分1）因为没有专门的训练集和测试集，需...

2019-02-27 15:18:44 1188

原创数据分析实战之SVM（如何进行乳腺癌预测）

本文根据美国威斯康星州的乳腺癌诊断数据集，生成一个乳腺癌诊断的SVM分类器，并计算这个分类器的准确率。数据源：https://github.com/cystanford/breast_cancer_data/1、加载数据源import pandas as pddata = pd.read_csv(r'C:\Users\hzjy\Desktop\data.csv')2、数据探索...

2019-02-26 14:49:41 11264 5

原创数据分析实战之如何自动化采集数据

从数据采集的角度看，数据源可以分为以下三类一、开放数据源：一般是针对行业的数据库。可以两个维度来考虑：1）单位：政府、企业和高校2）行业：比如交通、金融、能源等二、爬虫抓取：一般是针对特定的网站或APP。1、使用python编写爬虫代码，会经历以下过程1）使用requests爬取内容。使用requests库抓取网页信息2）使用XML Path解析内容。3）使用pan...

2019-02-24 22:58:19 1176

原创数据分析实战之决策树（泰坦尼克号乘客生存预测）

本文利用已给特征属性和存活与否标签的训练集和只包含特征信息测试集数据，通过决策树模型来预测测试集数据乘客的生存情况数据集来源为https://github.com/cystanford/Titanic_Data，可下载数据查看其各字段信息生存预测的流程：1、数据探索：import numpy as npimport pandas as pdtrain_data = pd...

2019-02-19 15:35:38 8862 2

原创数据分析实战之数据可视化

一、可视化图有哪些按照数据之间的关系，可以把可视化图分为4类比较：比较数据间各类别的关系，或者是它们随时间的变化趋势，比如折线图；联系：查看两个或两个以上变量之间的关系，比如散点图；构成：每个部分占整体的百分比，或者是随着时间的百分比变化，比如饼图；分布：关注单个变量，或者多个变量的分布情况，比如直方图。按照变量的个数，可以分为单变量分析和多变量分析单变量分析：指的是一次...

2019-02-12 22:53:45 1180

原创数据分析实战之数据转换

一、数据变换在数据分析中的角色1、数据变换可以将不同渠道的数据统一到一个目标数据库里。在数据变换前，需要先对字段进行筛选，然后对数据进行探索和相关性分析，接着是选择算法模型，然后针对算法模型对数据的需求进行数据变换，从而完成数据挖掘前的准备工作数据变换是数据准备的重要环节，它通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式。2、常见的变换方法：数据平滑：...

2019-01-27 19:26:17 1688

原创数据分析实战之数据清洗

在数据分析过程中不论是时间还是功夫，数据清洗大概占到了80%。一、数据质量的准则：“完全合一”1）完整性：单条字段是否存在空值，统计的字段是否完善2）全面性：观察某一列的全部数值，根据常识判断该列是否有问题，比如：数据定义、单位标识、数值本身。3）合法性：数据的类型、内容、大小的合法性4）唯一性：数据是否存在重复记录，行、列的数据都需要是唯一的二、数据清洗导入数据：...

2019-01-23 10:34:07 1263

原创数据分析实战之用户画像

一、用户画像的准则首先就是给自己企业的用户画像做白描，说明这些用户“从哪来”，“都是谁”，“要去哪”1、统一化：统一用户的唯一标识用户标识是整个用户画像的核心。设计唯一标识夫2、标签化：给用户打标签，即用户画像用户消费行为分析，从4个维度进行标签划分1）用户标签：即用户的基础属性，包括性别、年龄、区域、职业、收入、学历等2）消费标签：即用户的消费习惯，包括消费习惯、购买意向、是否对...

2019-01-21 20:51:10 3056 1

原创数据分析实战之学数据分析要掌握的基本概念

一、数据仓库、数据挖掘和商业智能之间的关系数据仓库：将多个不同来源的数据进行汇总、整理、存储的地方，有一类重要的数据是元数据，就是描述其他数据的数据。数据挖掘：从数据中发现规律，核心包括分类、聚类、预测、关联分析等技术商业职能：是基于数据仓库，进行数据挖掘后，得到商业价值二、数据挖掘的流程1、相关概念1）分类（有监督的）：通过训练集得到一个分类模型，然后用这个模型对其他数据...

2019-01-19 23:02:13 168

原创数据分析实战之pandas

一、数据结构Series和Dataframe1）Series有两个基本结构 index和values。index默认是0，1，2...，可以自己指定索引，也可以用字典的方式创建Sreiesx1 = pd.Series([1,2,3,4])x2 = pd.Series([1,2,3,4],index = ['a','b','c','d'])print(x1)print(x2)0 ...

2019-01-18 17:39:24 215

原创数据分析实战之用numpy快速处理数据

numpy里两个重要对象，一是ndarray解决了多维数组的问题，二是ufunc对数据进行处理的函数一、ndarray对象1、引入numpy库，通过array函数创建数组，通过赋值对数组里的数值进行修改。shape属性表示数组的大小，dtype获得元素的属性import numpy as npa = np.array([1,2,3]) #通过array函数创建数组b = np.a...

2019-01-17 20:59:22 1057

原创数据分析实战之python基础语法

我用的是anaconda jupyter来写代码的，因为之前有过python基础，所以只是在自己当时学习的时候容易混淆和比较难理解的地方重新复习一下一、基础语法：1、输入与输出python3.x里面用input 输入 print输出2、判断语句用if...else 注意事项：if和else后面要加冒号，用代码缩进来区分代码的层次关系3、循环语句1）for......

2019-01-16 17:38:52 250

原创数据分析实战之数据挖掘知识清单

一、数据挖掘的基本流程：1 商业理解：数据挖掘是为业务服务的，从商业的角度理解项目需求的基础上再对数据挖掘的目标进行定义2 数据理解：收集数据，对数据进行探索，包括数据的描述、数据质量的验证3 数据准备：对数据进行清洗、集成等操作4 模型建立：选择和应用合适的模型，并进行优化5 模型评估：对模型进行评价，确认模型是否实现了预定的商业目标6 上线发布：呈现的形式可以是一份报告...

2019-01-16 14:39:04 277

原创数据分析实战之数据分析全景图学习笔记

一、数据分析主要包括三个部分：数据采集：数据源的获取来源和获取方式（应该是包括数据的提取、清洗和整理部分）数据挖掘：挖掘数据的商业价值（十大算法的原理和基本流程的理解）数据可视化：对数据结果的直观呈现二、修炼指南学习数据分析就是从思维到工具再到实战的过程，只有把知识内化为自己的，才是真正习得了知识。提升自己学习吸收能力的方法：1）不要重复造轮子：学会利用已有的...

2019-01-16 11:21:53 482

原创 pandas rank函数

rank函数：通过为各组分配一个平均排名的方式来破坏平级关系对Series来说：1、返回的是排名，把原数据升序（默认）后每个值所在的排名位置返回到原来所在的位置的索引所在的行。有相同的数时，取其排名平均（默认）作为值。下面是我理解的过程：2、rank参数为 method='first' 时，对于相同的数，先出现的数值排名靠前，不再取其平均位置，按顺序排名3、参数为...

2018-12-17 16:47:49 1408

原创 numpy 转置

numpy的转置有3种情况：1、特殊的 .T 转置，可以直接对数组进行行列对调转置 2、transpose转置，是通过一个由轴编号组成的元组对轴进行转置（这个真的很难理解，查了好多资料现在终于算是有点开窍了，按照自己理解的分析一下）这是一个3*2*2的3维数组，可以理解为3行2列2个平面，接下来看每个平面的构成：对于reshape(3,2,2)，可以理解为(3,2,2)...

2018-12-10 17:42:35 24779

原创 pandas Series

Series:1、是一种类似一维数组的对象，它有一组数据及一组与之相关的数据标签组成。标签可以自动生成，也可以通过index设置标签。2、可以通过索引的方式重新赋值或选取Series中的单个或一组值，也可以将索引通过通过赋值的方式修改3、如果数据被放在python字典中，可以通过这个字典创建Series当states被设置为index，与字典中的键相匹配的索引会...

2018-12-07 16:28:34 164

原创 python 内置函数map，filter，sorted的用法

map函数，第一个参数是函数，第二个参数是list，通过把函数依次作用在 list 的每个元素上，得到一个新的 list 并返回。返回的是一个惰性序列，所以要强迫map()完成计算结果，需要用list()函数获得所有结果并返回list。 filter()函数用于过滤序列。和map()类似，filter()也接收一个函数和一个序列，返回的也是一个惰性序列，所以要强迫filter()完...

2018-12-06 16:56:38 237

原创 numpy 布尔索引的用法

我们可以通过建立一个布尔数组来索引目标数组，通过数组的逻辑运算作为索引，以此找出与布尔数组中值为True的对应的目标数组中的数据。需要注意，布尔型数组的长度必须与目标数组的轴的长度一致。可参考以下代码：1、具体可以理解为：布尔索引实现的是通过列向量中的每个元素的布尔型数值对一个与列向量有着同样行数的矩阵进行符合匹配。而这样的作用，其实是把列向量中布尔值为True的相应行向量给抽取了出来。...

2018-12-06 16:27:38 6898

原创利用python进行prosper贷款数据EDA分析（一）

一摘要本文详述了如何通过数据预览，基本数据分析、探索式数据分析，缺失数据填补等方法，实现对 kaggle上Prosper借贷平台贷款者还款与否这一分类问题如何进行数据分析的具体探索式实践。二项目介绍Prosper LoanData 是由Joshua Schnessl从Udacity Data Analyst Nanodegree上把数据放到kaggle的上供感兴趣的人分析的一个实例项目，这并非...

2018-04-15 21:39:19 3838 1

原创人力资源数据分析（python）

目的：工资，职业，月工时和满意度之间有什么关系从聚数力网站下载源数据后，在pandas中载入数据import numpy as npimport pandas as pddata = pd.read_csv(r'D:\Users\Desktop\HR_comma_sep.csv')data.head()data.sales.unique() #查看sales的类别，包括哪些工作类型data...

2018-04-06 23:52:26 8366 2

原创拉勾网数据分析师利用python分析

目的：数据分析师是一个什么样的岗位？它的工资和薪酬是多少？哪类公司更会招聘数据分析师？主要内容包括数据读取，数据概述，数据清洗和整理，分析和可视化首先载入数据，此数据是18年3月份在拉勾网上爬取的有关数据分析师的职位信息import numpy as npimport pandas as pddata = pd.read_csv(r'D:\Users\Desktop\jobdata.csv')...

2018-04-06 20:07:52 893

hahaha66888的博客