自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 资源 (1)
  • 收藏
  • 关注

原创 SQL行转列,列转行

一、列转行unpivot是将列名转换为列值,列名做为列值,因此,会新增两个column:一个column用于存储列名,一个column用于存储列值。unpivot用法示例:SELECT customerId, Phone, Phones FROM test1 as p UNPIVOT (Phones FOR Phone IN (phone1, phone2, p...

2020-04-24 17:53:51 421

原创 逻辑回归(Logistic Regression)

一、Logistic Regression1.1 线性回归逻辑回归和线性回归本质上都是得到一条直线,不同的是,线性回归的直线是尽可能去拟合输入变量X的分布,使得训练集中所有样本点到直线的距离最短;而逻辑回归的直线是尽可能去拟合决策边界,使得训练集样本中的样本点尽可能分离开。因此,两者的目的是不同的。线性回归方程:此处,y为因变量,x为自变量。在机器学习中y是标签,x是特征。1.2 ...

2020-04-14 22:51:14 1069

原创 ID3决策树

一、基本概要决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3, ...

2020-04-12 21:06:03 1524

原创 k-近邻算法

一、基本概念K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 ...

2020-04-12 20:39:16 736

原创 Python自己下载安装snownlp

1.下载地址:https://pypi.org/project/snownlp/0.12.3/2.安装:将下载好的文件进行解压,这里我直接解压到了桌面。然后打开命令窗口,进入解压目录,输入python setup.py install如下图所示:...

2020-04-08 21:10:15 4776

原创 not exists用法

not exists用法exists(返回结果集,为真)not exists(不返回结果集,为真)题目:数据库中有学生表STUDENT(SNO,SNAME,SSEX,SAGE,SDEPT)各属性分别表示为学号,姓名,性别,年龄,所在系;学生选课表SC(SNO,CNO,GRADE),各属性分别表示为学号,课程号以及成绩;课程表COURSE(CNO,CNAME,CPNO,CCREDIT)各属性...

2020-03-28 13:40:00 34456 3

原创 sql server存储过程

1 创建存储过程1.1 创建简单的存储过程创建语句:create proc usp_helloworldasbegin print 'Hello World'end创建完后,调用语句格式 exec + 存储过程名:exec usp_helloworld执行结果:1.2 创建带参数的存储过程创建语句:create proc usp_book@name nvarch...

2020-03-26 13:19:59 99

转载 SQL SERVER 自定义函数

1.创建函数#返回表类型create function testFunTable(@count int) returns @temptable table (intcount int ,intcountAdd int) as begin insert into @temptable values(@count,@count+1) return en...

2020-03-26 13:13:17 83

原创 OLTP和OLAP

OLTP(on-line transaction processing)联机事务处理,主要是执行基本日常的事务处理,比如数据库记录的增删查改。如在银行的一笔交易记录,就是一个典型的事务。OLAP的特点一般有:1.实时性要求不是很高,比如最常见的应用就是天级更新数据,然后出对应的数据报表。2.数据量大,因为OLAP支持的是动态查询,所以用户也许要通过将很多数据的统计后才能得到想要知道的信息,例...

2020-03-20 14:31:25 117

原创 SQL的窗口函数

1.rank():相同排序跳序号2.row_number():不存在重复序号3.dense_rank():相同排序不跳序号(允许并排次序)4.partition by:查询分区子句5.order by:排序,默认升序6.lead(),lag():可以在当前行访问上N行(lag)或者下N行(lead)的数据窗口函数语法:函数() over(partition by 列1,列2,orde...

2020-03-17 17:56:19 118

原创 SQL的分配权限和回收权限

GRANTGrant可以把指定的权限分配给特定的用户,如果这个用户不存在,则会创建一个用户。语句为grant 权限 on 数据库名.表名 to 用户名@登陆方式 identified by‘password‘eg:grant select on test.* to‘repl’@‘172.17.0.%’ identified by ‘123456’;REVOKE...

2020-03-17 15:50:40 1297

原创 mysql主从复制

主从复制的步骤:1、binlog(二进制文件)和relaylog(中继日志)2、每个服务器都有id,也就是mysql集群每个机器有一个唯一的标识3、授权信息(用户、密码、ip地址)...

2020-03-13 17:35:10 87

原创 SQL实现递归查询父子级信息

SQL实现递归查询根据父级的部门ID查询所有的子级部门;根据父级的区划代码查询所属下级的所有区划信息;根据子级ID查询隶属行政区划信息;根据组织机构ID查询所有子级组织机构;数据准备DROP TABLE IF EXISTS `tb_area`;CREATE TABLE tb_area( area_id int NOT NULL , area_name varchar(255...

2020-03-12 18:17:59 4724

原创 SQL触发器

一、触发器的语法如下CREATE OR REPLACE TRIGGER trigger_name<before | after | instead of><insert | update | delete>ON table_name[FOR EACH ROW]WHEN (condition)DECLAREBEGIN–触发器代码END;Trigger_n...

2020-03-12 16:38:08 8447

原创 SQL递归函数

生成一张表,添加数据DROP table IF EXISTS Dept;create table Dept(ID int,ParentID int,msg varchar(20)) insert into Dept select 1,0,'中国' insert into Dept select 2,1,'上海' insert into Dept select 3,1,'浙江' ...

2020-01-16 19:30:47 1801

原创 python之递归函数

面试题:递归打印Fibonacci数列1,1,2,3,5,8,13非递归算法:算法a,ba=bb=a+bdef fib(n): if n==1 or n==2: return 1 a=1 b=1 for i in range(n-2): temp=a+b a=b b=temp ret...

2020-01-16 13:58:08 165

原创 SQL经典面试题及答案

SQL经典面试题及答案用一条SQL 语句 查询出每门课都大于80 分的学生姓名name kecheng fenshu张三 语文 81张三 数学 75李四 语文 76李四 数学 90王五 语文 81王五 数学 100王五 英语 90答:Select name from table group by name having min(fenshu)>80;学生表 如...

2020-01-15 16:39:46 935

原创 数据分析师所需的编程技能 : Html篇

一、W3C标准1、结构-HTML:用于描述页面的结构2、表现-CSS:用于控制页面中元素的样式3、行为-JavaScript:用于响应用户操作二、HTML基本结构html是用来描述网页的一种语言,全称超文本标记语言(Hyper Text Markup Language)。2.1标签标签由英文尖括号<>括起来,例如html中的标签一般是成对出现的,分开始标签和结束标签,结...

2020-01-10 16:45:26 194

原创 Scrapy库安装解决方法

用管理员身份运行cmd,输入pip install scrapy,安装失败!然后百度得出Scrapy库安装时更改镜像源就可以直接安装成功,又快又省力pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple...

2020-01-02 18:36:13 149

原创 用requests和re库爬取淘宝信息

步骤:导入必要的requests和re库。使用requests库获取淘宝搜索页面的代码内容,其中使用curl.trillworks.com神器访问页面源码使用re库对搜索页面中的内容进行搜索匹配,获取想要的商品名称和价格信息将获取的信息全部打印出来设置请求头header,这样才可以伪装成浏览器用谷歌浏览器打开淘宝,用关键词“手机”搜索后,按F12进入检查,查看Net...

2020-01-02 17:46:49 1372

原创 简单爬取大学排名

import requestsimport bs4from bs4 import BeautifulSoupurl = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html'def main(): uinfo = [] html = getHTMLText(url) fillUnivList(uinfo, h...

2019-12-27 18:46:19 114

原创 简单爬取一张图片

import requestsimport osurl="http://img0.dili360.com/ga/M02/49/B7/wKgBzFqo8ySAT4nUAAry7yQ0MW4188.tub.jpg@!rw17"root="F://pics//"path=root+url.split('/')[-1]try: if not os.path.exists(root): ...

2019-12-26 19:28:41 347

原创 分享Jupyter notebook

方法一:保存成notebook文件(.ipynb)进行分享方法二:保存成pdf,html文件等进行分享,但是这样别人不可以再进行操作方法三:通过github分享步骤一:将保存好的.ipynb文件上传到github,在github中打开该文件,在网页最上方地址栏获得你的文件的url    注:不要用copy path,要从地址栏直接获取步骤二:打开http://nbviewer.jup...

2019-12-18 14:22:26 7966

原创 客户价值-RFM聚类分析

一、数据读取import pandas as pddata=pd.read_excel('RFM聚类分析.xlsx',index_col='用户编码')data.head()二、数据探索及预处理data.describe(include='all')数据提取日为2016/07/20from datetime import datetimeex_data=datetime(2...

2019-12-18 13:14:18 1000

原创 1045 Access denied for user 'root'@'localhost' (using password: YES)

下载完mysql-8.0.18-winx64,使用Navicat连接MySQL出现错误:1045 Access denied for user ‘root’@‘localhost’ (using password: YES)经过百度发现是密码错误,所以重新设置了密码。1、打开安装目录下的my.ini2、在[mysqld]下面加入skip-grant-tables3、打开cmd,输入...

2019-12-16 17:09:34 293

原创 Python数据可视化

一、数据源链接:https://pan.baidu.com/s/1oczoVEUIRHEyjEHsh3adPw提取码:sgiu复制这段内容后打开百度网盘手机App,操作更方便哦二、上传数据import pandas as pddata=pd.read_csv('data.csv',index_col='年份')data.head()三、绘制折线图x=data.index.va...

2019-12-12 16:43:52 276

原创 SQL面试42题

学生表:Student(s_id,s_name,s_birth,s_sex) –学生编号,学生姓名, 出生年月,学生性别课程表:Course(c_id,c_name,t_id) – –课程编号, 课程名称, 教师编号教师表:Teacher(t_id,t_name) –教师编号,教师姓名成绩表:Score(s_id,c_id,s_s_score) –学生编号,课程编号,分数根据以上信...

2019-12-12 12:43:09 716

原创 mysql索引失效

索引失效常见原因:1、全值匹配我最爱2、最佳左前缀法则3、不在索引列上作任何操作(计算、函数、(自动or手动)类型转换),会导致索引失效而转向全表扫描4、存储引擎不能使用索引中范围条件右边的列5、尽量使用覆盖索引(只访问索引的查询(索引列和查询列一致)),减少select *6、mysql在使用不等于(!=或者<>)的时候无法使用索引会导致全表扫描7、is null,is...

2019-12-09 15:51:34 86

原创 MYSQL索引优化案例分析

(一)单表案例:create table if not exists article(id int(10) unsigned not null PRIMARY key auto_increment,author_id int(10) UNSIGNED not null,category_id int(10) UNSIGNED not null,views int(10) UNSIGNE...

2019-12-06 19:42:58 180

原创 Sql题库

where (project_id, experience_years) in (select project_id, max(experience_years) from Project join Employee using (employee_id) group by project_id);

2019-11-22 15:57:39 351

原创 产品运营的数据指标体系

2019-11-21 20:29:52 2929

原创 浅析mysql一行转多行

一、当前表结构二、sql语句select a.`销售员` as 销售员,substring_index(substring_index(a.`销售明细`,';',b.help_topic_id+1),';',-1) as 销售明细 from sheet1a join mysql.help_topic b on b.help_topic_id < (length(a.`销售明细`)-...

2019-11-21 17:12:01 318

原创 拉勾网数据分析师职位分析

项目背景:2019年9月份开始学习数据分析相关课程,目前学到不少知识,准备开始找工作。为此准备先从拉勾上了解数据分析岗位的情况,并且运用自己之前学到的知识来实践一下。收集数据利用“后羿采集器”抓取2019年11月15日拉勾网站内搜索“数据分析师”关键词下的1200条职位信息。通过这些职位信息的分析和建模来进一步了解这一职位。、数据包含以下几个字段:城市职位名称公司名称公司所处行业...

2019-11-15 15:55:11 462

原创 MySQL淘宝用户行为分析

一、数据来源及说明链接地址: https://tianchi.aliyun.com/dataset/dataDetail?dataId=46&userId=1本文从数据集中选取包含了2014年11月18日至2014年12月18日之间,8477名随机用户共1048575条行为数据,数据集的每一行表示一条用户行为,共6列。列字段包含以下:user_id:用户身份item_id:商品I...

2019-11-13 15:36:54 1516

原创 上海二手房价数据分析

目的:本篇给大家介绍一个数据分析的初级项目,目的是通过项目了解如何使用Python进行简单的数据分析。数据源:博主通过爬虫采集的安X客上海二手房数据,由于能力问题,只获取了2160条数据。数据初探首先导入要使用的科学计算包numpy,pandas,可视化matplotlib,seabornimport numpy as npimport seaborn as snsimport m...

2019-11-07 15:48:11 2116 2

转载 白话“卡方检验”

白话“卡方检验”“卡方检验”是“假设检验”的一种,用于分析两个“类别”变量之间相关关系,是一种非参数“假设检验”,得出的结论是“两个变量相关”或者“两个变量不相关”,因此又叫“独立性检验”。关于假设检验的先验知识有:总体、样本、点估计、区间估计、显著性水平、置信区间、统计量、枢轴量、分位点、三大分布、中心极限定理(明确正态分布的重要地位)、抽样分布定理。这些知识在《概率论与数理统计》教材的“数...

2019-10-25 12:04:18 12057 1

population_data.json

用Python练习做世界人口地图的文件。《Python编程:从入门到实践》,数据可视化经典案例所需文件。压缩包,解压后可用。

2019-09-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除