石山下-CSDN博客

原创 JavaScript高级程序设计学习笔记

1.关于函数函数是对象，函数名是指针使用不带圆括号的函数名是访问函数指针，而非调用函数（Page110）

2019-05-06 17:17:24 222

原创 Javascript DOM变成艺术学习笔记

1.对象对象是自包含的是对象集合，包含在对象里的数据可以通过两种形式进行访问----属性（property）和方法（method）。属性：隶属于某个特定对象的变量–object.property方法：只有某个特定对象才能调用的方法–object.method（）...

2019-05-05 20:36:59 283

转载 seaborn可视化学习之distribution visualization

在做数据分析&挖掘的时候，描述性统计必不可少。比如：我们需要去看看各个quantitative变量的分布情况，良好的分布可视化效果会为之后进一步做数据建模打下基础。这篇文档结合科赛网上面的链家二手房数据集，对如何使用seaborn这个强大的库做distribution visualization做一下讲解。对于quantitative变量做分布可视化，主要有两点，一是探寻变量自身的分布...

2019-03-14 19:00:04 736

转载 seaborn可视化之heatmap & time series & regression

之前尝试了用seaborn去做category和distribution可视化。时间序列的数据也是数据分析&挖掘的常客，这次选取了1965-2016全球重大地震数据做一些可视化及分析。主要研究下seaborn中heatmap，time series 以及regression function的使用。seaborn中的plot function:* heatmap: 用颜色矩阵去显...

2019-03-14 18:59:27 1573

转载 seaborn可视化学习之categorial visualization

seaborn是一个做数据可视化效果很棒的库。在看了官方tutorial之后，尝试用Iris鸢尾花数据集实践一下categorical visualization，也就是数据按类别进行可视化。首先介绍一下Iris鸢尾花数据集，内容摘自百度百科：Iris数据集是常用的分类实验数据集，由Fisher, 1936收集整理。“Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。数据集包含150个数...

2019-03-14 18:58:50 318

转载从零开始学Python【3】--matplotlib(箱线图)

前言今天继续我们的python绘图系列，针对离散变量我们可以使用常见的条形图和饼图完成数据的可视化工作，那么，针对数值型变量，我们也有很多可视化的方法，例如箱线图、直方图、折线图、面积图、散点图等等。这一期，我们就先来介绍一下数值型变量的箱线图绘制。箱线图一般用来展现数据的分布（如上下四分位值、中位数等），同时，也可以用箱线图来反映数据的异常情况。boxplot函数的参数解读...

2019-03-14 18:57:56 787

转载从零开始学Python【2】--matplotlib(饼图)

前言在从零开始学Python系列10中,我们用条形图来展示离散变量的分布呈现，在常见的统计图像中，还有一种图像可以表示离散变量各水平占比情况，这就是我们要讲解的饼图。饼图的绘制可以使用matplotlib库中的pie函数，首先我们来看看这个函数的参数说明。pie函数参数解读plt.pie(x, explode=None, labels=None, colors=None, ...

2019-03-14 18:57:20 638

转载这100道练习，带你玩转Numpy

Numpy是Python做数据分析所必须要掌握的基础库之一。本文内容由科赛网翻译整理自Github开源项目(部分题目保留了原文作参考)，建议读者完成科赛网 Numpy快速上手指南 --- 基础篇和 Numpy快速上手指南 --- 进阶篇这两篇教程的学习之后。此版本为完整答案版。在每一道问题后面，我们将答案代码块做了注释。「Fork」项目后，在答案cell中消除注释符号，即可运行代码，得出结...

2019-03-14 18:55:21 2562

转载 Numpy快速上手指南 --- 进阶篇

目录1. 广播法则(rule)2. 花哨的索引和索引技巧通过数组索引通过布尔数组索引ix_()函数用字符串索引线性代数简单数组运算矩阵类索引：比较矩阵和二维数组技巧和提示"自动" 改变形状向量组合(stacking)直方图(histogram)这篇文档是参加「DATA TRAIN|金融行业数据算法练习赛」的前期学习素材。文档内容转载整...

2019-03-14 18:53:40 204

转载 Numpy快速上手指南 --- 基础篇

目录1. 概览2. 创建数组3. 打印数组4. 基本运算5. 通用函数 ufunc索引，切片和迭代6. 形状操作更改数组的形状组合(stack)不同的数组将一个数组分割(split)成几个小数组复制和视图7. 函数和方法method总览创建数组转化操作询问排序运算基本统计基本线性代数这篇文档是参加「DATA TRA...

2019-03-14 18:53:25 216

转载这十套练习，教你如何用Pandas做数据分析

目录练习题索引对应的数据集文件路径查看练习1-开始了解你的数据探索Chipotle快餐数据步骤1 导入必要的库步骤2 从如下地址导入数据集步骤3 将数据集存入一个名为chipo的数据框内步骤4 查看前10行内容步骤6 数据集中有多少个列(columns)步骤7 打印出全部的列名称步骤8 数据集的索引是怎样的步骤9 被下单数最多商品(item)是什么?...

2019-03-14 18:53:09 9078 4

转载 Pandas基础命令速查清单

本文翻译整理自Pandas Cheat Sheet - Python for Data Science,结合K-Lab的工具属性，添加了具体的内容将速查清单里面的代码实践了一遍。目录缩写解释 & 库的导入数据的导入数据的导出创建测试对象数据的查看与检查数据的选取数据的清洗数据的过滤(filter),排序(sort)和分组(groupby)数据的连接(...

2019-03-14 18:52:51 364

转载从零上手Python关键代码

从零上手Python关键代码概要基础篇变量控制流：条件语句循环／迭代器列表：数组数据结构字典：键-值数据结构迭代：数据结构中的循环类与对象封装：隐藏信息公开实例变量私有实例变量公开方法私有方法封装小结从零上手Python关键代码本文内容属数据分析入门知识，适合零基础数据分析爱好者，是参加「DATA TRAIN|金融行业数据算法练习...

2019-03-14 18:52:34 300

转载从零开始学Python【1】--matplotlib(条形图)

在本期内容中，我们先从条形图开始，条形图实际上是用来表示分组（或离散）变量的可视化，可以使用matplotlib模块中的bar函数完成条形图的绘制。一、简单垂直条形图案例一：直辖市GDP水平中国的四个直辖市分别为北京市、上海市、天津市和重庆市，其2017年上半年的GDP分别为12406.8亿、13908.57亿、9386.87亿、9143.64亿。对于这样一组数据，我们该如何...

2019-03-14 18:52:02 493

转载分分钟带你杀入Kaggle Top 1%

转载自：分分钟带你杀入Kaggle Top 1%不知道你有没有这样的感受，在刚刚入门机器学习的时候，我们一般都是从MNIST、CIFAR-10这一类知名公开数据集开始快速上手，复现别人的结果，但总觉得过于简单，给人的感觉太不真实。因为这些数据太“完美”了（干净的输入，均衡的类别，分布基本一致的测试集，还有大量现成的参考模型），要成为真正的数据科学家，光在这些数据集上跑模型却是远远不够的。而现实...

2019-03-12 20:58:13 206

转载数据挖掘150道笔试题

单选题1. 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A)A. 关联规则发现 B. 聚类C. 分类 D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准？ (A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。...

2019-03-12 17:10:08 566

转载图表的重要性：Anscombe的四组数据

1973年，统计学家F.J. Anscombe构造出了四组奇特的数据。它告诉人们，在分析数据之前，描绘数据所对应的图像有多么的重要。Anscombe’s Quartet I II III IV x y x y x y x y 10.0 8.04 10.0 9.14 10.0 7.46 8....

2019-03-11 19:52:44 919

原创日期数据处理：按日期筛选、显示及统计数据

KingCounty房价预测参考文章：https://www.jianshu.com/p/b91e3ae940ec https://blog.csdn.net/sinat_35512245/article/details/79791190

2019-03-10 20:45:44 4463

原创利用逻辑回归进行员工离职预测

数据城堡上的比赛，也是自己第一次独立完成的练手项目，只做了基本的数据特征处理，还不够精致。初始得分0.802，经过优化后0.877。import pandas as pd import numpy as npimport matplotlib.pyplot as plt# 1.获取数据集data = pd.read_csv('pfm_train.csv')# 将目标值抑制最后一列...

2019-03-09 20:38:48 1686

转载特征选择与特征提取

一、特征选择和特征提取特征选择（feature selection）和特征提取（Feature extraction）都属于降维（Dimension reduction）这两者达到的效果是一样的，就是试图去减少特征数据集中的属性(或者称为特征)的数目；但是两者所采用的方式方法却不同。特征提取的方法主要是通过属性间的关系，如组合不同的属性得到新的属性，这样就改变了原来的特征空间。特征选择...

2019-03-02 15:09:05 38884 3

转载 python自测100题

如果你在寻找python工作，那你的面试可能会涉及Python相关的问题。通过对网络资料的收集整理，本文列出了100道python的面试题以及答案，你可以根据需求阅读测试。python基础Q1.什么是Python？Python是一种面向对象的，交互式的，解释型的计算机程序设计语言。Python的设计具有高可读性，它使用英语关键词而非标点符号，语法结构也比其他语言简单。Q2.Py...

2019-03-02 14:14:28 13467 1

转载总结：sklearn机器学习之特征工程

0 关于本文1 特征工程是什么？3/2 数据探索性分析(Exploratory Data Analysis,EDA)2 数据预处理2.1无量纲化数据规范化2.1.1标准化0均值标准化(Z-score standardization)2.1.2 区间缩放法(线性函数归一化(Min-Max scaling))2.1.3标准化与归一化的区别标准化(规范化)与归一化...

2019-03-02 14:07:30 551

原创 Movielens/IMDB电影数据分析(三)

接着上一篇文章的内容。本文主要进行数据清洗：电影时长不是数值，而是字符串电影流派不是原子数据，很难提取特定的流派做分析。上映年份格式修正投票数修正为整型本来以为自己爬取的数据存在两个瑕疵，但是在实际应用中发现，还有一个巨大的瑕疵：desecribe的时候，发现Votes一列不能被describe。进行info查看信息的时候，发现Votes是一组对象，不为整型。使用int(...

2019-02-24 12:33:33 1393 1

原创 Movielens/IMDB电影数据分析(二)

经过磕磕绊绊的三天调试，终于算是独立调试出来自己写的第一个爬虫程序，虽然程序写的比较粗糙，结果也有些瑕疵，但总算是有个开始了。之前，零星的看过爬虫的一些知识点，但是比较皮毛，当自己真的动手爬取自己想要的数据时，基本是从零开始。爬虫一般分为三步：请求网页、解析网页、存储数据。我分别卡在了解析网页和存储数据上。最后经过查找摸索，使用主流的lxml解析网页，选取方法为XPath，数据存储为需要的cs...

2019-02-22 20:49:22 2000 5

原创 Movielens/IMDB电影数据分析(一)

该项目源自科赛网的训练项目。背景项目简介此数据集包含来自MovieLens 电影推荐服务的5星评分和文本标记数据和来自IMDB1950-2012年IMDB TOP10000排行榜数据。MovieLens数据集包含27278部电影的20000263份评分和465564次标签应用。这些数据是由1995年1月9日至2015年3月31日期间的138493个用户创建。练习内容MDB...

2019-02-19 21:16:00 3555 2

原创自用jupyter notebook配置

安装工具：pip install --upgrade jupyterthemes查看可用主题：jt -l详细配置：jt -t oceans16 -f fira -fs 13 -cellw 90% -ofs 11 -dfs 11 -T

2019-02-19 20:36:16 130

转载 5分钟教你轻松掌握箱线图

箱线图也称箱须图、箱形图、盒图，用于反映一组或多组连续型定量数据分布的中心位置和散布范围。箱形图包含数学统计量，不仅能够分析不同类别数据各层次水平差异，还能揭示数据间离散程度、异常值、分布差异等等。小小箱子，大大信息量箱线图（Box plot）也称箱须图（Box-whisker Plot）、箱线图、盒图，可以用来反映一组或多组连续型定量数据分布的中心位置和散布范围，因形状如箱子而得名。...

2019-02-19 11:40:48 19423 2

原创 Pandas中resample函数频率参数释义

B business day frequencyC custom business day frequency (experimental)D calendar day frequencyW weekly frequencyM month end frequencyBM business month end frequ...

2019-02-17 20:40:31 4169

转载 python pandas stack和unstack函数

在用pandas进行数据重排时，经常用到stack和unstack两个函数。stack的意思是堆叠，堆积，unstack即“不要堆叠”，我对两个函数是这样理解和区分的。　　常见的数据的层次化结构有两种，一种是表格，一种是“花括号”，即下面这样的l两种形式：表格在行列方向上均有索引（类似于DataFrame），花括号结构只有“列方向”上的索引（类似于层次化的Series），结构更加偏向于...

2018-12-19 21:23:29 706

转载 Python Numpy中reshape函数参数-1的含义

新数组的shape属性应该要与原来数组的一致，即新数组元素数量与原数组元素数量要相等。一个参数为-1时，那么reshape函数会根据另一个参数的维度计算出数组的另外一个shape属性值。下面来举几个例子来理解一下：>>> z = np.array([[1, 2, 3, 4],[5, 6, 7, 8],[9, 10, 11, 12],[13, 14, 15, 16]])...

2018-11-26 21:59:00 1883

原创报错处理：cannot import name 'cross_validation' from 'sklearn'

在用from sklearn import cross_validation时，报错为cannot import name 'cross_validation' from 'sklearn'。查询得知说是新版sklearn中cross_validation被废弃，可以测试了几个网上的解决办法，依然报错。如是使用Everything查找cross_validation.py文件，我的电脑中其...

2018-11-26 07:59:26 20673 8

原创 Numpy和Pandas中axis的理解

Numpy中axis用法的解释：轴用来为超过一维的数组定义的属性，二维数组拥有两个轴：第0轴沿着行的垂直往下，第1轴沿着列的方向水平延伸。附加参照：https://blog.csdn.net/fangjian1204/article/details/53055219 https://www.jianshu.com/p/9aa448ea397c ...

2018-11-18 21:40:00 810

原创 Pycharm配置autopep8

1.cmd中安装autopep8:pip install autopep82.打开Pycharm→File→settings→Tools→Extends Tools→添加→Name：Autopep8（可以随便取）Programs：autopep8 （前提是你已经安装了哦）Arguments:--in-place --aggressive --aggressive $FilePath...

2018-11-18 10:46:49 1447

原创 45道经典SQL题练习(四)

-- 31、查询所有教师和同学的name、sex和birthday.SELECT TNAME AS '名字',TSEX AS SEX,TBIRTHDAY AS BIRTHDAY FROM TEACHERUNIONSELECT SNAME AS '名字',SSEX AS SEX,SBIRTHDAY AS BIRTHDAY FROM STUDENT;-- 32、查询所有“女”教师和“女”...

2018-10-14 17:38:26 601

原创 45道经典SQL题练习(三)

-- 21、查询成绩高于学号为“109”、课程号为“3-105”的成绩的所有记录。SELECT * FROM SCOREWHERE DEGREE>(SELECT DEGREE FROM SCOREWHERE SNO='109' AND CNO='3-105');-- 22、查询和学号为108的同学同年出生的所有学生的Sno、Sname和Sbirthday列。SELECT SNO...

2018-10-13 17:07:12 325

原创 45道经典SQL题练习(二)

-- 11、查询‘3-105’号课程的平均分。SELECT AVG(DEGREE) AS AVG_DEGREEFROM SCOREWHERE CNO='3-105';-- 12、查询Score表中至少有5名学生选修的并以3开头的课程的平均分数。SELECT CNO,AVG(DEGREE)FROM SCOREWHERE CNO LIKE '3%'GROUP BY CNOHAV...

2018-10-11 22:09:12 419 1

原创 45道经典SQL题练习(一)

-- 1.查询Student表中的所有记录的Sname、Ssex和Class列SELECT SNAME,SSEX,SCLASS FROM STUDENT;-- 2. 查询教师所有的单位即不重复的Depart列SELECT DISTINCT DEPART FROM TEACHER;-- 3. 查询Student表的所有记录SELECT * FROM STUDENT;-- ...

2018-10-11 21:00:11 885

原创 SQL必知必会学习（一）

自从爬虫稍微入门之后，又抽出一段时间着重学习EXCEL函数和透视表，其中以函数为主。今天开始学习SQL，几个月前曾通读了一遍《SQL必知必会》，但是没有具体操作过。今天重新打开workbench才发现之前在爬虫的时候用的知识又有些生疏了，所以觉得有必要写个博客，防止自己再次生疏的时候，又浪费时间去摸索。根据《SQL必知必会》给出的地址下载源码文件包TeachYourselfSQL_MySQL....

2018-09-27 22:01:01 897

转载报错处理：Python操作Mysql数据库插入中文错误

学习《python网络爬虫从入门到实践》中遇到以下错误：Incorrect string value: '\xE7\xA8\x8B\xE5\xBA\x8F...' for column 'course' at row 1出现这个错误的原因是，数据库的编码格式为latin1 而我要将utf8的中文插入到数据库中。一开始修改修改数据库的编码alter table score de...

2018-09-04 20:34:15 2831

原创爬虫报错：‘NoneType’ object is not iterable

根据《python网络爬虫从入门到实践》学习安居客租房数据爬取时，运行代码：tags = [i.text for i in tag_list]出现以下报错：‘NoneType’ object is not iterable打印tag_list发现，其中有多个元素为None，导致遍历的时候将None赋给多个i时。将代码修改为，报错即可解决：tag_list = house.f...

2018-09-02 11:20:50 8285 1

imdb10000.csv

最新xpathhelper2_0_2

空空如也