自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

nextbox

机器学习,数据挖掘

  • 博客(33)
  • 收藏
  • 关注

原创 量化选股

2018-05-08 22:06:03 1253

原创 维基百科词条编辑贡献可视化

import requestsimport reimport jsonfrom bs4 import BeautifulSoupfrom urllib.request import urljoinimport collectionsfrom pyecharts import Mapdef get_view_history_link(search_word): "该函数用...

2018-04-25 12:00:15 478

原创 scrapy框架的用法

#常用命令行scrapy crawl xxxx#开始运行一个爬虫scrapy check #检查爬虫是否有bugscrapy list #返回项目里有哪些爬虫scrapy shell url#返回网页的响应,可以进行交互式操作scrapy view URL #访问网而后,可以查看网页访问结果,可以查看网页是否使用ajax加载#常用选择方法response.xpath('//ti...

2018-04-24 19:16:38 240

原创 selenium用法

from selenium import webdriver driver = webdriver.Chrom()#生成谷歌浏览器对象 dirver.get('http://www.taobao.com')#打开淘宝 driver.page_source#获取获得网页的源代码 driver.find_element_by_xpath('xpath语句')#通过xpath查找元素常用...

2018-04-23 22:30:58 265

原创 bs4用法

beautfulsoup常用的解析器,html.parser(python)自带,速度适中,lxml解析库,速度库,文档容错能力强,需要安装lxml库,建议用这个 from bs4 import BeautifulSoupimport requestsres = requests.get(url).text###标签的选择方法###soup = BeutifulSoup(res,'...

2018-04-23 21:37:48 1329

原创 request库的应用

安装 pip install requestsimport requestsurl = 'http://www.baidu.com'res = requests.get(url)print(res.status_code)#打印请求状态print(res.cookies)#打印cookiesprint(res.text)#打印响应内容字符串print(res.content)#打印...

2018-04-23 19:36:03 229

原创 window 7如何安装mongodb

https://www.mongodb.com/download-center#community去下载3.4 community sever 版本的,我安装3.6的安装不上 按照提示,很容易安装在MongoDB下创建data,在data下再创建db:D:\MongoDB\data\db(你自己的安装路径) 因为启动mongodb服务之前需要必须创建数据库文件的存放文件夹,否则命令不会自动...

2018-04-23 16:25:50 114

原创 xpath,css选择器

/ 从根节点选取 // 从匹配当前节点选择文档中的节点 。选择当前节点 。。选择当前节点的父节点 @选择属性 *匹配任何元素节点 @*匹配任何属性节点 Node()匹配任何类型的节点...

2018-04-21 21:47:35 193

原创 小脚本,练练coding

九九乘法表def print_99_mutiply_table(): for i in range(1,10): for j in range(1,i+1): print('{} X {} = {}'.format(j,i,i*j),end=' ')#end参数表每行答应完毕,用空格结尾 print('\n')斐波那契数列...

2018-04-20 15:36:33 144

原创 异常检查

时间序列:事情的发展具有连续性,只要赖以发生的条件不发生质的变化,事物在未来的基本发展趋势任然会延续下去时间序列常用的算法 移动平均(mv moving average) 指数平滑(es exponetial smoothing) 差分自回归移动平均模型(arima auto-regression integrated moving average model) 应用有经济预测,股市预...

2018-04-20 14:38:04 134

原创 分类算法

分类算法的选择 文本分类的时候,最多使用的是贝叶斯算法 训练集很小的时候,可以选择svm,朴素贝叶斯,这类算法效果会比较好 如果是关注的是算法模型计算时间,支持向量机和神经网络不是很好的选择 如果重视模型的精度,那么可以考虑svm,rf 如果要得到模型预测的概率,基于概率做进一步的分析,可以考虑精度不是很高的逻辑斯蒂回归...

2018-04-18 21:50:53 182

原创 回归算法

比较常见的回归算法:线性回归,多项式回归,岭回归,lasso,弹性网络等 回归算法常用的评估标准: R2R2R^2它反映了因变量的变异能通过回归关系被自变量解释的比例。值为1的时候,表示观测点全部落到回归拟合线上 计算公式 R2R2R^2 = 回归平方和/总平方和 回归平方和 = 总平方和 - 残差平方和 ...

2018-04-17 22:38:53 1509

原创 k-means算法

聚类算法选择: 如果数据维度很高,可以选择谱聚类,它是基于选择用聚类密切相关的维度,对子空间进行聚类 如果数据为小规模的少于100万条,可以使用KMEANS,如果超过100万条,可以用考虑使用mini batch kmeans 如果数据有离群点,可以考虑dbscan 如果追求分类准确率,谱聚类比kmeans好聚类算法常用的指标: 兰德系...

2018-04-17 10:08:51 183

原创 亚马逊苹果手机数据爬取

亚马逊苹果手机相关信息爬取import refrom bs4 import BeautifulSoupimport timeimport requestsamazon_url = 'https://www.amazon.cn/s/ref=sr_pg_2?rh=n%3A664978051%2Cn%3A665002051%2Ck%3Aiphone&page=1&bbn=66...

2018-04-15 23:15:35 477

原创 knn算法

欧几里距离:∑ni=0(xi−yi)2−−−−−−−−−−−−√∑i=0n(xi−yi)2\sqrt{\sum_{i=0}^n(x_i-y_i)^2} 闵可夫斯基距离:∑ni=0(xi−yi)p−−−−−−−−−−−−√p∑i=0n(xi−yi)pp\sqrt[p]{\sum_{i=0}^n{(x_i-y_i)}^p} 余弦相似性: x⋅y∥x∥∥y∥x⋅y‖x‖‖y‖\frac{x\cdot...

2018-04-14 22:54:47 125

原创 python如何连接数据库

import pymysqlcon=pymysql.connect(host='localhost', user='root', password='123456', port=3306, database='python')#连接的关键...

2018-04-14 09:11:34 359

原创 算法和算法复杂度

算法衡量指标:正确性,可读性,易维护性,运行时间 算法计算时间可以通过复杂度的阶表示:对数阶(log2xlog2⁡x\log_2 x),线性阶(x),多项式阶(x2x2x^2),指数阶(2x2x2^x) 大O表示法,表示在。。。。。阶,线性时间算法的阶为:O(n)#找出一个列表中最小值的索引def index_of_min(shuffle_list): index_min =...

2018-04-12 12:02:30 266

原创 百度地图数据获取

import requestsimport jsonbaidu_ak = '你的ak码'#访问百度地图开发平台的AK秘钥url = 'http://api.map.baidu.com/geocoder/v2/?address=%s&output=json&ak=%s'#以json格式返回输出数据,json改成XMLadd='恒大绿洲'#获取百度地图的数据方法...

2018-04-11 16:36:17 3678

原创 信用卡欺诈交易检测

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']raw_credit = pd.read_csv('creditcard.csv')#数据可以在kaggle上获取raw_credit.head()...

2018-04-10 15:13:24 1851

转载 类别比例严重不平衡常用处理方法

如果你研究过一点机器学习和数据科学,你肯定遇到过不平衡的类分布(imbalanced class distribution)。这种情况是指:属于某一类别的观测样本的数量显著少于其它类别。这个问题在异常检测是至关重要的的场景中很明显,例如电力盗窃、银行的欺诈交易、罕见疾病识别等。在这种情况下,利用传统机器学习算法开发出的预测模型可能会存在偏差和不准确。发生这种情况的原因是机器学习算法通常被设...

2018-04-09 21:52:32 1538

原创 电影数据集分析

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport reimport nltkimport jsonimport matplotlib.image as mpimgplt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axe...

2018-04-09 14:50:31 8503 1

原创 nlp学习笔记

npl和文本分析的应用领域:搜索引擎,情感分析,主题建模,词性标注,实体识别等。本小结知识是关于如何从文本数据中提取有用的信息#tokenize将一个文本分割成有意思的标记,比如一个文本分割成若干单词或者句子sample_text = "Are you curious about tokenization? Let's see how it works! We need to analy...

2018-04-08 21:56:06 466

原创 贷款自动审批模型的构建

这个案例的背景:金融领域,申请贷款的人很多,可能银行每天要面对很多贷款申请,其中可能有很多不具备贷款资格的申请,为了缓解审批人员的工作量,可以根据申请人的一些资料,做一个模型自动过滤那些不具备贷款资格申请表。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib.ima...

2018-04-05 18:46:48 4504 1

原创 链家武汉二手房分析和数据建模

#相应模块的导入import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport reimport seaborn as snsimport matplotlib.image as mpimg # mpimg 用于读取图片plt.rcParams['font.sans-serif'] = ['SimH...

2018-04-04 09:36:55 3228 1

原创 爬虫爬取链家二手房信息,对二手房做分析

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom bs4 import BeautifulSoupimport requestsdef generate_web_link(districts): '''此函数生成武汉地区所有区域二手房网页链接地址''' page_url...

2018-04-02 16:45:39 2555

原创 用selenium模拟登陆知乎账号,处理登陆界面随机出现验证码窗口的问题

import requestsfrom selenium import webdriverfrom bs4 import BeautifulSoupimport timewhile True: #option = webdriver.ChromeOptions() #option.set_headless() #因为要手动输入验证码,所以无头模式注释掉 ...

2018-04-01 20:56:28 2895

原创 数据挖掘岗位分析

import requestsfrom bs4 import BeautifulSoupimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom selenium import webdriverimport builtwithimport re#检查网站采取了那些技术html = re...

2018-03-30 12:48:26 3510 1

原创 SQL必知必会

1:select语句Python连接实现import pymysqlcon = pymysql.connect(host='localhost',port=3306,user='root',passwd='123456',db='learning_sql')cursor = con.cursor()cursor.execute('SELECT prod_id,prod_name,pr...

2018-03-29 11:17:36 383

原创 excel笔记

countif函数(数据块,if条件),对满足条件的单元块计数 if函数(条件,条件为真的时候值,条件为假的时候值) left函数(text,num_chars)提取文本左边num个字符 right函数与之类似 concatenate(tex1,text2)将几个字符串和平成一个字符串。 vlookup函数(要查找的值,被查找的表格第一列必须为要查找的值,希望匹配值的列序号(相对于被查找表...

2018-03-26 21:40:19 424

原创 数据分析采用的方法

1:5w2h:比如如研究用户购买的行为的,可以多问问自己,用户为什么买(why),用户什么时候买(when),用户买了什么商品(what),那些用户买了我们商品(who),那些地区的用户买了我们商品(where),用户用什么方式买的(how),用户买了多少(how much) 2:逻辑树分析法:把一个打问题分成树杈状的小问题一步一步解决。 3:4p营销理论:比如公司业务分析,公司生产什么产品(...

2018-03-26 15:50:32 237

原创 数据库mysql和sql知识笔记

show databases;显示mysql中的所有数据库。 show tabbles;显示mysql中的表。 describe 表名:显示表的的具体信息。 help show;显示help所有能用的语句。 select 列名 1,列名2 from 表名 order by 列名(desc) limit 数字 :从指定表中选择一个指定列,列名用逗号隔开。可以按列排序,desc是按降序...

2018-03-23 23:11:29 220

原创 数据预处理知识

均值,中位数,众数在各种分布中的位置 数据清理:处理缺失值,光滑噪声数据,识别或者删除离群值,解决不一致的数据。 数据集成:不同数据库中的数据,多个数据源的数据整合到一起,在集成的过程中要考虑数据一致性的问题。比如,同一属性的数据在不同的数据库里,命名不同。 数据规约:包括维规约和数值规约。 维规约:数据压缩,比如主成分分析,小波变换,属性子集选择,属性...

2018-03-22 21:31:12 372

原创 数据分析

MySQL安装: pip install pymysql 创建数据库:CREATE DATABASE test; 使用数据库:USE test; 然后创建表:CREATE TABLE pages;数据表必须有一列 可以创建的字段类型有:bigint(7),varchar,timestamp 插入数据 INSERT INTO table(字段) VALUES(字段所要插入的值) 删除...

2018-03-19 22:18:13 225

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除