墨禾-CSDN博客

原创维基百科词条编辑贡献可视化

import requestsimport reimport jsonfrom bs4 import BeautifulSoupfrom urllib.request import urljoinimport collectionsfrom pyecharts import Mapdef get_view_history_link(search_word): "该函数用...

2018-04-25 12:00:15 478

原创 scrapy框架的用法

#常用命令行scrapy crawl xxxx#开始运行一个爬虫scrapy check #检查爬虫是否有bugscrapy list #返回项目里有哪些爬虫scrapy shell url#返回网页的响应，可以进行交互式操作scrapy view URL #访问网而后，可以查看网页访问结果，可以查看网页是否使用ajax加载#常用选择方法response.xpath('//ti...

2018-04-24 19:16:38 240

原创 selenium用法

from selenium import webdriver driver = webdriver.Chrom()#生成谷歌浏览器对象 dirver.get('http://www.taobao.com')#打开淘宝 driver.page_source#获取获得网页的源代码 driver.find_element_by_xpath('xpath语句')#通过xpath查找元素常用...

2018-04-23 22:30:58 265

原创 bs4用法

beautfulsoup常用的解析器，html.parser(python)自带，速度适中，lxml解析库，速度库，文档容错能力强，需要安装lxml库，建议用这个 from bs4 import BeautifulSoupimport requestsres = requests.get(url).text###标签的选择方法###soup = BeutifulSoup(res,'...

2018-04-23 21:37:48 1329

原创 request库的应用

安装 pip install requestsimport requestsurl = 'http://www.baidu.com'res = requests.get(url)print(res.status_code)#打印请求状态print(res.cookies)#打印cookiesprint(res.text)#打印响应内容字符串print（res.content）#打印...

2018-04-23 19:36:03 229

原创 window 7如何安装mongodb

https://www.mongodb.com/download-center#community去下载3.4 community sever 版本的，我安装3.6的安装不上按照提示，很容易安装在MongoDB下创建data，在data下再创建db：D:\MongoDB\data\db（你自己的安装路径）因为启动mongodb服务之前需要必须创建数据库文件的存放文件夹，否则命令不会自动...

2018-04-23 16:25:50 114

原创 xpath,css选择器

/ 从根节点选取 // 从匹配当前节点选择文档中的节点。选择当前节点。。选择当前节点的父节点 @选择属性 *匹配任何元素节点 @*匹配任何属性节点 Node（）匹配任何类型的节点...

2018-04-21 21:47:35 193

原创小脚本，练练coding

九九乘法表def print_99_mutiply_table(): for i in range(1,10): for j in range(1,i+1): print('{} X {} = {}'.format(j,i,i*j),end=' ')#end参数表每行答应完毕，用空格结尾 print('\n')斐波那契数列...

2018-04-20 15:36:33 144

原创异常检查

时间序列：事情的发展具有连续性，只要赖以发生的条件不发生质的变化，事物在未来的基本发展趋势任然会延续下去时间序列常用的算法移动平均（mv moving average）指数平滑（es exponetial smoothing）差分自回归移动平均模型（arima auto-regression integrated moving average model）应用有经济预测，股市预...

2018-04-20 14:38:04 134

原创分类算法

分类算法的选择文本分类的时候，最多使用的是贝叶斯算法训练集很小的时候，可以选择svm，朴素贝叶斯，这类算法效果会比较好如果是关注的是算法模型计算时间，支持向量机和神经网络不是很好的选择如果重视模型的精度，那么可以考虑svm，rf 如果要得到模型预测的概率，基于概率做进一步的分析，可以考虑精度不是很高的逻辑斯蒂回归...

2018-04-18 21:50:53 182

原创回归算法

比较常见的回归算法：线性回归，多项式回归，岭回归，lasso，弹性网络等回归算法常用的评估标准： R2R2R^2它反映了因变量的变异能通过回归关系被自变量解释的比例。值为1的时候，表示观测点全部落到回归拟合线上计算公式 R2R2R^2 = 回归平方和/总平方和回归平方和 = 总平方和 - 残差平方和 ...

2018-04-17 22:38:53 1509

原创 k-means算法

聚类算法选择：如果数据维度很高，可以选择谱聚类，它是基于选择用聚类密切相关的维度，对子空间进行聚类如果数据为小规模的少于100万条，可以使用KMEANS,如果超过100万条，可以用考虑使用mini batch kmeans 如果数据有离群点，可以考虑dbscan 如果追求分类准确率，谱聚类比kmeans好聚类算法常用的指标：兰德系...

2018-04-17 10:08:51 183

原创亚马逊苹果手机数据爬取

亚马逊苹果手机相关信息爬取import refrom bs4 import BeautifulSoupimport timeimport requestsamazon_url = 'https://www.amazon.cn/s/ref=sr_pg_2?rh=n%3A664978051%2Cn%3A665002051%2Ck%3Aiphone&page=1&bbn=66...

2018-04-15 23:15:35 477

欧几里距离：∑ni=0(xi−yi)2−−−−−−−−−−−−√∑i=0n(xi−yi)2\sqrt{\sum_{i=0}^n(x_i-y_i)^2} 闵可夫斯基距离：∑ni=0(xi−yi)p−−−−−−−−−−−−√p∑i=0n(xi−yi)pp\sqrt[p]{\sum_{i=0}^n{(x_i-y_i)}^p} 余弦相似性： x⋅y∥x∥∥y∥x⋅y‖x‖‖y‖\frac{x\cdot...

2018-04-14 22:54:47 125

原创 python如何连接数据库

import pymysqlcon=pymysql.connect(host='localhost', user='root', password='123456', port=3306, database='python')#连接的关键...

2018-04-14 09:11:34 359

原创算法和算法复杂度

算法衡量指标：正确性，可读性，易维护性，运行时间算法计算时间可以通过复杂度的阶表示：对数阶（log2xlog2⁡x\log_2 x）,线性阶（x），多项式阶（x2x2x^2）,指数阶（2x2x2^x）大O表示法，表示在。。。。。阶，线性时间算法的阶为：O(n)#找出一个列表中最小值的索引def index_of_min(shuffle_list): index_min =...

2018-04-12 12:02:30 266

原创百度地图数据获取

import requestsimport jsonbaidu_ak = '你的ak码'#访问百度地图开发平台的AK秘钥url = 'http://api.map.baidu.com/geocoder/v2/?address=%s&output=json&ak=%s'#以json格式返回输出数据，json改成XMLadd='恒大绿洲'#获取百度地图的数据方法...

2018-04-11 16:36:17 3678

原创信用卡欺诈交易检测

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']raw_credit = pd.read_csv('creditcard.csv')#数据可以在kaggle上获取raw_credit.head()...

2018-04-10 15:13:24 1851

转载类别比例严重不平衡常用处理方法

如果你研究过一点机器学习和数据科学，你肯定遇到过不平衡的类分布（imbalanced class distribution）。这种情况是指：属于某一类别的观测样本的数量显著少于其它类别。这个问题在异常检测是至关重要的的场景中很明显，例如电力盗窃、银行的欺诈交易、罕见疾病识别等。在这种情况下，利用传统机器学习算法开发出的预测模型可能会存在偏差和不准确。发生这种情况的原因是机器学习算法通常被设...

2018-04-09 21:52:32 1538

原创电影数据集分析

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport reimport nltkimport jsonimport matplotlib.image as mpimgplt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axe...

2018-04-09 14:50:31 8503 1

原创 nlp学习笔记

npl和文本分析的应用领域：搜索引擎，情感分析，主题建模，词性标注，实体识别等。本小结知识是关于如何从文本数据中提取有用的信息#tokenize将一个文本分割成有意思的标记，比如一个文本分割成若干单词或者句子sample_text = "Are you curious about tokenization? Let's see how it works! We need to analy...

2018-04-08 21:56:06 466

原创贷款自动审批模型的构建

这个案例的背景：金融领域，申请贷款的人很多，可能银行每天要面对很多贷款申请，其中可能有很多不具备贷款资格的申请，为了缓解审批人员的工作量，可以根据申请人的一些资料，做一个模型自动过滤那些不具备贷款资格申请表。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib.ima...

2018-04-05 18:46:48 4504 1

原创链家武汉二手房分析和数据建模

#相应模块的导入import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport reimport seaborn as snsimport matplotlib.image as mpimg # mpimg 用于读取图片plt.rcParams['font.sans-serif'] = ['SimH...

2018-04-04 09:36:55 3228 1

原创爬虫爬取链家二手房信息，对二手房做分析

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom bs4 import BeautifulSoupimport requestsdef generate_web_link(districts): '''此函数生成武汉地区所有区域二手房网页链接地址''' page_url...

2018-04-02 16:45:39 2555

原创用selenium模拟登陆知乎账号，处理登陆界面随机出现验证码窗口的问题

import requestsfrom selenium import webdriverfrom bs4 import BeautifulSoupimport timewhile True: #option = webdriver.ChromeOptions() #option.set_headless() #因为要手动输入验证码，所以无头模式注释掉 ...

2018-04-01 20:56:28 2895

原创数据挖掘岗位分析

import requestsfrom bs4 import BeautifulSoupimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom selenium import webdriverimport builtwithimport re#检查网站采取了那些技术html = re...

2018-03-30 12:48:26 3510 1

原创 SQL必知必会

1：select语句Python连接实现import pymysqlcon = pymysql.connect(host='localhost',port=3306,user='root',passwd='123456',db='learning_sql')cursor = con.cursor()cursor.execute('SELECT prod_id,prod_name,pr...

2018-03-29 11:17:36 383

原创 excel笔记

countif函数（数据块，if条件），对满足条件的单元块计数 if函数（条件，条件为真的时候值，条件为假的时候值） left函数（text，num_chars）提取文本左边num个字符 right函数与之类似 concatenate(tex1,text2)将几个字符串和平成一个字符串。 vlookup函数（要查找的值，被查找的表格第一列必须为要查找的值，希望匹配值的列序号（相对于被查找表...

2018-03-26 21:40:19 424

原创数据分析采用的方法

1:5w2h：比如如研究用户购买的行为的，可以多问问自己，用户为什么买（why），用户什么时候买（when），用户买了什么商品（what），那些用户买了我们商品（who）,那些地区的用户买了我们商品（where）,用户用什么方式买的（how）,用户买了多少（how much） 2:逻辑树分析法：把一个打问题分成树杈状的小问题一步一步解决。 3：4p营销理论：比如公司业务分析，公司生产什么产品（...

2018-03-26 15:50:32 237

原创数据库mysql和sql知识笔记

show databases;显示mysql中的所有数据库。 show tabbles;显示mysql中的表。 describe 表名：显示表的的具体信息。 help show;显示help所有能用的语句。 select 列名 1，列名2 from 表名 order by 列名（desc） limit 数字：从指定表中选择一个指定列，列名用逗号隔开。可以按列排序，desc是按降序...

2018-03-23 23:11:29 220

原创数据预处理知识

均值，中位数，众数在各种分布中的位置数据清理：处理缺失值，光滑噪声数据，识别或者删除离群值，解决不一致的数据。数据集成：不同数据库中的数据，多个数据源的数据整合到一起，在集成的过程中要考虑数据一致性的问题。比如，同一属性的数据在不同的数据库里，命名不同。数据规约：包括维规约和数值规约。维规约：数据压缩，比如主成分分析，小波变换，属性子集选择，属性...

2018-03-22 21:31:12 372

原创数据分析

MySQL安装： pip install pymysql 创建数据库：CREATE DATABASE test; 使用数据库：USE test; 然后创建表：CREATE TABLE pages；数据表必须有一列可以创建的字段类型有：bigint（7），varchar，timestamp 插入数据 INSERT INTO table(字段) VALUES（字段所要插入的值）删除...

2018-03-19 22:18:13 225

nextbox

原创量化选股