自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

机器学习、数据挖掘

机器学习、数据挖掘

  • 博客(83)
  • 收藏
  • 关注

原创 读暗时间学习笔记

day11.人类大脑是经过长时间进化的,先天就具备一定的思维定势,这种思维定势也受环境、家庭等关系影响,2.学会控制自己的情绪,人类的情绪很大程度上影响着人的思考,比如果你憎恶一个人,你往往就会反对他的所有历程,生气时说的话往往都没有经过深思熟虑3.自学很重要,人一生的积累自学的起码占90%4.书写是为了更好的思考5.通过现象看本质,知识的表现细节会迷惑我们的眼镜,阻碍我们对知识的转移...

2019-03-14 11:57:18 476

原创 金字塔原理学习笔记

        工作了一段时间发现人与人之间技能差异真的不大(当然也有很牛逼的人,这个另当别论),差异最大的是每个人的思考模式和思考逻辑,优秀的人思辨能力都很强,他们透过一些现象可以很系统的联想到很多事情,也有较高的深度,因此为了自己更好的的发展,都应当提高自己的思辨能力       既然学习金字塔,哪我们应该知道什么是金字塔,金字塔结构是怎么样的?大家一说到金字塔大家就会想到埃及金字塔,在古...

2018-11-27 15:14:09 1896

原创 深度学习Tensorlayer环境搭建

安装anaconda 在Anaconda Prompt 执行pip install Tensorlayer报如下错误Could not install packages due to anEnvironmentError: [WinError 5] 拒绝访问安装code增加--user成功安装成功导入模块包...

2018-11-19 14:47:36 621

原创 不均衡数据处理方法学习笔记

实际生产数据中会出现大量不均衡数据,如果直接对原始数据进行模型训练会使结果失真,达不到预期不均衡数据处理方法主要有三种:一.欠采样:常用的是随机采样缺陷:将多数类样本删除有可能会导致分类器丢失有关多数类的重要信息二.过采样:1.简单复制少数类样本,2.扩大数据集缺陷:可能会导致分类器学习出现过拟合现象三.SMOTE过采样:利用特征空间中现存少数类样本之间的相似性来建立人工数据的(基于...

2018-11-16 15:25:25 942 1

原创 hive和presto的一些对比

1.处理json类型的数据xx:{gory_id=2, custom={"dis":"0.1","test":"test","position":"2"}, id=0}presto处理如下:select xx, json_extract_scalar(xx['custom'],'$.position')from tablelimit 1000hive处

2018-11-08 15:30:30 19263

原创 lightGBM和XGBoost使用方法总结

1.直接import  lightgbm as lgt 和import  XGBoost as lgt这种方式在做训练的时候需要把数据转换成模型所能处理的格式,刚入手的人容易犯错lightGBM为Dataset格式:lgb_train = lgb.Dataset(train_X, train_y, free_raw_data=False)lgb_eval = lgb.Dataset(t...

2018-11-07 18:09:05 2291 1

原创 提升算法——lightGBM原理学习笔记

中文官方文档:http://lightgbm.apachecn.org/cn/latest/Installation-Guide.html英文官方文档:https://lightgbm.readthedocs.io/en/latest/1.lightGBM安装在anaconda中输入:pip install lightGBM即可输入import lightgbm as lgb做测试...

2018-10-31 17:22:27 3779

转载 L2正则化项为什么能防止过拟合学习笔记

https://www.cnblogs.com/alexanderkun/p/6922428.htmlL2 regularization(权重衰减)L2正则化就是在代价函数后面再加上一个正则化项:C0代表原始的代价函数,后面那一项就是L2正则化项,它是这样来的:所有参数w的平方的和,除以训练集的样本大小n。λ就是正则项系数,权衡正则项与C0项的比重。另外还有一个系数1/2,1/2经...

2018-10-31 11:50:40 8525

原创 数据挖掘流程学习笔记—数据探索

数据挖掘流程1.数据探索1.1 数据质量分析a. 缺失值原因:有些信息暂时无法获取或者代价太大;有些信息被遗漏;属性值影响影响:丢失大量有用信息;模型的不确定性更加显著,蕴含的规律难以把握;不可靠的输出处理方法:删除存在缺失值的记录;插补;不处理b.异常值原因:录入错误、含有不合理数据处理方法:简单统计量分析;箱型图分析等c.一致性分析:数据的矛盾性、不相容...

2018-10-23 16:02:19 324

原创 利用python抓取搜狗指数学习笔记

1.搜狗指数强调下:搜狗指数抓取真的很简单、很简单、很简单,大家一定不要被吓到,哈哈哈哈。搜狗指数是一个指数指标,能够反应出来每天人们搜索的趋向,每天都有搜索变化表以及随机搜索内容。本来打算爬取百度指数,但是百度的反爬虫做的很好,均要解析图片,因此先以搜狗进行学习,后续进行百度指数爬取。先看一下搜狗关键词主界面进入开发者模式:XHR出现链接,刚开始点开是没有的,可以点一下P...

2018-09-27 17:44:49 1448

原创 利用代理IP爬取京东网站手机数据

1.代理简介              在爬虫过程中如果经常用自己的IP进行爬虫会出现IP被封的可能,这就要用到代理技术,通过爬取代理网站的IP地址,每次爬取页面就随机选择一个IP地址进行爬取,这样就会降低IP被封的可能性。       代理(英语:Proxy),也称网络代理,是一种特殊的网络服务,允许一个网络终端(一般为客户端)通过这个服务与另一个网络终端(一般为服务器)进行非直接的连接...

2018-09-26 17:25:16 1652

原创 欠拟合和过拟合学习笔记

       在建模的过程中会经常出现1.模型的效果,但是泛化能力弱,2.模型的结果很差的情况,即过拟合和欠拟合,一下是总结的学习笔记1.1欠拟合欠拟合现象:模型准确率低欠拟合原因:模型没有很好地捕捉到数据特征,不能够很好地拟合数据,欠拟合解决方法:1)特征项不够增加特征项。例如,'拉长时间',‘’变量组合‘’、“特征泛化”、“相关性”等2)添加多项式特征,这个在机器学习算...

2018-09-07 17:10:33 747

原创 相关性和显著性检验学习笔记

       相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析,反应的线性相关程度的量,比如:流量和收入,收入和顾客、订单等的关系,就具有相关性。相关性分为:正向相关、负相关、不相关(不存在线性关系、可能存在其他关系)、强相关、弱相关为什么要对相关系数进行显著性检验?       因...

2018-09-07 14:49:51 20608

原创 python抓取京东历史促销信息并做统计分析的学习笔记

参考链接:http://www.sohu.com/a/214617344_654419github链接: https://github.com/hscheng/python参考博文和github均有详细代码,本文记录自己学习过程,初始链接:https://www.jd.com/moreSubject.aspx,分析网页内容,标红的页面开始是没有的,多点几个页面就会出现打开链接出...

2018-08-23 19:10:05 1435

原创 jieba分词出现如下错误:AttributeError: 'float' object has no attribute 'decode'

在利用结巴(jieba)进行分词时出现如下错误,AttributeError: 'float' object has no attribute 'decode': 真实挺无语的,当读取编码为utf8时不会报错,当读取为gbk时会报这类错误,这个可以解决很多此类型的错误。原始内容:def cutword(x): seg = jieba.cut(x) #结巴分词函数 ...

2018-08-15 19:48:01 42426 3

原创 python爬虫代理学习笔记

       当同一ip短时间内多次链接同一网站,很可能导致ip被封,为了避免远程服务器封锁IP,或者想加快爬取速度,一个可行的方法就是使用代理IP,我们需要做的就是创建一个自己的代理IP池。思路1.从代理网站爬取IP地址及端口号并存储 (以西刺代理为例)2.验证ip能否使用并将能使用的IP和端口号存储起来3.从代理池中随机选择一个IP进行爬去验证具体实现1.爬取代理fr...

2018-08-14 23:08:13 241

原创 利用selenium+PhantomJs/Chrome爬取医疗网站医院信息学习笔记

      今天学习爬取一个医疗网站的医院数据,html页面有属性和标签,返回的请求也有属性和标签,但是用BS\re等均匹配不到数据,简直是无语了,后来通过查找资料发现页面被JS渲染了,利用普通的规则是无法获取数据的,但phantomjs很好的解决了这个问题。      PhantomJS 是一个基于WebKit的服务器端 JavaScript API。它全面支持web而不需浏览器支持,其快速...

2018-08-10 14:19:33 1931

原创 Spark概念知识笔记

文章参考链接:点击打开链接最近总结了个人的各项能力,发现在大数据这方面几乎没有涉及,因此想补充这方面的知识,丰富自己的知识体系,大数据生态主要包含:Hadoop和Spark两个部分,Spark作用相当于MapReduceMapReduce和Spark对比如下         磁盘由于其物理特性现在,速度提升非常困难,远远跟不上CPU和内存的发展速度。近几十年来,内存的发...

2018-07-04 20:03:11 306

原创 在ubuntu16虚拟机上安装Hadoop+spark+anaconda笔记

最近在学习利用spark进行数据挖掘,整理了一下安装过程,以前安装过老版本,不能跟上发展需要,一下问新版本安装过程仅供参考:一.软件下载地址:由于我电脑是windows的但是windows安装会遇到很多兼容性问题,因此在本机安装了虚拟机进行学习,整理了VMware、ubuntu镜像文件、jdk、Hadoop、scala、spark和anaconda的下载地址:VMware下载地址:  ...

2018-07-03 19:56:47 1168

原创 pyecharts学习笔记

        echarts是百度可视化工具,图形的可视化效果很好,pyecharts是利用python实现生成echarts图表的类目,功能非常强大,用了之后瞬间被圈粉了,以下为学习笔记中文官方文档:点击打开链接1.基本语法学习from pyecharts import Barbar = Bar("我的第一个图表", "这里是副标题")bar.add("服装", ["衬衫",...

2018-06-13 18:14:14 28382 5

原创 利用scrapy抓取豆瓣top250数据并进行分析学习笔记

        上一篇爬虫文章记录了利用scrapy爬去西安天气数据,本文主要是记录在学习中利用scrapy爬去豆瓣top250的电影并进行分析数据过程。 1.建立一个爬虫项目scrapy startproject douban2.在spider中建立douban爬虫文件3.配置items.py文件4.配置settings.py文件USER_AGENT换成自己...

2018-06-12 19:36:50 1376

原创 利用echarts做堆积折线图

        工作需要做堆积图和折线图的组合,比如总收入、收入分成交易和广告,同时还想看收入的环比,但是excel做起来比较麻烦,在此利用echarts可以方便实现直接上代码:<!DOCTYPE html><html><head> <meta charset="utf-8"> <title>EChart...

2018-06-06 18:56:04 4751

原创 python爬虫之利用scrapy框架抓取新浪天气数据

scrapy中文官方文档:点击打开链接Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试,Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫...

2018-06-01 15:18:21 1407

原创 python爬虫之Xpath和lxml学习笔记03

        XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构,有不同类型的节点,包括元素节点,属性节点和文本节点,提供在数据结构树中找寻节点的能力。 [1]  起初 XPath 的提出的初衷是将其作为一个通用的、介于XPointer与XSLT间的语法模型。但是 XPath 很快的被开发者采用来当作小型查询语言。...

2018-05-30 13:07:52 408

原创 python爬虫之CSS学习笔记02

以百度首页为测试:import urllib2response = urllib2.urlopen("http://www.baidu.com")print (response.read())报如下错误原因:,在python3.3里面,用urllib.request代替urllib2,改成如下import urllib.requestresp=urllib.request.urlopen('...

2018-05-23 19:44:22 153

原创 python爬虫之Beautiful Soup学习笔记01

        Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,...

2018-05-23 19:06:54 281

原创 echarts(JavaScript)做桑基图

在分析工作中需要做流量分发,桑基图可以很好的展示流量分发的过程,数据展示如下图code如下:<!DOCTYPE html><html> <head> <title>Sankey</title> <meta http-equiv="X-UA-Compatible" content="IE=edge&

2018-05-15 19:47:47 4263

原创 echarts(JavaScript)加载json的辛酸史

作为非前端开发出身的数据从业人员,echarts数据可视化功能太强大了,通过直接把数据写入到代码里可以实现,但是当数据量太大或者反复操作时,写到代码里太耗时了,因此需要学习js加载文件的方法,去自动化图形,一下记录自己再学习中所遇到的坑。先上代码:<!DOCTYPE html><html> <head> <meta charset="UT...

2018-05-09 20:11:16 8397 2

原创 主题模型学习笔记1 认识gamma函数、二项分布、多项分布、beta函数、狄利克雷分布

1.Gamma函数2.二项分布3.多项分布4.Beta分布5.狄利克雷分布狄利克雷分布是Beta分布的推广,beta分布是狄利克雷的特例 

2018-04-26 19:40:30 571

原创 xgboost原理推导和python实现

        本文通过学习陈天奇博士的slides和一些官方文档梳理了xgboost原理和推导过程,仅仅是初步梳理,还有很多问题需要进一步研究,整体感觉Xgboost很强大,集合了CART、boosting、bagging的优点,包括树的剪枝、行采样、列采用、正则化项等二.Xgboost基本原理英文:http://xgboost.readthedocs.io/en/latest中文:...

2018-04-26 15:01:43 11073 6

原创 Windows+Xgboost+Anaconda环境搭建

 介绍:    Xgboost ( eXtreme Gradient Boosting )是陈天奇博士开发的一个基于GBDT的机器学习算法,此算法适用于分类和回归,优点:速度快、效果好、能处理大规模数据、支持多种语言、支 持自定义损失函数等等。 缺点:发布时间短(2014),工业领域应用较少,待检验;安装步骤:1.在Anaconda中直接输入pip install xgboost:会出...

2018-04-24 11:47:07 299 1

原创 数据分析—用excel2016和python画箱线图

箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。一.用excel画箱线图Excel2016版可以直接画箱线图:插入-->箱线图(but:2016不能调分两类间距,体检不...

2018-04-23 18:46:57 9934

原创 数据分析—用户行为分析

 电商网站用户购物路径如下:           用户行为分析定义:对用户购物路径日志信息进行统计、分析,从中发现用户访问网站的规律,并将这些规律与网络营销策略等相结合,从而发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营销策略提供依据。         用户行为分析目的:通过对用户行为监测获得的数据进行分析,可以让企业更加详细、清楚地了解用户的行为习惯,从而找出网...

2018-04-17 19:57:58 22691 1

原创 数据分析—RFM模型

信息时代的来临使得企业营销的焦点从产品中心转化为客户中心,客户关系关系成为企业的核心问题,客户关系管理的核心问题是客户分类,通过客户分类区分无价值、高价值客户,针对不同价值的客户采取不同的营销策略,以实现企业利润的最大化;       RFM模型是衡量客户价值和客户创利能力的重要工具和手段。在众多的客户关系管理(CRM)的分析模式中,RFM模型是被广泛提到的。该机械模型通过一个客户的近期购买行...

2018-04-16 23:35:51 15199

原创 数据分析----BCG模型(波士顿矩阵分析)

  参考百度百科      波士顿矩阵(BCG Matrix) 又称市场增长率—相对市场份额矩阵、四象限分析法、产品系列结构管理法等,是一种规划企业产品组合的方法。问题的关键在于要解决如何使企业的产品品种及其结构适合市场需求的变化,只有这样企业的生产才有意义。        波士顿矩阵是由BCG提出的,这个模型主要用来协助企业进行业务组合或投资组合。在矩阵坐标轴是的两个变量分别是业务单元所...

2018-04-15 18:41:47 34746

原创 安装tflearn报错(typeerror parse() got an unexpected keyword argument transport_encoding)

原文:http://blog.csdn.net/cheese_pop/article/details/78201359查了一些大神的博客,在anaconda prompt窗口安装tflearn会报如下错误:typeerror parse() got an unexpected keyword argument transport_encoding错误是在安装了TensorFlow后出现...

2018-01-29 16:14:34 5487

转载 利用python画中热力地图

原大神博客:http://blog.csdn.net/ouening/article/details/78882094import numpy as npimport pandas as pdimport foliumimport webbrowserfrom folium.plugins import HeatMapposi=pd.read_excel("2015Cities-CHI...

2018-01-29 14:12:04 11103

原创 利用python画词云图(wordcloud)

想通过python展示一些词出现频率,通过词大小显示出现次数,因此以下为主要搭建环境过程1.安装wordcloud直接通pip  install wordcloud会报VC++错误结局方法1.网上建议安装Twisted-17.9.0-cp36-cp36m-win_amd64.whl  下载并安装依然报错2.自己下载wordcloud-1.3.2-cp36-cp36m-win_a

2017-12-20 19:22:16 2706

转载 L0、L1、L2范数学习笔记

 1 L0范数L0范数表示向量中非0元素的个数,即希望数据集中的大部分元素都是0(即希望数据集是稀疏的),所以可以用于ML中做稀疏编码,特征选择,即通过L0范数来寻找最少最优的稀疏特征项。但不幸的是,L0范数的最优化问题是一个NP hard问题,而且理论上有证明,L1范数是L0范数的最优凸近似,因此通常使用L1范数来代替。2 L1范数 常见应用为:Lasso Reg...

2017-10-12 17:34:36 1928

原创 Bagging算法和Boosting区别和联系

参考文章链接:http://www.cnblogs.com/liuwu265/p/4690486.htmlBagging和Boosting都是将弱分类器组装成强分类器的方法备注:弱分类器也是有一定限制的起码分类效果要比随机分类效果好,即准确率要大于50%,否则即使组装成多个分类器的组合效果也不会很好)1、Bagging 算法A)设原始数据数量为K,从K个训练样本中随机抽取k个数...

2017-09-21 10:05:38 2785

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除