自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 Pyecharts做BI大屏如何自适应屏幕大小

#PAGE放图,这个正常的做就可以了page = Page(page_title='BI_测试')page.add(bar3D,c)page.render('page.html')#page.render_notebook()#<meta name=”viewport” content=”width=device-width, initial-scale=1″ />#做成BI大屏的时候,要把HTML文件改成自适应屏幕,需要添加上面这个meta,并且所有涉及px的,都需要改成百分.

2021-02-01 13:08:51 1847

原创 python自动化——对word的指定位置放入图片

在word中插入N行3列的图片,并在相对的位置放入对应名称首先是python-docx中的函数#在word中添加指定图片add_picture(image_path_or_stream, width=None, height=None)add_picture只能添加一行一张图片,所以没办法满足需求。然后通过面向百度编程,触类旁通,看到VBA有类似的处理方法,先在word文档中插入指定的N行3列的表格#插入N行3列表格doc.add_table(rows, cols, style

2020-07-24 14:33:51 6885 3

原创 基于RFM的用户价值管理

python数据分析与数据化运营 第二版 宋天龙import time # 时间库import numpy as np # numpy库import pandas as pd # pandas库from sklearn.ensemble import RandomForestClassifier # RF库#读取数据sheet_names =...

2019-09-07 14:44:18 404

原创 R基本绘图

attach(iris)#绘制散点图plot(Petal.Length~Petal.Width)#绘制Petal.Length变量的均值的水平线abline(h=mean(Petal.Length),col='purple')#绘制Petal.Width的竖直线abline(v=mean(Petal.Width),col='purple')#绘制拟合线abline(lm(Peta...

2019-04-14 21:54:18 369

转载 利用one-class SVM进行异常值检测

python数据分析与数据化运营 宋天龙sklearn中提供了one-class SVM和EllipticEnvelope两种方法用于异常检测,前者基于libsvm实现的非监督式异常检测方法,可用于做高维度分布的评估;后者只能做基于高斯分布数据集的异常检测。本节示例模拟的是针对一批没有任何标签的原始数据做异常检测模型训练,然后通过新的测试集来发现新数据集中的异常数据。...

2019-04-09 20:28:49 6345 1

转载 数据标准化处理

python数据分析与数据化运营 宋天龙 著 数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。除了用作模型计算,标准化后的数据还具有了直接计算并生成复合指标的意义,是加权指标的必要步骤。 Z-Score标准化是基于原始数据的均值和标准差进行的标准化,假...

2019-03-28 21:11:36 5473 4

转载 解决数据共线性的问题

#python数据分析与数据化运营 宋天龙 著import numpy as npfrom sklearn.linear_model import Ridgefrom sklearn.decomposition import PCAfrom sklearn.linear_model import LinearRegression# 读取数据data = np.loadtxt('da...

2019-03-28 20:35:15 1075

原创 使用matplotlib进行三维图可视化

#python3.6 pycharmimport matplotlibmatplotlib.use('TkAgg')from mpl_toolkits import mplot3dimport numpy as npimport matplotlib.pyplot as pltfig = plt.figure()#创建一个三维坐标轴ax = plt.axes(projection...

2019-03-26 18:11:29 4136

原创 核支持向量机,python实现

参考用书:python机器学习基础教程 [德]Andreas C.Muller [美]Sarah Guido 著 张亮 译支持向量机可以同时用于分类和回归,但这篇文章只介绍用于分类的情况,它在 SVC 中实现。类似的概念也适用于支持向量回归,后者在 SVR 中实现。线性模型在低维空间中可能非常受限,因为线和平面的灵活性有限。有一种方法可以让线性模型更加灵...

2019-03-23 22:22:16 573

原创 决策树基础,python实现

参考用书:python机器学习基础教程 [德]Andreas C.Muller [美]Sarah Guido 著 张亮 译决策树是广泛用于分类和回归任务的模型。本质上,它从一层层的 if/else 问题中进行学习,并得出结论。防止过拟合有两种常见的策略:一种是及早停止树的生长,也叫预剪枝(pre-pruning);另一种是先构造树,但随后删除或折叠信息量...

2019-03-22 20:50:14 432

原创 线性模型,python实现

参考用书:python机器学习基础教程 [德]Andreas C.Muller [美]Sarah Guido 著 张亮 译线性模型利用输入特征的线性函数(linear function)进行预测。普通最小二乘法(ordinary least squares,OLS),是回归问题最简单也最经典的线性方法。线性回归寻找参数 w 和 b,使得对训练集的预测值与真...

2019-03-21 20:55:33 2016

原创 用R实现神经网络

参考用书:数据挖掘:R语言实战 黄文 王正林 编著神经网络是一种运算模型,由大量的节点(或神经元)和之间的相互连接构成,每个节点代表一种特定的输出函数。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称为权重,这相当于神经网络的记忆。神经网络分为俩类:分类和回归注意点1难解释2会学习过度,需要恰当的使用严格衡量神经网络的方法,如测试集和交叉验证。3,费时间...

2019-03-10 22:22:10 5070

原创 用R实现SVM

参考用书:数据挖掘:R语言实战 黄文 王正林 编著支持向量机方法建立在统计学理论的VC维理论和结构风险最小原理的基础下,根据有限样本在模型的复杂性和学习能力之间寻求最佳折中,以期获得最好的推广能力。统计学习的目标从经验风险最小化变为了寻求经验风险与置信风险之和最小化,即结构风险最小化。e1071包svm(formula, data = NULL, ..., subse...

2019-03-09 20:22:01 2777

原创 用R实现随机森林

参考用书:数据挖掘:R语言实战 黄文 王正林 编著随机森林基于决策树的分类器集成算法,其中每一棵树都依赖于一个随机向量,森林中的所有向量都是独立分布的。通过自主法重采样技术,从原始训练样本集N中有放回地重复随机抽取k个严格不能生成新的训练集样本集合,然后根据自主样本生成k个决策树组成的随机森林,新数据的分类结果按决策树投票多少形成的分数而定。1.首先我们用N来表示原...

2019-03-09 20:18:30 2708

原创 用R实现集成学习

参考用书:数据挖掘:R语言实战 黄文 王正林 编著集成学习的两个经典算法是Bagging和AdaBoost分别用不同的方式将若干类基分类器的预测结果进行综合,以达到显著提升分类效果的目的Bagging通过boostrap抽样得到若干不同的训练集,分别建立模型,得到一系列基分类器,它们对同一测试集的预测效果不一,AdaBoost在依次构建分类器的过程中,会根据上一个集分...

2019-03-07 20:59:49 1367 5

原创 用R实现KNN推荐案例

参考用书:数据挖掘:R语言实战 黄文 王正林 编著整体思路1,选择用户已给出评分的用户假设有m位符合的用户,获取电影ID2,再找出对某电影进行评分的用户,假设有m位符合的用户,并获取用户ID3,利用以上获取的三组ID,构造训练集data-train和测试集data—test。4,将相应的训练集与测试集按顺序放入knn()函数,即可预测出用户对电影的评分值#Mo...

2019-03-06 20:30:40 1280

原创 用R实现判别分析

参考用书:数据挖掘:R语言实战 黄文 王正林 编著判别分析判断样本所属的类别,其依据是那些已知类别样本的属性信息。主流的三大判别分析算法费希尔判别、贝叶斯判别和距离判别费希尔判别的基本思想就是投影,即将高维空间的点向低维空间投影,从而简化问题进行处理投影轴的要求,保证每一类之内的投影值所形成的类内离差尽可能小,不同类之间的投影所形成的类间离差尽可能大,贝叶斯判别根据...

2019-03-05 17:36:25 1574

原创 用R实现聚类分析

参考用书:数据挖掘:R语言实战 黄文 王正林 编著聚类分析把若干事物按照某种标准归为几个类别K-均值聚类(K-Means)K-中心点聚类(K-Medoids)密度聚类(DBSCAN)系谱聚类(HC)期望最大化聚类(EM)K-均值聚类(K-Means):随机选取的k个样本作为起始中心点,将其余样本归入相似度最高中心点所在的簇,再确立当前簇中的样本坐标的均值为新的...

2019-03-02 21:50:27 1184

原创 用R实现关联分析文档

关联分析是数据挖掘的核心技术之一,经典案例啤酒和纸尿裤项集:集合的概念 ( itemset)关联规则(Association RUle)三个核心概念:支持度(support)、置信度(confidence)和提升度(lift)install.packages("arules")#下载arules包library(arules)#加载?apriori#apriori(data, p...

2019-03-01 21:48:36 766

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除