自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(61)
  • 收藏
  • 关注

原创 基于pycharts全国民政局登记数据分析可视化

全国民政局登记数据分析可视化。

2023-02-04 22:08:30 419 1

原创 基于pycharts的白蛇2影评分析

电影简介2021年7月23日, 白蛇2:青蛇劫起在大陆上映,主要讲述南宋末年,小白为救许仙水漫金山,终被法海压在雷峰塔下。小青则意外被法海打入诡异的修罗城幻境。几次危机中小青被神秘蒙面少年所救,小青带着出去救出小白的执念历经劫难与成长,同蒙面少年一起寻找离开办法的故事。

2023-02-04 21:52:04 263 1

原创 基于pycharts星巴克门店分布可视化分析

基于pycharts星巴克门店分布可视化分析。

2023-02-04 21:34:58 1404 1

原创 KNN算法python自实现

KNN算法原理python实现

2022-10-23 10:25:05 856

原创 数据结构之复杂度

数据结构和算法是程序员的内功,从今天起开始学数据结构(java)目录数据结构和算法是程序员的内功,从今天起开始学数据结构(java)复杂度斐波那契数列 是前后两个数字加起来等于后面那个数字第一种方法通过递归调用 实现 第二种方法通过循环调用 实现 ​结果可知​​​​​​​什么是算法算法是用于解决特定问题的一系列执行步骤使用不同算法,解决一个问题效率可能相差非常大复杂度斐波那契数列 是前后两个数字加起来等于后面那个数字0 1 1 2...

2021-05-20 01:18:23 287 1

原创 推荐系统简介

目录推荐系统概念及产生背景推荐系统定义:信息过载 & 用户需求不明确推荐系统 V.S. 搜索引擎推荐系统的工作原理及作用推荐系统的工作原理推荐系统和Web项目的区别推荐系统设计1 推荐系统要素2 推荐系统架构大数据Lambda架构Lambda架构介绍推荐系统概念及产生背景个性化推荐(推荐系统)经历了多年的发展,已经成为互联网产品的标配,也是AI成功落地的分支之一,在电商(淘宝/京东)、资讯(今日头条/微博)、音乐(网易云音乐/QQ音乐...

2020-07-15 21:43:56 2171

原创 TensorFlow线性回归

目录代码实现MNIST数据集神经网络构建Softmax函数数据简单分类代码实现#导包import tensorflow as tfimport numpy as npimport matplotlib.pyplot as plt#使用numpy 生成200个随机点 x_data=np.linspace(-0.5,0.5,200)[:,np.newaxis]#newaxis加维度noise=np.random.normal(0,0.02,x_data.shape

2020-07-14 19:26:08 286

原创 TensorFlow的使用

Tensorflow基本概念使用图(graphs)来表示计算任务 在被称之为会话(Session)的上下文(context)中执行图 使用tensor表示数据 通过变量(Variable)维护状态 使用feed和fetch可以为任意的操作赋值或者从其中获取数据Tensorflow是一个编程系统,使用图(graphs)来表示计算任务,图(graphs)中的节点称之为op(operation),一个op获得0个或多个Tensor,执行计算,产生0个或多个Tensor。Tensor 看作是一个 n

2020-07-13 23:11:37 365

原创 传统神经网络

1. 神经网络起源:线性回归线性回归:线性关系来描述输入到输出的映射关系应用场景一个线性回归问题目标方程:y=ax1+bx2+cx3+d 参数:m=[a,b,c,d],数据:[(x1,1,x2,1,x3,1), (x1,2,x2,2,x3,2), …(x1,n,x2,n,x3,n)][y1,y2…..yn]预测:ŷt=ax1,t+bx2,t+cx3,t+d目标: minimize (ŷt -yt),使得预测的y值和真实y值越小越好。优化方法(优化目标)模型参数:当

2020-07-11 21:54:17 616

原创 深度学习总体介绍

知识结构传统到现在推动因素深度学习应用无人驾驶无人超市自动翻译个人助手深度学习应用特点优点:学习能力强,覆盖范围广,适应性好,可移植性好。缺点:计算量大,便携性差,硬件要求高,模型设计复杂,有可能被hack,长于计算,弱于算计。深度学习框架比较 框架 语言 语言 文档 资料 CNN 兼容 RNN ..

2020-07-10 23:16:55 276

原创 回归人脸自动补全

导包import numpy as npimport matplotlib.pyplot as plt%matplotlib inline# 构建方程from sklearn.linear_model import LinearRegression,Ridge,Lasso# 构建方程???from sklearn.neighbors import KNeighborsRegressorfrom sklearn.tree import DecisionTreeRegressor

2020-07-08 09:44:18 389

原创 逻辑斯蒂回归原理及其概率计算

逻辑斯蒂回归利用Logistics回归进行分类的主要思想是:根据现有数据对分类边界建立回归公式(f(x1,x2....))=w1x1+w2x2+.......),以此分类。这里的“回归”一词源于最佳拟合,表示要找到最佳拟合参数集。Logistic Regression和Linear Regression的原理(函数:二乘法(y-wx)^2,最小)是相似的,可以简单的描述这样的过程。原理过程预测函数原理代码实现import numpy as npX = ..

2020-07-03 22:45:45 3154 1

原创 线性回归,岭回归,套索回归等等

目录岭回归原理缩减系数来“理解”数据优点总结小结应用场景代码实现导包样本小于特征,无数个解打乱索引矩阵乘法比较三种算法计算斜率岭回归alpha最优化导包设X矩阵设y岭回归拟合画图表示 alpha和coefs的关系岭回归原理缩减系数来“理解”数据优点缩减方法可以去掉不重要的参数,因此能更好地理解数据。此外,与简单的线性回归相比,缩减法能取得更好的预测效果岭回归是加了二阶正则项的最小二乘,主要适.

2020-07-02 20:23:51 1034

原创 其他线性回归,岭回归等

普通最小二乘法范数范数(norm)是数学中的一种基本概念。在泛函分析中,它定义在赋范线性空间中,并满足一定的条件,即①非负性;②齐次性;③三角不等式。它常常被用来度量某个向量空间(或矩阵)中的每个向量的长度或大小。将数视为向量。当p取1,2,无穷的时候分别是以下几种最简单的情形:1-范数:║x║1=│x1│+│x2│+…+│xn│2-范数:║x║2=(│x1│2+│x2│2+…+│xn│2)1/2∞-范数:║x║∞=max(│x1│,│x2│,…,│xn│)其中2-.

2020-06-30 22:30:20 237

原创 手写线性回归

目录导包创建数据使用已有的线性回归拟合函数自己实现线性回归使用自己实现的线性回归拟合函数导包import numpy as npimport matplotlib.pyplot as plt%matplotlib inlinefrom sklearn.linear_model import LinearRegression#导入算法创建数据X = np.linspace(2,10,20).reshape(-1,1)# f(x) = wx + by.

2020-06-28 21:54:35 255

原创 线性回归原理及应用

基础知识几种常见函数的导数:① C'=0(C为常数);② (x^n)'=nx^(n-1) (n∈Q);③ (sinx)'=cosx;④ (cosx)'=-sinx;⑤ (e^x)'=e^x;⑥ (a^x)'=a^xIna (ln为自然对数)⑦ loga(x)'=(1/x)loga(e)导数的四则运算:①(u±v)'=u'±v'②(uv)'=u'v+uv'③(u/v)'=(u'v-uv')/ v^2④[u(v)]'=[u'(v)]*v' (u(v)为复合函数...

2020-06-27 11:06:39 2878

原创 AdaBoost原理

Bagging套袋法随机森林就采用的套袋法,在Bagging中,通过对训练样本重新采样的方法得到不同的训练样本集,在这些新的训练样本集上分别训练学习器,学习器之间是独立的,最终合并每一个学习器的结果,作为最终的学习结果,Bagging方法的具体过程如下图所示:在Bagging方法中,b个学习器之间彼此是相互独立的,这样的特点使得Bagging方法更容易并行。每个学习器权重都为1/b。Bossting提升树梯度提升树就采用的Boosting算法,与Bagging方法不同,在Boost.

2020-06-26 20:39:44 264

原创 pandas批量处理体育成绩

目录导包读取数据取前45行图表中存在不规范数据,去掉该类数据缺失数据填充查看是否有空数据处理数字评分,还要读取评分表将列属性时间数据转化为浮点数据两张表索引不太对应,改变一下增加字段先转化数据计算成绩同理处理体前屈,引体,肺活量。调整顺序BMI指数统计分析画图Pandas在处理千万行级别的数据中有非常高的实用价值,pandas 本质上是对表格数据的封装,而表格数据处理必然需要遍历数据。然而,在实际使用 pandas 过程中,一般都不

2020-06-24 17:01:57 1571 1

原创 梯度分类原理

算法流程xi = np.arange(1,11)yi = np.array([0,0,0,1,1]*2)display(xi,yi)改变形状#一个参数为-1时,那么reshape函数会根据另一个参数的维度计算出数组的另外一个shape属性值。xi.reshape(-1,1)算法gbdt = GradientBoostingClassifier(n_estimators=3,max_depth=1)gbdt.fit(xi.reshape(-1,1),yi)第

2020-06-22 17:11:53 516

原创 梯度下降与梯度上升

目录梯度导包方程画图对f求导求解导数令导数=0求解最小值梯度下降求解最小值用lambda表示求导后的方程设置学习率梯度下降找最优值梯度上升找最大值函数二,有最大值更新规则将每一步怎么走的过程画出来 ,加入result[]画图梯度梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。导包import numpy as np.

2020-06-21 22:12:09 244

原创 梯度提升树

目录导包梯度提升树也是建在决策树的基础上的。树分10份,每份中是3棵树,每棵树都是多分类问题梯度提升树原理导包导入数据声明树使用回归研究其原理第二棵决策树以下数据为残差第二颗树,根据梯度提升,减小残差(残差越小,结果越好,越准确)导包概念:导数求导后还是自身import numpy as np# f(x) = 3*x**2# 梯度=导数from sklearn.ensemble import GradientBoostingClassi.

2020-06-20 22:08:11 1407

原创 极限森林

目录极限森林与决策树区别加载数据使用决策树使用极限森林数据质量极限森林与决策树区别决策树,进行裂分时候,根据信息增益最大进行裂分,刻板,情深不寿,慧极必伤。极限森林: 1、样本随机 2、分裂条件随机(不是最好的裂分条件)像在随机森林中一样,使用候选特征的随机子集,但不是寻找最有区别的阈值,而是为每个候选特征随机绘制阈值,并选择这些随机生成的阈值中的最佳阈值作为划分规则。加载数据X,y = datasets.load_wine(True)使用决...

2020-06-20 12:53:01 705

原创 随机森林

目录导包导入数据随机森林训练相同数据用决策树算法训练导包import numpy as npimport matplotlib.pyplot as plt%matplotlib inlinefrom sklearn.ensemble import RandomForestClassifier,ExtraTreesClassifierfrom sklearn import datasetsimport pandas as pdfrom sklearn.model

2020-06-19 23:03:00 330

原创 决策树使用与原理

导包import numpy as npfrom sklearn.tree import DecisionTreeClassifierfrom sklearn import datasetsimport matplotlib.pyplot as plt%matplotlib inlinefrom sklearn import treefrom sklearn.model_selection import train_test_split声明决策树clf = Decisi

2020-06-19 22:16:51 998

原创 决策树中的熵原理

目录决策树ID3算法划分原则:熵:判断账号是否真实决策树决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话:决策树用的是信息论的知识,构建树其实就是给树进行排序,将无序的数据结构化。ID3算法划分原则:将无序的数据变得更加有序。熵:用熵来度量数据有序还是无序。熵这个概念最早起源于物理学,在物理学中是用来度量一个热力学系统的无序程度。而在信息学里面,熵是对不确定性的度量。在1948年,香农引入了信息...

2020-06-18 22:21:57 1078

原创 KNN算法应用-影响薪水的因素

目录导包数据和目标值数据是随机的数据是按比列的总结:train_test_split,KFold,StratifiedKFold左右都是将数据拆分。属性删除无用数据数据结构算法进行影响薪水的因素有很多,比如教育背景,年龄,种族,工作单位等等,可以用KNN进行分类。导包import numpy as npimport pandas as pdfrom sklearn.neighbors import KNeighborsClassifierfrom

2020-06-15 21:56:31 407

原创 KNN算法癌症诊断

此数据为乳腺癌的癌症,获得的数据属性有乳腺的细胞核的一些特征,【包括半径,质地,光滑度,面积等等,这些都能用仪器测出来】。医生可以根据这些特征判断你是否得病了,同样,算法也一样,通过这些特征判断你是否得病了。比如KNN算法。导包import numpy as npimport pandas as pdfrom pandas import Series,DataFramefrom sklearn.neighbors import KNeighborsClassifierfrom sk

2020-06-13 22:24:49 3661 6

原创 KNN参数的筛选

目录导包交叉验证演示交叉验证选取最适邻居数画图表示多参数组合使用cross_val_score筛选最合适的参数组合遍历方式取最大值结果导包import numpy as npfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn import datasets# model_selection:模型选择# cross_val_score cross:交叉,validation.

2020-06-13 21:34:41 1556

原创 KNN-iris分类

导包import numpy as npimport matplotlib.pylab as pyb%matplotlib inlinefrom sklearn.neighbors import KNeighborsClassifierfrom sklearn import datasets加载数据,数据降维(画图)X,y = datasets.load_iris(True)# 4个属性,4维空间,4维的数据,鸢尾花是四维的。# 150代表样本的数量X.shape

2020-06-13 15:37:02 505

原创 KNN手写数字识别

导包CV2比matplotlib加载速度快import numpy as npimport cv2#加载图片import matplotlib.pyplot as plt#inline表示将图表嵌入到Notebook中%matplotlib inlinefrom sklearn.neighbors import KNeighborsClassifier

2020-06-12 23:00:33 599

原创 决策树随机森林

目录决策树的过拟合剪枝算法Bootstraping应用一种可能的方案样本不均衡的常用处理方法使用RF建立计算样本间相似度Isolation Forest决策树分类鸢尾花数据随机森林决策树用于拟合多输出的决策树回归决策树的过拟合决策树对训练属于有很好的分类能力,但对 未知的测试数据未必有好的分类能力,泛化 能力弱,即可能发生过拟合现象。解决的方法:剪枝,随机森林。剪枝系数的确定剪枝算法BootstrapingBootst.

2020-06-10 20:00:43 309

原创 决策树

目录信息熵决策树建立条件熵推导条件熵的定义式相对熵互信息决策树的实例决策树示意图决策树学习的生成算法信息增益Gini系数信息熵 信息熵是一个数学上颇为抽象的概念,在这里不妨把信息熵理解成某种特定信息的出现概率(离散随机事件的出现概率)。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。信息熵也可以说是系统有序化程度的一个度量。决策树建立假设有n个样本,假设有一个根节点,将N个样本列在根节点当中,给出一种分割规则,分为左边和右边分

2020-06-09 22:08:12 309

原创 KNN近邻算法-提高

K近邻算法:nearest neighbors classificationk定义多少个邻居物以类聚,人以群分教会计算机根据‘邻居’分类,邻居:距离比较近距离公式:欧氏距离计算------>数学公式------>计算结果

2020-06-08 22:40:04 416

原创 回归--实践

回归问题解决分类?Logistic回归Logistic回归参数估计逻辑回归一般做二分类。对数线性模型,广义的线性模型。对数的是线性的,证明得到的p就是sigmod函数+线性模型Logistic回归的损失函数沿似然函数正梯度上升...

2020-06-07 22:33:22 137

原创 回归--理论

函数的输出可以是一个连续的值(称为回归),或是输出是有限个离散值(称作分类)。线性回归如何确定k,b ?为截距,x,y为给定的样本,这个模型其实就是线性回归的模型,用这个模型和样本确定θ1,θ2,θ0最佳的值,θ未知,x已知,公式:第i个样本实际的值=预测值+误差值高斯分布最大似然估计MLE最小二乘法的本质Logistic回归分类问题的首选算法多分类:Softmax回归目标函数技术点梯度下降算法最大似然估计特征选择...

2020-06-06 17:27:17 674

原创 机器学习基础1--基本介绍

赔率浔阳江畔艄公张横和张顺正进行400米自由泳比赛, 宋江开赌场做庄,规定:张横赢赔率为3,张顺赢 赔率为2。假定不存在平局。赌徒李逵为张横下注 10两。比赛结束后,若最终张横赢,则宋江付赌徒李逵30两(10×3),赌资10两归庄家宋江所有,即李逵赚20两。若张顺赢,赌资10两归庄家宋江所有,即李逵赔10两。假定所有赌徒中,共有a元买张横,b元买张 顺,则开赛前宋江收入为a+b元,开赛后的赔付期望为:从上述结论知:使用y=1/p作为赔率,会使 得庄家在期望上不赔不赚。这即“公平赔率”:y

2020-06-04 23:09:31 331

原创 机器学习基础算法8--Kmeans均值

目录非监督学习(unsupervised learning)主要方法:k-means如何数据化为三个类别?k-means步骤k-means APIk-means对Instacart Market用户聚类导包假设用户一共分为四个类别聚类显示聚类结果Kmeans性能评估指标Kmeans性能评估指标APIKmeans总结非监督学习(unsupervised learning)主要方法:k-means如何数据化为三个类别?k-mean.

2020-06-04 16:28:39 572

原创 机器学习算法基础7--逻辑回归

目录逻辑回归应用:逻辑回归公式逻辑回归的损失函数、优化(了解)逻辑回归预测癌症案例数据描述良/恶性乳腺癌肿分类流程逻辑回归总结逻辑回归线性回归的式子作为逻辑回归的输入。 解决二分类问题。逻辑回归应用:•广告点击率••判断用户的性别••预测用户是否会购买给定的商品类••判断一条评论是正面的还是负面的 点击 0.001 0.01广告点击:...

2020-06-03 22:24:09 231

原创 机器学习算法基础6-回归算法-线性回归

回忆回归问题的判定?回归:目标值是联系的,分类是离散的。回归应用:房价预测,销售额预测,金融领域贷款额度预测等等。比如说期末成绩等于下图,找到各个特征按比列结合去预测结果。房价用图表示,房子的面积和价格关系图。import matplotlib.pyplot as pltplt.figure(figsize=(10,10))#画板大小10乘10plt.scatter([60,72,75,80,83],[126,151.2,157.5,168,174.3]..

2020-06-02 22:43:06 484

原创 机器学习算法基础5--决策树与随机森林

目录决策树决策树的实际划分信息熵信息增益常见决策树使用的算法泰坦尼克号乘客生存分类模型泰坦尼克号数据步骤决策树的结构、本地保存随机森林集成学习方法学习算法集成学习API随机森林的优点决策树决策树:程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。决策树的实际划分猜谁是冠军?假设有32支球队32支球队,log(2为底,对数为32)=5比特64支球队,log(2为底.

2020-05-30 22:10:30 771

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除