自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (1)
  • 收藏
  • 关注

原创 基于win7+anaconda3+python3.6--TensorFlow(CPU版本)安装、Tensorboard显示以及问题解决

一。TensorFlow(CPU)安装网上的安装教程博客很多,但有的可能跟自己电脑有出入,会出现一些小错误。上一篇转载的博客基本没按照它来安装,觉得下面这篇比较简单我的安装过程主要参考这篇博客:https://blog.csdn.net/u010858605/article/details/64128466步骤依次为安装anaconda----安装TensorFlow(具体步骤参见该博...

2019-03-25 14:20:58 1766 1

原创 如何在MathType上输入傅里叶变换的符号

在MathType上输入大写F,选择上,然后mathtype-stytle -Other - 选择 Palace Script MT字体同理,拉普拉斯变换就换成L字体里面的 Brush script MT 或者 Edwardian Script ITC或者Kunstler Script或者Lucida Calligraphy或者Palace Script MT...

2019-03-01 20:09:51 3269 1

原创 机器学习面试题节选(2)

30、谈谈判别式模型和生成式模型?、解析:判别方法:由数据直接学习决策函数 Y = f(X),或者由条件分布概率 P(Y|X)作为预测模型,即判别模型。生成方法:由数据学习联合概率密度分布函数 P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型。由生成模型可以得到判别模型,但由判别模型得不到生成模型。常见的判别模型有:K近邻、SVM、决策树、感知机、线性...

2018-10-04 22:05:39 1096

原创 机器学习面试节选

96.你有哪些deep learning(rnn、cnn)调参的经验?参考https://www.zhihu.com/question/41631631111.随机森林如何处理缺失值 方法一(na.roughfix)简单粗暴,对于训练集,同一个class下的数据,如果是分类变量缺失,用众数补上,如果是连续型变量缺失,用中位数补。方法二(rfImpute)这个方法计算量大,至于比方法一好坏?...

2018-10-04 13:39:16 605

原创 机器学习练习题选

91.模式识别中,马式距离较之于欧式距离的优点是(C、D)。A.平移不变性; B.旋转不变性; C尺度不变性; D.考虑了模式的分布 92.影响基本K-均值算法的主要因素有(ABD)。A.样本输入顺序;B.模式相似性测度;C.聚类准则;D.初始类中心的选取 93.在统计模式分类问题中,当先验概率未知时,可以使用(BD)。A. 最小损失准则; B. 最小最大损失准则;...

2018-10-02 14:30:14 1083

原创 Bagging和Boosting的区别(面试准备)

Baggging 和Boosting都是模型融合的方法,可以将弱分类器融合之后形成一个强分类器,而且融合之后的效果会比最好的弱分类器更好。 Bagging:先介绍Bagging方法:Bagging即套袋法,其算法过程如下: 从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都...

2018-09-14 11:26:24 829

原创 科大讯飞-19届笔试

t = int(input())res = []for i in range(t): n , x = map(int,input().split()) alist = list(map(int,input().split())) length = len(alist) count = 0 alist = sorted(alist) whil...

2018-09-07 20:13:42 6517

原创 sql 四大排名函数---(ROW_NUMBER、RANK、DENSE_RANK、NTILE)简介

1.ROW_NUMBER()定义:ROW_NUMBER()函数作用就是将select查询到的数据进行排序,每一条数据加一个序号,他不能用做于学生成绩的排名,一般多用于分页查询, 比如查询前10个 查询10-100个学生。实例:1.1对学生成绩排序 这里number就是每个学生的序号 根据studentScore(分数)进行desc倒序1.2获取第二个同学的成绩信息 这...

2018-09-03 15:15:08 186665 32

原创 SQL Server中日期查询函数

 sql server中的时间函数  参数/功能GetDate( ) 返回系统目前的日期与时间DateDiff (interval,date1,date2) 以interval 指定的方式,返回date2 与date1两个日期之间的差值 date2-date1DateAdd (interval,number,date) 以interval指定的方式,加上number之后的日期DatePar...

2018-08-26 11:05:45 1944

原创 面试算法之动态规划

一 动态规划动态规划问题是面试题中的热门话题,如果要求一个问题的最优解(通常是最大值或者最小值),而且该问题能够分解成若干个子问题,并且小问题之间也存在重叠的子问题,则考虑采用动态规划。使用动态规划特征: 1. 求一个问题的最优解 2. 大问题可以分解为子问题,子问题还有重叠的更小的子问题 3. 整体问题最优解取决于子问题的最优解(状态转移方程) 4. 从上往下分析问题,从下往上解...

2018-08-25 21:20:48 236

原创 聚类的性能度量以及常见的聚类类型

“聚类”(clustering)算法是“无监督学习”算法中研究最多、应用最广的算法,它试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”(cluster)因为聚类是在未标注样本上的分类算法,所以不像之前我们介绍的其它算法一样,我们可以直观的知道训练出来的模型的好坏,即我们不能通过比对测试样本的预测结果和真实预测结果误差值来近似泛化误差。一 、 聚类结果好坏的评估指标...

2018-08-23 11:08:55 7387 1

转载 机器学习中最常用的优化算法总结

1. 梯度下降法(Gradient Descent) 2. 牛顿法和拟牛顿法(Newton's method & Quasi-Newton Methods) 3. 共轭梯度法(Conjugate Gradient) 4. 启发式优化方法  5. 解决约束优化问题——拉格朗日乘数法 我们每个人都会在我们的生活或者工作中遇到各种各样的最优化问题,比如每个企业和个人都要考虑的一个问...

2018-08-16 16:44:03 841

转载 结合Scikit-learn介绍几种常用的特征选择方法

文章链接:https://blog.csdn.net/Bryan__/article/details/51607215特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合 增强对特征和特征值之间...

2018-08-03 21:15:17 278

原创 机器学习 集成学习的结合策略之stacking学习法

机器学习模型优化之模型融合https://blog.csdn.net/u014248127/article/details/78993753 模型融合的结合策略: 基本学习器学习完后,需要将各个模型进行融合,常见的策略有:1,平均法: 平均法有一般的评价和加权平均,这个好理解。对于平均法来说一般用于回归预测模型中,在Boosting系列融合模型中,一般采用的是加权平均融合。2,投票...

2018-08-03 16:19:41 4114 3

转载 机器学习 数据特征分析------特征工程

 目录1 特征工程是什么?2 数据预处理2.1 无量纲化2.1.1 标准化2.1.2 区间缩放法2.1.3 标准化与归一化的区别2.2 对定量特征二值化2.3 对定性特征哑编码2.4 缺失值计算2.5 数据变换2.6 回顾3 特征选择3.1 Filter3.1.1 方差选择法3.1.2 相关系数法3.1.3 卡方检验3.1.4...

2018-08-02 22:16:59 1945

转载 特征工程——特征转换

一、连续型变量 1.1 连续变量无量纲化 1.2 连续变量数据变换 1.3 连续变量离散化 二、类别变量编码 三、时间型、日期型变量转换 四、 缺失值处理 五、 特征组合  一、连续型变量1.1 连续变量无量纲化       无量纲化: 使不同规格尺度的数据转化统一规格尺度(将数据单位...

2018-08-01 22:22:52 751

原创 机器学习Python--数据处理分析一些方法总结

删除数据 #行删除train = train.drop(train[(train['GrLivArea']>4000)].index)#列删除train.drop("Id", axis = 1, inplace = True)   连接数据 #并重设索引,列相同all_data = pd.concat((train, test)).reset_index(d...

2018-07-31 20:17:47 1954 1

原创 数据分析与挖掘练习2 --kaggle比赛 House Prices 预测

题目描述: 通过79个变量(几乎)描述爱荷华州埃姆斯(Ames)住宅的每一个特征,在这个竞赛里,需要你预测每个住宅的最终价格,并最终提交。http://ww2.amstat.org/publications/jse/v19n3/Decock/DataDocumentation.txt 上述官方给的一份说明里是对数据的描述,描述了79个属性变量的具体描述以及数据类型。The data has...

2018-07-29 22:27:32 1527

转载 scikit-learn(工程中用的相对较多的模型介绍):1.11. Ensemble methods

文章链接:https://blog.csdn.net/mmc2015/article/details/47271195 

2018-07-29 20:35:41 140

原创 数据分析之数据分类了解

一、分类数据分类数据代表着对象的属性特点。诸如人群的性别、语言、国籍大都属于分类数据。分类数据通常也可以用数值表示(例如1表示女性而0表示男性),但需要注意的是这一数值并没有数学上的意义仅仅是分类的标记而已。1、定类数据是指没有内在固有大小或高低顺序,一般以数值或字符表示的分类数据。如性别变量中的男、女取值,可以分别用1、 2表示,民族变量中的各个民族,可以用‘汉’‘回’‘满’等字符表...

2018-07-27 21:47:18 17445

原创 在pycharm中使用jupyter notebook进行编程

用python做数据分析,经常会用到notebook。Notebook可以将解决问题的思路用markdown的形式记录下来,搭配python代码和执行结果,逻辑清晰又比较美观,notebook文件的后缀是ipynb。但notebook有个缺陷就是需要通过命令行启动server,然后再通过浏览器访问才能编辑,而且在notebook上编辑和调试代码的时候就不如专门的编辑器来得专业了。所以我就想平时写p...

2018-07-22 19:26:57 19063 6

原创 pycharm debug出现UnicodeDecodeError: 'utf-8' codec can't decode 解决办法

问题描述:E:\Anaconda3\python.exe "C:\Program Files\JetBrains\PyCharm 2018.1.2\helpers\pydev\pydevd.py" --multiproc --qt-support=auto --client 127.0.0.1 --port 63148 --file G:/我的坚果云/4-计算机/JianZhiOffer_Te...

2018-07-19 15:08:35 18441 12

转载 Python---copy()、deepcopy()与赋值(=)的区别

 copy()与deepcopy()之间的主要区别是python对数据的存储方式。首先直接上结论:—–深复制,即将被复制对象完全再复制一遍作为独立的新个体单独存在。所以改变原有被复制对象不会对已经复制出来的新对象产生影响。 —–而等于赋值,并不会产生一个独立的对象单独存在,他只是将原有的数据块打上一个新标签,所以当其中一个标签被改变的时候,数据块就会发生变化,另一个标签也会随之改变。—–而浅复制要...

2018-07-07 14:28:27 799

转载 windows7(64位)Anaconda3+Python3.6搭建Tensorflow(cpu版本)

一、搭建Tensorflow(CPU版本)1、安装前准备在Tensorflow官网的安装向导中可以看到,tf有两个版本,分别为CPU和GPU版本,两个版本的区别在于:GPU版本依赖于NVIDIA(英伟达™)GPU(图形处理器,即显卡),并且通过NVIDIA提供的运算平台CUDA(Compute Unified Device Architecture)及cuDNN(CUDA Deep Neural ...

2018-07-04 20:56:45 2063

原创 数据分析与挖掘入门练习1——kaggle比赛_Titanic: Machine Learning from Disaster

 目录0 摘要1 导入包与加载数据2 数据可视化分析3 特征工程4 LR初步建模与结果5 优化方法---重新进行特征工程 选特征、 模型融合6 总结 0.摘要最近利用两周多的时间准备做了一下kaggle上的第一个热门比赛,链接为Kaggle的Titanic幸存预测。这是一个基本的二分类问题,下面就这一分类问题竞赛的处理思路及代码实现,包括探索性数据分...

2018-07-04 20:53:18 803

机器学习实战 PDF

本书讲述重要的机器学习算法,并介绍那些使用这些算法的应用和工具,以及如何在实际环境中使用它们。市面上已经出版了很多关于机器学习的书籍,大多数讨论的是其背后的数学理论,很少涉及如何使用编程语言实现机器学习算法。本书恰恰相反,更多地讨论如何编码实现机器学习算法,而尽量减少讨论数学理论。如何将数学矩阵描述的机器学习算法转化为可以实际工作的应用程序,是本书的主要目的。

2018-07-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除