自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 推荐系统实战--movieslens数据集实现UserCF算法

UserCF:UserCollaborationFilter,基于用户的协同过滤 算法核心思想:在一个在线推荐系统中,当用户A需要个性化推荐时,可以先找到和他有相似兴趣的其它用户,然后把那些用户喜欢的、而用户A没有听说过的物品推荐给A,这种方法称为基于用户的协同过滤算法。 可以看出,这个算法主要包括两步:一、找到和目标用户兴趣相似的用户集合——计算两个用户的兴趣相似度二、找到这...

2018-10-20 17:19:29 3866

转载 循环神经网络VGG

VGGnet模型们在ImageNet竞赛上的top-5错误率概况: 目的:探究在大规模图像识别任务中,卷积网络的深度与其性能之间的关系做法:VGG把 Alexnet 最开始的一个7*7的卷积核用 3个3*3的卷积核代替。通过反复堆叠3*3的小型卷积核(stride:1,padding:1)和 2*2的最大池化层,不断加深网络结构来提升性能,成功地构筑了16~19层深的...

2018-11-26 20:31:41 478

转载 逻辑回归的常见面试点总结

1.简介       逻辑回归是面试当中非常喜欢问到的一个机器学习算法,因为表面上看逻辑回归形式上很简单,很好掌握,但是一问起来就容易懵逼。所以在面试的时候给大家的第一个建议不要说自己精通逻辑回归,非常容易被问倒,从而减分。2.正式介绍     如何凸显你是一个对逻辑回归已经非常了解的人呢。那就是用一句话概括它!逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求...

2018-10-23 17:21:02 212

原创 基于python的-使用正则表达式验证手机号并匹配运营商和所述地域

import reimport json# 将语句中不符合手机号码规则的数字串剔除,保存剩余符合手机号码规则的数字到ns中def is_phone(n): ns = re.findall('\d+', n) # 提取出word语句中的数字 new_list = ns[:] # 拷贝提取出的数字 for i in new_list: if re...

2018-07-27 17:09:07 2978

原创 三、机器学习算法学习---梯度下降法(6-3实现多元线性回归中的梯度下降法)

多元函数中梯度变为:且有两个参数的梯度下降法的可视化实例:在损失函数中:为了使得到的梯度值和m无关,则式子整体除以m则得到以下结论:

2018-04-15 10:42:10 300

原创 三、机器学习算法学习---梯度下降法(6-1和6-2 什么是梯度下降法)

简单理解就是:这个式子代表每一次减小的量(为一个梯度),当一直减小到两次迭代之间的差值足够小,既得到损失函数J的最小值。

2018-04-14 16:09:59 253

原创 (补)二、机器学习算法学习---线性回归算法(5-10 线性回归的可解释性)

2018-04-14 11:22:48 208

原创 (补)二、机器学习算法学习---线性回归算法(5-7多元线性回归和正规方程解)

               

2018-04-12 19:55:06 243

原创 (补)二、机器学习算法学习---线性回归算法(5-6 最好的衡量线性回归法的指标)

R square所得到的结果是:一减去我们预测所得到的错误占了所有的错误的百分比所得到的数,也就是没有产生的错误

2018-04-12 10:52:34 264

原创 (补)二、机器学习算法学习---线性回归算法(5-5线性回归方法的衡量标准)

因为M的影响,所以有三种改进方法*注:当比如使用预测钱时,有1万元,计算结束后单位变为平方万,所以有以下改进

2018-04-12 09:52:08 158

原创 (补)二、机器学习算法学习---线性回归算法(5-4 衡量线性回归的指标)

可以将上面的式子转化为两个向量的乘积,即可直接替换for循环节约时间向量间的点乘替换for循环的乘积

2018-04-11 16:04:18 191

原创 (补)二、机器学习算法学习---线性回归算法(5-3简单线性回归实现)

2018-04-10 16:27:39 132

原创 (补)二、机器学习算法学习---线性回归算法(5-2最小乘法)

对b求导对a求导,并带入b

2018-04-10 15:36:21 176

原创 (补)一、机器学习算法学习---K近邻算法(4-9总结)

解决方法降维

2018-04-09 16:01:59 150

原创 (补)一、机器学习算法学习---K近邻算法(4-8如何数据归一化)

手动实现一个standardScaler

2018-04-09 15:54:03 550

原创 (补)一、机器学习算法学习---K近邻算法(4-7数值归一化)

2018-04-09 14:50:33 412

原创 (补)一、机器学习算法学习---K近邻算法(4-6网格搜索)

2018-04-09 11:10:28 176

原创 (补)一、机器学习算法学习---K近邻算法(4-5超参数 )

 曼哈顿距离:指点在每个维度上相应的距离的和(点在二维中既指在x方向的差值和在y方向中的差值的和)

2018-04-09 09:47:43 336 1

原创 二、机器学习算法学习---线性回归算法

线性回归:例子:房屋的面积和价格有一定的线性关系注:1.分类问题横轴和纵轴都是样本的特征点(横轴代表肿瘤的大小,纵轴代表肿瘤的出现时间)       2.线性回归问题横轴为样本特征(房屋面积),纵轴为输出标记(价格)       3.回归问题中正真要预测的是一个具体的数值,数值在一个连续的空间里...

2018-03-28 16:46:50 183

原创 一、机器学习算法学习---K近邻算法

解释:假设一个值为K=3,当新的绿色的肿瘤周围最近的三个点的颜色比例:   蓝:红=3:0时,表明这个新的点更接近蓝色点的特征。代码实现//加载numpy包和matplotlib.pyplot包import numpy as npimport matplotlib.pyplot as plt//原始的x数据代表十个点,y = 0表示良性 ,x = 1表示恶性x = [[3.3,2.3],    [...

2018-03-21 16:11:39 455 1

原创 机器学习-----构建房屋售价预测回归模型

启动graphlab createimport graphlab读取一些房屋销售数据sales = graphlab.SFrame('根据自己的目录读取home_data.gl文件')graphlab.canvas.set_target('ipynb')   //设置画出的图像在ipython notebook中现实sales.show(view = "Scatter Plot",x = "sqf...

2018-02-28 00:12:06 3079

原创 机器学习---线性回归(房价预测)

不在线上的点到预测的线的距离的平方-------残差平方和(找出最小值)1.训练误差(使其最小化)2.测试误差(排出的数据训练)实际举例:回归的总结:...

2018-02-25 23:55:20 4230 1

原创 机器学习认知之路------python入门

条件语句判断:循环:函数体描述:

2018-02-25 16:43:10 258

原创 机器学习认知之路-----安装到Anaconda Python环境

第1步:下载Anaconda2 v4.0.0第2步:安装Anaconda# Run Anaconda2 v4.0.0 installer.bash /path to download file/Anaconda2-4.0.0-Linux-x86_64.sh第3步:创建conda环境# Create a new conda environment with Python 2.7.xconda c...

2018-02-24 22:47:14 573

原创 初识spark、maven仓库环境和scala环境

2018-02-23 17:29:37 531

原创 数据可视化的流程

2018-02-21 02:56:10 1506

原创 分布式计算框架MapReduce

1.JobTracker:JT作业的管理者将作业分解成一堆的任务:Task(MapTask和ReduceTask)将任务分配给TaskTracker运行作业的监控、容错处理心跳检测:在一定的时间间隔内,JT没有收到TT的心跳信息,TT可能挂了,TT上运行的任务会被指派到其他TT上去执行2.TaskTrack:TT任务的执行者在TT上执行我们的Task与JT进行交互:执行/启动/停止作业,发送心跳信...

2018-02-20 11:26:55 326

原创 分布式计算框架mapreduce

从wordcount来学习:统计文件中的单词书目1.读取 2.拆分 3.读取split中的数据 4.每一行交由map处理 5.结果由partition分区交由对应的reduce处理 6.通过outputformat进行输出写到文件系统上面...

2018-02-20 09:58:03 264

原创 YARN的环境搭建

配置yarn Yarn是hadoop的资源调度器,可以配置mapreduce job基于yarn运行。 1)配置etc/hadoop/mapred-site.xml(告诉mapreduce框架,最终执行时跑的位置是yarn上)<configuration> <property> <name>mapreduce.framework...

2018-02-19 18:39:26 292

原创 资源调度框架YARN简述

YARN的产生背景(通俗讲就是需要在不同时间使用不同的工具来处理数据,需要一个工具来调度,这个工具就是yarn):YARN的架构:重要的组件介绍:1)resource manager(RM):整个集群同一时间提供服务的RM只有一个(公司中会有一个备用的),负责集群资源的统一管理处理客户端(client)的请求:提交一个作业、杀死一个作业监控NM,一旦NM节点挂掉,上面运行的任务如何处理要告诉AM来...

2018-02-19 18:11:10 589

原创 HDFS的读写过程简述

主要的角色:客户端:负责发起或提交读写请求(如果往HDFS上存储数据或获取数据,就要告诉客户端)。namenode:HDFS的核心负责全局协调,做任何事都要向这里汇报,和把控所有的请求。datanode:数量不定,负责数据的 存储。把数据写到HDFS的集群的过程1.用户向客户端请求服务                        请求角色:1.hdfs shell2.JAVA API      ...

2018-02-19 15:57:57 5341

原创 HDFS shell 常用命令的使用

基础命令:hadoop fs +命令行递归展示文件:hadoop fs -lsr /

2018-02-15 11:18:24 216

原创 hadoop伪分布式安装步骤

http://blog.csdn.net/weixin_39216383/article/details/78953236配置http://blog.csdn.net/ye1142262478/article/details/50628643修改主机名1.安装linux6.4版本2.安装jdk7u79版本解压安装包:* -C为指定目录配置javahome:使环境变量生效:source ~/.bas...

2018-02-15 09:23:35 298

转载 细读HDFS的框架结构

传统分布式文件:什么是HDFS?要点:1.1个master带N个slaves    datenod管理数据的存储namenod(nn)负责文件系统的读写操作datenod(dn)负责块的一些操作

2018-02-12 16:41:06 393

原创 hadoop常用版本和选型

hadoop常用版本和选型apache hadoop 原生的,工作生产不建议CDH:优点:网页安装配置简单和spark合作完美(占30%)          缺点:安装框架不开源            www.cloudera.com/cdh5/cdh/5/使用版本:HDP:开源(占60%),安装费劲...

2018-02-10 17:49:28 2610

转载 如何搭建一个GitHubpage

https://www.zhihu.com/question/20376047?sort=createdhttp://www.pchou.info/ssgithubPage/2013-01-03-build-github-blog-page-01.html

2018-02-10 12:22:31 303

原创 hadoop核心组件分布式文件系统HDFS、资源调度管理系统YARN、分布式计算框架MapReduce

分布式存储系统的第一印象HDFS是基于谷歌的GFS的克隆版本HDFS的特点:可扩展性(当节点不够添加一台机器就可以了),可容错的(多副本的方式可存储的),海量数据的存储将上传文件切分成指定大小的数据块(128M)并以多副本的存储在多个机器上(处理对象任然是文件,具体的切分、多副本和容错由hadoop完成)fiflename文件名称numreplicas数据重复次数block-id被重复的数据编号资...

2018-02-10 12:08:54 1052

原创 初识hadoop

1.什么是hadoophadoop是一个可靠(reliable)的、可扩展(scalable)的分布式(distributed)的开源计算框架!Apache hadoop 允许分布式处理的一个软件,并且跨越在集群的机器上(意思是数据分开存储在各个节点之上的),并且使用一种简单的编程模型。可以从单个数据信号扩展到成百上千台机器上。2.hadoop主要包含了哪些模块hadoop common(通用包)...

2018-02-10 11:45:20 166

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除