自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

夏洛克江户川

大数据&AI

  • 博客(15)
  • 收藏
  • 关注

原创 统计学在业内的应用1:分布、参数估计与假设检验及工业界应用

统计学在业内的应用1:分布、参数估计与假设检验及工业界应用统计学的方法应用框架1、统计学的学科逻辑2、分布2.1 何为分布2.2 概率分布函数(通常直接简称为分布函数)一、离散情况二、连续情况2.3、总体分布、样本分布、抽样分布一、总体、样本、抽样分布二、大数定律三、中心极限定理2.4、常见分布3、参数估计3.1、点估计3.2、区间估计4、假设检验4.1、显著性水平与p值的含义4.2、第一类错误与...

2020-03-06 15:20:14 3719 4

原创 标准化和归一化,请勿混为一谈,透彻理解数据变换

标准化与归一化1、标准化(Standardization)和归一化(Normalization)概念1.1、定义1.2、联系和差异一、联系二、差异1.3、标准化和归一化的多种方式2、标准化、归一化的原因、用途3、什么时候Standardization,什么时候Normalization4、所有情况都应当Standardization或Normalization么5、一些其他的数据变换方式5.1、l...

2019-10-21 23:45:13 69948 19

原创 大数据学习环境配置——windows和macOS下的python+mysql+hadoop+spark配置

随着大数据的热度与市场需求不断提升,学习大数据的小伙伴越来越多,然而,大家的个人电脑平时可能都用做了打游戏,看剧,逛论坛,没有配置过一套适合于学习大数据的环境,于是乎感叹万事开头难,今天,就带大家打开大数据世界的大门,带领大家在自己的电脑下配置Hadoop+Spark+Mysql,当然,还有Python3+Jupyter Notebook的开发环境。

2018-04-30 11:13:41 1992 2

转载 [转]关于熵的概念与例子(原博文写的真的很好,转来供更多人参考)

交叉熵(Cross-Entropy)

2018-01-10 00:25:24 1500

转载 一个隐马尔科夫模型的应用实例:中文分词

一个隐马尔科夫模型的应用实例:中文分词 转载 标签:

2017-11-28 12:35:37 1705

原创 Python新手写出漂亮的爬虫代码2——从json获取信息

Python新手写出漂亮的爬虫代码2——从json获取信息好久没有写关于爬虫的东西了,如果正在读这篇博客的你看过我的另一篇《Python新手写出漂亮的爬虫代码1——从html获取信息》想必已经对一些写在html中的信息进行过爬取了,今天给大家介绍一下另一种爬虫——动态爬虫。1.静态爬虫与动态爬虫何为动态爬虫,html中的信息是静态的,或者说是通过html语言生成了网页中的对应信息,是写好的,你把网页

2017-11-21 15:38:08 19433 12

转载 一文搞懂HMM

本文转载于https://www.cnblogs.com/skyme/p/4651331.html什么是熵(Entropy)简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化,组织化,复杂化状态的一种度量。

2017-11-20 22:43:26 624

原创 字符串匹配——一文吃透KMP算法

字符串匹配——一文吃透KMP算法字符串匹配是一个基本且简单的任务,如果字符串S1S_1和S2S_2,在S1S_1中寻找是否包含S2S_2,用暴力的方法可以是从S1S_1的第一个字符开始与S2S_2匹配,然后一个字符一个字符的向后挪动再做匹配,但是这样是非常浪费时间的,那我今天我们来看看KMP算法是怎么做的。本文例子和思路来源于: http://www.ruanyifeng.com/blog/20

2017-11-20 17:59:01 3857 4

原创 用最简单的过程讲述RNNs与LSTM的故事

好吧,我承认我懒了,好久没有发文了,主要最近真的很忙,忙校招,忙课题,神烦,趁着周末好好研究了一下RNN和LSTM(为了让毕业论文的逼格高一些),我发现RNN,尤其是LSTM,没有CNN那样直白,思想很简单,但学完之后总觉得似懂非懂,所以今天想写这么一篇博客梳理一下自己的学习心得,也希望与大家多多交流,本人才疏学浅,如有说的不合理的地方,请尽管指正。首先,默认大家对最简单的感知机是了解的,关于深层的

2017-11-14 19:22:48 5086

原创 希望可以是你看到的最直白清晰的CNN讲解

希望可以是你看到的最直白清晰的CNN讲解点燃朋友圈的Alpha zero成为继Alpha go之后的有一个deep learnning产品,想必有很多人都想来了解深度学习,博主最近也一直在对深度学习进行探索,希望这篇文章可以和大家共同交流、探索。这篇博客介绍的是深度神经网络中常用在图像处理的模型——卷积神经网络(CNN),CNN在图像分类中(如kaggle的猫狗大战)大显身手。这篇博客将带你了解图像

2017-11-04 17:49:59 1728 1

转载 一文弄懂神经网络中的反向传播法——BackPropagation

最近在看深度学习的东西,一开始看的吴恩达的UFLDL教程,有中文版就直接看了,后来发现有些地方总是不是很明确,又去看英文版,然后又找了些资料看,才发现,中文版的译者在翻译的时候会对省略的公式推导过程进行补充,但是补充的又是错的,难怪觉得有问题。反向传播法其实是神经网络的基础了,但是很多人在学的时候总是会遇到一些问题,或者看到大篇的公式觉得好像很难就退缩了,其实不难,就是一个链式求导法则反复用。如果不

2017-10-29 19:47:57 1519

转载 机器学习中的范数规则化之L0、L1与L2范数

转载于http://blog.csdn.net/zouxy09/article/details/24971995 机器学习中的范数规则化之(一)L0、L1与L2范数[email protected]://blog.csdn.net/zouxy09        今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核

2017-10-29 19:36:35 741

原创 文本分类需要CNN?No!fastText完美解决你的需求(后篇)

文本分类需要CNN?No!fastText完美解决你的需求(前篇)想必通过前一篇的介绍,各位小主已经对word2vec以及CBOW和Skip-gram有了比较清晰的了解。在这一篇中,小编带大家走进业内最新潮的文本分类算法,也就是fastText分类器。fastText与word2vec的提出者之所以会想到用fastText取代CNN(卷积神经网络)等深度学习模型,目的是为了在大数据情况下提高运算速度

2017-10-23 23:46:21 15775 21

原创 文本分类需要CNN? No!fastText完美解决你的需求(前篇)

文本分类需要CNN?No!fastText完美解决你的需求(前篇)fastText是个啥?简单一点说,就是一种可以得到和深度学习结果准确率相同,但是速度快出几个世纪的文本分类算法。这个算法类似与CBOW,可爱的读着是不是要问CBOW又是个什么鬼?莫急,听小编给你慢慢到来,一篇文章,让你了解word2vec的原理,CBOW、Skip-gram模型,以及目前业界最流行的文本分类算法——fastTe

2017-10-10 17:50:06 21294 8

原创 Python新手写出漂亮的爬虫代码1——从html获取信息

Python新手写出漂亮的爬虫代码1初到大数据学习圈子的同学可能对爬虫都有所耳闻,会觉得是一个高大上的东西,仿佛九阳神功和乾坤大挪移一样,和别人说“老子会爬虫”,就感觉特别有逼格,但是又不知从何入手,这里,博主给大家纠正一个误区:爬虫并不神秘,也不高级,是一个非常好上手和掌握的东西(当然,里面也有很多坑,也有很多细节,展开说的话其实也蛮复杂的,不过它的模式和套路就摆在那里,看了小编的博客,保证你能爬

2017-10-03 22:15:55 69957 16

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除