麦才坚-CSDN博客

原创深入理解LSTM

GRU和LSTM都是RNN的一种特殊模型，它们的出现是为了解决RNN存在rnn 的梯度消失问题，我们今天从lstm的公式推导以及它的应用来说明以这些问题。 lstm的模型可适应较为深的神经网络，它的通用模型有三个门，遗忘门，更新门，输出门， lstm 和 GRU的原理差不多，都能够让你可以在序列中学习非常深的连接。其他类型的单元也可以让你做到这个，比如LSTM即长短时记忆网...

2018-08-08 11:02:00 476

原创优化梯度下降算法

学习地址：https://mooc.study.163.com/university/deeplearning_ai#/c今天开始对自己这几个月在深度学习和机器学习的learning做一些总结：如何能让自己的算法更加高效，除了我之后将提到的归一化处理，今天先来看看adam算法。Adam 结合了mouteum 和 rep,过程类似于归一化对算法提速的作用，能够使得loss functi...

2018-07-31 17:36:36 332

原创 cpu与多线程之间的关系

Linux查看CPU的使用情况：命令 topWindows查看CPU的使用情况：命令 ctrl+shift+esc ，点击查看性能CPU 与多线程之间的关系 CPU是一个需要考虑到核心因素，因为它决定了电脑的性能等级。CPU从早期的单核，发展到现在的双核，多核。CPU除了核心数之外，还有线程数之说，下面笔者就来解释一下CPU的核心数与线程数的关系和区别。　　简单地说，CPU的核心数是指...

2018-07-02 14:12:00 7646

项目链接：https://www.kesci.com/notebooks/run/5b2b531cf110337467b156b4?label=5afe95345e69f70080f0de2fimport pandas as pd data_2=pd.read_csv("/home/kesci/input/client7166/international-airline-passengers....

2018-07-01 15:48:39 3030

原创 ARIMA 模型预测用户活跃情况

数据清洗，数据格式import pandas as pduser={}with open("/home/kesci/input/com6636/user.txt",'r') as f: for line in f.readlines(): num=line.split(' ') l=[] for i in range(1,len(...

2018-07-01 15:38:01 1104

原创 Hive总结

Hive的底层结构如下： 1.driver为中心，hql语句经过compiler编译后获取metadata2.将获取的metadata发送回driver3.driver根据获取的metadata和hql解析成查询树，做出查询plan，优化计划4.转化为MapReduce模板5.获取job执行后的数据二.hql与SQL的不同点： 1.多表联合的格式：hql只能使用join .... on......

2018-04-23 16:25:32 184

原创数据结构-图

问题：十字路口问题四个方向，存在路线冲突,如何管理某一时间段的开通路线：利用图的方式，对以上的路线进行建模：如下：解析：有线直接相连的代表路线冲突，我们可以通过便利该图，抽取没有直接相连的，进行分组，则可将没有冲突的路线放置在一组，以提高十字路口的效率...

2018-04-18 11:51:40 154

原创图解sparkEnv

2018-04-13 21:33:33 141

原创动态规划

问题：牛牛准备参加学校组织的春游, 出发前牛牛准备往背包里装入一些零食, 牛牛的背包容量为w。牛牛家里一共有n袋零食, 第i袋零食体积为v[i]。牛牛想知道在总体积不超过背包容量的情况下,他一共有多少种零食放法(总体积为0也算一种放法)。问题描述其中，表示第i个放入还是不放入，设state(i,w)表示i...

2018-04-13 21:31:16 171

原创 ACO蚁群算法

ACO蚁群算法总结一下：在蚁群算法中有两个比较重要的参数信息素浓度a，距离d，主要依靠这两个特征参数来推算出蚁群去往地点的概率。在比较早的时候成功解决了TSP旅行商的问题（在后面的例子中也会以这个例子）。要用算法去模拟蚂蚁的这种行为，关键在于信息素的在算法中的设计，以及路径中信息素浓度越大的路径，将会有更高的概率被蚂蚁所选择到。算法原理要想实现上面的几个模拟行为，需要借助几个公式，当然公式不是我自...

2018-04-10 20:07:51 1924

原创 GSP序列模式算法

参考文献：https://wenku.baidu.com/view/a28e951eb9d528ea80c7795a.html https://blog.csdn.net/androidlushangderen/article/details/43699083GSP:GSP算法是序列模式挖掘算法的一种，他是一种类Apriori的一种，整个过程与Apriori算法比较...

2018-04-10 17:19:19 1552

原创 AdaBoost

参开资料：http://blog.csdn.net/haidao2009/article/details/7514787更多挖掘算法：https://github.com/linyiqun/DataMiningAlgorithm介绍在介绍AdaBoost算法之前，需要了解一个类似的算法，装袋算法(bagging)，bagging是一种提高分类准确率的算法，通过给定组合投票的方式，获得最优解。比如你...

2018-04-09 17:30:15 294

原创 BIRTH算法

Birth 算法总结： Birth的构造过程要注意明白他的各个样子的限制作用，L为蔟间的距离，这个是分类的关键，它的求法和k-means中的质心相关，是簇中数据点的均值。说到算法原理，首先就要先知道，什么是聚类特征，何为聚类特征，定义如下：CF = <n, LS, SS>聚类特征为一个3维向量，n为数据点总数，LS为n个点的线性和，SS为n个点的平方和。因此又可以得到x0 = LS/...

2018-04-09 17:11:22 1052

原创 K-Means算法

K-Means算法下面介绍K均值算法：优点：易于实现缺点：可能收敛于局部最小值，在大规模数据收敛慢算法思想较为简单如下所示：选择K个点作为初始质心 repeat 将每个点指派到最近的质心，形成K个簇重新计算每个簇的质心 until 簇不发生变化（指的是质心C不再变化或其变化小于设定的阈值）或达到最大迭代次数（停止迭代的条件）12345这里的重新计算每个簇...

2018-04-09 13:56:05 295

原创 PageRank 算法详解

参考文献：https://blog.csdn.net/androidlushangderen/article/details/43311943链接分析在链接分析中有2个经典的算法，1个是PageRank算法，还有1个是HITS算法，说白了，都是做链接分析的。具体是怎么做呢，继续往下看。PageRank算法要说到PageRank算法的作用，得先从搜索引擎开始讲起，PageRank算法的由来正式与此相...

2018-04-09 11:51:51 1726

原创 FP-tree 频繁树模式算法

步骤总结：一.构造FP 树，规则：按照支持度降序顺着根节点排下，以便于频繁项的共享二.对构造好的fp—tree 进行投影，投影过程：从底层p节点开始递归，遍历所有候选项，删除非频繁项，如定阈值为1，从、删除支持度小于1的项。一、FP-tree的生成方法第二步根据支持度对频繁项进行排序是本算法的关键。第一点，通过将支持度高的项排在前面，使得生成的FP-tree中，出现频繁的项更...

2018-04-09 11:19:59 2315

原创最大似然估值

首先要明白它面对的问题是什么：已知样本在某些条件下发生的联合概率 p（xi） s.t. i为range（1，n）。求各个样本或某部分样本发生的概率（推测的概率）p，这个p为什么值时，使得p（xi）发生的概率最大，则可化为求联合概率的极值，通常是先让它求对数，如ln后再求导，这样可使求多乘积变为概率和的求导，方便求值。说的通俗一点啊，最大似然估计，就是利用已知的样本结果，反推最有可...

2018-04-08 16:58:12 428

原创 relocation error 问题解决

centos问题：relocation error: /lib64/librt.so.1: symbol __clock_getcpuclockid, version GLIBC_PRIVATE not defined in file libc.so.6 with link time reference解决方法：步骤一.libc问题，先看看你是改动了哪个libc**.so 库二.查找出你原来该库的...

2018-04-02 17:34:12 35806 3

原创 Hadoop机制详解

Hadoop各个组件的关联图如下：Resource Manager 是资源管理器，它是所有组件的中心，负责集群所有资源的调度APP mstr是应用程序管理器，负责作业的运行时的追踪和管理，并协调resource manager 请求资源，获取资源创造containerNode manager 是节点资源管理器，运行在改服务器节点上，负责对该节点资源和其它信息的监控，并发送给resource man...

2018-04-01 14:17:50 1149

原创 python基础总结

参考：https://blog.csdn.net/u011955252/article/details/51273863https://blog.csdn.net/qq_27713281/article/details/693414541、Python的对汉字的支持#!/usr/bin/python#coding: UTF-8 print "你好，世界";2、Python标识符在python里，标...

2018-03-31 11:37:24 371

原创 Apriori算法-关联规则算法

Apriori 算法的示意图：交易ID商品ID列表T100I1，I2，I5T200I2，I4T300I2，I3T400I1，I2，I4T500I1，I3T600I2，I3T700I1，I3T800I1，I2，I3，I5T900I1，I2，I3Apriori算法较为简单：只需要明白两个概念就好： 1）支持度：每次交易的所有商品为一个集合设位Y={.....}，X为二元集合，计算X的支持度，则...

2018-03-29 20:55:03 1065

原创时间序列预测

最近学习了时间序列的预测：我先总结一些时间序列预测的构建步骤：1）假定序列X={x1,x2,x3,........xn},判断序列是否平稳，主要有一下判断的方法， 1,方差判断：判断该序列的方差是否平稳，方差应该不随时间t变化而变化 2.协方差的判断：协方差应该只与时间间隔^t有关 3.均值的判断：均值与时间t无关2）如果序列是不平稳的，我们应该利用些函数f（x...

2018-03-29 15:15:09 1068

原创 EM算法

参考：https://www.cnblogs.com/pinard/p/6912636.html参考：https://www.zhihu.com/question/27976634/answer/391321831. EM算法的推导　　　　对于mm个样本观察数据x=(x(1),x(2),...x(m))x=(x(1),x(2),...x(m))中，找出样本的模型参数θθ, 极大化模型分布的对数似然...

2018-03-27 17:14:23 204

原创 svm算法

非常好的一篇文章，链接：http://www.cppblog.com/sunrise/archive/2012/08/06/186474.html总结1）svm分为两大类，线性分类和非线性分类。2）线性分类：示例函数y=wx+a,注意这里的w指的是向量不是横坐标的点，如（3,8）T，一般都是指列向量，假设依据y值为1与-1进行分类，（-1表示否），则H=wx+b=0,首先，我们要知道误差数次k&l...

2018-03-27 16:36:51 1149

转载 bayes 算法

你搞懂朴素贝叶斯分类算这篇文章对贝叶斯算法的讲解比较容易懂，讲数据集或属性分为了两种属性，一个是特征，一个是类别，贝叶斯思想的核心在于对特征和类别的转换，用特征去预测类别1 分类问题综述对于分类问题，其实谁都不会陌生，日常生活中我们每天都进行着分类过程。例如，当你看到一个人，你的脑子下意识判断他是学生还是社会上的人；你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱”之类的话，其实这就是一...

2018-03-27 14:54:13 845

转载 KNN算法

一、算法概述1、kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。最简单平凡的分类器也许是那种死记硬背式的分类器，记住所有的训练数据，对于新的数据则直接和训练数据匹配，如果存在相同属性的训练数据，则直接用它的分类来作为新数据的分类。这种方式有一个明显的缺点，那就是很可能无法找到完全匹配的训练记录。kNN算法则是从训练集中找到和新数据最接近的k条记...

2018-03-27 14:08:58 335

原创 CART 算法

CART生成CART假设决策树是二叉树，内部结点特征的取值为“是”和“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征，将输入空间即特征空间划分为有限个单元，并在这些单元上确定预测的概率分布，也就是在输入给定的条件下输出的条件概率分布。CART算法由以下两步组成：决策树生成：基于训练数据集生成决策树，生成的决策树要尽量大；决策树剪枝：用验证数据集对...

2018-03-27 13:39:27 1163

原创 ID3 算法

1)信息熵：假如一个随机变量的取值为，每一种取到的概率分别是，那么的熵定义为意思是一个变量的变化情况可能越多，那么它携带的信息量就越大，信息熵值越大，该系统越不稳定，存在的不定因素就越多。对于分类系统来说，类别是变量，它的取值是，而每一个类别出现的概率分别是而这里的就是类别的总数，此时分类系统的熵就可以表示为 ...

2018-03-26 16:47:09 14261 4

原创百度文库爬虫

可以免费下载百度文库所有的文章和图片等，爬虫使用简单，链接地址：https://download.csdn.net/download/m0_37786726/10308328使用步骤如下：1）解决所有需要的依赖包 2）运行spider_main.py 文件如果有朋友需要发到你们邮箱的，可以在下面留下邮箱...

2018-03-26 09:44:10 1833 15

原创 Python图像增强

代码如下： #-*- coding: UTF-8 -*- from PIL import Imagefrom PIL import ImageEnhance#原始图像image = Image.open('t_1.JPG')image.show()#亮度增强enh_bri = ImageEnhance.Brightness(image)brightness = 1.5ima...

2018-03-26 09:20:39 2574

原创分词器

一.有关NLP分词器的介绍如下： github 地址：https://github.com/tsroten/pynlpir2）安装其依赖包：pip install pynlpir pynlpir update3）示例代码如下：import pynlpirpynlpir.open()#f=open("re.txt")s = '问: 我们是深圳...

2018-03-26 09:15:46 115

翻译 spark常用函数

推荐大家看这篇文章：http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html以下主要是对这篇文章的翻译：map是对每个元素操作, mapPartitions是对其中的每个partition操作----------------------------------------------------------------...

2018-03-18 10:56:27 521

原创游戏指标

3. 游戏数据分析指标3.1. 新增玩家l 新增玩家当日新增加的玩家帐户数。l 新玩家地区新增玩家帐号的地区分布情况。l 新玩家渠道新增玩家帐号的渠道分布情况，每个玩家始终归入首次设备激活时的渠道。l 新玩家性别新增玩家帐号的玩家性别情况，根据您的游戏中传入的性别确定玩家的性别。l 新玩家年龄新增玩家帐号的年龄分布情况，根据您传入的年龄确定玩家的年龄段。l 玩家帐户类型新增玩家帐号的帐...

2018-03-18 10:34:31 1133

原创 python 学习总结

python总结学习要结合实践，这样的效果会很好，会1，字符串：name="ada lovelace"首字母大写 name.title()全部转化为大写 name.upper()全部转化为小写 name.lower()合并字符串 "hello" + namename=" ada lovelace "删除结尾空白：name.rstrip()删除开头空白：name.lstrip()删除开头和结尾空白：...

2018-03-15 21:34:17 211

原创测试图片文字识别的准确度

一.准备环境 1.python 2.tesseract安装 3安装pytesseract pip install pytesseract二.精度测试的思想：步骤如下： 1.生成文字库 2.文字转图片 3. 利用tesseract识别图片文字 4.对比识别出来的文字（x）与原文字（y），取出识别错误的字典（x，y）三.代码实现如下： # -*- coding: utf-8 -*...

2018-03-15 16:20:50 2352

原创文本转图片

一.准备工作 1.安装python 2.pip install pillow 二.执行代码 # -*- coding: utf-8 -*-import osfrom PIL import Image, ImageFont, ImageDraw text = u"这是一段story"#text=open("/home/maicaijian/ocr/chinese.txt") im =...

2018-03-15 16:01:07 291

原创 python+opencv 做人脸识别

一.准备工作对于Linux操作系统 1.安装Python 2.安装依赖库，命令如下： yum install cmake gcc gcc-c++ gtk2-devel gimp-develgimp-devel-tools gimp-help-browser zlib-devel libtiff-devel libjpeg-devellibpng-devel gstreamer-...

2018-03-08 21:28:32 1436 2

原创 ttf字体文件转化成点阵文件dot matrix

git clone https://github.com/hmgle/gendotmatrix.gitcd gendotmatrixsudo python setup.py installUsage:gendotmatrix.py --helpexample:gendotmatrix.py -o ubuntu-c.font -s "32x32" "/usr/share/fonts/tru...

2018-03-06 20:34:40 5012 1

转载 PCA学习与应用

一、PCA简介1. 相关背景主成分分析（Principal Component Analysis，PCA），是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。上完陈恩红老师的《机器学习与知识发现》和季海波老师的《矩阵代数》两门课之后，颇有体会。最近在做主成分分析和奇异值分解方面的项目，所以记录一下心得体会。在许多领域的研究与应用中，往往需...

2018-03-04 16:21:57 5735 1

转载 spark基础

1. 执行Spark程序1.1. 执行第一个spark程序/usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master spark://node1.itcast.cn:7077 \--executor-memory 1G \--total-exec...

2018-02-12 12:13:23 274

空空如也

空空如也