6 zakexu

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 1w+

maven的使用

maven是一种项目对象模型(POM),是可以通过一小段描述信息来管理项目的构建,报告和文档的软件项目管理工具;(一)安装1.官网下载并安装jdk;2.官网下载mvn并直接解压;3.设置环境变量;4.cmd中输入mvn -version验证是否成功;(二)概念介绍1.settings文件(1)解压后的mvn目录下的conf文件下有一个settings.xml文件;

2016-06-24 10:54:39

scala笔记

(一)简介1.编程模式:(1)交互式;(2)脚本式;2.脚本以.scala结尾命名;运行脚本过程如下(先编译后执行):scalac test.scalascala test3.一个简单的例子:HelloWorld.scalaobject HelloWorld { /* This is my first scala program. * This wil

2016-06-16 16:24:55

计算广告

(一)简介1.广告主+变现平台+受众2.广告分类:(1)品牌广告、直接效果广告;(2)横幅广告(banner)、文字链广告;(3)合约广告、搜索广告、竞价广告、程序化交易广告、原生广告;3.计费方式术语:(1)CPM(cost per mille):按千次展示付费(2)CPT(cost per time):按时长付费(3)CPC(cost per click):

2016-05-11 15:47:42

word2vec模型

(一)简介1、传统的词向量一般用one-hot表示,通常面临两个问题:(1)高维稀疏的向量带来计算成本;(2)不同的词向量彼此正交,无法衡量词之间的相似度。而distributed representation通过训练,可以得到每个词的低维稠密向量,不仅计算成本低,而且可以通过向量的距离计算来表示词与词之间的相似度。word2vector就是一个将词进行低维稠密向量化的工具。2、wor...

2016-05-10 11:06:55

统计语言模型

(一)简介1.词向量传统表示:(1)One-hot Representation;(2)存在稀疏以及维度灾难的问题;(3)根据词向量无法判断词之间的相关性;2.词向量近期表示:(1)Distributed representation;Word Representation;Word Embedding;(2)低维实数向量;(3)词义相似可以用空间距离来表示;3

2016-05-09 10:56:50

XGBoost模型

1.模型(1)整体模型函数如下:其中 k 表示树的数量,f 表示每棵树的预测函数;(2)截取到第 t 棵树的模型函数表示如下:2.训练(1)每次训练一棵树,目标函数如下:   其中第一项是损失函数,第二项是防止过拟合;N表示样本数,T表示所有树的叶子数目,t 表示训练第 t 棵树,w 表示叶子的输出值;(2)泰勒展开(二阶展开):

2016-04-28 20:33:37

正则表达式

(一)简介1.正则表达式描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等;2.正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为"元字符")组成的文字模式;模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配;(二)常见字符定义:1.非打印字

2016-04-27 10:53:16

基于Python的网络爬虫入门

1.网页抓取入门(1)简单的抓取:直接从url抓网页数据(2)传递数据:post或者get方式post:3456789importurllibimporturllib2 values={"username":"1

2016-04-21 12:57:13

awk笔记

(一)简介1.awk是一种处理文本文件的语言,是一个强大的文本分析工具。2.常见用法log.txt2 this is a test3 Are you like awkThis's a test10 There are orange,apple,mongo(1)用法一:awk '{[pattern] action}' {filenames} # '' 只能用单引

2016-04-20 20:28:51

shell笔记

(一)简介1.Shell有两种执行命令的方式:交互式(Interactive):解释执行用户的命令,用户输入一条命令,Shell就解释执行一条。批处理(Batch):用户事先写一个Shell脚本(Script),其中有很多条命令,让Shell一次把这些命令执行完,而不必一条一条地敲命令。2.一个简单的例子#!/bin/bashecho "What is your name?"

2016-04-20 17:43:59

FM模型

(一)简介1.FM(factorization machine)模型是一种基于矩阵分解的机器学习模型,对于稀疏数据具有很好的学习能力;2.FM模型与LR模型的区别在于引进了特征组合;(二)算法1.线性回归模型:没有考虑特征分量之间的关系;2.考虑特征分量之间关系的线性回归模型:若样本特征为高度稀疏,那么不能对wij参数进行估计,绝大部分为0;3.FM模型:引入辅

2016-03-10 11:42:30

主题模型

(一)概念1.LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构;所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语这样一个过程得到;文档到主题服从多项式分布,主题到词服从多项式分布;2.LDA是一种非监督机器学习技术,可以用

2016-03-06 11:13:59

HOG

1、HOG特征:       方向梯度直方图(Histogram of Oriented Gradient, HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中,尤其在行人检测中获得了极大的成功。需要提醒的是,HOG+SVM进行行人检测的方法是法国研究人员Dalal

2016-03-06 09:43:44

海量数据处理

在处理海量数据时,遇到的主要问题有两个:(1)时间问题:如何在短时间内高效地处理数据,一般是采用巧妙的算法搭配合适的数据结构;(2)空间问题:如何在有限的内存中处理海量数据,一般是采用分而治之的思想,将海量数据划分为小份的数据;(一)分而治之+统计+排序1.分而治之(1)一般是采用hash映射的方法,将海量数据划分为若干小份量的数据;(2)常见做法:hash(X)%N;其中

2016-02-26 17:41:34

推荐系统

(一)概念1.协同过滤(Collaborative Filtering,CF)是现今推荐系统中应用最为成熟的一个推荐算法,它利用兴趣相投、拥有共同经验之群体的喜好来推荐使用者感兴趣的资讯,个人透过合作的机制给予资讯相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选资讯;2.常见的协同过滤算法(CF):(1)基于用户的协同过滤(user-based CF)(2)基

2016-02-24 20:58:56

优化理论

(一)梯度下降算法(最速下降法)1.梯度下降法是用负梯度方向为搜索方向的,最速下降法越接近目标值,步长越小,前进越慢;2.梯度下降法的计算过程就是沿梯度下降的方向求解极小值(也可以沿梯度上升方向求解极大值);3.迭代公式为  ,其中  代表梯度负方向,  表示梯度方向上的搜索步长;(二)牛顿法(1)牛顿法最初是用来求解函数零值点位置的

2016-02-23 16:27:04

GMM模型

(一)高斯判别分析模型(Gaussian discriminant analysis,GDA)1.GDA模型是服从高斯分布的生成模型:(1)假设每个类别的样本数据服从多元高斯分布:(2)现在假设样本值为多维连续变量,讨论二分类问题,那么分别对两个类别的样本进行高斯建模(使用同一个协方差矩阵):那么概率分布如下:2.似然函数如下:3.参数的极大似然

2016-02-20 17:20:59

HMM模型

(一)基本概念1.隐马尔科夫模型(Hidden Markov Model,HMM):关于时序的概率模型;描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程;(1)状态序列:HMM生成的状态的序列,称为状态序列;(2)观测序列:每个状态生成一个观测,而由此产生的观测的随机序列,称为观测序列;(3)序列的每一个位置又可以看作是一个...

2016-02-19 14:17:18

基于MATLAB与C++的混合编程

1.Matlab是当前应用最为广泛的数学软件,具有强大的数值计算、数据分析处理、系统分析、图形显示甚至符号运算等功能。利用这一完整的数学平台,用户可以快速实现十分复杂的功能,极大地提高工程分析计算的效率。但与其他高级程序相比,Matlab程序是一种解释执行程序,不用编译等预处理,程序运行速度较慢。C/C++语言是目前最为流行的高级程序设计语言之一。它可对操作系统和应用程序以及硬件进行直接操作,用C

2016-02-07 12:55:06

算法设计思想

(一)分治算法1.基本思想:将一个规模为N的问题分解为K个规模较小的子问题,这些子问题相互独立且与原问题性质相同;求出子问题的解,就可得到原问题的解2.例子:快速排序算法(二)动态规划算法1.基本思想:(1)与分治法类似,也是将待求解的问题分解为若干个子问题,按顺序求解子问题,前一子问题的解,为后一子问题的求解提供了有用的信息;依次解决各子问题,最后一个子问题就是初始问题的解

2016-02-06 21:15:44

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。