自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(97)
  • 资源 (2)
  • 收藏
  • 关注

转载 推荐系统中隐语义模型

使用LFM(Latent factor model)隐语义模型进行Top-N推荐最近在拜读项亮博士的《推荐系统实践》,系统的学习一下推荐系统的相关知识。今天学习了其中的隐语义模型在Top-N推荐中的应用,在此做一个总结。隐语义模型LFM和LSI,LDA,Topic Model其实都属于隐含语义分析技术,是一类概念,他们在本质上是相通的,都是找出潜在的主题或分类。这些技术一开始都是在文本

2015-02-04 12:02:59 13037 3

转载 广告点击率预测 [离线部分]

广告点击率预测屈伟 / Koala++         先声明一下,本文所提到的所有的点击率预测的技术不是我在的团队使用的,因为我们团队使用的技术是保密的,所以我也不知道他们是怎么做的。事实上我不知道广告点击率怎么预测的,认识我的人都知道,我就是最喜欢舞那开始三板斧的人,然后我就想扔了板斧投降了。也希望各位能指正我所写的内容中的错误之处,给我一下学习第四斧的机会。

2015-01-20 10:30:51 7490

转载 one hot coding -机器学习

机器学习 数据预处理之独热编码(One-Hot Encoding)问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。例如,考虑一下的三个特征:["male", "female"]["from Europe", "from US", "from Asia"]["uses Firefox", "uses Chrome", "us

2015-01-08 16:39:36 29736

转载 梯度下降算法

Logistic回归的理论内容上篇文章已经讲述过,在求解参数时可以用牛顿迭代,可以发现这种方法貌似太复杂,今天我们介绍另一种方法,叫梯度下降。当然求最小值就是梯度下降,而求最大值相对就是梯度上升。 由于,如果,那么得到               现在我们要找一组,使得所有的最接近,设                

2014-11-21 10:29:03 10824

转载 Logistic回归原理及公式推导

原文见 http://blog.csdn.net/acdreamers/article/details/27365941

2014-11-20 11:48:39 145960 9

原创 $(MAKE)在Makefile中使用

主 Makefile内容:SUBDIRS=foo bar bazsubdirs:  for dir in $(SUBDIRS); do\    $(MAKE) -C $$dir; \  done当前目录下各个子目录的Makfile内容:./foo/Makefile:foo: @echo "foo..."./bar/Makefile:

2014-10-28 16:30:52 3649

原创 大数据下的逻辑回归训练模型方法论

转自http://www.36dsj.com/archives/6343      在数据膨胀的当今社会里,海量数据中蕴含价值日渐凸显出来。如何有效的挖掘海量数据中的有效信息已经成为各个领域面临的共同问题。以互联网企业为代表的科技公司依据自身的实际需求,开始大量的应用机器学习、数据挖掘以及人工智能等算法获取海量数据中蕴含的信息,并且已经取得了很好的效果。当今社会已经从过去的信息匮乏

2014-10-23 11:08:59 3931

原创 广告点击率预估中的特征选择

转载自http://blog.csdn.net/mytestmy/article/details/19088827互联网广告综述之点击率特征工程一.互联网广告特征工程博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统,可以看到,其中的logistic regression模型是比较简单而且实用的,其训练方法虽然有多种,但目标是一致的,训练

2014-10-22 17:54:32 28544 2

转载 用户画像数据建模方法

作者:百分点技术总监郭志金从1991年TimBerners-Lee发明了万维网(World WideWeb)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的

2014-09-24 19:34:52 4707 1

转载 Linux大棚版Thrift入门教程

博客地址为http://roclinux.cn。

2014-07-19 16:23:39 1171

原创 迪杰斯特拉最短路径算法 严蔚敏C++实现

#include using namespace std;const int MAX=20;const int INF=9999;typedef bool PathMatrix[MAX+1][MAX+1];typedef int ShortPathTable[MAX+1];typedef struct{ int vexnum,arcnum; char vexs[MAX

2013-08-29 21:40:08 4959 1

转载 C++ 语言学习错误集合

1. 错误:expected unqualified-id before ‘using’  其实就是类声明后面没有加分号导致的。类声明的时候没有加分号,还可能导致一个错误错误:一个声明指定了多个类型解决办法:分别检查包含进来的文件,类声明,结构体声明后面有没有加分号。2. 重载运算符using std::ostream;3. C++容器迭代器

2012-12-07 10:30:42 1179

转载 正则表达式30分钟入门教程

http://www.cnblogs.com/deerchao/archive/2006/08/24/zhengzhe30fengzhongjiaocheng.html

2012-11-20 15:36:27 764

转载 [转] Linux应用层的定时器Timer

在linux下提供了两种基本的Timer机制:alarm和settimer。   1、alarm    #include     unsigned int alarm(unsigned int seconds);    这是个最简单的Timer,当调用了alarm(n)时,等待n秒后,就会触发一次SIGALRM信号,故需要在调用alarm函数前先设置好 SIGALRM信号对

2012-11-14 10:05:11 869

原创 linux不同服务器间传递复制文件

命令:scp filenamecoped Destinationhost:/directory说明 ——scp 要拷贝的文件 目标主机IP:/目录/eg:将当前目录下的startup.sh拷贝到目标主机157上的/home/目录下[root@vulcan home]# scp startup.sh 192.168.1.157:/home/ [email protected]

2012-11-09 22:10:56 1611

原创 解决windows传送到linux下中文文件名及文件内容乱码问题

利用 winSCP 将windows系统下的文件上传到linux 下,含有中文的文件名,其文件在linux下会显示乱码 ,可以在winscp 环境中设置。linux下经常遇到的编码问题如果你需要在Linux中操作windows下的文件,那么你可能会经常遇到文件编码转换的问题。Windows中默认的文件格式是GBK(gb2312),而Linux一般都是UTF-8。查看

2012-11-09 22:08:20 31380

原创 Linux C中的opendir()

头文件  #include  #include函数原型  DIR* opendir (const char * path );功能  打开一个目录,在失败的时候返回一个空的指针。  使用实例:  #include   #include   int main(void)  {  DIR *dirptr = NULL;  struc

2012-11-09 22:04:21 21682 1

原创 C++ read(),write() ,seekg(),tellg()

istream &seekg(streamoff offset,seek_dir origin);pos_type  tellg() 返回流置针所在的位置,返回值为整数从文件origin位置开始移动offset个字节读写数据块  要读写二进制数据块,使用成员函数read()和write()成员函数,它们原型如下:    read(unsigned char *buf

2012-11-09 22:02:08 2488

原创 C++ 带有参数的宏定义

宏定义中 多行时用"\"换行。#define CHECKFILE(state, path) \ if (!state) \ {\ fprintf(stderr, "At file %s, line %d: \nFile open error: %s\n", __FILE__, __LINE_

2012-11-09 21:59:04 10263

原创 C++ 判断文件的几种方式

C++ 判断文件的几种方式ifstream file_1;1. if(!file_1)2.if(!file_1.good())3.if(file_1.fail())上述三个等价,代表文件打开失败,但不能检测出以不合适的文件模式打开文件失败,而第4中方法可以。4.if(!file_1.is_open())推荐用第4中方式,其判断输入流对象file_1是否按正确的方

2012-11-09 21:56:51 1008

原创 C++ getline()函数

stringstream中getline()函数函数原型istream& getline(istream &is,string str,char delim);istream& getline(istream &is,string str);其中 is:输入流str:存储操作的内容delim:终结符函数功能:将输入流中的字符串存储到str中,知道遇到终结符为止。第

2012-11-01 11:04:10 641

原创 C++ vector<string> 内联函数

vector 的内联函数内联函数的好处:一般调用函数前首先要保存寄存器,并在返回时恢复。复制实参,程序还必须转向一个新位置执行。而写成内联函数,将避免函数调用的开销,将它在程序中的每个调用点上‘内联的’展开。内联函数应该在头文件中定义,这一点不同于其它函数。如 inline vector& split(string& str, char delim, vector& elems

2012-11-01 11:02:44 1203

原创 vim 中修改查找字符串时高亮显示的颜色

命令模式下利用 :/要搜索的内容 来search,如 ":/ term" 在vim中搜索term修改颜色的命令如下::hi该命令执行后可以显示出所有可以设置的颜色,选择自己中意的一款颜色。复制相应内容,执行下面的命令:hi Search term=standout ctermfg=0 ctermbg=3(从上面找到合适的颜色设置)其中 “term=standout ctermf

2012-11-01 11:00:48 13571 1

原创 C++ 文件操作 &检查文件尾 &读取模式

文件操作读取文件时的读取模式fstream类中有个open()函数,其原型为:void open(const char* filename,int mode ,int access)参数含义@filename 打开文件的名字@mode    打开文件的模式@access   打开文件的属性打开文件的属性在ios类中定义,其中ios类是所有流式I/O类的基类。常见

2012-11-01 10:55:36 1338

原创 vector和list以及deque的区别和各自优缺点

vector和list以及deque的区别各自优缺点:vector:优点:随机存取,即[]操作和vector.at()动态操作,push_back()与pop_back()自动调整内存,节省空间缺点:实现插入与删除操作效率低只能在尾部插入与删除,在头部插入与删除消耗时间规模与容器大小成正比。当动态添加的数据超过默认内存大小时,要进行整体的重新分配,拷贝与释放

2012-11-01 10:54:17 7579

原创 C++ 读取文件内容赋值给变量

#include ifstreamifstream file;file.open("abc.txt",ios::in);string str1,str2;file>>str1;//将读入的第一个字符串赋值给str1,按照空格来识别不同的字符。

2012-11-01 10:50:59 10580

原创 基本的MAkefile用法

Makefile的规则:target:prerequisities commandtarget可以是obj文件 ,也可以是目标文件 ,也可以是lable 标签prerequisities 指的生成target所需要的依赖文件或目标command指的是执行的make命令,任意的shell命令g++ -Wall 可以打印出程序的错误或警告。提示程序可能存在的错误 如变量

2012-10-30 17:01:36 872

原创 美股网页表格数据爬虫设计

# -*- coding: gbk -*-#!/usr/bin/python#program : spider -- crawer financial data from 500 diffrerent American stocks' webs.#获取网页内容#author :Douronggang#date :2012-10-30'''说明:1.以下代码中用到的变量symb

2012-10-30 16:59:35 3441

原创 在IDLE 中用python 写新闻爬虫

1.在IDLE环境中,在进行文件读写时注意 路径的合法写法。eg:import osimport urllib2url='http://biz.finance.sina.com.cn/usstock/usstock_news.php?pageIndex=1&symbol=AA'try: content=urllib2.urlopen(url).read() file_n

2012-10-30 16:58:21 5323

原创 C/C++ 移位运算代替乘除法

C/C++用移位运算代替乘除法能够显著提高运算效率比如运算2乘以8a=2*8;可以写为 a= 2表示2左移三位另外 整数不是2的幂的数也可以利用这种方式比如b=b*9可以看做b=b*(8+1)=b*8+b从而 b=b从而b=b*7改为 b=b

2012-10-30 16:52:29 7165

原创 python文件夹创建

问题:读取文本中每行的字符串,并按照该字符串为名创建文件夹def make_dir(self,symbol):#创建每支美股存储的路径 if os.path.exists(str(symbol)): pass else: os.mkdir(str(symbol)) def create

2012-10-22 20:45:42 4764

原创 PYthon 正则表达式指南

http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html注意:re.match()尝试从字符串的开始匹配一个模式,        而re.search() 则会在字符串内查找模式,知道找到第一个匹配然后返回,如果字符串没有匹配,返回NONE;     re.findall() 获取字符串中所有匹配的字符串?在正则

2012-10-16 22:15:39 692

原创 basic_string 介绍

先看以下函数int getOneLine (std::string & HTML, std::basic_string::iterator & iter, std::string &line)basic_string是一个能够根据需要自动调整内存分配的对象容器。可以说是一个动态数组。这个数组中的元素是同一类型。 stl中已经定义好了两个类型strin

2012-09-16 17:12:03 1729

原创 error while loading shared libraries错误解决

出错如下:主要错误:error while loading shared libraries: libboost_regex.so.1.51.0: cannot open shared object file: No such file or directory错误过程如下:[root@node07 C++]# ll总用量 960-rw-r--r--. 1 root roo

2012-09-16 11:13:07 16290 2

转载 Linux环境 Boost安装

1. Boost 下载 进入 Boost 官网 http://www.boost.org/ 下载boost,我下载的版本是 1.51.0 boost_1_51_0.tar.gz2. Boost 解压  我选择的解压目录是: /usr/share/  #tar -zxvf boost_1_51_0.tar.gz  如果下载的是boost_1_5

2012-09-15 22:02:01 910

原创 protege 学习

http://hi.baidu.com/yfqsdie/item/82aecb1c14df1609e75c3633

2012-09-15 21:43:38 780

原创 新闻热点发现

问题:1.如何爬取仅仅与股票相关的网页--特定领域新闻的获取获取之后提取出时间,标题,正文,url等内容,净化处理之后,再去除停用词,特征抽取,利用金融本体,通过金融本体的标注,使网页数据被标注为有行业分类的信息。

2012-09-15 18:09:42 718

原创 查找含有某一字符串的文件

查找当前目录grep 字符串 * 查找当前目录及子目录grep -r 字符串 *如:[root@node07 Linux_32_C_Demo]# grep ICTCLAS_FileProcess *cDemoOK.cpp: ICTCLAS_FileProcess("Test.txt", "Test_result.txt",CODE_TYPE_GB,1);ICTCLAS

2012-09-14 09:59:05 760

原创 利用虚函数实现多态

关键字 virtual 针对基类的不同派生类,如果派生类重新定义虚函数,那么派生类的虚函数将覆盖基类对应虚函数的实现。如果强制派生类定义某个函数,则可以在基类中将这个虚函数声明为纯虚函数,也就是基类不实现这个虚函数,所有实现留给派生类。当类中含有纯虚函数时,这个类就是抽象类。不能创建抽象类的对象,否则出现编译错误。如果某个类从抽象类中派生,就必须实现其中的纯虚函数,才能成为一个实体类,否则

2012-09-12 16:36:01 918

原创 在友元中访问类的隐藏信息

利用friend 关键字,可以将外界的一个函数声明为友元函数或者友元类。友元函数可以定义在public ,protected,private 的任何一部分class 类名{ public: friend 返回值类型 函数名 (参数列表) { ........... }};友元类的

2012-09-12 11:11:44 1339

中文停用词表

比较全面的中文停用词表,对于从事自然语言处理的研究者很有用处。

2012-11-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除