6 kjcsdnblog

尚未进行身份认证

新人求罩

等级
TA的排名 9w+

现代硬件架构下的Parallel Hash Join算法2

原文链接论文Cagri Balkesen, Jens Teubner, Gustavo Alonso, M. Tamer Özsu: Main-memory hash joins on multi-core CPUs: Tuning to the underlying hardware. ICDE 2013: 362-3731. 前言影响哈希连接算法的因素主要有两点:一是cache命中...

2018-03-13 10:55:28

现代硬件架构下的Parallel hash join算法

原文链接读论文 Spyros Blanas, Yinan Li, Jignesh M. Patel: Design and evaluation of main memory hash join algorithms for multi-core CPUs. SIGMOD Conference 2011: 37-481. 背景如今硬件发展非常迅速,摩尔定律指出”集成电路上可容纳的晶...

2018-03-13 10:49:41

RDF数据库Stardog安装(Ubuntu)

原文 RDF是资源描述框架(Resource Description Framework)的简称,RDF是一种用于描述网络资源的标准。很多知识图谱把数据存储成RDF格式,使用RDF数据库来管理这些数据十分有必要。这里记录一下一种功能强大的RDF数据库Stardog的安装。获得download link和license keyStardog提供企业版和社区版,企业版有30天试用期,社区版当然是免费的

2017-12-22 22:03:31

Knowledge Graph 相关数据集、人员、会议等整理

[原文链接][https://crisjk.github.io/2017/12/04/knowledgeGraphInvolved/]看论文时涉及到的一些知识图谱相关的研究人员、工具、数据集等,顺手整理出来,持续更新中~Researchers List刘知远 清华大学NLP实验室周国栋复旦大学自然语言处理实验室伦敦大学 Sebastian riedel斯坦福NaturalLanguageP

2017-12-04 21:27:44

知识图谱之关系提取

slide onedrive slide youdao

2017-12-02 11:34:12

优化算法——牛顿法和拟牛顿法

原文链接

2017-12-02 11:28:41

LDA主题模型要概括

本文为学习LDA主题模型的笔记,主要是对LDA主题模型进行一个简单的概括,具体的细节及推导可以参见:非常详细的参考资料一、问题提出什么是主题模型?什么是LDA? 将文档集中,每篇文档的主题按照概率分布的形式给出,属于无监督的学习算法。需要的输入仅仅是文档集和指定的文档主题数量K 隐含狄利克雷分布(Latent Dirichlet allocation)简称LDA。LDA是一种典型的词袋

2017-10-25 20:17:46

中文分词原理及实践

简要介绍中文分词的原理中文分词原理中文分词算法可以分成以下几种基于词典的方法基于统计的方法基于规则的方法基于词典的方法正向最大匹配1) 正向最大匹配算法首先从句首(文章首部)开始选取m个字符作为待匹配字段,m为词典中最长词条的字符个数。2) 将待匹配字段与词典进行匹配,若匹配成功则说明待匹配字段可以当成是一个词3) 若匹配失败,则将待匹配字段的最后一个字符去掉,再用新的待匹配字段与词典中的词

2017-10-20 17:08:45

支持向量机专题——线性支持向量机

线性支持向量机简介当数据线性不可分时,使用硬间隔支持向量机很难得到理想的结果。但是如果数据近似线性可分,可以采用软间隔支持向量机(线性支持向量机)进行分类。这通常适用于有少量异常样本的分类,如果使用线性支持向量机,它会尽量使得所有训练样本都正确,如下图所示。显然这并不是最好的结果,软间隔支持向量机可以权衡“间隔最大”和“误分类点最少”,得到以下结果。推导基于线性可分支持向量机,我们增加一个可”容忍“

2017-10-10 11:54:00

使用Spring boot 创建web工程

![原文][https://crisjk.github.io/2017/09/06/SpringBootStart/]利用Springboot新建一个web工程方法有很多种,一种比较方便的方法就是直接访问Spring INITIALIZR,填好信息,然后Alt + Enter键直接生成即可。然后使用IDE(对不起我比较low)import刚才生成的项目,我是使用maven方式导入的。导入完之后进到p

2017-09-06 20:36:24

TSP问题求解方法

原文一名旅行商准备前往若干个城市推销他的产品,他想要从驻地出发,经过每个城市恰好一次,最后返回驻地,求满足条件的最短路径。这便是旅行商问题。旅行商问题是一个NP问题,至今尚未有准确的解法,现有的算法只能尽可能减小误差。目前最优的算法能在误差1%范围内估计上百万个城市的问题。改良圈算法改良圈算法的思想是首先求出一个哈密顿圈C,然后通过适当地修改哈密顿圈得到具有较小权值的另一个哈密顿圈。设初始圈C=v1

2017-09-02 00:52:28

支持向量机专题——线性可分支持向量机

原文支持向量机(support vector machine, SVM)是一种经典的分类器,其主要思想是学习一个在特征空间上使间隔最大的分类器。支持向量机的学习可以看成是一个求解凸二次规划问题的过程,同时也等价于正则化的合页损失函数的最小化问题。支持向量机可以分为:线性可分支持向量机、线性支持向量机、非线性支持向量机三种。当训练数据线性可分时,可通过硬间隔最大化,学习一个线性可分支持向量机(也称为硬

2017-09-02 00:50:09

RMQ和LCA在线算法

原文 学习一下LCA的在线算法。RMQRMQ是查询区间最值的一种方法,其思想非常简单。举例来说,我们想查询区间[5,37][5,37]中的最小值,如果我们事先知道区间[5,5+24)[5,5+2^4)中的最小值以及区间[37−24+1,37+1)[37-2^4+1,37+1)中的最小值,那么我们很容易得到答案。于是问题就变为,我们如何知道区间[i,i+2k)[i,i+2^k)中的最小值。显然Min

2017-09-02 00:48:29

梯度下降

原文在机器学习中,梯度下降是十分常见的一种方法。在很多机器学习算法中,对于参数的学习调整,采用的方法都是梯度下降。可以说,梯度下降是每一个学习Machine Learning 的人必须彻底掌握的方法。只有理解了梯度下降,才能初步对于机器学习有所了解。接下来,这篇博客将从头到尾详细讲述一遍梯度下降。首先必须说明的是,这篇博客是参照Andrew Ng讲解的《Machine Learning》课程中关于梯

2017-09-02 00:45:10

使用weka内置算法分析数据(图形界面操作)

原文 本文使用weka中内置的三种分类算法(naive bayes,SVM,Logistic Regression)根据收集到的鸢尾属植物的数据进行分类,通过精度和效率对三种算法进行比较。1、鸢尾属植物的分类数据中包含鸢尾属植物的四种属性。四种属性分别是萼片长度、萼片宽度、花瓣长度、花瓣宽度。数据中还包含鸢尾属植物的三种种类,分别是:Iris-setosa(山鸢尾)、Iris-Versicol

2017-09-02 00:43:29

Hadoop Left Join2

我在上一篇博客Hadoop实现LeftJoin操作上已经分享过一种实现LeftJoin操作的方法。这次分享一种自定义数据类型来实现LeftJoin,该方法相对与之前的方法要更高效。简单来说,之前分享的方法是把两张表先按照同一种格式去map,也就是说无论是员工表还是公司表都是一样处理,只不过在Reducer时进行判断,将原本为null的内容替换,所以会有不少的浪费。而本次介绍的方法,自定义一种数据类型

2017-09-02 00:40:53

Hadoop Left Join

数据库的Left Join操作就不解释了,参考图解SQL的各种连接操作 下面来说说如何用hadoop的MapReducer实现数据库的LeftJoin。其实这是个非常简单的过程,举例说明:假设有两个表employee和salary Employee companyId Employee jd, david jd, mike tb, mik

2017-09-02 00:39:47

Hadoop-Invert-Index

Hadoop-Invert-Index倒排索引是文档检索系统中最常见的数据结构,被广泛用于全文索引引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档那该的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行了相反的操作(即根据关键字来查找文档),故称为倒排索引。源码import java.io.IOException; import j

2017-09-01 23:41:45

uva 10862 Connect the Cable Wires大整数类c++

1: 12:1+(1+1)3:1+2+(2+3)4:1+2+5+(5+8)而斐波那契数列1 1 2 3 5 8……因此推出a[n]=a[n-1]+fib[2*i-1]+fib[2*1-2];java代码import java.util.*;import java.math.*;public class Main { public static void main(

2015-03-05 18:23:03

经典过桥问题证明

例题:poj 1007 poj 3404 poj 2573一、问题  在漆黑的夜里,四位旅行者来到了一座狭窄而且没有护栏的桥边。如果不借助手电筒的话,大家是无论如何也不敢过桥去的。不幸的是,四个人一共只带了一只手电筒,而桥窄得只够让两个人同时过。如果各自单独过桥的话,四人所需要的时间分别是1、2、5、8分钟;而如果两人同时过桥,所需要的时间就是走得比较慢的那个人单独

2015-02-04 22:13:47

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!