Ayang777-CSDN博客

原创 2020/8/23-Leetcode-28

主要关注题解中，将KMP算法转为动态规划的方法。在该方法中，字符串匹配的过程，被描述为确定转态转换的问题。利用动态规划，对KMP算法重新解读。0. 前期知识：chr(int) -> charord(char) -> int动态规划过程：...

2020-08-16 17:06:10 132

原创 IDEA导入jar包

## Note 一下：IDEA导入包的常规操作应该是“File” >> “Project Structure” >> "modules" >> "Dependencies" >> + "jar.....”. 如果一直不成功，比如一直“empty library”，依赖包不能正常使用？**直接使用 XX.iml 文件导入***比如：*--

2019-03-18 11:19:55 1052

原创变分贝叶斯学习

记录两个学习档案：https://www.leiphone.com/news/201703/cUbfLxKPgy7ecqku.html https://www.leiphone.com/news/201703/djm3u9LLqylr3C8N.html?type=preview希望有生之年能够看懂吧！！更希望可以看懂Streaming Variant Bayes。我现在是概率贝叶斯学派...

2018-09-28 08:58:31 1322

翻译 SDA（Streaming，Distributed，Asynchronous） Bayes

SDA贝叶斯框架包括三个部分（内容），分别是流式计算，分布式处理和异步更新的贝叶斯推断模型。为了可以满足普遍性，需要本地化的近似函数A，给定了全局参数先验和并实现了A，SDA框架就可以运行了。那么，分别介绍这三个主要内容吧！ 1， Streaming updating考虑贝叶斯规则，假设数据C1=｛x1，x2，...，xs｝：P（Θ1|C1）=先验*释然/观测量假设我们的数据是批量...

2018-09-28 08:58:27 225

翻译 Streaming Gibbs Sampling for LDA (SGS)

主要两个重点，分布式和流处理，其模型主要的思想和SVB是相同的，流：后验作为先验，前n-1的数据后验作为n的先验，且只需要保存Nkv的值，加到β上。另有衰减参数，分：参数服务器模式，Nkv作为全局参数，保存在中心服务器，worker计算结果后，返回并更新参数，异步更新，计算用到Nkv和Wt，以及α先验。话题模型中需要的主要三个参数，分别是Nkd，Nkv，Nk，其中Nk...

2018-09-28 08:58:23 162

翻译 Variational inference

bayes推断最麻烦的就是对概率密度的计算，相比较于MCMC算法，VI具有更快的速度，也更能理解——我们需要近似出概率密度。首先假象一个密度簇，然后找到对应的组成部分，接近目标，KL散度用来评估，需要不断优化。在贝叶斯统计中，未知量的计算都可以看作（涉及）后验概率密度的推断，p(z, x) = p(z)p(x | z). 先验和似然的乘积得到全概率。对比采样，我们的主要实...

2018-09-28 08:58:20 219

翻译 Improving Topic Models with Latent Feature Word Representatio

Improving Topic Models with Latent Feature Word Representatio 先介绍了LDA和DMM两种模型，其中DMM比较独特，因为他假设文档只有一个话题，即单个文档中所有单词的多项式分布是一致的（对应于一个话题），所以生成过程是，先为文档生成话题，然后基于该话题分布生成单词。Θ是K维的向量，而不是K*D的矩阵。这篇文章结合预先训练...

2018-09-28 08:58:13 416

翻译词共现网络

今天看三篇文章：一，实时词共现的微博话题发现话题分布的两种方法，LDA（概率）和聚类。其中，wordgraph就是聚类方法，结合single-pass过程，基于信息的流时序特征和上下文相关度，探听新话题的产生和话题的演变。这篇文章基于图模型，词共现图和single-pass思想结合。词共现网络的构建基于单词x，y同时出现在一句话中，即现有单词集合和词关系矩阵，结合时间系数权重计算。构造...

2018-09-28 08:58:07 9690

翻译 Generating Adversarial Malware Examples for Black-Box Attacks

Generating Adversarial Malware Examples for Black-Box Attacks 用生成对抗网络生成可以不被黑盒判别器识别的恶意软件。恶意软件用M维的binary向量表示，每个维度表示API的调用（0,1分别表示是否调用）这里用到dual-training的思想（大概吧，毕竟文中没有说明），在生成过程中首先加入噪声，结合其他操作...

2018-09-28 08:57:48 601

翻译 Temporal Context-Aware Model

Temporal Context-Aware Model在前面，这篇论文提到文章“TimeUserLDA”model，并指出模型assumes that user posting behaviors are influenced by both user interest and global topic trends，即讲用户的post行为也分为两个因素，但是模型将两类话题映射到同一个潜在话...

2018-09-27 10:54:07 346

翻译 Targeted Topic Modeling for Focused Analysis

Targeted Topic Modeling for Focused Analysis和KDD16的psudo-topic的短文本话题建模方法类似，主要为了解决稀疏性问题。目前：工作的中心是全数据中的全话题的全局分析；缺点：需要特定方向的细节分析（targeted aspects）提出：targeted topic model - 基于兴趣（目标）的细粒度话题分析问题描...

2018-09-27 10:38:19 226

翻译 JST ：Joint sentiment topic model & ASUM ：Aspect sentiment unification model

Joint sentiment /topic modelJST模型从文本检测情感和主题之前的工作缺点：基于机器学习的情感分类需要大量的人工标记；一个领域训练的情感分类模型不能很好地应用于另一个领域；主题/特征检测和情感分类经常分开来进行，忽略了它们的相互依赖性。JST 同时建模话题和情感情感分析可以分为三类：积极，消极和neutral。更细粒度的可以分析单个用户对特定it...

2018-09-27 10:29:50 3125 3

翻译 Enhancing Sentiment Analysis Using Community Detection

利用关键词｛community，sentiment｝作为关键词，只能检索到这三篇文章，所以可以简单的认为这并不算一个非常热门的研究问题，这里简要对这三篇文章进行阅读。第一篇：Community detection seeks to find groups of associated individuals within networks, and sentiment analysis a...

2018-09-27 10:25:07 146

翻译 sequence topic model

probabilistic topic model for sequence data 考虑到bag of word 的单词顺序可交换性的限制，所以考虑存在话题的依赖关系，也即是单词的话题分配受到前一个单词的影响，提出了sequence topic model，参数和模型的优化过程如下图：a为原始的LDA，单词的话题分配是独立的；b为token-bigram，即双词话题构成，即单...

2018-09-27 10:24:21 354

翻译 Identifying and Tracking Sentiments and Topics from Social

作者提供了数据和代码（不是很多）：https://goo.gl/uee3QK按照惯例，不解释技术细节，只介绍文章的问题和方法，先看图：location-based dynamic sentiment-topic model (LDST)——考虑了地点，情感和话题的动态模型（动态主要提现在地点的变化，引起的情感和话题的变化）论文假设存在作者，地点和文档集合，对于特定时间戳，利用...

2018-09-27 10:21:03 126

翻译 Open Domain Targeted Sentiment

看文献不会虚度时间论文The intuition behind this work is that sentiment expressed towards an entity, targeted sentiment, may be viewed as a span of sentiment expressed across the entity. 灵感在于，对于某个目标实体的情感表达会跨越...

2018-09-27 10:19:34 394

翻译结合语义和关联的aspect抽取优化

：lifelong learning的aspect抽取工作研究：Improving Opinion Aspect Extraction Using Semantic Similarity and Aspect Associations 使用DP（dependency）的语法规则的挖掘方法，有很大的提升空间在于，无法同时兼顾precision和recall，所以提出利用语义相似性和关联关...

2018-09-27 10:19:27 469

翻译 Incorporating Tweet Relationships into Topic Derivation

这篇文章的精髓，大约在这几句话：（胜率tweet相关性判断部分）While expanding the content of the tweets using external documents seems to be ideal.....expanding the tweet content by adding the words from the related tweets（解决稀疏性...

2018-09-27 10:19:19 77

翻译 LDA学习

收藏：模型建立：http://blog.csdn.net/happyer88/article/details/45936107变量求解：http://blog.csdn.net/happyer88/article/details/46405399/变分推断：http://blog.csdn.net/happyer88/article/details/46438111/模型参数：ht...

2018-09-27 10:19:11 203

翻译 continual learning

关注持续学习，终身学习和永动学习。一、持续学习（https://deepmind.com/blog/enabling-continual-learning-in-neural-networks/）持续学习通过任务执行结果（参数学习）的增量记忆（模拟大脑），将知识应用于新的任务中。大脑的记忆分为缓慢记忆和突出强化，重要任务的神经元连接不会被覆盖。同理，在神经网络中，在学习任务之后，我们...

2018-09-26 09:59:57 5125

翻译 short text model

北航的同行，去年连续发了三篇论文，都是和短文本处理相关的。链接分别是：第一篇，用到co-occurrance第二篇1 ，第三篇，用替代文本（伪文档）代替话题和短句第一篇，将短文本和场文本的分类区别开：A topic model for co-occurring normal document and short texts其基本思想是，短文本除了有基础话题（fo...

2018-09-26 09:55:30 689

翻译 What is aspect based sentiment analysis?

假设我们开设了一家旅馆，我们想知道是什么原因让客人流失了，所以进行了如下的调查：如何很难直接去评价正负，我们分析不同的方面（aspect），帮助我们找到原因。如图。At the end of the day numbers matter, who cares what the review speak about, get those numbers of positive or ne...

2018-09-26 09:48:04 606

翻译 Incorporating Word Correlation Knowledge into Topic Modeling

开始没有仔细看的时候，也不懂MRF的应用，学习细节才知道重点。论文简单描述MRF-LDA的场景：首先，假设话题的粉笔θ，以及单词分布β都服从狄利克雷分布，每个单词具有话题标签z。提取单词的关联关系，主要是语义的相似性，用来学习话题的一致性。所以用到了MRF，在潜在话题层。给定文档d和N单词，判断单词对（根据外部知识）创建无向边连接他们的话题标签，获取图G和单词标签。如下图的5个节点，4条边...

2018-09-26 09:44:37 161

翻译 life event identification using semantic and syntactic graph

很久没有看论文了，今天看一下“life event identification using semantic and syntactic graph”。问题：generate brief automated biographies for the users based on their generated content困难： amount，mention a life even...

2018-09-26 09:40:38 149

翻译 personal medical event extraction

利用用户医疗文本挖掘用户个人疾病相关的事件，这个系统，流水线模式：1，时间提取 -》 event extraction2，时间线结构生成 -》 temporal tagger and resolver首先是基于term的相关文本探测和过滤，然后根据相关文本对term进行优化（互相吸收过滤），最后进行聚类（用到lda，word2vec）等方法；然后是时序的生成，采用了时序表达的...

2018-09-26 09:37:40 157

翻译 An Event Extraction Model based on Timeline and User analysis

论文 SIGir14的一篇短文：结合term权重和用户的重要程度的话题模型，用以事件的提取：算法上，将term权重（卡方验证和频率）与单词采样结合；用户得分（HITS的重要用户和活跃用户）和话题采样结合。思路很直观，效果也还可以，考虑到这个问题：是否可以将用户影响力和话题建模结合起来。引用文献中：ACL`12的文章“Finding Bursty Topics ...

2018-09-26 09:36:35 109

翻译 A Cluster-Based Topic Model-theis

将文档的群组信息，也结合到话题建模的过程中，考虑到多层次的LDA，构成了文档、群组和语料库的话题分布层次。当群组的个数已知的时候，群组生成是c维度的概率向量，联合分布概率可以表示为：单词w，话题z和群组c：这里Nwt为单词分配为话题t的个数，Ntd为文档中话题t的个数，Nc为群组c中的话题个数。可以知道，这里每个文档只有一个群组标签，所以有生成概率为：所以得到分布：且：...

2018-09-26 09:20:20 149

翻译 Personalized Time-Aware Tweets Summarization

一篇看了三天的文章，不是因为文章本身的难易程度，而是我个人的执行效率太慢了。论文地址首先，这篇文章的问题是要对用户的发表的短文生成摘要，选择最具代表性的推文，其实关注用户兴趣的变化和迁移。为了实现，(a) novelty (b) coverage 和 (c) diversity 等要求，结合了协同过滤的方法和用户兴趣来源于“社交圈”的假设。“社交圈”说明类似于“ego network”，即...

2018-09-26 09:18:02 188

翻译 Malicious URL Detection using Machine Learning

论文地址：a surveyURL或者说恶意网站，通过劫持用户信息、发布垃圾信息或诱导用户受骗等方式，使用户收到经济损失，或者信息泄露。所以需要探测到。传统方法利用黑名单的方式，可以通过快速查询判断链接的好坏，同时不断添加新的恶意url信息，然而，这种方式过于被动，因为URL可以随时生成，而黑名单的却不能及时更新，而且也不能保证完全的覆盖。所以需要采用机器学习的方法进行分类，探测。利用...

2018-09-26 09:11:07 1176

翻译 Time-Aware User Identification with Topic Models

这篇文章的应用场景（问题）是针对当个账号对应多个用户的情况，现实的举例为网络电视中，家庭账号，所有成员使用。如果可以识别出用户，可以可以从基于账号的服务改变为基于用户的服务——学习系统需要知道用户数量，但是不知道哪个用户在线（active）——作者基于LDA模型，联合构建用户的item consumption profile和time consumption profile，从而识别用户。 ...

2018-09-21 16:09:57 140

翻译 Learning representation for personalization

IR-web search 领域的用户表示，考虑用户检索的主题和行为分析（后者很有参考意义）潜在变量模型，表示用户信息，同时构建（build）用户数据（user profile）有助于基于服务的个性化。即结合了用户的话题兴趣和检索任务行为（coupling user topical interests with their search task behavior）——基于任务的用户...

2018-09-21 16:09:00 205

翻译 Concept based short text classification for topic drifting detection

处理短文本的主要两种思路：1，基于隐藏特征或统计信息的特征空间拓展；2，基于外部资源本文提出的方法依然是基于第二种，引入外部数据利用新的数据概念图谱数据库，对短文本信息进行概念拓展，基于概念特征空间，对文本进行聚类，结合集成学习的方法训练分类器，聚类作为话题研究，话题的相似度判断话题的迁移。总结：思路和方法都很清楚，虽然觉得内容并不算很多，但是其中的概念图谱数据库Pr...

2018-09-21 16:08:34 216

翻译 A Non-Parametric Topic Model for Short Texts Incorporating&nb

BTM 模型的变种，思路是解决BTM的两个基本问题：1，话题个数不确定，需要手动设置；2，没有区分biterm的类型，即general和topical话题。采用的方法有为：对于问题1，利用中国餐馆问题，crp，动态的生成话题（类似HDP?）；对于问题2，通过PMI，单词对互信息量评价单词的相关性，其假设为topical单词的互信息量更高。——借鉴意义：话题确实需要细化，个数？类型？——提到...

2018-09-21 16:06:59 267

翻译 BiasWatch: A Light weight System for Discovering and Tracking Topic-Sensitive Opinion Bias in Soc

作者提供了一个很新鲜的分析问题：研究用户对话题的偏向性，从而发现潜在的话题发起者和支持者（反对者）。和情感还是有一些差别的。可以用于用户推荐等过程。主要利用了文本和关系特征。三大组件：作者提出的系统主要包括了三个部分，其一是发现偏置的anchors，然后发现传播的bias，最后嵌入两者，得到regular用户的偏好。首先，在发现anchor时，选择利用hashtag，给定seed，...

2018-09-21 16:06:20 112

翻译 graph-embedding poi recommendations

将用户-poi，poi-poi图进行嵌入学习，从而可以在低纬空间对poi进行描述，完成下一个poi的推荐。最近在理解了KL散度的基础上重新对推导过程进行了分析，其中KL散度的理解主要基于交叉熵和信息熵的理解，根据交叉熵和相对熵和 KL散度的介绍。通过对最短编码，或最小代价值的认知，也即损失最小的情况，某现象出现的概率和编码（信息总量，对概率倒数取log值）的乘积，交叉熵即为错误编码长度...

2018-09-21 16:03:11 542 1

翻译 Graph-based POI Embedding

依然是POI推荐问题，这里作者将POI推荐的向量学习抽象为异构的网络，从而融合了序列因素、地理影响、时序变化影响和语义影响，利用图嵌入技术将这些信息降到低维空间中。如图：POI-POI，POI-region，POI-time，POI-Word 分别被看作双向图处理，依次获取序列、地理位置、时间和语义信息。图1，权重如GME-s，在时间片中的共现次数；图2，存在置为1；图3，根据频次设置权重；...

2018-09-21 16:01:10 772 1

原创 stanford-parser-full-2013-06-20

parser：corenlp： standford的语法树是真的伤到我了，一直报告内存不足的问题，就算分配了Xmx64g都不够用的，尴尬，最后发现问题的原因，是因为我，在预处理的时候去掉了标点符号——》这样他就认为整个文档是一个句子了，所以导致内存的溢出问题。后来在每段话后面添加了“.", 可以正常运行了，不知道结果会如何。command list in below...

2018-09-21 16:00:32 198

翻译图嵌入survey

读论文：HongYun Cai, Vincent W. Zheng, Kevin Chen-Chuan Chang: A Comprehensive Survey of Graph Embedding: Problems, Techniques, and Applications. IEEE Trans. Knowl. Data Eng. 30(9): 1616-1637 (2018) ...

2018-09-21 15:59:55 361

翻译 BiNE：bipatite network embedding

bipatite 网络嵌入工作bipatite network 分别有两种节点集合，以及集合之间的连接（边）构成，即（U，V，E），其中E的边可以构成一个 |U| x |V| 的权重矩阵W。 BINE: 的contribution之一即同时区别了显式（explicit）和隐式（implicit）的关系。其中，显式的关系和LINE的一阶概率是一致的，采用了KL散度对节点的向量进行计算——...

2018-09-21 15:58:29 1015 1

翻译 Identifying and Tracking Sentiments and Topics from Social Media Texts during Natural Disasters

作者提供了数据和代码（不是很多）：https://goo.gl/uee3QK按照惯例，不解释技术细节，只介绍文章的问题和方法，先看图：location-based dynamic sentiment-topic model (LDST)——考虑了地点，情感和话题的动态模型（动态主要提现在地点的变化，引起的情感和话题的变化）and Tracking Sentiments an

2017-11-24 16:23:09 172

lucene-7.2

apache-lucene-analyzers.jar

Linux 环境下，jdbc连接mysql问题