Quincy1994-CSDN博客

原创 A3NCF: An Adaptive Aspect Attention Model for Rating Prediction

【论文会议】IJCAI2018【论文作者及机构】(1) Zhiyong Cheng: 南洋理工大学(2) Ying Ding: Vipshop研究院(3) Xiangnan He（何向南）: 南洋理工大学(4) Lei Zhu: 山东师范大学(5) Xuemeng Song: 山东大学(6) Mohan Kankanhalli: 南洋理工大学注：何向南是推荐领域的大牛人物，其代表...

2019-04-11 23:05:45 1330

原创关于Fake News Detection的近几年文献列表

前言最近小组内一个师妹的毕业课题是做关于虚假新闻（Fake News Detection）的检测，正好我愁着自己的课程作业要做什么方面的综述，于是灵机一动，就将两个事情拉在一起吧，哈哈。后来借着师妹的手收集了近年来关于虚假新闻的文献(不一定全，请见谅哈），具体如下：AAAIDRIMUX: Dynamic Rumor Influence Minimization with User Exper...

2019-02-10 21:30:34 3092 2

原创频繁项集与关联规则(英文版)

IntroductionThe study of Finding frequent item-sets and association rules is an important part of Data Mining , which has been widely applied to optimize marketing strategies, enhance the performance o

2017-10-22 15:53:10 1787 1

原创关于任务二(用户兴趣标注)的总结

前言听完smp比赛各队伍的技术分享后, 回来实验室后用了一周的时间去复刻第一名,第二名关于任务二的做法.任务二的研究对象为csdn技术论坛的用户，根据他们的博客行为和博客内容，以及用户与用户之间的关系，分析用户的主要兴趣点。比赛给定的兴趣标签空间为42个兴趣类别，兴趣类别之间呈现明显的不平衡分布。在这个过程中, 我学习到了非常多的东西. 不过遗憾的是, 到最后也无法达到他们训练出来的效果, 估计某些

2017-09-27 13:47:13 951

转载关于python操作mysql

安装mysqldb包sudo apt-get install MYSQL相关编程代码conn = MySQLdb.connect(host='127.0.0.1',port=3306, user='root',passwd='iiip', db='moviedb',charset='utf8')cur = conn.cursor()sql = "select movie_id from movi

2017-08-25 19:59:52 423

原创关于smp的比赛感悟

虽然过去我主持了很多数据挖掘相关的项目, 但smp是我第一次参加的数据挖掘类型比赛.经历了一个多月的煎熬, 我想我也积累了许多宝贵的经验和教训,而这比赛对我最大的锻炼是心态上的成熟, 让我学习了如何在困境中冷静思考,在绝境中寻求希望.迎接新领域与新知识不管是比赛还是项目,我们总会遇到未知的盲区.关于如何冲破盲区, 不同人有不同的看法. 我个人的做法是先寻求这样问题的类似解决方案, 论文或博客, 并记

2017-08-17 12:03:17 1100 1

转载利用Java的Spark做单词统计并排序

import java.util.ArrayList;import java.util.Arrays;import java.util.Collections;import java.util.HashMap;import java.util.List;import java.util.Map;import java.util.Comparator;import org.apache.s

2017-07-21 11:22:24 1132 1

原创使用scikit-learn做基本机器学习

安装的工具包sklearn: sudo pip install sklearn numpy: sudo pip install numpy scipy: sudo pip install scipy matplotlib : sudo pip install matplotlibsklearn的官网教程http://scikit-learn.org/stable编程代码示范#coding=ut

2017-07-11 14:17:53 1843

原创 Python的一些常用方法

python遍历文件夹下的路径import osfor path, dirnames, filenames in os.walk(filepath)python中shell命令执行os.system(shell)

2017-07-10 20:51:24 400

原创利用spark的随机森林做票房预测

前言最近一段时间都在处理电影领域的数据, 而电影票房预测是电影领域数据建模中的一个重要模块, 所以我们针对电影数据做了票房预测建模.前期工作一开始的做法是将这个问题看待成回归的问题, 采用GBDT回归树去做. 训练了不同残差的回归树, 然后做集成学习. 考虑的影响因子分别有电影的类型, 豆瓣评分, 导演的影响力, 演员的影响力, 电影的出品公司. 不过预测的结果并不是那么理想, 准确率为真实值的0

2017-05-31 16:27:56 3226

原创 linux的一些基本命令(关于文件操作, 进程操作,以及/boot问题)

文件操作:1.将多个文件合并为单一个文件： cat file1.txt file2.txt > file.txt 2.用sed删除空白行：sed -i ‘/^$/d’ filename 3.用sort加uniq 删除重复项： sort -n filnename| uniq > filename 4.解压 tar zxvf 文件名.tar.gz, 压缩 tar zcvf 文件名.tar.gz 目

2017-05-23 14:32:05 412

原创 python操作mongodb

#coding=utf-8from pymongo import *IP = "localhost"PORT = 27017class MyMongoDB: '''成员变量''' client = None ##连接数据库的对象 db = None ## 指定的的数据库 collection = None ## 制定的文档 '''构造函数'''

2017-05-12 23:22:21 650

原创 mongodb的一些命令操作

关于对mongodb的操作:终端连接mongo命令: mongo关闭数据库：sudo service mongodb stop 开启数据库 sudo service mongodb start关于对文档集合的操作: ( 缺乏键的约束)查看文档集合: show collections; 创建文档集合: db.createCollection(“quincyDB”, {“name”: “qu

2017-05-12 16:33:36 558

原创关于NOSQL的讲义

1 关于NOSQL的介绍问：什么是NOSQL ?NOSQL ，全称为Not Only SQL，不仅仅是SQL，并不是反对SQL的意思（No SQL）。它是针对传统的关系型数据库（RDMB）的不足，提出了全新的数据库管理架构理念。问：为什么会有NOSQL？随着数据规模的不断增长，许多企业需要的数据库架构业务面临以下挑战： (1) 支持大量用户同时在线高并发访问； (2) 在分布式服务架构下能够得到

2017-05-11 19:47:17 988

原创利用spark的mllib构建GBDT模型

GBDT模型GBDT模型的介绍，我主要是参考博客：http://blog.csdn.net/w28971023/article/details/8240756 在这里，我主要归纳以下几点要素： 1.GBDT中的树都是回归树； 2.回归树节点分割点衡量最好的标准是叶子个数的上限； 3.GBDT的核心在于，每个棵树学的是之前所有树结论和的残差，这个残差就是一个加预测值后能得到真实值的累加量；

2017-05-02 11:40:58 2042

原创关于spark的mllib学习总结（Java版）

本篇博客主要讲述如何利用spark的mliib构建机器学习模型并预测新的数据，具体的流程如下图所示：加载数据对于数据的加载或保存，mllib提供了MLUtils包，其作用是Helper methods to load,save and pre-process data used in MLLib.博客中的数据是采用spark中提供的数据sample_libsvm_data.txt，其有一百个数据

2017-04-23 23:20:54 11758 5

原创关于在ubuntu下安装使用pycharm

1.安装jdk先下载jdk: https://pan.baidu.com/s/1o7MqvKA 解压到本地: 方法一：直接点击右键，点“提取此文件方法二：使用命令行sudo tar -zxvf jdk1.8.0_91.tar.gz -C jdk1.8.0_91 复制到指定路径，我使用的是/opt: 命令行：sudo cp -r jdk1.8.0_91 /opt/jdk1.8.0_91

2017-04-20 20:24:32 2573

原创关于mysql的安装使用以及java编程

关于mysqlMySQL是一个关系型数据库管理系统那个，关系数据库将数据保存在不同的表中，而不是将所有数据放在一个大仓库内。MySQL所使用的SQL语言是用于访问数据库的最常用标准化语言。ubuntu 下载与安装mysql sudo apt-get install mysql-server //安装数据库的服务器 sudo apt-get install mysql-client

2017-02-19 11:59:44 819

原创关于mongodb的安装使用以及java编程

什么是mongodbmongodb是nosql中的一种，其将数据存储为一个文档，数据结构由键值（key，value）对组成。MongoDB文档类似于JSON对象。字段值可以包含其他文档，数组及文档数组。安装mongodb我主要采用的是ubuntu系统，只需输入以下命令行，即可安装mongodbsudo apt-get install mongodb一开始装好系统会自动运行mongodb程序，

2017-02-19 10:50:48 1221

原创利用spark做文本分类（朴素贝叶斯模型）

朴素贝叶斯模型朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。至于朴素贝叶斯模型的原理部分，这里就不讲啦，有疑惑的朋友，我推荐看李航的《统计学习方法》中的第四章。我在这里主要谈论的是基于Java版的spark贝叶斯模型。应用场景相对于LR，SV

2017-02-10 21:55:58 4700 3

原创利用spark做文本聚类分析

import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.ap

2017-02-07 14:52:28 7074 1

原创关于EM算法的简单讲解

EM算法 EM算法是一种迭代算法，1977年由Dempster等人总结提出，用于含有隐变量（hidden variable）的概率模型参数的极大似然估计，或极大后验概率估计。例如估计LDA中的隐变量topic的分布，高斯混合模型中观测数据来自第k个的高斯分布的概率数据。EM算法的每次迭代由两步组成：E步，求期望（expection）;M步，求极大（maximization）E步的公式如下：

2017-02-06 21:54:52 1978

原创利用java的spark做高斯混合模型聚类

高斯混合模型高斯混合模型（Gaussian Mixture Model), 简称为GMM，是一个基于概率密度的模型。在这种模型中，数据点是由K个正态分布所生成的，每个正态分布都拥有自己的均值和协方差矩阵，而来自每个高斯分布的数据点的比例有先验r决定。与k-means聚类最大的不同在，k-means的结果是每个数据点都分布到唯一的cluster中，而GMM则给出这些数据点被分配到每个cluste

2017-02-06 16:52:48 2638

原创基于知识图谱的电影自动问答系统（二）自动问答实现

自动问答的流程我们的自动问答主要流程按问题的抽象与分类、问题的扩展与抽取、答案的生成展开。问题的抽象与分类主要用于确立问题的意图,问题的扩展与抽取主要是将问题扩展并转化为标准模板,以便抽取。答案的生成主要是将抽取的实体构建实体链,然后访问图形数据库,以求答案。问题的抽象首先，我们主要采以 Hanlp 提供的通用型命名实体工具包,并添加部分人工标注的命名实体,其添加的细则如下表所示：问

2017-02-05 22:28:44 26725 9

原创基于知识图谱的电影自动问答系统（一）知识的获取与存储

引言这学期上自然语言处理课，老师需要我们合作完成一项大作业。当时的我早已对知识图谱感兴趣，有种跃跃欲试的冲动，正好逢上这样的一次机会。初生牛犊不怕虎，我就报上了“基于知识图谱的电影自动问答系统”。后来才发现，这项目的难度真的挺大，要做好不容易呀。关于本体、知识库、知识图谱本体（Ontology），是知识库本身的存在。维基百科的定义是“a formal naming and defini

2017-02-05 21:49:56 17471 11

原创关于评论话题挖掘的研究及其实现代码（二）词图切分

引言在上一篇的博客谈到使用LDA的方法挖掘影迷关注点可谓是无功而返。后来我思考了许久，决定将原来的向量空间模型转变为词语网（WordNet），然后通过社区检测算法来把网络划分不同的社区，从而确定为不同的话题。社区检测算法现实世界中的许多系统都可以采用网络的形式来加以描述，可以将网络看作由节点和连接节点的边组成的集合。通常用节点来表示现实系统中的个体，用边表示个体间的某种关联。网络反映了

2017-02-05 19:18:44 1650 3

原创关于评论话题挖掘的研究及其实现代码（一）LDA

引言在 2016年中，我们参加了一个由厦门信研院举办的大数据比赛。当时，我们拿到的题目为影迷关注点分析。数据是来自于微博与豆瓣的影迷评论数据，其数据量达600多万条评论数据，分别对应于2000多部不同的电影。我们的想法是将影迷关注点分析尽量往评论话题挖掘模型中靠拢。LDA话题模型 LDA话题模型在一开始的时候，我们打算采用LDA话题识别模型。LDA( Latent Dir

2017-02-04 17:09:34 4105 2

原创 Java执行hadoop的相关操作

向HDFS上传本地文件public static void uploadInputFile(String localFile) throws IOException{ Configuration conf = new Configuration(); String hdfsPath = "hdfs://localhost:9000/"; String

2017-01-14 22:48:03 738

原创基于hadoop的网页元素抽取

关于Hadoop的介绍hadoop是分布式文件系统（也就是HDFS），或者一个同类的分布式文件系统，管理着集群的数据。Hadoop提供了一套基础设施来处理大多数困难的工作以保证任务能够执行成功。MapReduce是一种计算模型，该模型可将大型数据处理任务分解成很多单个的、可以在服务器集群中并行执行的任务。这些任务的计算结果可以合并在一起来计算最终的结果。在Ubuntu下使用Hadoop编程：安装ha

2017-01-13 09:58:06 553

原创 lucene的代码示范

import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.nio.file.FileSystems;import org.apache.lucene.analysis.Analyzer;import org.apache

2016-12-24 15:05:53 429

原创 java实现文件夹的拷贝

import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;public class CopyFile { public static void copy(String sourceFile , String

2016-12-23 22:32:13 1305

原创关于JAVA的selenium安装使用

前言上一篇博客谈到如何使用python的selenium做微博爬虫, 不过该程序只适用于ubuntu系统.本来想在window也用同样的方法做爬虫,结果一个下午都尝试失败,系统总是报”window error”, 估计是python的selenium真的不兼容windows.后来改变了一下思路, 换成了Java的selenium爬虫.结果发现, java的selenium其实也不太复杂.这份博客主要

2016-12-14 12:22:44 3342 1

原创自然语言处理课程学习总结

概念自然语言处理, 主要是研究如何利用计算机来理解和生成自然语言, 其发展经历了三个阶段, 分别是: Natural language understanding Natural language processing Computational Linguistics 现在的自然语言处理是一个门介乎语言学、计算机科学和认知心理学之间的交叉科学主要应用机器翻译、语言识别与合成、自动

2016-12-13 21:08:48 4138

原创使用selenium爬取微博内容

前言近来都在与新浪这个大佬在pk。首先是网页爬取新浪微博，遇到的难题是cookie的存活期太慢，一般爬十分钟就over了一个；后来发明了手机版的模拟登录，顺风顺水了一段时间，结果新浪又来一个验证码，被气得半死。无奈手动输入验证码后，再模拟登录。然而不过两个月，新浪哥又开始抓严，搞得手机版的模拟登陆经常登陆不上去。最后实在无办法了，只好真的去“模拟”浏览器实现爬虫了。说道浏览器自动化操作，目前最好用的

2016-12-04 16:12:12 2668

原创关于ubuntu下neo4j的安装与使用

neo4j的介绍　　Neo4j是一个高性能的，Nosql图形数据库。Nosql ＝no sql，即与传统的将数据结构化并存储在表中的数据库不一样。Neo4j将数据存储在网络上，我们也可以把Neo4j视为一个图引擎。我们打交道的是一个面对对象的、灵活的网络结构而不是严格的、静态的表。传统关系型数据库，当数据量很大时，查询性能会明显受影响，尤其是一度以上的查询。但是图形数据库却在这方面表现得很好。 n

2016-11-23 16:20:23 16445

翻译社区划分算法

简介　　使用许多互联网数据，我们都可以构建出这样的网络，其节点为某一种信息资源，如图片，视频，帖子，新闻等，连边为用户在资源之间的流动。对于这样的网络，使用社区划分算法可以揭示信息资源之间的相关性，这种相关性的发现利用了用户对信息资源的处理信息，因此比起单纯使用资源本身携带的信息来聚类（例如，使用新闻包含的关键词对新闻资源进行聚类），是一种更深刻的知识发现。网络社区划分的两种主要思路社区划分的算法比

2016-10-05 16:36:06 14712

原创经典的分词方法实现（JAVA)

基于规则的自动分词算法原理(1) 事先人工建立好分词词典和分词规则库。 (2) 原理为基于字符串匹配进行分词,这样就要求有足够大的词表为依据。 (3) 通过一定的算法来实现,如正向最大匹配法、逆向最大匹配法、双向匹配法等。 (4) 忧缺点:当分词词典所收容的词较少时,显然覆盖度就有限,分词的正确率就低。正向最大匹配法算法描述设MaxLen表示最大词长,D为分词词典 (1) 从待切分语料中按正

2016-10-04 21:26:49 10968 2

原创关于JAVA的多线程爬虫

前言以前喜欢python的爬虫是出于他的简洁，但到了后期需要更快，更大规模的爬虫的时候，我才渐渐意识到java的强大。Java有一个很好的机制，就是多线程。而且Java的代码效率执行起来要比python快很多。这份博客主要用于记录我对多线程爬虫的实践理解。线程线程是指一个任务从头至尾的执行流。线程提供了运行一个任务的机制。对于Java而言，可以在一个程序中并发地启动多个线程。这些线程可以在多处理器系

2016-09-09 14:30:52 1987

原创 ubuntu使用selenium自动化操作

前言爬虫工作可谓是斗智斗勇，很多反爬虫工作杜绝了以往机器的模拟登录，最厉害的莫过于天猫超市的后台管理。因此，现在的机器爬虫在登陆的工作上，会使用半人工化的操作。而selenium便是一个很不错的机制。关于seleniumSelenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE(7、8、9)、Mozilla Firefo

2016-09-08 11:37:22 2755

原创关于java爬虫与python爬虫

前言很多人说学习数据挖掘，先从爬虫入手。接触了大大小小的项目后，发现数据的获取是数据建模前的一项非常重要的活儿。在此，我需要先总结一些爬虫的流程，分别有python版的以及java版的。url请求java版的代码如下：public String call (String url){ String content = ""; BufferedReader

2016-09-06 17:34:00 12113 1

基于改进卡方统计的微博特征提取方法

cut命令使用大全

社会网络分析

空空如也