yinglish_-CSDN博客

原创 Ubuntu系统：分布式spark环境搭建

三台机子，系统为ubuntu14.01，公用一个路由器组成一个小型局域网。首先配置固定的ip地址。点击屏幕右上方的网络连接，Edit Connections -&amp;gt; Add -&amp;gt; 类型选Ethernet -&amp;gt; Create -&amp;gt; 选择IPv4 Setting -&amp;gt; Method选择 Manual（手动）-&amp;gt; Add对于可

2019-01-17 18:45:52 1359 1

原创 apt-get安装任何软件都报错：E:Unmet dependencies. Try 'apt-get -f install' with no packages

如题，使用apt-get install去安装任何软件都报错这个错：E: Unmet dependencies. Try 'apt-get -f install' with no packages (or specify a solution).当我根据提示输入：sudo apt-get -f install 的时候又出现新的错误：E: Sub-process /usr/bin/dpkg re...

2018-12-31 21:11:55 3435 1

原创最大回撤率和移动数组零元素到末尾

最大回撤率将数组中零元素移动到末尾，要求算法时间复杂度为O(n)，空间复杂度为O(1)最大回撤率：在选定周期内任一历史时点往后推，产品净值走到最低点时的收益率回撤幅度的最大值。最大回撤率用来描述买入产品后可能出现的最糟糕情况。D为某一天的净值，i 为某一天，j 为i 后的某一天，Di 是第i 天的产品净值，Dj 是第j 天的产品净值最大回撤率：drawdown=max [(Di - Dj...

2018-10-25 00:30:41 905

原创 python中类方法、实例方法、静态方法

怀着万分的羞耻和悲愤之情写下这篇博客。下午考了一套笔试，编程题怎么也通不过，代码逻辑应该是没有问题的，由于不允许使用本地IDE没报错信息一直没发现问题所在。刚刚把代码再写了一遍，我做题时候用的是python，虽然我对python其实不是很熟悉……但毕竟python写代码还是写得比Java又简洁又快啊。把我的代码简化，整个思路就如下class getMin(): def fun(...

2018-09-09 22:07:36 12756 4

原创爬虫工具selenium

在我爬虫的过程中，遇到的主要问题有：有一些网页链接似乎有重定向功能，获取到的并不是真实的源码；还有一些网站对ip的限制特别严重……关于后者，我找过一些免费的ip网站如西刺，但是那些ip大多数都不能用(´ﾟдﾟ`) 这里顺便贴一下关于配置ip的代码。# 代理链表proxy_list = []with open("data/proxy.txt") as file: for l...

2018-09-06 15:36:11 320

原创百度贴吧爬虫：理解网页的加载过程

最近在学习爬虫，就顺便记录一下吧(つд⊂) 以百度贴吧的主题帖为例子，首先，在百度贴吧主页那个大大的搜索框旁边，点那个小小的“高级搜索”，输入关键词，以“王思聪”为例，enter后在排序结果那里点主题帖（这种类型的帖子相关性比较高）获取该页面的所有的入口链接。（最好要设置headers吧）import requestsurl = &quot;http://tieba.baidu.com/f/s...

2018-08-24 16:48:53 661

原创 tensorflow cnn文本分类

今年smp2018的任务之一：用户画像，说实话，题目让我有点惊讶，就是一道分本分类题。给定新闻文本数据training.txt。每一行格式为：{&amp;quot;label&amp;quot;: &amp;quot;label_name&amp;quot;, &amp;quot;content&amp;quot;: &amp;quot;content_n&amp;quot

2018-08-01 09:59:34 1820 7

原创 NLPIR加入自定义词典（java）

1 下载NLPIR，http://ictclas.nlpir.org/downloads2 下载后解压，将Data文件夹复制到eclipse的项目下（与src同级）3 根据自己到电脑配置，拷贝NLPIR的lib文件夹下有对应不同版本（win/linux，32/54位）的.so或者.dll文件，放置到项目到bin文件夹下。注：放置到bin文件夹下我是根据报错提示做的，网上有的博客写到是直接放...

2018-07-09 22:32:10 1104 2

原创 lucene搜索系统搭建和算法反思

信息检索大作业组队做了一个检索系统（咸鱼如我大学真的是平时随随便便期末战战兢兢，感谢一起爆肝的同学哈哈哈哈），虽然做的比较简单不够完善但也学到了一些东西，写一篇博客记录一下自己在搭建整个系统时候学到的一点东西和对lucene的一些思考吧。这篇博客会记录到很多我的个人想法，自然，我一定不能想得很正确、全面。如果哪位伙伴有自己的看法或者问题，欢迎交流。我们做的是电影领域的论文搜索系统，数据来源...

2018-06-13 14:01:47 790

原创 word2vec查询词向量时报错：'utf-8' codec cann't decode bytes in position 96-07:unexpected end of data

加载word2vec模型时报错： model_path = "model/Hanlp_cut_news.bin" w2v_dict = word2vec.load(model_path) print(w2v_dict["奥运"])Traceback (most recent call last): File "/home/iiip/PycharmProjects...

2018-05-20 16:47:34 2961 2

原创 NLPIR更新授权

中科院NLPIR授权使用中科院NLPIR进行分词：import pynlpirpynlpir.open() # 打开分词器sentence = '前一段时间在使用张华平博士的NLPIR中文分词系统'for i in pynlpir.segment(sentence): print i[0], ' ', i[1]发现报错了：初始化失败！fail reaso...

2018-05-15 11:07:43 4970 1

原创浅谈Hive

让我们开门见山来一句介绍，Hive是建立在Hadoop HDFS上的数据仓库基础架构。在Hadoop大数据体系中，Hive和HBase事两种基于Hadoop的不同技术，Hive是一类类SQL的引擎，其数据存放在HDFS上，并运用MapReduce进行计算，适合OLAP事务。而HBase是一种在Hadoop上的NOSQL的键值对数据库，提供数据的实时访问。好，接下来我们细细地讲。数据...

2018-04-03 15:08:11 524

原创 java按值传递

主要参考来自这两篇： Java：按值传递还是按引用传递详细解说 Java 到底是值传递还是引用传递? - 知乎为了方便我自己的理解（每次记了就忘，也是很无奈了==），作了一下整理。我们先下结论：java的参数传递就是采用按值传递的。再来说明其中道理。首先，基本类型与引用类型的值传递是不同的。int baseNum = 9;String str = "java";对于基本数据类...

2018-02-25 20:23:40 183

转载 Aprior算法和FP Group算法

转自 http://blog.sina.com.cn/s/articlelist_1761593252_1_1.html 分别详细介绍了Aprior算法和FP Group算法。他们的区别就是Apriori算法多次扫描交易数据库，每次利用候选频繁集产生频繁集，而FP则利用树形结构，不用产生候选频繁集而是直接得到频繁集，大大减少了扫描的次数，从而算法效率提高，但是apriori的扩展性好，可以用于并

2018-01-23 15:35:28 2005 2

原创 Word2vec安装使用

下载C版本的word2vec进入文件目录下后，会有一个makefile文件，有了它就可以编译啦$ cd /home/yinglish/download/word2vec/trunk$ make编译完后会生成一些新的文件。接下来如果要使用word2vec自带的词典，则运行：$ ./demo-word.sh它将会去下载数据text8（用空格隔开的英文单词，不包含标点符号，大概1600多万个单词）如

2017-11-03 21:58:33 3693 2

原创素描svm

假设f(x),ci(x),hj(x)f(x), c_{i}(x), h_{j}(x)是定义在RnR^n上的连续可微函数（为什么连续可微呢，后面再说，这里不多想），考虑既有极值又有约束的最优化：minx∈Rnf(x)\min_{x \in R^n} f(x) ci(x)≤0,i=1,2,....,kc_i(x) \le 0, i = 1, 2,...., k hj(x)=0,j=1,2,

2017-10-08 21:57:20 298

转载 Python: 你不知道的 super

python super

2017-10-02 14:45:05 258

原创电影评论人名抽取与情感分析

电影评论的数据挖掘是我一直以来的项目。最近的刚完成的一个工作是于分析影评中表露出来的对演员角色的情感倾向。主要的工作便是识别评论中人名+情感分析。评论人名抽取与情感分析影迷用户的电影评论中往往包含大量对本部电影中演员的评价和看法，为了了解观众对一位演员的情感倾向，我们首先需要识别一位演员在众多评论中的称呼、叫法，接着再在涉及该演员的相关短句中判断情感。主流的命名实体识别方法及其存在的问题目前效果比较

2017-09-16 20:59:12 6821 6

原创 MapReduce再学习：资源管理框架YARN

在前面写到的三篇博客中，HDFS概述和 MapReduce简介写的都是hadoop1.0的情况，针对1.0版本的各种不足，2.0都有相应的改动， HDFS再学习：HA和Federation机制写的是存储系统HDFS上的改动。针对我们的计算模型MapReduce，2.0版本设计了新的资源管理框架YARN。组件 Hadoop1.0的问题 Hadoop2.0的改进 HD...

2017-08-07 20:29:08 2410

原创 HDFS再学习：HA和Federation机制

通过之前（上一篇HDFS的博客）的学习我们已经了解到了hdfs的一些大致基本情况，这篇博客主要补充一下针对HDFS1.0的不足，HDFS2.0的HA机制和Federation机制。先对之前的学习做个小概括： hadoop的特点有：数据的分布存储：HDFS由一个管理节点和若干个数据节点组成，每个节点是一台普通计算机。底层的实现是将一个很大的数据进行切分成块，块分散存储在不同数据节点上。...

2017-08-06 18:01:01 4330 1

原创 MapReduce简介

继上一节的HDFS，这一节来学习并行计算框架MapReduce。作为Hadoop的又一核心概念，HDFS解决了数据的存储的问题，而MapReduce自然解决的是并行计算的问题。目录：Hadoop的优势与概念Map和Reduce函数MapReduce体系结构：Client，JobTracker， TaskTracke，Task工作流程shuffle过程详解：Map和Reduce...

2017-07-23 18:17:16 1757

原创 HDFS概述

想学习大数据方面的知识就避不开hadoop，终于下决心补充一下知识的盲区，听了厦门大学林子雨老师的大数据原理与应用课程（确实是好课，感谢老师！），记录一下自己学习到了HDFS相关知识。HDFS是hadoop的核心设计之一，解决的是海量数据的存储问题。全程Hadoop Distribute File System，是一个分布式文件系统。分布式文件呢，就是把文件分布存储到多个计算机节点上，成千...

2017-07-18 15:37:20 4921 1

原创自动问答系统流程

一个自动问答系统可分为问句处理和答案检索两大部分。在一个面向电影领域知识的问答系统中，把所有数据存放在mysql数据库中，用非结构数据库neo4j（也称图形属性数据库）构造电影图谱，在电影图谱的基础上进行答案检索。之所以不直接从mysql数据库中检索所有数据是因为关系型数据库mysql的查询效率不高。那么又为什么不直接把所有信息存放在非结构数据库neo4j上呢？反正我们是通过这个数据库进行检索的

2017-05-30 14:53:09 17163 8

原创对贝叶斯、svm和神经网络的入门级理解

在省略了不少计算、优化的过程的情况下记录了一些自己对一下三个算法整体思路和关键点的理解，因此也只能说是“入门级理解”。以下是目录索引。贝叶斯朴素贝叶斯svm支持向量积神经网络

2017-04-06 11:16:36 14074

原创 java实现spark

这篇博客简要回顾一下我对spark的认识，主要记录的是对spark的两个转换操作aggregate() combineByKey()的运用。下载配置完spark后，注意要把spark的jar导入项目中。在spark中两个重要的概念就是RDD和操作。 RDD也即弹性分布式数据集。是一个不可变的分布式对象集合。简单地理解，就把它看成数据的容器就好了，我们所有的操作都是在这上面进行的。除了数据容器我

2017-02-16 16:41:21 850

原创用java构建neo4j数据库

距离上一篇neo4j的博客有好长一段时间了哈，真是懒啊嗷嗷嗷…… 咳咳，言归正传，学习如何用java创建一个neo4j数据库，首先！让我们一起来定个小目标(> ~ <)：构建一个长这样的图：有一个中心结点，它有一些属性，其外有一级二级结点。一、创建数据库使用 GraphDatabaseService 实例化数据库， graphDB = new GraphDatab...

2017-01-15 23:03:44 9829 22

原创 Linux的配置文件/etc/profile和/bashrc

前不久安装neo4j时一直报一个错：error java version neo4j是要求jdk8以上版本的，我在终端下查看 java -version时，返回的也是jdk1.8.0_91。用gedit /etc/profile查看关于java的配置时也没有出错。 #Seeting JDK JDK环境变量 export JAVA_HOME=/opt/jdk1.8.0_101 export

2016-11-23 19:59:43 1417

原创我的neo4j学习笔记

这篇博文目录如下： - About neo4j - Install neo4j - learn to create and query data - Import your data 包括对Neo4j图形数据库的简介和其重要组成部分、内部结构的讲解，对其查询语言cypher的介绍和实例。通过实例转换、比较传统关系型数据库与图形数据库。希望有时间下一次可以来总结一下用java实现neo4...

2016-11-18 22:12:35 7843 2

原创 Spark Mllib 回归学习笔记三（java）：决策树

决策树简单地理解决策树呢，就是通过不断地设置新的条件标准对当前的数据进行划分，最后以实现把原始的杂乱的所有数据分类。就像下面这个图，如果输入是一大堆追求一个妹子的汉子，妹子内心里有个筛子，最后菇凉也就决定了约不约得出来（举栗而已哦，不代表什么～大家理解原理重要～～）不难看出，构造决策树的关键就在于划分条件和终止条件的决定一个属性能不能作为划分条件要看用他来分类好不好，我们说原始信息是无序的，那么他能

2016-10-01 21:53:21 3814

原创 Spark Mllib　回归学习笔记二（java）：保序回归

spark2.0.0保序回归(isotonic regression)保序回归属于回归算法，对于一个有限的实数集合Y表示观测相应，X集合表示未知的相应值，进行拟合找到一个最小化函数： x是排序的，w是大于０的权重，最终函数被称为保序回归，并且是唯一的。可以看作排序限制下的最小二乘问题。观察上面的公式，发现减数已不再是y而是x，事实上，保序回归并不假定一条函数，他是将原来的x进行调整，看下面这个动画

2016-10-01 21:51:28 2328

原创 Spark Mllib 回归学习笔记一（java）：线性回归（线性，lasso，岭），广义回归

本博使用spark2.0.0版本，对于每一个回归这里不详讲原理，附上链接，有兴趣的伙伴可以点开了解。其他参考资料：官方文档官方接口文档线性回归线性拟合，就是预测函数是一条直线，对于眼前一堆分布貌似有规律的点，我们假定一条直线拟合这些点： h(x)=a0+a1x1+a2x2+..+anxnh(x)=a_0+a_1x_1+a_2x_2+..+a_nx_n方程系数aia_i是我们要求的

2016-10-01 16:13:56 4846 2

原创网络编程笔记二：一个java爬虫的实现（静态页面）

这一份博客直接贴代码了，因为：），作为平时的学习我习惯写完代码后反观一次，做比较详细的注释。在这里BB一句，有时候我们学点东西之前总会正儿八经正襟危坐地问啊问啊“怎么入门怎么入门怎么入门呢”。个人有点小感慨：边学边做就是很好的开始，特别是有一个任务有一个目的地学习，知识就是个无向循环图，你可能会为了一个任务，不说“学到”，你也会接触到很多其它方面的知识，你以前学过的东西也都铺垫成你追求其它知识的道路

2016-09-30 22:06:24 1569

原创网络编程笔记一：基础概念及相关java类入门

一、网络：将不同地区的计算机连接到一起。由地区我们即可划分“局域网”“城域网”“互联网” 二、地址：ip地址，确定网络上一个绝对地址（相当于一个房子的确切地址几号街几号牌）三、端口号：区分计算机软件的（相当于房子的门牌号） * 在同一个协议下端口号不可以重复，不同的协议可重复 * 1024以下的端口号尽量不要用，因为一般都为专用四、资源定位符： url：统一资源定位符 url：统一

2016-09-22 23:15:03 408

原创 java求无重复集合所有子集

在lintcode上遇到一道题，如下：给定一个含不同整数的集合，返回其所有的子集注意事项：子集中的元素排列必须是非降序的，解集必须不包含重复的子集。

2016-09-10 23:32:04 4639

原创 octave向量矩阵基本操作命令

笔记总结自coursera的机器学习课程～懒得中英文切换，就用我幼稚有限的英语写啦，反正～嗯哼嗯哼，这么简单的英语，以后我用到也一定看得懂 (- ^ -)

2016-07-27 20:57:00 2676

原创用highcharts构造散点图

由于项目的需要，我们想要了解观众对一部电影的评分是否与时间存在一定的关系，以此判断时间能否成为我们探讨一部电影口碑的要素，我们是否有必要关注时间。于是我接触到了highcharts，一个画图工具。虽然只是很单纯地接触，很简单地应用了一次，还是觉得有些东西值得做点记录，万一以后又要用到了呢。

2016-07-26 17:31:10 1841

原创对python的闭包，装饰器的理解

此博试图通俗简单介绍闭包及其使用注意要点。在了解闭包的基础上，再一窥装饰器。

2016-07-17 19:38:04 501

原创从两元线性回归到多元：数据预处理的重要性

在了解了一下梯度下降的原理之后，如下有一个程序实现了两元的线性回归。按理说，那么要写多元线性回归，就是几维都可以处理的，应该只需要改一部分代码，多一个循环取值就可以了。但却出现了损失值越来越大的情况。折腾了很久，后来发现，加一步数据预处理－数据规范化，问题就解决了。（０　。０）先上一开始的代码，可以求出有两个自变量x0，x1时的线性方程的两个未知参数theta0，theta1。prin

2016-07-13 20:26:38 3615

原创初识python之简单方便及一些注意事项

妹子之前学的是java，这个暑假开始接触python。新手入门也没什么太多的经验与认识，不过还是被python的简单方便所震惊，在它这样自由洒脱的风格下做事，再回到一眼一板，一步一个脚印的java怕是会有些不习惯呢～应师兄的建议，像为自己的学习之路做点记录。（编译器：pycharm)

2016-07-09 12:25:51 470

空空如也

一个安卓项目的后台需要做什么