自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 资源 (5)
  • 收藏
  • 关注

原创 依存句法分析总结

1. 基本概念依存句法分析(Dependency Parsing,DP)通过分析语言单位内成分之间的依存关系,揭示其句法结构。直观来讲,就是分析句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分的关系。对句法结构进行分析,一方面是语言理解的自身需求,句法分析是语言理解的基础,另外一方面,句法分析也为其他自然语言处理任务提供支持。比如:句法驱动的统计机器翻译需要对源语言或目标语言进行句法分析...

2020-04-28 16:40:59 7141

原创 中文文本拼写检查错误纠正方案整理

说明: 该文档主要考察平安文本纠错项目和爱奇艺文本纠错项目整理而来。1. 常见的中文错误类型发音错误, 特点:音近,发音不标准, 原因:地方发音,语言转化。 - 灰机拼写错误:特点: 正确词语错误使用, 原因: 输入法导致-拼音、五笔、手写 - 眼睛蛇语法,知识错误: 特点:逻辑错误,多字、少字,乱序 - 女性患病前列腺炎2. 研究现状2.1 通用纠错项目https...

2020-03-19 18:02:15 7514 5

原创 知识图谱概述

1. 知识图谱概述与架构1.1 web发展路线web 1.0时代:文档互联web 2.0 时代:数据互联web 3.0时代:知识互联,知识图谱强大的语义理解和开放互联能力为基础RDF(resource description framework)和OWL(web ontology language),基于使用本体模式来形式化的表达数据中的隐含语义的目的。知识图谱是基于语义网的相关研究...

2020-03-19 17:49:47 1399

原创 tensorflow serving安装、部署、调用、多模型版本管理教程

1. 准备模型使用tf.keras训练一个简单的线性回归模型,保存为protobuf文件。import tensorflow as tffrom tensorflow.keras import models,layers,optimizers## 样本数量n = 800## 生成测试用数据集X = tf.random.uniform([n,2],minval=-10,maxval...

2020-03-19 17:26:14 4950 3

原创 ubuntu18.04 修改域名服务器DNS

前段时间为了科学上网,捣鼓SSR,油管倒是能访问了,但是停用SSR后,国内网络却不能访问了。头疼。没动过其他配置,缺不能访问网络,初步怀疑是DNS的问题,然后开始各种百度。1. /etc/resolv.conf查看/etc/resolv.conf文件可以看到,DNS只有127.0.0.53(这个是不可用的),如果临时使用,可以在后面再配置一项DNSnameserver 114.114...

2019-04-03 13:54:43 8531

论文阅读: Universal Language Model Fine-tuning for Text Classification

论文链接: https://arxiv.org/pdf/1801.06146.pd官方代码与数据: http://nlp.fast.ai/category/classification.html

2018-11-16 19:10:58 307

原创 ubuntu 18.04 解决网易云音乐图标不能打开的问题

很长时间没写过博客了,这次搞定了一个不大不小的bug,记录一下,也帮助一下遇到同样问题的人。先上图,成功搞定网易云。 bug如标题所示,Ubuntu安装网易云音乐很简单,在网易云官网下载linux版的客户端安装即可,不多赘述,到目前为止,只有只有两个版本,我选择的Ubuntu16,不过在Ubuntu18.04上面也可以用。 如果不出意外的话,直接打开图标是不能启动客户端的。解决办法很简单,只...

2018-11-07 11:25:38 1484 2

原创 IDEA maven项目查自动查看依赖关系,解决包冲突问题

在maven项目中找到pom.xml,打开。 <dependencies> <dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-core</artifactId> ...

2018-03-14 17:29:17 27389 2

原创 maven项目打包方式及导出依赖方式

小功能,做个笔记。由于项目需要,把IDEA的maven项目转为普通的java项目,然后问题出来了,项目代码很好弄,直接重构就好,但是maven中的依赖怎么导出来呢。本来是打算在本地仓库中通过项目的libraries一个一个找的,后来想想工作量太大,还是算了。最后才发现maven有相关的命令。直接进入项目pom.xml所在的目录,输入命令: mvn dependency:co...

2018-03-14 15:31:43 3042

原创 flume+kafka+storm整合(二)--- flume 头文件header处理

上一篇文章阐述了通用的flume+kafka+storm模式,若是有如下需要:在传输数据的同时,携带header头文件信息,比如在传输文件的同时,在flume Event的header中携带文件的元数据,该怎么处理呢。上一篇文章连接:http://blog.csdn.net/chenguangchun1993/article/details/79474350核心有两点: 第一点: 在...

2018-03-07 18:10:20 2551 1

原创 flume+kafka+storm整合(一)

这几天弄了一下消息采集方面的工作,跑了一下flume+kafka+storm的流程,遇到一些问题,不过最终还是搞定了。其实网上有很多相关的文章,这里整理出来,只是作一下笔记,方便以后查看,如果能帮到和我踩到类似坑的小伙伴的话,那就更好了,废话补多说,开工。这里就不具体介绍flume,kafka,storm的相关概念了,有需求的可以直接去官网上查看,是在不行,也可以去看看源码。把官网链接甩出来:...

2018-03-07 17:32:44 4268

原创 python numpy 自定义数据类型

在某些场景下,可能会用到numpy的自定义数据类型,比如需要将电子表格或者数据库的一行数据作为一个数据。举例说明,我们创建一个存储商店库存信息的数据类型。其中,我们用一个长度为40个字符的字符串来记录商品名称,用一个32位的整数来记录商品的库存数量,最后用一个32位的单精度浮点数来记录商品价格。以下将会用到numpy包,所以先import>>> import nu...

2018-02-13 15:13:07 3762

原创 Ambari + HDP集群的卸载

有的情况下,若需要换掉集群,重新安装新集群(不是卸载服务),就需要卸载ambari集群。清理残留文件是一个不小的麻烦,若清理不干净,重新安装集群的话,绝逼会让你头疼的。由于需要删除的东西太多,我就不一一写出来,用XXX代替名称,主要是每个人用的版本不一致,安装的HDP服务也不一致,所以名称也不一致,需要自己将相应命令代替到自己的集群中。1. 停止服务 ambari-server s...

2018-02-09 11:40:39 3845 1

原创 flume介绍与测试

背景flume最开始由cloudera软件公司产出的可分布式日志收集系统,后于2009年被捐赠了apache软件基金会,为hadoop相关组件之一。不断的完善与版本升级,推出了flume-ng,现在早已是Apache顶级项目之一。flume简介Flume is a distributed, reliable, and available service for efficiently

2018-02-02 14:28:43 324

原创 centos7 安装mysql

1. 下载mysql的安装源的RPM包下载地址:http://dev.mysql.com/downloads/repo/yum/ 2. 安装rpm源 yum localinstall mysql57-community-release-el7-11.noarch.rpm检查mysql是否安装成功 yum repolist enabled | grep “mysql

2018-01-26 14:18:25 226

转载 如何给hadoop集群分配角色

转载自微信公众号Hadoop实操1.文档编写目的本文主要介绍由Cloudera Manager管理的CDH集群的角色划分。实际部署你可能还需要考虑工作负载的类型和数量,真实要部署的哪些服务,硬件资源,配置,以及其他因素。当你使用Cloudera Manager的安装向导来安装CDH时,CM会根据主机的可用资源,自动的分配角色到各台主机,边缘节点除外。你可以在向导中使用”自定义角色分配

2018-01-25 17:44:15 6793 1

原创 centos7下安装telnet服务

先查看是否安装Telnet [root@Hortonworks02 ~]# rpm -qa | grep telnet telnet-server-0.17-64.el7.x86_64 telnet-0.17-64.el7.x86_64若没有安装,则分别安装telnet 和 telnet-server [root@Hortonworks02 ~]# yum ins

2018-01-18 10:38:22 6542

原创 HDP 集群中flume与kafka的整合

首先保证flume与kafka正确安装并启动,这个比较简单,直接在ambari中添加新服务即可,不多赘述。配置flume新建一配置文件kafka.conf, 编辑,追加一下内容。 #扫描指定文件配置 agent.sources = s1 agent.channels = c1 agent.sinks = k1 agent.sources.s1.type=

2018-01-17 10:16:39 1764

原创 http服务停止导致Ambari添加服务失败

最近尝试使用ambari安装HDP集群,跌跌撞撞的终于安装成功了,在使用过程中也遇到了一些问题,这里记录之。尝试添加kafka服务,原本以为很简单的东西,事实证明报错了。果断查看日志。开始也并没有看出什么头绪,然后又尝试添加其他服务例如sqoop,mahout等,意外的是居然都失败了,看来并不是服务本身配置的问题了。再回过头仔细看日志,其中一句话。 “Cannot

2018-01-16 14:09:01 1221

原创 Phoenix介绍与安装

Phoenix简单介绍Apache Phoenix是构建在HBase之上的关系型数据库层,作为内嵌的客户端JDBC驱动用以对HBase中的数据进行低延迟访问。Apache Phoenix会将用户编写的sql查询编译为一系列的scan操作,最终产生通用的JDBC结果集返回给客户端。可以把Phoenix看做使用标准SQL连接hbase的工具,通过构建二级索引的方式,大大减低hbase查询的延时

2018-01-15 15:04:03 546

原创 yarn调优之内存分配

前几天刚刚装了一个HDP集群,在添加spark2服务以后,设置的3个thriftserver总是有一个报错,删除了一个thriftserver以后可以正常启动,原以为这样就能正常运行了,然而,并没有。昨天由于需要,运行了一个MR任务,奇怪的是任务总是被阻塞起(忽略红线)。可以看到,上面有两个thriftserver正在运行。于是乎,我手动停止了一个thriftserver。MR

2018-01-15 11:46:07 1681

转载 Ambari系统概述

前言Hadoop集群的管控一直是一个热门的话题,对于这样的一个应用场景,我所知道国内很早就有人研究并且取得不错的成绩,这就是EasyHadoop。它的功能主要有集群安装,管理,监控等功能,有兴趣的朋友可以百度,这位作者的博客有很详细的介绍。今天,我所要重点介绍的Apache的顶级项目,现在是大数据新贵Hortonworks公司在推进的项目Ambari,这款软件具有集群自动化安装、中心化管理、集

2018-01-09 16:49:53 596

原创 centos7 配置NTP服务器

NTP服务器是为了同步时钟周期,防止应为时钟的不一致引起的错误,常用与集群环境中。 集群如下: server: Hortonworks01 client: Hortonworks02 Hortonworks03目的是集群时间同步到Hortonworks01。在所有节点上安装ntpd模块 yum install –y ntp在server 上执行:修改/etc/ntp.conf 修

2018-01-03 17:49:27 3510

原创 Spark源码分析之Rpc

RPC(Remote Procedure Call)即远程程序调用,它是分布式项目的基础环境,Spark RPC被deploy、scheduler、shuffle、storage等多个模块使用,是理解这些模块的前提。最初是基于akka的actor实现,在spark1.4标准了Rpc的相关接口,并在Spark 1.6+推出了以RPCEnv、RPCEndpoint、RPCEndpointRef为核心的新

2017-12-29 15:56:08 322

原创 Spark源码分析之Spark执行环境SparkEnv

SparkEnv是创建SparkContext中的第一步,也是很重要的一环,它Spark 的执行环境对象,其中包括众多与Executor 执行相关的对象。由于在local 模式下Driver 会创建Executor,cluster 部署模式或者Standalone 部署模式下Worker 另起的CoarseGrainedExecutorBackend 进程中也会创建Executor,所以SparkE

2017-12-28 18:11:43 465

原创 协同过滤之ALS算法

ALS 是交替最小二乘 (alternating least squares)的简称。在机器学习的上下文中,ALS 特指使用交替最小二乘求解的一个协同推荐算法。它通过观察到的所有用户给产品的打分,来推断每个用户的喜好并向用户推荐适合的产品。从协同过滤的分类来说,ALS算法属于User-Item CF,也叫做混合CF。它同时考虑了User和Item两个方面。用户和商品的关系,可以抽象为如下的三元组:<

2017-12-27 11:10:53 8408

原创 cloudera manager 升级到jdk1.8

CDH5.11自带的是spark1.6,在把spark升级到2.2之后,添加服务,执行服务 Spark 2 上的命令 部署客户端配置阶段报错。 查看日志: JAVA_HOME=/usr/java/jdk1.7.0_67-cloudera/ Using -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/spark2_on_yarn_

2017-12-26 16:13:01 5271 1

原创 Spark ML 之 特征选择,提取,转换工具

数据挖掘算法中有很大一部分都是数据预处理工作,毕竟现有模型都是比较成熟的,只需要学会调用就好,如何把原始数据转化为算法模型适用的数据结构也是很重要的一步。spark ML中提供了对特征的提取(Extracting),转换(transforming)和选择(selecting)工具。特征提取:从原始数据中提取特征特征转换:特征的扩展,特征的转化,特征的修改特征选择:从大规模特征集中选取一个子集

2017-12-19 11:13:22 3169

原创 Spark ML 之 RDD to DataFrame (python版)

由于工作需要,最近开始用Python写Spark ML程序,基础知识不过关,导致一些简单的问题困扰了好久,这里记录下来,算是一个小的总结,说不定大家也会遇到同样的问题呢,顺便加一句,官方文档才是牛逼的,虽然我英语很菜。先说下我的需求,使用Iris数据集来训练kmeans模型,Iris是UCI上面一个很著名的数据集,通常用来做聚类(分类)等测试。Iris.txt: http://archive.ics

2017-12-15 11:21:28 4046

原创 Spark ML简介之Pipeline,DataFrame,Estimator,Transformer

MLlib是Spark的机器学习(Machine Learning)库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。具体来说,其主要包括以下几方面的内容:学习算法:如分类、回归、聚类和协同过滤等特征化工具:特征提取、转化、降维,和选择工具管道(Pipeline

2017-12-15 10:04:32 3612

原创 spark mllib 之 Pipeline工作流构建

Spark 机器学习库从 1.2 版本以后被分为两个包spark.mllib 包含基于RDD的原始算法API。Spark MLlib 历史比较长,在1.0 以前的版本即已经包含了,提供的算法实现都是基于原始的 RDD。spark.ml 则提供了基于DataFrames 高层次的API,可以用来构建机器学习工作流(PipeLine)。ML Pipeline 弥补了原始 MLlib 库的不足,向用户

2017-12-12 17:45:33 693

原创 Python 数值计算 遇到的错误总结

def convert(s): # conver = {b'Iris-setosa': 0, b'Iris-versicolor': 1, b'Iris-virginica': 2} conver = {"Iris-setosa": 0, "Iris-versicolor": 1, "Iris-virginica": 2} return conver[s]def main()

2017-12-12 17:26:32 2128

原创 pyspark 遇到的问题

最近弄pyspark,想通过spark操作hdfs,遇到一些问题,记录下来!1。 刚看到这个问题的时候很懵逼,果断去查看了集群的防火墙,端口9000的状态,集群是否允许远程登录等问题,发现还是不行,重新换了一个自己本地配置的原生hadoop,居然可以正常连接,这样看来,问题出在CDH和Apache hadoop 的差异上了。 原因:CDH默认的hdfs端口是8020,而Apache hadoop的

2017-12-08 10:41:56 503

原创 linux 中文件(文件夹)的基本信息

Linux 是一个多用户的系统,不同的用户处于不同的地位,对于同一个文件具有不同的权限。Linux系统对不同的用户访问同一文件(包括目录文件)的权限做了不同的规定。Linux中使用ll或者ls -l来显示目录下的所有文件的信息,ls -all 显示所有的信息。我们可以看到,每个文件信息可以分为几组,分别是:文件权限,文件的个数(如果是文件夹,就是文件夹下面文件的个数),文件所属的用户,文件所属的用户

2017-12-07 09:32:07 1531

转载 spark 通信机制

bute对于Network通信,不管传输的是序列化后的对象还是文件,在网络上表现的都是字节流。在传统IO中,字节流表示为Stream;在NIO中,字节流表示为ByteBuffer;在Netty中字节流表示为ByteBuff或FileRegion;在Spark中,针对Byte也做了一层包装,支持对Byte和文件流进行处理,即ManagedBuffer;ManagedBuffer是一个接口,包含了三个函

2017-12-06 17:23:23 2740

原创 kylin 维度优化,Aggregation Group,Joint,Hierachy,Mandatory等解析

众所周知,Apache Kylin 的主要工作就是为源数据构建 N 个维度的 Cube,实现聚合的预计算。理论上而言,构建 N 个维度的 Cube 会生成 2n2^n个 Cuboid, 如图 1 所示,构建一个 4 个维度(A,B,C, D)的 Cube,需要生成 16 个Cuboid。随着维度数目的增加,Cuboid 的数量会爆炸式地增长。为了缓解 Cube的构建压力,Apache Kylin

2017-12-04 10:39:12 3737

原创 kylin 官方案例learn_kylin手动创建测试

在上一篇文章中介绍了kylin相关的基本知识,这篇文章的主要目的是针对kylin初学者,进行一次详细的kylin案例介绍,这里,我们还是以官方给定的数据为例。说明,我用的是kylin2.1.0. 与kylin1.x 可能有不一样的地方。核心概念事实表和维度表事实表(Fact Table)是指存储有事实记录的表,如系统日志、销售记录等;事实表的记录在不断地动态增长,所以它的体积通常远大于其他表。维

2017-12-01 17:54:45 4072 1

原创 Spark源码学习- SparkContext

SparkContext是整个Spark的唯一入口

2017-11-30 17:30:01 283

原创 Spark源码学习-windows使用idea搭建源码阅读集群

Windows下spark源码环境搭建

2017-11-30 14:19:41 382

原创 kylin介绍

kylin基本介绍

2017-11-30 11:06:18 1275

Python计算机视觉配套的代码及数据

Python计算机视觉是相当好的一本书,由于csdn上面有,我就没上传,但是里面的配套数据找了好久都无果,发现网上很多人都在找,这里我把找到的结果上传到网上分享给大家,至于源代码是GitHub上面下的,属于附属品。

2018-01-26

常见聚类数据集人工数据和UCI数据都有

这里面是机器学习里面聚类所需的数据集,分为人工的二维数据集,如月牙形,双螺旋型等,和UCI真实数据集,是我搜集好久才弄出来的,有一些二维数据集是自己生成的,提供给大家做算法实验。

2018-01-26

Hadoop-Spark大数据处理技巧.pdf

大数据的目的是使用某种方法解决具体的问题,这本书指出了在大数据处理过程中的技巧话问题

2017-12-06

Apache Spark源码剖析

《Apache Spark源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。, 《Apache Spark源码剖析》第3~5章详细介绍了Spark Core中作业的提交与执行,对容错处理也进行了详细分析,有助读者深刻把握Spark实现机理。第6~9章对Spark Lib库进行了初步的探索。在对源码有了一定的分析之后,读者可尽快掌握Spark技术。, 《Apache Spark源码剖析》对于Spark应用开发人员及Spark集群管理人员都有极好的学习价值;对于那些想从源码学习而又不知如何入手的读者,也不失为一种借鉴。

2017-12-06

贪吃蛇源代码

此代码详细的描述了贪吃蛇的基本代码,简单明了,思路清晰,一看懂

2012-11-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除