浮生物语QAQ-CSDN博客

原创依存句法分析总结

1. 基本概念依存句法分析（Dependency Parsing，DP）通过分析语言单位内成分之间的依存关系，揭示其句法结构。直观来讲，就是分析句子中的“主谓宾”、“定状补”这些语法成分，并分析各成分的关系。对句法结构进行分析，一方面是语言理解的自身需求，句法分析是语言理解的基础，另外一方面，句法分析也为其他自然语言处理任务提供支持。比如：句法驱动的统计机器翻译需要对源语言或目标语言进行句法分析...

2020-04-28 16:40:59 7141

原创中文文本拼写检查错误纠正方案整理

说明：该文档主要考察平安文本纠错项目和爱奇艺文本纠错项目整理而来。1. 常见的中文错误类型发音错误，特点：音近，发音不标准，原因：地方发音，语言转化。 - 灰机拼写错误：特点：正确词语错误使用，原因：输入法导致-拼音、五笔、手写 - 眼睛蛇语法，知识错误：特点：逻辑错误，多字、少字，乱序 - 女性患病前列腺炎2. 研究现状2.1 通用纠错项目https...

2020-03-19 18:02:15 7514 5

原创知识图谱概述

1. 知识图谱概述与架构1.1 web发展路线web 1.0时代：文档互联web 2.0 时代：数据互联web 3.0时代：知识互联，知识图谱强大的语义理解和开放互联能力为基础RDF（resource description framework）和OWL（web ontology language），基于使用本体模式来形式化的表达数据中的隐含语义的目的。知识图谱是基于语义网的相关研究...

2020-03-19 17:49:47 1399

原创 tensorflow serving安装、部署、调用、多模型版本管理教程

1. 准备模型使用tf.keras训练一个简单的线性回归模型，保存为protobuf文件。import tensorflow as tffrom tensorflow.keras import models,layers,optimizers## 样本数量n = 800## 生成测试用数据集X = tf.random.uniform([n,2],minval=-10,maxval...

2020-03-19 17:26:14 4950 3

原创 ubuntu18.04 修改域名服务器DNS

前段时间为了科学上网，捣鼓SSR，油管倒是能访问了，但是停用SSR后，国内网络却不能访问了。头疼。没动过其他配置，缺不能访问网络，初步怀疑是DNS的问题，然后开始各种百度。1. /etc/resolv.conf查看/etc/resolv.conf文件可以看到，DNS只有127.0.0.53（这个是不可用的），如果临时使用，可以在后面再配置一项DNSnameserver 114.114...

2019-04-03 13:54:43 8531

论文阅读: Universal Language Model Fine-tuning for Text Classification

论文链接: https://arxiv.org/pdf/1801.06146.pd官方代码与数据: http://nlp.fast.ai/category/classification.html

2018-11-16 19:10:58 307

原创 ubuntu 18.04 解决网易云音乐图标不能打开的问题

很长时间没写过博客了，这次搞定了一个不大不小的bug，记录一下，也帮助一下遇到同样问题的人。先上图，成功搞定网易云。 bug如标题所示，Ubuntu安装网易云音乐很简单，在网易云官网下载linux版的客户端安装即可，不多赘述，到目前为止，只有只有两个版本，我选择的Ubuntu16，不过在Ubuntu18.04上面也可以用。如果不出意外的话，直接打开图标是不能启动客户端的。解决办法很简单，只...

2018-11-07 11:25:38 1484 2

原创 IDEA maven项目查自动查看依赖关系，解决包冲突问题

在maven项目中找到pom.xml，打开。 <dependencies> <dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-core</artifactId> ...

2018-03-14 17:29:17 27389 2

原创 maven项目打包方式及导出依赖方式

小功能，做个笔记。由于项目需要，把IDEA的maven项目转为普通的java项目，然后问题出来了，项目代码很好弄，直接重构就好，但是maven中的依赖怎么导出来呢。本来是打算在本地仓库中通过项目的libraries一个一个找的，后来想想工作量太大，还是算了。最后才发现maven有相关的命令。直接进入项目pom.xml所在的目录，输入命令： mvn dependency:co...

2018-03-14 15:31:43 3042

原创 flume+kafka+storm整合（二）--- flume 头文件header处理

上一篇文章阐述了通用的flume+kafka+storm模式，若是有如下需要：在传输数据的同时，携带header头文件信息，比如在传输文件的同时，在flume Event的header中携带文件的元数据，该怎么处理呢。上一篇文章连接：http://blog.csdn.net/chenguangchun1993/article/details/79474350核心有两点：第一点：在...

2018-03-07 18:10:20 2551 1

原创 flume+kafka+storm整合（一）

这几天弄了一下消息采集方面的工作，跑了一下flume+kafka+storm的流程，遇到一些问题，不过最终还是搞定了。其实网上有很多相关的文章，这里整理出来，只是作一下笔记，方便以后查看，如果能帮到和我踩到类似坑的小伙伴的话，那就更好了，废话补多说，开工。这里就不具体介绍flume，kafka，storm的相关概念了，有需求的可以直接去官网上查看，是在不行，也可以去看看源码。把官网链接甩出来：...

2018-03-07 17:32:44 4268

原创 python numpy 自定义数据类型

在某些场景下，可能会用到numpy的自定义数据类型，比如需要将电子表格或者数据库的一行数据作为一个数据。举例说明，我们创建一个存储商店库存信息的数据类型。其中，我们用一个长度为40个字符的字符串来记录商品名称，用一个32位的整数来记录商品的库存数量，最后用一个32位的单精度浮点数来记录商品价格。以下将会用到numpy包，所以先import>>> import nu...

2018-02-13 15:13:07 3762

原创 Ambari + HDP集群的卸载

有的情况下，若需要换掉集群，重新安装新集群（不是卸载服务），就需要卸载ambari集群。清理残留文件是一个不小的麻烦，若清理不干净，重新安装集群的话，绝逼会让你头疼的。由于需要删除的东西太多，我就不一一写出来，用XXX代替名称，主要是每个人用的版本不一致，安装的HDP服务也不一致，所以名称也不一致，需要自己将相应命令代替到自己的集群中。1. 停止服务 ambari-server s...

2018-02-09 11:40:39 3845 1

原创 flume介绍与测试

背景flume最开始由cloudera软件公司产出的可分布式日志收集系统，后于2009年被捐赠了apache软件基金会，为hadoop相关组件之一。不断的完善与版本升级，推出了flume-ng，现在早已是Apache顶级项目之一。flume简介Flume is a distributed, reliable, and available service for efficiently

2018-02-02 14:28:43 324

原创 centos7 安装mysql

1. 下载mysql的安装源的RPM包下载地址：http://dev.mysql.com/downloads/repo/yum/ 2. 安装rpm源 yum localinstall mysql57-community-release-el7-11.noarch.rpm检查mysql是否安装成功 yum repolist enabled | grep “mysql

2018-01-26 14:18:25 226

转载如何给hadoop集群分配角色

转载自微信公众号Hadoop实操1.文档编写目的本文主要介绍由Cloudera Manager管理的CDH集群的角色划分。实际部署你可能还需要考虑工作负载的类型和数量，真实要部署的哪些服务，硬件资源，配置，以及其他因素。当你使用Cloudera Manager的安装向导来安装CDH时，CM会根据主机的可用资源，自动的分配角色到各台主机，边缘节点除外。你可以在向导中使用”自定义角色分配

2018-01-25 17:44:15 6793 1

原创 centos7下安装telnet服务

先查看是否安装Telnet [root@Hortonworks02 ~]# rpm -qa | grep telnet telnet-server-0.17-64.el7.x86_64 telnet-0.17-64.el7.x86_64若没有安装，则分别安装telnet 和 telnet-server [root@Hortonworks02 ~]# yum ins

2018-01-18 10:38:22 6542

原创 HDP 集群中flume与kafka的整合

首先保证flume与kafka正确安装并启动，这个比较简单，直接在ambari中添加新服务即可，不多赘述。配置flume新建一配置文件kafka.conf, 编辑，追加一下内容。 #扫描指定文件配置 agent.sources = s1 agent.channels = c1 agent.sinks = k1 agent.sources.s1.type=

2018-01-17 10:16:39 1764

原创 http服务停止导致Ambari添加服务失败

最近尝试使用ambari安装HDP集群，跌跌撞撞的终于安装成功了，在使用过程中也遇到了一些问题，这里记录之。尝试添加kafka服务，原本以为很简单的东西，事实证明报错了。果断查看日志。开始也并没有看出什么头绪，然后又尝试添加其他服务例如sqoop，mahout等，意外的是居然都失败了，看来并不是服务本身配置的问题了。再回过头仔细看日志，其中一句话。 “Cannot

2018-01-16 14:09:01 1221

原创 Phoenix介绍与安装

Phoenix简单介绍Apache Phoenix是构建在HBase之上的关系型数据库层，作为内嵌的客户端JDBC驱动用以对HBase中的数据进行低延迟访问。Apache Phoenix会将用户编写的sql查询编译为一系列的scan操作，最终产生通用的JDBC结果集返回给客户端。可以把Phoenix看做使用标准SQL连接hbase的工具，通过构建二级索引的方式，大大减低hbase查询的延时

2018-01-15 15:04:03 546

原创 yarn调优之内存分配

前几天刚刚装了一个HDP集群，在添加spark2服务以后，设置的3个thriftserver总是有一个报错，删除了一个thriftserver以后可以正常启动，原以为这样就能正常运行了，然而，并没有。昨天由于需要，运行了一个MR任务，奇怪的是任务总是被阻塞起（忽略红线）。可以看到，上面有两个thriftserver正在运行。于是乎，我手动停止了一个thriftserver。MR

2018-01-15 11:46:07 1681

转载 Ambari系统概述

前言Hadoop集群的管控一直是一个热门的话题，对于这样的一个应用场景，我所知道国内很早就有人研究并且取得不错的成绩，这就是EasyHadoop。它的功能主要有集群安装，管理，监控等功能，有兴趣的朋友可以百度，这位作者的博客有很详细的介绍。今天，我所要重点介绍的Apache的顶级项目，现在是大数据新贵Hortonworks公司在推进的项目Ambari，这款软件具有集群自动化安装、中心化管理、集

2018-01-09 16:49:53 596

原创 centos7 配置NTP服务器

NTP服务器是为了同步时钟周期，防止应为时钟的不一致引起的错误，常用与集群环境中。集群如下： server: Hortonworks01 client: Hortonworks02 Hortonworks03目的是集群时间同步到Hortonworks01。在所有节点上安装ntpd模块 yum install –y ntp在server 上执行：修改/etc/ntp.conf 修

2018-01-03 17:49:27 3510

原创 Spark源码分析之Rpc

RPC（Remote Procedure Call）即远程程序调用，它是分布式项目的基础环境，Spark RPC被deploy、scheduler、shuffle、storage等多个模块使用，是理解这些模块的前提。最初是基于akka的actor实现，在spark1.4标准了Rpc的相关接口，并在Spark 1.6+推出了以RPCEnv、RPCEndpoint、RPCEndpointRef为核心的新

2017-12-29 15:56:08 322

原创 Spark源码分析之Spark执行环境SparkEnv

SparkEnv是创建SparkContext中的第一步，也是很重要的一环，它Spark 的执行环境对象，其中包括众多与Executor 执行相关的对象。由于在local 模式下Driver 会创建Executor，cluster 部署模式或者Standalone 部署模式下Worker 另起的CoarseGrainedExecutorBackend 进程中也会创建Executor，所以SparkE

2017-12-28 18:11:43 465

原创协同过滤之ALS算法

ALS 是交替最小二乘（alternating least squares）的简称。在机器学习的上下文中，ALS 特指使用交替最小二乘求解的一个协同推荐算法。它通过观察到的所有用户给产品的打分，来推断每个用户的喜好并向用户推荐适合的产品。从协同过滤的分类来说，ALS算法属于User-Item CF，也叫做混合CF。它同时考虑了User和Item两个方面。用户和商品的关系，可以抽象为如下的三元组：<

2017-12-27 11:10:53 8408

原创 cloudera manager 升级到jdk1.8

CDH5.11自带的是spark1.6，在把spark升级到2.2之后，添加服务，执行服务 Spark 2 上的命令部署客户端配置阶段报错。查看日志： JAVA_HOME=/usr/java/jdk1.7.0_67-cloudera/ Using -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/spark2_on_yarn_

2017-12-26 16:13:01 5271 1

原创 Spark ML 之特征选择，提取，转换工具

数据挖掘算法中有很大一部分都是数据预处理工作，毕竟现有模型都是比较成熟的，只需要学会调用就好，如何把原始数据转化为算法模型适用的数据结构也是很重要的一步。spark ML中提供了对特征的提取（Extracting），转换（transforming）和选择（selecting）工具。特征提取：从原始数据中提取特征特征转换：特征的扩展，特征的转化，特征的修改特征选择：从大规模特征集中选取一个子集

2017-12-19 11:13:22 3169

原创 Spark ML 之 RDD to DataFrame (python版)

由于工作需要，最近开始用Python写Spark ML程序，基础知识不过关，导致一些简单的问题困扰了好久，这里记录下来，算是一个小的总结，说不定大家也会遇到同样的问题呢，顺便加一句，官方文档才是牛逼的，虽然我英语很菜。先说下我的需求，使用Iris数据集来训练kmeans模型，Iris是UCI上面一个很著名的数据集，通常用来做聚类（分类）等测试。Iris.txt: http://archive.ics

2017-12-15 11:21:28 4046

原创 Spark ML简介之Pipeline，DataFrame，Estimator，Transformer

MLlib是Spark的机器学习（Machine Learning）库，旨在简化机器学习的工程实践工作，并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道API。具体来说，其主要包括以下几方面的内容：学习算法：如分类、回归、聚类和协同过滤等特征化工具：特征提取、转化、降维，和选择工具管道(Pipeline

2017-12-15 10:04:32 3612

原创 spark mllib 之 Pipeline工作流构建

Spark 机器学习库从 1.2 版本以后被分为两个包spark.mllib 包含基于RDD的原始算法API。Spark MLlib 历史比较长，在1.0 以前的版本即已经包含了，提供的算法实现都是基于原始的 RDD。spark.ml 则提供了基于DataFrames 高层次的API，可以用来构建机器学习工作流（PipeLine）。ML Pipeline 弥补了原始 MLlib 库的不足，向用户

2017-12-12 17:45:33 693

原创 Python 数值计算遇到的错误总结

def convert(s): # conver = {b'Iris-setosa': 0, b'Iris-versicolor': 1, b'Iris-virginica': 2} conver = {"Iris-setosa": 0, "Iris-versicolor": 1, "Iris-virginica": 2} return conver[s]def main()

2017-12-12 17:26:32 2128

原创 pyspark 遇到的问题

最近弄pyspark，想通过spark操作hdfs，遇到一些问题，记录下来！1。刚看到这个问题的时候很懵逼，果断去查看了集群的防火墙，端口9000的状态，集群是否允许远程登录等问题，发现还是不行，重新换了一个自己本地配置的原生hadoop，居然可以正常连接，这样看来，问题出在CDH和Apache hadoop 的差异上了。原因：CDH默认的hdfs端口是8020，而Apache hadoop的

2017-12-08 10:41:56 503

原创 linux 中文件（文件夹）的基本信息

Linux 是一个多用户的系统，不同的用户处于不同的地位，对于同一个文件具有不同的权限。Linux系统对不同的用户访问同一文件（包括目录文件）的权限做了不同的规定。Linux中使用ll或者ls -l来显示目录下的所有文件的信息，ls -all 显示所有的信息。我们可以看到，每个文件信息可以分为几组，分别是：文件权限，文件的个数（如果是文件夹，就是文件夹下面文件的个数），文件所属的用户，文件所属的用户

2017-12-07 09:32:07 1531

转载 spark 通信机制

bute对于Network通信，不管传输的是序列化后的对象还是文件，在网络上表现的都是字节流。在传统IO中，字节流表示为Stream；在NIO中，字节流表示为ByteBuffer；在Netty中字节流表示为ByteBuff或FileRegion；在Spark中，针对Byte也做了一层包装，支持对Byte和文件流进行处理，即ManagedBuffer；ManagedBuffer是一个接口，包含了三个函

2017-12-06 17:23:23 2740

原创 kylin 维度优化，Aggregation Group，Joint，Hierachy，Mandatory等解析

众所周知，Apache Kylin 的主要工作就是为源数据构建 N 个维度的 Cube，实现聚合的预计算。理论上而言，构建 N 个维度的 Cube 会生成 2n2^n个 Cuboid，如图 1 所示，构建一个 4 个维度（A，B，C, D）的 Cube，需要生成 16 个Cuboid。随着维度数目的增加，Cuboid 的数量会爆炸式地增长。为了缓解 Cube的构建压力，Apache Kylin

2017-12-04 10:39:12 3737

原创 kylin 官方案例learn_kylin手动创建测试

在上一篇文章中介绍了kylin相关的基本知识，这篇文章的主要目的是针对kylin初学者，进行一次详细的kylin案例介绍，这里，我们还是以官方给定的数据为例。说明，我用的是kylin2.1.0. 与kylin1.x 可能有不一样的地方。核心概念事实表和维度表事实表（Fact Table）是指存储有事实记录的表，如系统日志、销售记录等；事实表的记录在不断地动态增长，所以它的体积通常远大于其他表。维

2017-12-01 17:54:45 4072 1

原创 Spark源码学习- SparkContext

SparkContext是整个Spark的唯一入口

2017-11-30 17:30:01 283

原创 Spark源码学习-windows使用idea搭建源码阅读集群

Windows下spark源码环境搭建

2017-11-30 14:19:41 382

原创 kylin介绍

kylin基本介绍

2017-11-30 11:06:18 1275

Python计算机视觉配套的代码及数据

Python计算机视觉是相当好的一本书，由于csdn上面有，我就没上传，但是里面的配套数据找了好久都无果，发现网上很多人都在找，这里我把找到的结果上传到网上分享给大家，至于源代码是GitHub上面下的，属于附属品。

2018-01-26

常见聚类数据集人工数据和UCI数据都有

这里面是机器学习里面聚类所需的数据集，分为人工的二维数据集，如月牙形，双螺旋型等，和UCI真实数据集，是我搜集好久才弄出来的，有一些二维数据集是自己生成的，提供给大家做算法实验。

2018-01-26

Hadoop-Spark大数据处理技巧.pdf

大数据的目的是使用某种方法解决具体的问题，这本书指出了在大数据处理过程中的技巧话问题

2017-12-06

Apache Spark源码剖析

《Apache Spark源码剖析》以Spark 1.02版本源码为切入点，着力于探寻Spark所要解决的主要问题及其解决办法，通过一系列精心设计的小实验来分析每一步背后的处理逻辑。, 《Apache Spark源码剖析》第3~5章详细介绍了Spark Core中作业的提交与执行，对容错处理也进行了详细分析，有助读者深刻把握Spark实现机理。第6~9章对Spark Lib库进行了初步的探索。在对源码有了一定的分析之后，读者可尽快掌握Spark技术。, 《Apache Spark源码剖析》对于Spark应用开发人员及Spark集群管理人员都有极好的学习价值；对于那些想从源码学习而又不知如何入手的读者，也不失为一种借鉴。

2017-12-06

贪吃蛇源代码

此代码详细的描述了贪吃蛇的基本代码，简单明了，思路清晰，一看懂

2012-11-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人