自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(189)
  • 资源 (3)
  • 收藏
  • 关注

原创 nlp分词之pkuseg

北大的分词工具(1)多领域分词。新闻、科研、网络、医药、旅游、金融、工业。(2)更高的分词准确率(3)支持用户自训练模型,支持用户使用全新的标注数据进行训练。如果PyPI官方源下载速度不理想建议使用镜像源,比如初次安装:pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple pkuseg医药领域的模型下载地址:https:/...

2019-11-29 19:54:20 682 1

原创 nlp之jieba分词

“结巴”中文分词:做最好的 Python 中文分词组件安装jieba全自动安装:easy_install jieba 或者 pip install jieba / pip3 install jieba半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install手动安装:将 jieba 目录放置于当前目...

2019-11-29 18:52:19 343

原创 nlp之HanLP

HanLP是一系列模型与算法组成的NLP工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。安装hanlpstep1:下载jpype1.whl,https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype然后Terminal或者cmd里面pip install 路径/JPype1-0....

2019-11-29 17:48:35 1667

原创 nlp分词之SnowNLP

SnowNLP简介SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode...

2019-11-29 17:14:19 3125 1

原创 nlp分词之TextBlob

TextBlobTextBlob是用于处理文本数据的Python(2和3)库。它提供了一个一致的API,可用于深入研究普通自然语言处理(NLP)任务,例如词性标记,名词短语提取,情感分析等。主要用于英文的分词,不适用于中文安装TextBlob可以在PyCharm开发工具中Python Console窗口用pip install textblob词性标注from textblob imp...

2019-11-29 16:29:46 1911

原创 nlp入门简介

NLP自然语言处理NLP(Natural Language Processing,NLP)基本定义(1)定义:计算机科学、人工智能、语言学。处理计算机和人类自然语言之间的相互作用关系。信息自动提取、自动摘要、智能问答、智能推荐、情感分析。(2)自然语言理解(Natural Language Understanding,NLU):让计算机来听懂语言。查询资料、解答问题、摘录文献、汇编资料等...

2019-11-29 15:29:16 250

原创 hive存储:FAILED: SemanticException Unable to determine if hdfs://nameservice1/

用mysql作为hive的元数据存储数据库,要注意,在mysql中hive的存储路径问题hive> select * from qq;报错:FAILED: SemanticException Unable to determine if hdfs://nameservice1/apps/hive/warehouse/external/qq is encrypted: java.la...

2019-08-13 11:26:38 2617 3

原创 spark-sumit提交任务到yarn运行报OutofMemory内存溢出

java.lang.OutOfMemoryError: Java heap space-XX:OnOutOfMemoryError=“kill %p”Executing /bin/sh -c “kill 54710”…yarn logs -applicationId application_1565223618995_0003 > log.log用这个方法搜集该任务的日志,查看错误...

2019-08-08 18:14:26 1777

原创 centos7中httpd启动后访问/var/www/html/下的文件报403,You don't have permission to access /cdh/ on this server.

这个错误我的原因是因为没有关闭selinux1、没有关闭selinuxvi /etc/sysconfig/selinuxSELINUX=enforcing 改为 SELINUX=disabled重启服务reboot2、文件夹访问权限不够如果上述不行,可能是/var/www/html下面的文件夹访问权限不够,chmod 777 试试3、修改http.conf先找到Apache 的ht...

2019-07-31 14:45:40 4847

原创 idea中运行spark项目遇到的坑

1、未加载到主类这个问题有很多原因,我的原因是项目缺少.iml文件删除.idea文件夹重新编译build还有可能情况是项目的scala文件夹是否设置为source源2、winutils.exe导致的报错在window下本地运行spark需要系统中安装了hadoop,并且在hadoop/bin目录下有winutils.exe文件3、\tmp\hive 没有写权限这个因为本地运行spar...

2019-07-28 13:16:30 1200

原创 cdh采坑集锦之cdh相关组件依赖idea下载失败处理

在idea中用cdh中个组件开发时如果依赖找不到下载失败,右侧会报波浪线警告,在项目依赖文件夹中(文件夹在maven项目的conf/setting.xml中配置的F:\repository)会找到.lastUpdated后缀的文件,表示依赖失败。解决方法1、尝试删除.lastUpdated后缀的文件,右键pom.xml选择reimport重新尝试下载。2、如果1方法不行,需要手动去官方依赖...

2019-07-19 15:11:40 1226

原创 cdh5.14安装采坑集锦

安装cdh的过程太心酸了,各种坑被我遇到了,记录下1、下载对应操作系统版本的CDHCentOS6系统就下载CDH el6版本的CentOS7系统就下载CDH el7版本的这个在cloudera-manager 的web页面分发CDH的时候,如果版本不一致,会提示找不到本地parcel2、安装一些CentOS系统服务,比如httpd等挂载安装的操作系统镜像iso文件,然后将挂载成功的目录...

2019-07-16 09:59:16 1665

原创 hbase采坑集锦之ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing

我出现这种情况的原因是因为几台节点的时间没有同步导致的。使用ntp配置时间同步即可解决hbase(main):001:0> listTABLEERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializingat org.apache.hadoop.hbase.master.HMaster.check...

2019-07-07 21:52:17 848

原创 spark采坑集锦之用kafka作为DStream数据源,并行度问题

在SparkStreaming中作为数据源的Kafka怎样接收多主题发送的数据呢?使用StreamingContext.union方法将多个streaming流合并处理def main(args: Array[String]): Unit = { Logger.getLogger("org.apache.spark").setLevel(Level.ERROR) val con...

2019-06-29 23:49:59 577

原创 spark采坑之hive2.0版本后面初始化错误

报错一:Caused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the “BONECP” plugin to create a ConnectionPool gave an error : The specified datastore driver (“com.mysql.jdbc.Driver”) w...

2019-06-28 12:46:30 950

原创 spark采坑集锦之sparksql操作hive

spark sql如果想操作hive,用sql命令在hive中操作表一、需要在spark安装目录的conf文件夹准备好以下三个文件hadoop安装目录中conf文件夹下的配置文件core-site.xmlhdfs-site.xmlhive安装目录中conf文件夹下的配置文件hive-site.xml里面的mysql用户名 密码 和主机名一定要对啊还有mysql的版本要和这里的驱动一...

2019-06-28 10:54:39 585

原创 scala中连接mysql8.0数据库

在maven中查询需要的依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>8.0.12</version...

2019-06-27 17:20:17 728

原创 ERROR StatusLogger No log4j2 configuration file found.

idea报日志错误ERROR StatusLogger No log4j2 configuration file found. Using default configuration: logging only errors to the console.pom.xml中加上配置 <dependency> <groupId>org.apache.loggi...

2019-06-11 19:16:25 11712

原创 配置服务器集群时间同步

配置NTP服务(所有节点)集群中所有主机必须保持时间同步,如果时间相差较大会引起各种问题,例如主机运行状态不良等。 具体思路如下:master节点作为ntp服务器与外界对时中心同步时间,随后对所有datanode节点提供时间同步服务。所有datanode节点以master节点为基础同步时间。所有节点安装相关组件:yum install ntp。完成后,配置开机启动:chkconfig nt...

2019-04-09 14:32:28 680

原创 kafka-Api消费数据

在IDEA中通过api获取kafka消费的数据1、创建KafkaConsumerpackage kafka;import org.apache.kafka.clients.consumer.ConsumerRecord;import org.apache.kafka.clients.consumer.ConsumerRecords;import org.apache.kafka.clie...

2019-02-27 23:49:57 789

原创 1、电信客服项目之数据采集

学完大数据的基本组件后需要用项目实践下,电信客服项目是对用户通话记录的数据分析。数据内容包括呼叫方手机号,呼叫方姓名,接收方手机号,接收方姓名,通话建立时间,通话时间1、模拟通话记录数据,用java程序生产数据package producer;import java.io.FileNotFoundException;import java.io.FileOutputStream;impo...

2019-02-27 18:17:01 1073

原创 IDEA创建Maven工程配置settings.xml

1、在https://maven.apache.org/网站下载apache maven下载完成后解压到任意目录,配置系统环境变量M2_HOME:C:\apache-maven-3.6.0-bin\apache-maven-3.6.0Path:%M2_HOME%\bin打开命令行输入 mvn -version测试是否配置成功打开IDEAFile-&gt;Settings-&gt;Ma...

2019-02-26 22:23:13 18278

原创 spark Streaming实时处理流式数据

1、创建SparkContextval conf:SparkConf = new SparkConf().setAppName("streamwc").setMaster("local[2]")val sc:SparkContext = new SparkContext(conf)2、创建StreamingContextval ssc:StreamingContext = new St...

2019-02-25 15:39:38 1264

原创 spark json,csv作为数据源操作

1、sparkSQL操作需要创建SparkSessionval sparkSession:SparkSession = SparkSession.builder().appName("JdbcSource").master("local[2]").getOrCreate()2、读取json,csv数据源val jread:DataFrame = sparkSession.read.j...

2019-02-24 23:43:30 418

原创 spark mysql作为数据源读取数据操作

1、sparkSQL操作需要创建SparkSession,sparkRDD操作需要创建SparkContext。这里使用sparkSessionval sparkSession:SparkSession = SparkSession.builder().appName("JdbcSource").master("local[2]").getOrCreate()2、加载数据源url:...

2019-02-24 22:58:28 965

原创 spark join操作

1、创建SparkSessionval sparkSession:SparkSession = SparkSession.builder().appName(&quot;SparkSqlJoin&quot;).master(&quot;local[2]&quot;).getOrCreate()2、创建DataSet数据集val datas1:Dataset[String] = sparkSession.createData...

2019-02-24 17:43:11 10387

原创 sparksql实现单词计数

1、创建SparkSessionval sparkSession = SparkSession.builder() .appName("SparkWordCount") .master("local[2]") .getOrCreate()2、加载数据,使用dataset处理数据集read来读取可以直接返回DataSet[String],这是个比RDD更高级的数据集它返回一个列名为...

2019-02-24 16:06:11 1165

原创 spark中使用Ordered自定义排序规则-模式匹配

定义一个数组val girl: Array[String] = Array(“reba,18,80”,“mimi,22,70”,“liya,30,80”,“jingtian,18,85”)按照年龄和体重进行排序年龄小的排前面,如果年龄相同,体重大的排前面,有两个排序条件定义样例类实现排序方式当一个类被定义成为case类后,Scala会自动帮你创建一个伴生对象实例化不需要new关键字c...

2019-02-22 16:11:12 680

原创 spark中使用Ordered自定义排序规则-封装类

scala中用于排序的有两个特质 Ordered和Ordering,Ordered继承了java中的Comparable接口,Ordering继承了java的Comparator接口trait Ordered[A] extends scala.Any with java.lang.Comparable[A]trait Ordering[T] extends java.lang.Object w...

2019-02-22 15:19:47 806

原创 spark中cache和checkpoint使用

1)cachecache是为了追求计算的速度spark中计算任务在内存中,但是结果是存储在磁盘中的,所以首次运行会慢,之后会拿磁盘中的计算结果,所以后面会快很多通过对结果的RDD分布式数据集进行cache,将计算结果缓存在内存中,这样会比缓存在磁盘中更快的读取。比如计算log文件的行数scala&amp;gt; val rdd1 = sc.textFile(&quot;hdfs://192.168.252...

2019-02-22 11:50:17 820

原创 spark中jdbcRDD操作mysql的用法

spark中提供了jdbcRDD连接mysql数据库操作import java.sql.DriverManagerimport org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{SparkConf, SparkContext}object JdbcRDDDemo { def main(args: Array[String]): ...

2019-02-21 22:01:37 1154

原创 idea中spark处理数据存储到mysql

1)首先idea中新建maven工程SparkWC在pom.xml中导入配置&lt;?xml version="1.0" encoding="UTF-8"?&gt;&lt;project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance...

2019-02-21 18:31:21 1602

原创 Idea中pom.xml在project标签处报错:Failed to read artifact descriptor for xxx:jar

如题,出现这样的问题,一般是jar包下载出错。解决方法是删除该jar包。手动下载一下,然后重新导入一下jar包即可。解决方案:根据报错提示到 C:\Users\Administrator.m2\repository\ 下找到下载出错的jar包。比如我这里是spark-core_2.11-2.2.0.jarC:\Users\Administrator.m2\repository\org\a...

2019-02-19 14:23:01 15995 4

原创 idea new 新文件没有scala菜单解决方法

在idea中新建scala工程,需要先安装scala插件。1)File-&gt;setting-&gt;Plugins,然后搜索scala插件 安装。安装完成后重启idea2)设置scala sdkFile-&gt;Project Structure-&gt;Libraries-&gt;+3)新建scala工程现在就可以新建scala类了...

2019-02-15 20:48:14 6703 1

原创 svn提交提示失败,clean up 也失败的解决方法

在svn坐在目录文件夹打开命令行窗口输入命令:sqlite3 .svn/wc.db "delete from work_queue"然后再执行clean up就可以了

2019-02-15 18:25:27 445

原创 win7修改VMware Network Adapter VMnet8为静态ip地址

win7上面用虚拟机学习大数据,有时候本地VMware虚拟网卡的ip会突然被重新分配。导致SecureCRT连接到虚拟服务器失败。突然就遇到了,这里被重新配置了IPv4地址,导致原来SecureCRT的session连接失败了。所以要给这个虚拟网卡配一个静态ip。右键电脑底部网络图标,打开网络与共享中心-》更改适配器设置找到这个虚拟网卡。右键这个虚拟网卡-》选择属性打开DNS服务器...

2019-02-02 16:02:21 5487 5

原创 hbase相关需求

需求1:对hbase中一张表yangme的rowkey进行计数1)导入环境变量export HBASE_HOME=/root/hd/hbase-1.3.0export HADOOP_HOME=/root/hd/hadoop-2.8.5export HADOOP_CLASSPATH=${HBASE_HOME}/bin/hbase mapredcp2)启动hbase-mr任务hadoop里...

2019-02-01 19:00:21 290

原创 hbase通过idea操作api

1)安装Intellij idea这款开发工具收费,要注册http://idea.lanyus.com/这里找注册码安装完成后输入注册码,然后需要在本地hosts文件修改C:\Windows\System32\drivers\etc\hosts加上这个0.0.0.0 account.jetbrains.com2)Intellij idea新建Maven工程在pom.xml中添加h...

2019-02-01 16:29:59 7146 1

原创 Hbase数据库入门

Hbase概述Apache Hbase是hadoop数据库,是一个分布式,可扩展的大数据存储。当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase。该项目的目标是托管非常大的表-数十亿行x百万列-在商品硬件集群上。Apache HBase是一个开源的,分布式的,版本化的非关系数据库,模仿Google的Bigtable;Chang等人的结构化数据分布式存储系统。正如Bigt...

2019-02-01 16:23:32 230

原创 Azkaban工作流管理入门

Azkaban概述Azkaban是一个分布式工作流管理器,在LinkedIn上实现,以解决Hadoop作业依赖性问题,我们有需要按顺序运行的工作,从ETL工作到数据分析产品。特点:1)给用户提供了一个非常友好的可视化界面 2)非常方便的上传工作流 -》打成压缩包jar包3)设置任务间的关系4)权限设置 5)模块化 6)随时停止和启动任务 7)可以查看日志记录8)与O...

2019-02-01 16:22:35 387

ImageLoader jar包

是最新的ImageLoader开源框架工具jar包,

2015-11-27

ImageLoaderDemo

使用了ImageLoader开源框架处理图片的三级缓存

2015-11-27

android_mvp架构demo

该demo详细展示了android中mvp架构的运用,帮助同学们,理解mvp架构的模式

2015-11-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除