4 lvtula

尚未进行身份认证

暂无相关简介

等级
TA的排名 1w+

NLP处理-Spark中的HashTF与CountVectorizer模型

http://spark.apache.org/docs/latest/ml-features.html#tf-idfimport org.apache.spark.ml.feature._import org.apache.spark.ml.linalg.SparseVectorimport org.apache.spark.sql.SparkSessionimport scala...

2020-04-01 11:51:49

spark 密集向量和稀疏向量

1、概念稀疏向量和密集向量都是向量的表示方法 密集向量和稀疏向量的区别: 密集向量的值就是一个普通的Double数组 而稀疏向量由两个并列的 数组indices和values组成 例如:向量(1.0,0.0,1.0,3.0)用密集格式表示为[1.0,0.0,1.0,3.0], 用稀疏格式表示为(4,[0,2,3],[1.0,1.0,3.0]) 第一个4表示向量的长度(元素个数),[0,2,3]...

2020-04-01 11:50:42

Spark:基于jieba分词的特征向量提取

基于jieba分词的对计算机课程名的特征向量提取首先引入包:import org.apache.spark.sql.{DataFrame, SparkSession}//spark入口,DataFrame操作需要用到的包import java.nio.file.{Path, Paths}//加入自定义词库时路径需要的包import com.huaban.analysis.jieba...

2020-03-26 21:40:51

结巴分词5--关键词抽取

作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007欢迎转载,也请保留这段声明。谢谢!1 简介关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。除了这些,关键词还可以在文本聚类、分类、自动摘要...

2020-03-26 14:42:54

linux 命令批量修改文件内容中某字段

测试文件的内容复制多个测试文件(批量修改)一个四个测试文件,看效果就行两种方法修改1.perl命令替换格式: perl -p -i -e "s/修改的字段/新字段/g" 文件名(别的路径下需加好路径)perl -p -i -e "s/123/888/g" test1.txt test2.txt说明:将test1.txt和test2.txt中的123替换...

2020-03-18 10:47:21

hive按当天日期建立分区表 | 动态往日期分区插入数据

hive建立分区表,以当天日期(“2014-08-15”)作为分区依据,hql如下:CREATE EXTERNAL TABLE IF NOT EXISTS product_sell(category_id BIGINT,province_id BIGINT,product_id BIGINT,price DOUBLE,sell_num BIGINT)PARTITIONED BY ...

2020-03-10 16:05:14

es+spark 读取es中的自定义格式日期时报异常

问题描述:spark读取指定索引/类型的数据,其中有自定义格式的日期数据,读取该日期时报异常User class threw exception: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 1.0 failed 4 times, most recent failure: ...

2020-03-05 20:29:21

elasticsearch查询某个字段为空值的结果

传统sql查询返回某个字段为空值的结果写法是select * from 表名 where 字段名 is null在elasticsearch中查询语句为GET index/type/_search{ "query": { "bool": { "must_not": { "exists": { "field": "字段名"...

2020-03-03 09:45:03

Elasticsearch出现circuit_breaking_exception异常

1. 产生Data too large异常异常如下:CircuitBreakingException[[FIELDDATA] Data too large, data for [proccessDate] would be larger than limit of [xxxgb]经排查,原来是ES默认的缓存设置让缓存区只进不出引起的,具体分析一下。2. ES缓存区概述首先简单...

2020-02-14 21:25:27

error:Elasticsearch exception [type=illegal_argument_exception, reason=Limit of total fields [1000]

说的就是一个索引里面的fiedls的个数超过1000了,估计这个默认值是1000,这个时候,调大这个值,就能处理这个问题啦。上面的图就是 使用 curl 命令来处理这个问题。上面的图就是 使用 curl 命令来处理这个问题。curl -XPUT http://192.168.1.136:9200/出问题的那个索引名称/_settings -d '{"index.mappin...

2020-02-14 10:17:49

TiDB 2.0 kill会话

运行环境:在tiDB中国目前的版本家索引很费时间,对磁盘的IO影响较大,若在加索引的时候可以考虑kill掉会话。待空闲时间在加索引。1.准备单表1000万条记录:sysbench2.执行添加字段和索引的语句:alter table benchmark1.sbtest1 add column datetime NOT NULL DEFAULT CURRENT_TIMESTAMP...

2020-01-07 15:28:17

Scala操作MySQL数据库

一、工具IDEA+MAVEN二、Pom文件添加依赖1、更改成自己的scala版本<properties> <scala.version>2.11.8</scala.version> </properties>2、添加驱动依赖<dependency> <groupId>mysql&lt...

2019-12-30 10:22:52

Spark写入elasticsearch报错Could not write all entries for bulk operation以及Connection error

问题:org.elasticsearch.hadoop.EsHadoopException: Could not write all entries for bulk operation以及Connection error解决方法:添加参数val conf = new SparkConf();conf.set("es.nodes", elasticsearch_nodes);con...

2019-12-10 15:59:31

Postman 使用方法详解-终极教程最全

一、Postman背景介绍用户在开发或者调试网络程序或者是网页B/S模式的程序的时候是需要一些方法来跟踪网页请求的,用户可以使用一些网络的监视工具比如著名的Firebug等网页调试工具。今天给大家介绍的这款网页调试工具不仅可以调试简单的css、html、脚本等简单的网页基本信息,它还可以发送几乎所有类型的HTTP请求!Postman在发送网络HTTP请求方面可以说是Chrome插件类产品中的代...

2019-11-19 10:06:46

es第十篇:Elasticsearch for Apache Hadoop

es for apache hadoop(elasticsearch-hadoop.jar)允许hadoop作业(mapreduce、hive、pig、cascading、spark)与es交互。At the core, elasticsearch-hadoop integrates two distributed systems: Hadoop, a distributed computin...

2019-11-14 16:22:01

使用spark对输入目录的文件进行过滤

使用spark进行文件过滤在使用spark的很多情形下, 我们需要计算某个目录的数据.但这个文件夹下面并不是所有的文件都是我们想要计算的比如 : 对于某一天的数据,我们只想计算其中的几个小时,这个时候就需要把剩下的数据过滤掉更坏的一种情形 : 对于那些正在copy(还没有完成),或者是.tmp临时文件,程序在读取的过程中,文件发生变化已经复制完成或者被删除,都会导致程序出错而停掉...

2019-11-07 13:52:31

IDEA 自动删除类中无用的import包

1.手动快捷键Ctrl + Alt + O2.配置自动清理Ctrl + Alt + S 打开设置然后,进行如下操作:IDEA会自动清理无引用的包。

2019-10-29 14:03:19

MySQL如何创建主键,外键和复合主键

1.主键语法①创建时:create table sc (studentnoint,courseidint,scoreint,primary key (studentno) );②修改时:ALTER TABLE table_name ADD CONSTRAINT pk_name PRIMARY KEY(列名);前提是原先没有...

2019-10-28 14:36:13

Spark Streaming消费Kafka Direct保存offset到Redis,实现数据零丢失和exactly once

一、概述 上次写这篇文章文章的时候,Spark还是1.x,kafka还是0.8x版本,转眼间spark到了2.x,kafka也到了2.x,存储offset的方式也发生了改变,笔者根据上篇文章和网上文章,将offset存储到Redis,既保证了并发也保证了数据不丢失,经过测试,有效。二、使用场景Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉...

2019-10-22 10:57:28

SparkStreaming踩坑之Kafka重复消费

1.问题描述使用SparkStreaming连接Kafka的demo程序每次重启,都会从Kafka队列里第一条数据开始消费。修改enable.auto.commit相关参数都无效。2.原因分析demo程序使用"KafkaUtils.createDirectStream"创建Kafka输入流,此API内部使用了Kafka客户端低阶API,不支持offset自动提交(提交到zookeepe...

2019-10-22 10:46:58

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。