Tai_Park-CSDN博客

原创 XGBoost4J-Spark 1.0.0运行流程与排坑指南

XGBoost4J-Spark配置全解0.前言1.确认版本2.Maven配置3.代码4.运行0.前言XGBoost4J-Spark能够让我们在Spark上玩XGBoost，对于海量数据来说应该是很有用的。这篇文章主要介绍了将其官网提供的Demo部署在Linux上运行的全过程。通过此Demo在Spark上用XGBoost完成iris数据集的多分类任务。此次选用的是最新的稳定版XGBoost4J...

2020-04-30 21:51:27 2254 8

原创剑指OFFER思路总结与代码分享——树篇(Java实现)

剑指OFFER树相关55-1 二叉树的深度27 二叉树的镜像54 二叉搜索树的第K大节点32-II 从上到下打印二叉树注：顺序是先筛选分类再按LeeCode上的通过率排的，每题最后的总结代码都是在LeeCode上跑过的，应该没啥问题。但是思路中的代码都是直接在CSDN编辑器里徒手敲的，若有笔误还烦请告知，蟹蟹~55-1 二叉树的深度思路是使用递归，说到递归，立马写下如下思路：方法想要干...

2020-04-06 23:44:52 331

原创【从0开始の全记录】Crontab+Flume+Kafka+Spark Streaming+Spring Boot 统计网页访问量项目

1.需求说明1.1 需求到现在为止的网页访问量到现在为止从搜索引擎引流过来的网页访问量1.2 用户行为日志内容2.模拟日志数据制作用Python制作模拟数据，数据包含：不同的URL地址->url_paths 不同的跳转链接地址->http_refers 不同的搜索关键词->search_keyword 不同的状态码->status_co...

2020-03-08 19:51:58 969 5

原创大数据入门：Spark+Kudu的广告业务项目实战笔记(一)

1.简介2.项目需求数据ETL：原始文件为JSON格式数据，需原始文件与IP库中数据进行解析统计各省市的地域分布情况统计广告投放的地域分布情况统计广告投放APP分布情况3.项目架构4.日志字段{ "sessionid": "qld2dU4cfhEa3yhADzgphOf3ySv9vMml", "adv...

2020-02-25 16:31:04 1454 2

原创 (超详细)通过一个SpringBoot与Mysql交互的例子入门SpringBoot开发

1.前言2.pom Spring Boot的系统构建支持Maven，而pom.xml是Maven的主要配置文件，需要在pom.xml中对Maven项目进行配置。具体说来，最重要的是添加了两个依赖：对Spring data jpa的依赖和mysql的驱动包。其中jpa是当前Java标准ORM(对象关系映射)通用规范，说人话就是能够让我们在不写臃肿且重复的SQL语句的情况下，只用平时操作...

2020-02-14 14:31:02 3099

原创 matlab时域频域信号特征提取资料整合

1 前言最近在做一个项目，需要将声纳信号中的特征都提取出来进行分析。资料查到头秃终于整合出来了些东西，记录一下。由于不是专业人员，如果发现任何错误请不要大意的附在评论区，我会及时修改，谢谢！2 思路思路这段引用自知乎大佬aresmiki的回答，我觉得OK。1、首先，在特征提取之前需楼主明确是怎样的信号，怎样的应用，怎样的场景，因为针对不同应用和场景选择的特征提取也不近相同。...

2019-09-28 15:52:35 37320 15

原创数据挖掘实列几则（K-means/Mean-Shift/EM）

一、数据认知此次实验分配的任务为数据聚类，涉及数据集为三组，名称分别为“Seeds Data Set”，“Diabetes 130-US Hospitals for Years 1999-2008 Data Set”与“Dow Jones Index Data Set”。接下来依次介绍三个数据集的详细信息。 Seeds Data Set “Seeds Data Se...

2019-03-07 12:26:34 3132 4

原创排查java.net.MalformedURLException: Local host name unknown: java.net.UnknownHostException:***

java.net.MalformedURLException: Local host name unknown: java.net.UnknownHostException:***

2022-08-11 17:01:00 311

原创 Angularjs get方法成功后不执行，Error执行

检查传入前端的内容是否是数组，如果是数组用get不接受，换成query接受即可。

2020-08-07 11:02:58 351

原创 WPS显示无法创建对象，请确认对象已在系统注册表中注册

写论文想插公式发现没法插入了，注册表又不知道改哪个，所以干脆：1.卸载WPS，不保留信息2.选择另一个不同的路径重新安装即可

2020-05-02 10:59:13 8702 2

原创剑指OFFER思路总结与代码分享——动态规划篇(Java实现)

剑指OFFER动态规划相关47 礼物的最大价值63 股票的最大利润连续子数组最大和14-I 剪绳子注：顺序是先筛选分类再按LeeCode上的通过率排的，每题最后的总结代码都是在LeeCode上跑过的，应该没啥问题。但是思路中的代码都是直接在CSDN编辑器里徒手敲的，若有笔误还烦请告知，蟹蟹~47 礼物的最大价值做动态规划先找初始条件，再根据初始条件得到递推式，最后返回题目要求的那个值即可。...

2020-04-14 12:25:52 175

原创剑指OFFER思路总结与代码分享——栈和堆篇(Java实现)

剑指OFFER栈和堆相关09 用两个栈实现队列30 包含min函数的栈注：顺序是先筛选分类再按LeeCode上的通过率排的，每题最后的总结代码都是在LeeCode上跑过的，应该没啥问题。但是思路中的代码都是直接在CSDN编辑器里徒手敲的，若有笔误还烦请告知，蟹蟹~09 用两个栈实现队列首先LinkedList有栈的功能，Stack继承自Vector，底层是用数组实现的，需要各种copyOf...

2020-04-11 22:58:58 250

原创剑指OFFER思路总结与代码分享——数组和字符串篇(Java实现)

`@TOC注：顺序是先筛选分类再按LeeCode上的通过率排的，每题最后的总结代码都是在LeeCode上跑过的，应该没啥问题。但是思路中的代码都是直接在CSDN编辑器里徒手敲的，若有笔误还烦请告知，蟹蟹~03 数组中的重复数字第一反应是用HashMap做，反正啥玩意都HashMap一把梭，顺便说一个优雅的往HashMap里放key来计数的操作：map.put(i, map.getOrDe...

2020-04-10 22:41:16 202 1

原创剑指OFFER思路总结与代码分享——链表篇(Java实现)

剑指OFFER链表相关22 链表中倒数第k个节点24 反转链表35 复杂链表的复制52 两个链表的第一个公共节点18 删除链表的节点注：顺序是先筛选分类再按LeeCode上的通过率排的，每题最后的总结代码都是在LeeCode上跑过的，应该没啥问题。但是思路中的代码都是直接在CSDN编辑器里徒手敲的，若有笔误还烦请告知，蟹蟹~22 链表中倒数第k个节点兄弟们做链表题不画图的都是在耍流氓，与其...

2020-04-10 18:30:10 221

原创剑指Offer 1-把字符串转换成数组

原题写一个函数 StrToInt，实现把字符串转换成整数这个功能。不能使用 atoi 或者其他类似的库函数。首先，该函数会根据需要丢弃无用的开头空格字符，直到寻找到第一个非空格的字符为止。当我们寻找到的第一个非空字符为正或者负号时，则将该符号与之后面尽可能多的连续数字组合起来，作为该整数的正负号；假如第一个非空字符是数字，则直接将其与之后连续的数字字符组合起来，形成整数。该字符...

2020-03-15 18:03:24 166

原创大数据流处理(Spark Streaming + Kafka)面试常考考点

1.ackKafka Producer的参数，是把数据写到Kafkabroker里面去时需要的参数。常见的值有1、0、all（-1）。0：leader不做等待，只管发不管结果。延时性最低、持久性最差；1（默认）：只要leader写数据到本地即可，不关注followers。当leader挂掉了可能会有数据丢失。延时性较低、持久性较高；all（或者-1）：leader关注ISR（In-...

2020-03-13 18:24:26 1494

原创 Kafka偏移量(Offset)管理

1.定义Kafka中的每个partition都由一系列有序的、不可变的消息组成，这些消息被连续的追加到partition中。partition中的每个消息都有一个连续的序号，用于partition唯一标识一条消息。Offset记录着下一条将要发送给Consumer的消息的序号。流处理系统常见的三种语义：最多一次每个记录要么处理一次，要么根本不处理至少一次这...

2020-03-12 19:29:20 4157

原创 Spark Streaming整合log4j、Flume与Kafka的案例

1.框架2.log4j完成模拟日志输出设置模拟日志格式，log4j.properties：log4j.rootLogger = INFO,stdoutlog4j.appender.stdout = org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.target = System.outlog4j.appender....

2020-03-07 21:15:34 263

原创解决Exception in thread "main" java.lang.NoClassDefFoundError: kafka/serializer/StringDecoder

问题出现在Spark Streaming连Kafka的Jar包上传到服务器用spark-submit运行的时候：如果在本地环境能够运行而去服务器报错，大概率原因是缺少两个jar包kafka_2.11-0.8.2.1.jar和metrics-core-2.2.0.jarjar包版本已你自己的为准，可以在IDEA你的项目里搜索（双击Shift开启全局搜索）这两个Jar包，上传到$SPARK...

2020-03-07 16:23:56 3202

原创整合Spark Streaming与Kafka

1.Direct DStream(No Receivers)Spark 1.3中引入了这种新的无接收方“直接”方法，以确保更强的端到端保证。这种方法不使用接收者来接收数据，而是定期查询Kafka在每个主题+分区中的最新偏移量，并相应地定义每个批处理中的偏移范围。启动处理数据的作业时，Kafka的简单消费者API用于从Kafka读取已定义的偏移范围(类似于从文件系统读取文件)。请注意，该特性是...

2020-03-07 16:14:28 338

原创分别用Push方式与Pull方式整合Flume与Spark Streaming

1.架构2.Flume配置在$Flume_HOME/conf下新建配置文件：flume_push_streaming.conf配置思路如下：source选择netcat，配置好主机名与端口 sink选择avro，配置好主机名与端口 channel选择memory 将source与channel连起来将sink与channel连起来simple-agent.sour...

2020-03-06 18:46:31 216

原创整合Flume与Kafka完成实时数据采集

1.架构2.Flume第一个Agent配置 -> exec-memory-avro.conf：exec-memory-avro.sources = exec-sourceexec-memory-avro.sinks = avro-sinkexec-memory-avro.channels = memory-channelexec-memory-avro.source...

2020-03-03 13:40:09 488

原创 Kafka入门指南

概述Kafka是一种消息中间件。Kafka® is used for building real-time data pipelines and streaming apps. It is horizontally scalable, fault-tolerant, wicked fast, and runs in production in thousands of compa...

2020-03-02 17:39:30 366

原创 Flume入门指南

FlumeApache Flume is a distributed, reliable, and available system for efficiently collecting, aggregating and moving large amounts of log data from many different sources to a centralized data sto...

2020-03-01 20:57:30 136

原创 Hadoop整合压缩知识点整理

简介压缩：原始数据通过压缩手段产生目标数据，要求输入和输出的内容是一样的（大部分），但体积是不一样的。对于单机用户来说，磁盘空间的限制导致了文件压缩的需求；对于Hadoop用户来说，由于DataNode的限制，也要对HDFS上的数据进行压缩。压缩的目的是减少存储在HDFS上的数据所占用的空间（磁盘的角度），提升网络的传输效率（网络的角度）。对于分布式计算框架来说，Shuffle是一个主要的...

2020-03-01 14:28:43 323

原创新手向，从用Spark求平均值到reduceByKey详解

1.前因后果在网上看到了一种用Spark求平均值的算法，自己写了下，修改了一些错误，我这是能直接run起来的版本。我会在本文中对这段代码进行详细的讲解，以加强对reduceByKey用法的印象。耐心看完，保证你对reduceByKey算子理解且不会忘了。首先把这位老哥测试的原始数据给大家：FFF 578GGG 839EEE 566AAA 815AAA 334FFF 268...

2020-02-27 21:14:46 3039 1

原创大数据入门：Spark+Kudu的广告业务项目实战笔记(六)

本章目标：将代码打包并运行在服务器上。1.将数据放在HDFS上先把Hadoop启动起来：[hadoop@hadoop000 ~]$ cd app/[hadoop@hadoop000 app]$ lsapache-maven-3.6.3 hive-1.1.0-cdh5.15.1 spark-2.4.5-bin-hadoop2.6hadoop-2.6.0-cdh5.15...

2020-02-26 16:53:36 237

原创大数据入门：Spark+Kudu的广告业务项目实战笔记(五)

1.统计需求本章主要实现需求四：APP统计。需求如下：2.代码编写入口搭好： AppStatProcessor.process(spark)先看一下第一步的运行情况：package com.imooc.bigdata.cp08.businessimport com.imooc.bigdata.cp08.`trait`.DataProcessimport ...

2020-02-26 15:02:10 230

原创大数据入门：Spark+Kudu的广告业务项目实战笔记(四)

1.统计需求完成统计地域分布情况，需要原始请求数、有效请求数、广告请求数、参与竞价数、竞价成功数、广告主展示数、广告主点击数、媒介展示数、媒介点击数、DSP广告消费数、DSP广告成本数。具体指标如下所示：2.代码编写先做第一步处理，按上述要求将数据提取出来放在Kudu里。package com.imooc.bigdata.cp08.businessimport com....

2020-02-26 14:38:43 323

原创大数据入门：Spark+Kudu的广告业务项目实战笔记(三)

这章的主要目标是对前两个需求的代码进行重构。1.重构思路2.traitScala Trait(特征) 相当于 Java 的接口，实际上它比接口还功能强大。与接口不同的是，它还可以定义属性和方法的实现。一般情况下Scala的类只能够继承单一父类，但是如果是 Trait(特征) 的话就可以继承多个，从结果来看就是实现了多重继承。package com.imooc...

2020-02-26 13:14:41 329

原创大数据入门：Spark+Kudu的广告业务项目实战笔记(二)

第一章点这里传送1.功能二开发统计省份、城市数量分布情况，按照provincename与cityname分组统计package com.imooc.bigdata.cp08.businessimport com.imooc.bigdata.cp08.utils.SQLUtilsimport org.apache.spark.sql.SparkSessionobject Pr...

2020-02-26 12:51:56 317

原创 Kudu报cannot import authentication data from a different user: old='', new='XXX'解决办法

今天Kudu又抽抽了，在导入数据的时候报错如下：java.lang.IllegalArgumentException: cannot import authentication data from a different user: old='', new='XXX'最后的解决方法是修改Kudu的设置。首先在/etc/init.d关闭Kudu：[hadoop@hadoop000 ...

2020-02-26 12:29:02 756

原创 Kudu-master启动：Failed to start Kudu Master Server. Return value: 1

今天屁颠屁颠装了kudu，到启动Kudu-mater的时候报错了：[hadoop@hadoop000 init.d]$ sudo ./kudu-master startFailed to start Kudu Master Server. Return value: 1 [FAILED]这个时候就应该去扒错误日志，Kudu的默认日志地址在/var/log/kudu里，打...

2020-02-24 14:49:39 2070

原创 spark-sql报Caused by: java.sql.SQLException: No suitable driver found for jdbc:mysql://xxx:3306

在运行./spark-shell连hive的时候能够运行，但是运行./spark-sql的时候报错如下：Caused by: java.sql.SQLException: No suitable driver found for jdbc:mysql://hadoop000:3306/hadoop_hive?createDatabaseIfNotExist=true at java.sql...

2020-02-23 10:25:58 1593 3

原创解决Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.1.0:compile (default) on project sp

用maven打包时出现了这个错误：Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.1.0:compile (default) on project sparksql-train: wrap: org.apache.commons.exec.ExecuteException: Process exited with a...

2020-02-19 14:39:42 7756

原创解决org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(Ljava/lang/String;I)

1、复制以下代码/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information *...

2019-12-11 16:45:06 1221

原创 11 行业知识图谱构建与应用

行业KG简介：谷歌知识图谱：things not strings面向全领域的通用知识图谱强调的是广度，因而强调的更多是以实体为中心的开放的知识图谱社区：OpenKG.CN 行业知识图谱：Palantir面向特定领域的知识图谱需要一定的深度与完备性对准确度要求非常高有严格而丰富的数据模式行业KG应用：金融、生物、图书、电商、农业...

2018-08-24 09:40:53 908 1

原创 10 知识问答(下)

语义解析Logic Form 可以视为图模板Graph TemplateAlignment：文本短语KB Predicates从短语到KB Predicates的匹配Bridging操作——链接两个Unaries/Event Modifiers通过Composition产生候选Logic Form(Derivation)训练模型来估计给定问句生成的一个逻辑表达式的概...

2018-08-23 10:34:17 245

原创 9 知识问答(上)

知识问答概述和相关数据集基于模板的问答专家系统->基于信息检索的问答->基于社区的问答->基于知识库的问答测评数据集 QALD，是多语言的链接数据问答系统的评测竞赛活动多语种问答/基于链接数据的问答/Hybrid QA，基于RDF and free text data WebQuestions Free917 KBQA基本概...

2018-08-22 12:50:26 389

原创 8 语义搜索

不同搜索模式之间的技术差异：1、对用户需求的表示(query model)2、对底层数据的表示(data model)3、匹配方法(matching technique) 信息检索(IR)支持对文档的检索(document retrieval)数据库(DB)和知识库专家系统(Knowledge-based Expert System)可以提供更加精确的答案(data ret...

2018-08-21 10:03:26 643

大学软件工程课笔记整理

思科CCNA网络入门笔记

空空如也