xubc-CSDN博客

原创 Spark On Yarn的配置

Spark on Yarn模式下的配置spark-env.sh配置如下，standalone deploy mode部署模式下忽略export JAVA_HOME=/usr/jdk64/jdkexport SPARK_HOME=/opt/spark# Options read in YARN client/cluster modeexport SPARK_CONF_DIR...

2020-03-17 19:53:25 669

原创 win10中tensorflow-gpu安装

本机安装的版本号如下操作系统： Windows10 GPU型号： NVIDIA GeForce 920MXTensorFlow版本：tensorflow-gpu 1.9.0CUDA版本： cuda_9.0.176_win10CUDNN版本： cudnn-9.0-windows10-x64-v7.1安装python的...

2018-07-25 10:25:43 1070

原创 spark中日志清理

spark开启history-server之后，app日志会保存在制定的目录下，若yarn开启日志收集，也需要进行app-logs的自动清理## yarn日志收集yarn.log-aggregation.retain-seconds = 1209600yarn.log-aggregation.retain-check-interval-seconds = 86400## spa...

2018-07-17 10:54:26 3412

原创常见函数导数公式

2018-07-11 14:46:32 19278

原创回归评价指标

分类问题一般使用准确率，召回率等评价指标，但是回归问题评价一般使用误差相关定义指标：MSE Mean Squared Error 均方误差这个就是目标损失函数loss functionRMSE rmse = sqrt(MSE)MAER2参考：https://blog.csdn.net/skullFang/article/details/79107127...

2018-07-10 16:40:49 278

原创 hbase regionserver进程启动参数

/usr/jdk64/jdk1.8.0_77/bin/java -Dproc_regionserver-Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=18409 -Djava.rmi.server.hostname=10.50.70.20 -Dcom.sun.management.jmxremote.s...

2018-06-15 11:16:27 623

原创 hive中SerDe使用

SerDe is a short name for “Serializer and Deserializer.”Hive uses SerDe (and !FileFormat) to read and write table rows.HDFS files –> InputFileFormat –> <key, value> –> Deserializer –&gt...

2018-05-07 11:21:48 2522

原创推荐系统评测指标

用户满意度技术指标：准确率召回率覆盖率多样性流行度新颖度惊喜度实时性产品指标：点击率ctr转化率vppv

2018-03-29 14:42:37 314

原创信息熵

信息熵信息增益信息增益比基尼系数马太效应

2018-03-29 14:05:01 2940

原创二分类评判指标

Precision：TP/(TP+FP)，分类器预测出的正样本中，真实正样本的比例Recall：TP/(TP+FN)，在所有真实正样本中，分类器中能找到多少Accuracy：(TP+TN)/(TP+NP+TN+FN)，分类器对整体的判断能力，即正确预测的比例参考文章：http://alexkong.net/2013/06/introduction-to-auc-and-roc/...

2018-03-28 17:42:09 431

原创 NLP处理-Spark中的HashTF与CountVectorizer模型

http://spark.apache.org/docs/latest/ml-features.html#tf-idfimport org.apache.spark.ml.feature._import org.apache.spark.ml.linalg.SparseVectorimport org.apache.spark.sql.SparkSessionimport sc

2017-07-10 15:32:17 2908

原创 maven编译异常错误loading CharSequence class file is broken

在用maven对项目进行编译打包时，遇到了下面奇怪的编译错误"C:\Program Files\Java\jdk1.8.0\bin\java" "-Dmaven.home=C:\Program Files (x86)\JetBrains\IntelliJ IDEA Community Edition 2016.2.1\plugins\maven\lib\maven3" "-Dclasswo

2017-07-06 11:09:38 5640

原创 spark application运行时版本不兼容错误

17/06/27 14:34:41 INFO deprecation: mapred.map.tasks is deprecated. Instead, use mapreduce.job.maps17/06/27 14:34:41 INFO MemoryStore: Block broadcast_0 stored as values in memory (estimated size 788

2017-07-03 17:46:52 1106

原创 ssh远程到目标机器执行命令shell脚本

linux下ssh到目标机器首先需要配置免密码登陆，才能执行如下脚本 hostnames服务器列表文件master.hadoopw1.hadoopw2.hadoopw3.hadoopw4.hadoop 运行shell脚本#!/bin/bashfunction usage() { echo "Wrong arguments input..." echo "Usa

2017-06-30 09:50:49 2744

原创 spark读取mongodb数据

val spark = SparkSession.builder .appName(this.getClass.getName().stripSuffix("$")) .getOrCreate() val df = spark.read.format("com.mongodb.spark.sql").options( Map

2017-06-26 11:38:51 10330

原创 spark在windows上local模式下的缺失winutils.exe异常

在window10上Intellij IDEA上已Local的模式运行调试Spark程序，并且将中间结果写入本地目录时，程序抛出异常错误Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties17/06/19 11:24:33 INFO SparkContext: Running Spark

2017-06-19 11:49:41 5376

原创 mongo在shell中操作命令

在linux中安装mongodb的客户端很简单，下载对应版本的mongodb-linux-x86_64-rhel62-3.4.2.tgz，解压后加入目录bin到环境变量中就可使用mongo 198.168.0.1:27017/nlp -u nlp_s -p 123456 连接mongo之后，数据库操作命令# 查看库中所有表show collections;# 查看表中数据db.

2017-06-05 11:44:07 393

转载随机变量协方差的意义

在概率论中，两个随机变量 X 与 Y 之间相互关系，大致有下列3种情况：当 X, Y 的联合分布像上图那样时，我们可以看出，大致上有： X 越大 Y 也越大， X 越小 Y 也越小，这种情况，我们称为“正相关”。当X, Y 的联合分布像上图那样时，我们可以看出，大致上有：X 越大Y 反而越小，X 越小 Y 反而越大，这种情况，我们称为“负相关”。

2017-05-26 14:12:16 3043 2

原创 spark提交任务端口占用异常

当在同一台机器上提交多个spark任务时并且是以client的方式提交，会报端口占用错误17/05/05 15:51:07 WARN AbstractLifeCycle: FAILED org.spark-project.jetty.server.Server@3c8bdd5b: java.net.BindException: Address already in usejava.net.

2017-05-05 16:13:59 9385

原创 python库numpy的使用

python库numpy的使用

2017-04-27 15:24:36 852

原创导数据中的网络引起的异常

最近由hive想应用数据库mysql 和 hbas导数据的时候，莫名的出现很多连接异常或者中断的情况，初步怀疑是开启并发过多占满网络带宽导致导入mysql数据库Lost connection to MySQL server at 'reading authorization packet', system error: 0 导入Hbase数据库时ssh连接中断 ja

2017-04-27 14:52:37 512

转载利用Fiddler进行http抓包

转载自作者：Findyou地址：http://www.cnblogs.com/findyou/p/3491014.html前言：做前端测试，基本要求会抓包，会分析请求数据包，查看接口是否调用正确，数据返回是否正确，问题产生是定位根本原因等。不管是之前做HTML5手机项目测试，还是现在的企邮app测试，经常需要抓包，做前端开发基本第一时间会想到Fiddler，的

2017-04-25 16:56:31 1552

原创 hbase常用shell命令

#范围扫描scan 'edw_applications:user_profile_customer', STARTROW=> '00502be7c4df-8509-d144-b2c8-03108f00', ENDROW=> '00502be7c4df-8509-d144-b2c8-03108f00'#值扫描scan 'edw_applications:user_profile_

2017-04-25 15:57:32 460

原创 hive上创建表视图

数据仓库中对有些表采用全量分区，每天一个历史镜像数据，有些数据应用系统正好使用该类型表，可以对外输出一个表视图使数据消费方不用关心是何种类型的表，在workflow中每天定时重建该视图，还可以屏蔽调度数据失败对外面的影响，即使失败数据消费方还能继续work，只是数据是前天生成的而不是最新的数据drop view if exists edw.test_tablename_view;crea

2017-04-25 14:50:25 1888

原创 HDFS上磁盘数据清理

HDFS数据清理一些办法：datanode数据做reblance 清理临时目录、日志目录文件全量分区表历史分区清理使用lzo，orc格式进行数据压缩清理或者归档历史冷数据增加datanode横向扩容附上自动清理目录下过期的文件#!/bin/bashsource ~/.bash_profile# 将待检测的目录(可以为多个)加载至数组中yarn_log_di...

2017-04-14 08:31:02 5295

原创 windows下python环境安装与配置

1. Python安装包在https://www.python.org/downloads/下载，因对对python2.x熟悉些所以下载的是python-2.7.13版本安装完成后添加环境变量 Path=%Path%;C:\Python272. 安装Python pip工具来安装管理python库包，https://pypi.python.org/pypi/pip#dow

2017-03-23 15:05:35 477

原创 Hbase基本操作类

Hbase基本操作类

2017-03-23 14:14:53 757

原创 hive 动态分区使用

hive 动态分区

2017-02-20 14:16:32 1874

原创 hadoop常用命令整理

1. 直接删除文件不进入垃圾回收桶 hadoop fs -rm -r -skipTrash xxxx2. 基于yarn提交的application查看日志和stdout,stderr输出 yarn logs -applicationId application_1479210500211_555588 > spark.log

2017-02-15 10:32:59 471

原创 impala大数据量查询/tmp/impala-scratch创建异常

使用impala对大数据量查询distinct的时候出现如下错误5ab149d_24414dab2c19caca:e54b206c5ab149f_91001337-9d70-4c93-84ce-e7916c1ae804 failed with errno=2 description=Error(2): No such file or directoryBackend 4:Create fil

2017-02-10 17:37:11 1687

原创横竖表相互转换SQL

以Oracle数据库为例，测试在数据处理中经常遇到数据库中横表和竖表的相互转换，采用学生各科成绩分数为测试数据横表转换竖表:CREATE table score( username varchar(10) , chinese int , math int , physics int); INSERT into score(username ,

2017-02-10 17:08:46 4905

原创 spark-submit提交的shell脚本

spark-submit向yarn提交application的脚本，包括spark参数、环境变量、应用程序参数传入#!/bin/bashsource ~/.bash_profileAPP_HOME=/home/data_user/recommendecho $APP_HOME###################### etl候选集和浏览数据集 #################

2017-02-09 14:10:02 8642

原创 hive sql优化整理

Hive sql优化方法参数一些整理，方便快速查找使用1. map数量与reduce数量的控制输入文件大小指实际文件大小，与文件格式textfile, ORC等无关，压缩的文件格式会小很多设置参数要适当调整--map数量控制set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;set mapr...

2017-02-09 12:58:46 1042

原创 hive常用函数整理

Hive常用的函数整理，方便快速查找使用1.时间戳格式化select from_unixtime(unix_timestamp(),'yyyy-MM-dd HH:mm:ss');select current_timestamp;2. 时间日期大小比较（天）select datediff('2016-09-01','2016-08-01');select datediff(f

2017-02-09 10:53:30 1312

原创 hive常用sql整理

Hive常用的sql整理，方便快速查找使用1.创建Hive表CREATE TABLE if not exists edw_applications.dws_test_table ( cid string, event_code int, event_date string, house_

2017-02-04 16:03:31 1375

原创 Linux下网络设置

Linux下网络环境相关配置，基于Redhat版本的设置1. 静态IP配置vim /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0ONBOOT=yesBOOTPROTO=staticIPADDR=192.168.0.3NETMASK=255.255.255.0GATEWAY=192.168.0.1

2017-02-04 15:04:52 245

原创 mysql导出库结构和表数据

##导出整个数据库结构和数据mysqldump -h localhost -uroot -p123456 database > dump.sql##导出单个数据表结构和数据mysqldump -h localhost -uroot -p123456 database table > dump.sql ##导出整个数据库结构（不包含数据）mysqldump -h

2017-02-04 14:52:18 362

原创运行java程序shell脚本

一个运行普通Java程序的shell脚本，指定运行的jdk，依赖jar路径和运行时arguments#!/bin/bashsource ~/.bash_profileAPP_HOME=/home/xubc/app_testecho $APP_HOMEfor f in $APP_HOME/lib/*.jar; do APP_CLASSPATH=$f:${APP_CLASSPAT

2017-02-04 14:29:00 710

原创 kafka0.8.2命令

## kafka启动zookeeper-server startbin/kafka-server-stop.sh nohup bin/kafka-server-start.sh config/server.properties > logs/kafka-server-start.log & ## 查看当前节点状态echo stat | nc 127.0.0.1 2181

2017-02-04 14:06:21 1007

原创数据库SQL解析执行过程

SQL解析执行的主要步骤：1. 对提交SQL的进行判断是否已解析和生产执行计划，对已生成执行计划的SQL直接执行返回结果2. 对SQL进行语法规范检查3. 对SQL进行语义检查，使用表、字段、函数、视图等数据库对象是否存在，以及是否拥有对应的操作权限4. 将SQL解析成语法树，按照不同的算法策略并做一些替换其中视图、表达式，合并查询等优化，去生成由关系代数算子组成的（投影 (π)，

2017-02-03 16:49:28 2378

Python加载纯真IP库查询

空空如也