bigdataf-CSDN博客

原创 pyspark udf udaf 参数传递

1.定义udf基于F.lit(data) 实现传参F.lit 函数实际上是新增一例,可以理解是自定义的函数把参数当列一样来操作from pyspark.sql import SparkSession,functions as Ffrom pyspark.sql.types import *from pyspark.sql import Windowdef filter(col,filters=["haha","hehe"]) col_map={} try: fo

2021-01-20 17:55:55 723

原创 PySpark的select fliter agg join

1.初始化from __future__ import print_function, divisionfrom pyspark import SparkConf, SparkContextfrom pyspark.sql import SparkSession,functions as Ffrom pyspark.sql.types import StringType,MapType2.读取数据def parse_log_schema(txt): try: fileds=txt.st

2020-10-28 14:59:31 292

原创 spark 同时读取多个路径的方法

1.传入多个参数 val result = spark.read.text("hdfs://hdfs-name/user/aa.txt","hdfs://hdfs-name/test/bb.txt")2.正则val result = spark.read.text("hdfs://hdfs-name/user/*")3.文件列表val path = "hdfs://hdfs-name/user/*.txt" val path2 = "hdfs://hdfs-name/test/*.txt"

2020-10-22 15:58:06 1816 1

原创大数据 Guava冲突问题

程序使用的guava版本和hadoop hbase大数据之类的包冲突，总是报NoSuchMethod和ClassNoDef之类的错误解决方法：将guava-22.0单独打成jar包，并改名，再重新放回源程序基于maven-shade-plugin，guava单独打成jar包，修改包路径，并加入源程序的maven本地仓库1.guava单独打成jar包的pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://

2020-10-10 10:51:44 1659

原创牛逼的ab

https://www.jianshu.com/p/bcaf9b45fdbc

2020-08-06 16:57:56 109

转载 2020-08-06

A/B测试背后有着高深的统计学知识，今天我们就来讲讲常见的辛普森悖论。辛普森悖论 (Simpson’s Paradox) 是英国统计学家 E.H.辛普森 (E.H.Simpson) 于1951年提出的悖论，即在某个条件下的两组数据，在分别讨论时都会满足某种性质，可是一旦合并起来进行考虑，却可能导致相反的结论。举一个辛普森悖论的简单小例子：一个大学里有商学院和法学院两个学院。这两个学院的女生都抱怨“男生录取率比女生录取率高”，有性别歧视。但是学校做总录取率统计，却发现总体来说女生录取率远远高于男生录取率！

2020-08-06 16:38:32 211

原创 python SimpleHTTPServer 使用

python SimpleHTTPServer本地目录分享python -m SimpleHTTPServer 10000获取 wget http://ip:10000/filename

2019-12-19 17:16:00 437

原创 java Load conf

1 加载resources下的普通文件//构造函数中InPutStream resourceAsStream = this.getClass().getClassLoader().getResourceAsStream("filter.txt")List listFilter= loadData(resourceAsStream)private static List<Strin...

2019-12-05 21:21:27 251

原创 ImmutableMap／ImmutableSet／ArrayList

private static Map<String,String> FeaturesMap = ImmutableMap.<String, String>builder().put("a", "a").put("b", "b").put("c","c").build();Set<String> needfactors = ImmutableSet.o...

2019-12-05 20:42:05 181

原创 windos idea bash 错误

idea 下 git bash 错误bash: /dev/null: Bad address修复以管理员身份运行CMD，在CMD下输入 sfc /scannow 进行系统扫描修复

2019-09-10 22:00:54 556 1

原创 ES学习

#创建索引为blog 类型为article的文档curl -H 'Content-Type:application/json' -XPUT http://localhost:9200/blog/article/1 -d '{ "id": "1", "title": "New version of Elasticsearch released!", "con...

2019-08-31 20:41:11 214

原创压力测试工具

1.siegea.安装$ wget http://download.joedog.org/siege/siege-latest.tar.gz$ tar -xvf siege-latest.tar.gz$ cd siege-4.0.4/ $ ./configure$ make && make installb.使用$ siege -c10(10个线程) -t10s...

2019-02-20 11:47:32 832 1

原创 git

1.远程与本地冲突git pull originerror: Your local changes to the following files would be overwritten by merge: recallctr-topology.iml src/main/java/com/wifi/recall/factorctr/DocMatrixCounte...

2019-02-18 19:55:51 122

原创 opentsdb加kerberos认证

1.编辑启动脚本 cat start_tsdb.shOPENTSDB_HOME=/data/opentsdbJVMARGS="${JVMARGS} -Djava.security.auth.login.config=${OPENTSDB_HOME}/jaas.conf -Dzookeeper.sasl.client=false" ./tsdb tsd --config=${OPENTSDB_...

2019-02-15 11:42:37 1157

原创 flink 学习笔记资料

1.https://blog.csdn.net/yanghua_kobe/article/category/61705732.http://www.54tianzhisheng.cn/tags/Flink/3.https://blog.csdn.net/liguohuabigdata/article/category/72790204.http://wuchong.me/5.https:/...

2019-01-02 10:40:39 466

原创 hbase 数据迁移

#!/bin/bash#hbase org.apache.hadoop.hbase.mapreduce.Import -Dimport.wal.durability=SKIP_WAL namespace:tablename /user/tjoffline/hbase_export_tablename/#hbase org.apache.hadoop.hbase.mapreduce.Impor...

2018-12-27 18:32:29 570

原创 hbase Filter使用

背景昨天同事反馈hbase查询返回无数据了，查了下返回RowTooBigEXcepiton，初步看是value过大导致？以为是有异常数据写入,我们hbase设计上一个列族，然后对应每个时间分片会通过动态列会记录时间分片类的数据指标,每天查询的时候通过rowkey +时间窗户， get返回对应的指标，分析初步分析，有数据异常，某个value值过大，因为默认value值的大小是1G...

2018-11-01 19:03:47 633

原创 hbase-2.1.0 源码阅读-2

接着上篇我们看看在hmaster//hbase 继承自HRegionServerpublic class HMaster extends HRegionServer implements MasterServices //HRegionServer继承自 HasThreadpublic class HRegionServer extends HasThread implements ...

2018-10-15 19:57:31 369

原创 hbase-2.1.0 源码阅读

1.Hmaster启动用了这么久的hbase,今天开始着手hbase方面的源码阅读2.1.0版本刚发布不久，是Hbase 2.x系列的第二次版本。旨在提高 HBase 的稳定性和可靠性，主要更新内容如下：基于 Procedure v2 的复制对等修改串行复制最小 Hadoop 版本已更改为 2.7.1成功完成从 1.4.3 到 2.1.0 的滚动升级，这表明可以从 1.x 滚动升级到 ...

2018-10-11 15:50:59 1417

原创 hive 使用技巧

1.抽样从一个表中随机抽样得到一个不重复的数据样本，随机取样SELECT * FROM &amp;amp;amp;lt;Table_Name&amp;amp;amp;gt; DISTRIBUTE BY RAND() SORT BY RAND() LIMIT ;这是使用RAND()函数和LIMIT关键字来获取样例数据。使用DISTRIBUTE和SORT关键字来保证数据是随机分散到mapper和reducer的。ORDER BY ...

2018-10-10 12:06:45 1127

原创 hive如何使用json格式的数据

查看当前hive支持的json函数show functions like &quot;*json*&quot;;OKget_json_objectjson_tupleTime taken: 0.006 seconds, Fetched: 2 row(s) get_json_objectdescribe function get_json_object; OK get_json_object...

2018-09-26 14:12:09 2446

原创 Java 快速排序

Java 快速排序https://arxiv.org/pdf/1511.01138.pdf

2018-09-18 13:17:05 136

原创 python 消费 kafka 数据

1.安装python模块pip install --user kafka-python==1.4.3 如果报错压缩相关的错尝试安装下面的依赖yum install snappy-develyum install lz4-develpip install python-snappypip install lz42.生产者#!/usr/bin/env python...

2018-09-11 16:53:58 4116

原创 mac python 多版本管理

https://youjiexia.github.io/2017/05/01/Installing-Python27-and-Python36-Concurrently/

2018-08-20 17:03:12 787

原创 opentsdb+hbase+grafana

hbase 监控 https://blog.bcmeng.com/post/hbase-monitor.html http://www.54tianzhisheng.cn/2017/10/21/HBase-metrics/grafana 1.表的读写qps hbase metric hbase.regionserver.regions.readRequestCount/writeRe...

2018-08-03 15:54:42 916

原创 python 操作hive pyhs2

使用kerberos时import pyhs2class HiveClient: # 初始化 def __init__(self, db_host, user, password, database, port=10000, authMechanism="PLAIN", configuration=None): self.conn = pyhs2.conne...

2018-07-25 18:17:37 1912

原创 kylin 新版 dashbard 功能开启

1.在 kylin.properties 中将一下配置开启kylin.server.query-metrics2-enabled=truekylin.metrics.reporter-query-enabled=truekylin.metrics.reporter-job-enabled=truekylin.metrics.monitor-enabled=truekylin.web...

2018-07-17 20:18:35 1217

原创 cassandra 笔记

数据迁移第一次使用cassandra，笔记一下，业务迁移，有两列数据没有迁移到新平台,特此实验，研究一下查看dbDESCRIBE KEYSPACE查看表DESCRIBE TABLES查看表信息DESCRIBE tablename创建测试表CREATE TABLE test.cl_test ( id int PRIMARY KEY, ...

2018-07-12 17:22:07 794

原创 idea中git的使用

1.将项目添加到git中

2018-05-24 10:32:11 5025

原创 hive1.2.1 分区表增加列显示为null 问题

1.问题 hive中增加字段发现之后之后添加的数据正常，之前数据无法读取问题修复：查找hive元数据的分区字段边 SDS MySQL [hive]&amp;gt; SELECT * FROM SDS WHERE location LIKE '%video_test%' ; +--------+-------+----------------------------------------...

2018-04-26 13:54:20 332

原创 kylin 开源可视化工具 superset使用

superset + kylin1.superset 和kylin 连接问题使用kylinpy pip install kylinpy在kylin.py 增加解决下拉列表问题@compact_response() def list_schemas(self): table_schemas = [t['table_SCHEM'] for t in sel...

2018-03-31 14:21:32 1982

原创 kylin 读写分离构建问题

kylin非常时候做读写分离设计。即需要两个集群，一个做计算，另一个做存储注意kylin起的环境变量通过hbase加载，因此在配置上需要不通的客户端配置来保障问题1：java.lang.ClassNotFoundException: org.apache.kylin.engine.mr.KylinMapper配置： kylin.engine.mr.lib-dir指向hive的...

2018-03-03 12:31:51 870

原创 spark hive hbase 结合

spark hive hbase 结合业务需求，需要整合需要读取hive数据导入hbase中，一下是环境配置流程以及中间遇到的问题1.spark读hive需要copy hive-site和hdfs-site 等配置文件到项目资源包下object hivesql { case class Record(key: Int, value: String) def ma

2018-01-18 14:04:41 1280

原创 spark thriftserver

1.hive mr 太慢了，基于次适配 spark-sql的功能，于是乎，想通过spar启动thriftserver来解决问题1：17/12/29 16:28:59 WARN thrift.ThriftCLIService: Error opening session:java.lang.RuntimeException: Could not load shims in class org.a

2017-12-29 17:16:14 1959

原创 mysql Specified key was too long; max key length is 767 bytes

mysql建表错误 cursor.execute(statement, parameters) File "/home/wifi/supersetpy35/lib/python3.5/site-packages/MySQLdb/cursors.py", line 250, in execute self.errorhandler(self, exc, value) File "/

2017-12-28 14:03:44 26132

原创 hive + tez

安装配置1.下载：wget http://mirrors.hust.edu.cn/apache/tez/0.8.5/apache-tez-0.8.5-bin.tar.gztar -zxf apache-tez-0.8.5-bin.tar.gzcd apache-tez-0.8.5-bin/confvim tez-site.xml增加一下配置<configuration><property

2017-12-27 15:32:22 1389

原创 linux 僵尸进程

产生背景买的云主机，装的docker，docker启动一段时间后，同事反映不能写入了,结果发现，根路径100% ,新手原因，他启动的时候没有映射本地路径，docker默认存储位置是/var/lib/docker 下，在镜像中写入的时候导致根目录沾满，于是让他听掉对应的进程，发现已经停不了了，无赖之下直接停止了docker 服务，发现有个镜像文件已无法识别。再次启动systemctl star

2017-12-13 15:52:51 1054

原创 docker 中文乱码、时区问题

1.在进入容器时设置，发现进入之后设置并不生效docker exec -it f83573b2a54b env LANG=C.UTF-8 /bin/bash2.永久性生效Ubuntu操作系统 Dockerfile文件添加以下内容：set china time zone（方法一）ENV TIME_ZONE Asia/Shanghai RUN apt-get install tzdata RUN

2017-12-13 13:47:16 1099

原创 tensorflow 学习 demo(-)

#!/usr/bin/env pythonimport tensorflow as tf#numpy 是一个科学计算工具包，这里通过numpy工具包生成模拟数据集from numpy.random import RandomState#定义数据batch的大小batch_size=8#定义神经网络参数w1= tf.Variable(tf.random_normal(([2,3] ),stdd

2017-12-07 12:28:13 531

原创 hadoop 源码编译2.7.4

1。下载源码查看BUILDING.txt，依据说明要求进行编译yum -y install svn ncurses-devel gcc*yum -y install lzo-devel zlib-devel autoconf automake libtool cmake openssl-develwget https://sourceforge.net/projects/findbugs/fi

2017-12-04 18:15:56 225

flink源码阅读思维导图xmind

细粒度jvm学习xmind

空空如也