3 bigdataf

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 8w+

PySpark的select fliter agg join

1.初始化from __future__ import print_function, divisionfrom pyspark import SparkConf, SparkContextfrom pyspark.sql import SparkSession,functions as Ffrom pyspark.sql.types import StringType,MapType2.读取数据def parse_log_schema(txt): try: fileds=txt.st

2020-10-28 14:59:31

spark 同时读取多个路径的方法

1.传入多个参数 val result = spark.read.text("hdfs://hdfs-name/user/aa.txt","hdfs://hdfs-name/test/bb.txt")2.正则val result = spark.read.text("hdfs://hdfs-name/user/*")3.文件列表val path = "hdfs://hdfs-name/user/*.txt" val path2 = "hdfs://hdfs-name/test/*.txt"

2020-10-22 15:58:06

大数据 Guava冲突问题

程序使用的guava版本和hadoop hbase大数据之类的包冲突,总是报NoSuchMethod和ClassNoDef之类的错误解决方法:将guava-22.0单独打成jar包,并改名,再重新放回源程序基于maven-shade-plugin,guava单独打成jar包,修改包路径,并加入源程序的maven本地仓库1.guava单独打成jar包的pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://

2020-10-10 10:51:44

牛逼的ab

https://www.jianshu.com/p/bcaf9b45fdbc

2020-08-06 16:57:56

2020-08-06

A/B测试背后有着高深的统计学知识,今天我们就来讲讲常见的辛普森悖论。辛普森悖论 (Simpson’s Paradox) 是英国统计学家 E.H.辛普森 (E.H.Simpson) 于1951年提出的悖论,即在某个条件下的两组数据,在分别讨论时都会满足某种性质,可是一旦合并起来进行考虑,却可能导致相反的结论。举一个辛普森悖论的简单小例子:一个大学里有商学院和法学院两个学院。这两个学院的女生都抱怨“男生录取率比女生录取率高”,有性别歧视。但是学校做总录取率统计,却发现总体来说女生录取率远远高于男生录取率!

2020-08-06 16:38:32

python SimpleHTTPServer 使用

python SimpleHTTPServer本地目录分享python -m SimpleHTTPServer 10000获取 wget http://ip:10000/filename

2019-12-19 17:16:00

java Load conf

1 加载resources下的普通文件//构造函数中InPutStream resourceAsStream = this.getClass().getClassLoader().getResourceAsStream("filter.txt")List listFilter= loadData(resourceAsStream)private static List<Strin...

2019-12-05 21:21:27

ImmutableMap/ImmutableSet/ArrayList

private static Map<String,String> FeaturesMap = ImmutableMap.<String, String>builder().put("a", "a").put("b", "b").put("c","c").build();Set<String> needfactors = ImmutableSet.o...

2019-12-05 20:42:05

windos idea bash 错误

idea 下 git bash 错误bash: /dev/null: Bad address修复以管理员身份运行CMD,在CMD下输入 sfc /scannow 进行系统扫描修复

2019-09-10 22:00:54

ES学习

#创建 索引为blog 类型为article的文档curl -H 'Content-Type:application/json' -XPUT http://localhost:9200/blog/article/1 -d '{ "id": "1", "title": "New version of Elasticsearch released!", "con...

2019-08-31 20:41:11

压力测试工具

1.siegea.安装$ wget http://download.joedog.org/siege/siege-latest.tar.gz$ tar -xvf siege-latest.tar.gz$ cd siege-4.0.4/ $ ./configure$ make && make installb.使用$ siege -c10(10个线程) -t10s...

2019-02-20 11:47:32

git

1.远程与本地冲突git pull originerror: Your local changes to the following files would be overwritten by merge: recallctr-topology.iml src/main/java/com/wifi/recall/factorctr/DocMatrixCounte...

2019-02-18 19:55:51

opentsdb加kerberos认证

1.编辑启动脚本 cat start_tsdb.shOPENTSDB_HOME=/data/opentsdbJVMARGS="${JVMARGS} -Djava.security.auth.login.config=${OPENTSDB_HOME}/jaas.conf -Dzookeeper.sasl.client=false" ./tsdb tsd --config=${OPENTSDB_...

2019-02-15 11:42:37

flink 学习笔记资料

1.https://blog.csdn.net/yanghua_kobe/article/category/61705732.http://www.54tianzhisheng.cn/tags/Flink/3.https://blog.csdn.net/liguohuabigdata/article/category/72790204.http://wuchong.me/5.https:/...

2019-01-02 10:40:39

hbase 数据迁移

#!/bin/bash#hbase org.apache.hadoop.hbase.mapreduce.Import -Dimport.wal.durability=SKIP_WAL namespace:tablename /user/tjoffline/hbase_export_tablename/#hbase org.apache.hadoop.hbase.mapreduce.Impor...

2018-12-27 18:32:29

hbase Filter使用

背景昨天同事反馈hbase查询返回无数据了,查了下返回RowTooBigEXcepiton,初步看是value过大导致?以为是有异常数据写入,我们hbase设计上一个列族,然后对应每个时间分片会通过动态列会记录时间分片类的数据指标,每天查询的时候通过rowkey +时间窗户, get返回对应的指标,分析初步分析,有数据异常,某个value值过大,因为默认value值的大小是1G...

2018-11-01 19:03:47

hbase-2.1.0 源码阅读-2

接着上篇 我们看看在hmaster//hbase 继承自HRegionServerpublic class HMaster extends HRegionServer implements MasterServices //HRegionServer继承自 HasThreadpublic class HRegionServer extends HasThread implements ...

2018-10-15 19:57:31

hbase-2.1.0 源码阅读

1.Hmaster启动用了这么久的hbase,今天开始着手hbase方面的源码阅读2.1.0版本刚发布不久,是Hbase 2.x系列的第二次版本。旨在提高 HBase 的稳定性和可靠性,主要更新内容如下:基于 Procedure v2 的复制对等修改串行复制最小 Hadoop 版本已更改为 2.7.1成功完成从 1.4.3 到 2.1.0 的滚动升级,这表明可以从 1.x 滚动升级到 ...

2018-10-11 15:50:59

hive 使用技巧

1.抽样从一个表中随机抽样得到一个不重复的数据样本,随机取样SELECT * FROM <Table_Name> DISTRIBUTE BY RAND() SORT BY RAND() LIMIT ;这是使用RAND()函数和LIMIT关键字来获取样例数据。使用DISTRIBUTE和SORT关键字来保证数据是随机分散到mapper和reducer的。ORDER BY ...

2018-10-10 12:06:45

hive如何使用json格式的数据

查看当前hive支持的json函数show functions like "*json*";OKget_json_objectjson_tupleTime taken: 0.006 seconds, Fetched: 2 row(s) get_json_objectdescribe function get_json_object; OK get_json_object...

2018-09-26 14:12:09

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。