leezsj-CSDN博客

原创【无标题】

python -m pip install 模块名报错1File "/usr/bin/yum", line 30 except KeyboardInterrupt, e: ^SyntaxError: invalid syntax报错2-bash: /usr/bin/pip: /usr/local/python3/bin/python3.8: bad interpreter: No such file or dir...

2021-11-19 23:00:16 954

原创 clickhouse

什么是ClickHouseClickHouse是俄罗斯的Yandex于2016年开源的⼀个⽤于联机分析(OLAP:Online Analytical Processing)的列式数据库管理系统(DBMS:Database Management System)，简称CH , 主要⽤于在线分析处理查询（OLAP），能够使⽤ SQL查询实时⽣成分析数据报告。ClickHouse是⼀个完全的列式数据库管理系统，允许在运⾏时创建表和数据库，加载数据和运⾏查询，⽽⽆需重新配置和重新启动服务器，⽀持线性扩展，

2021-09-13 21:20:44 2018

原创 idea报错

Error running 'LabelGenerator': Command line is too long. Shorten command li打开方式如下设置为jar manifest

2021-09-07 09:44:32 266

原创 presto删除表权限不够

Query 20210901_025205_00000_x7pyd failed: Access Denied: Cannot drop table dwb_news.rsu在presto安装的配置环境变量中的hive配置中添加最后一条hive.allow-drop-table=true

2021-09-01 10:57:48 1124

原创 presto安装发生报错

Error running command: java.net.ConnectException: Failed to connect to leetom/192.168.10.88:8080我之前用的是java8_60版本java,然后换成java8_221版本即可,附上我的221版本下载链接：https://pan.baidu.com/s/1OHx17wowN_lcF3MfN2-fPA提取码：gf42...

2021-08-30 15:06:12 274 1

原创 presto查询报错

Query 20210830_061727_00007_ak6q7 failed: Partition location does not exist: hdfs://leetom:8020/sources/hudi/cow/event/default提示我没有hfds 的指定目录这是我的实际目录,因为有分区,所以我们需要指定分区之前的查询语句select event,count(1) from event group by event;正确的语句select eve..

2021-08-30 14:22:08 772

原创 Redis

Redis第一节：Redis介绍什么是NoSql 为了解决高并发、高可扩展、高可用、大数据存储问题而产生的数据库解决方案，就是NoSql数据库。NoSQL，泛指非关系型的数据库，NoSQL即Not-Only SQL，它可以作为关系型数据库的良好补充。但是它不能替代关系型数据库，而且它是存储在内存中，所以它的访问速度很快。Nosql的数据库分类键值(Key-Value)存储数据库相关产品： Tokyo Cabinet/Tyrant、Redis、Voldemort、Berkele

2021-08-24 11:03:21 161

转载 Django

Django 简介基本介绍Django 是一个由 Python 编写的一个开放源代码的 Web 应用框架。使用 Django，只要很少的代码，Python 的程序开发人员就可以轻松地完成一个正式网站所需要的大部分内容，并进一步开发出全功能的 Web 服务 Django 本身基于 MVC 模型，即 Model（模型）+ View（视图）+ Controller（控制器）设计模式，MVC 模式使后续对程序的修改和扩展简化，并且使程序某一部分的重复利用成为可能。MVC 优势：低耦合

2021-08-24 09:51:42 381

原创 Structured Streaming

Structured StreamingStructured Streaming 是 Spark Streaming 的进化版, 如果了解了 Spark 的各⽅⾯的进化过程, 有助于理解 Structured Streaming 的使命和作⽤\1. Spark 的 API 进化过程\2. Spark 的序列化进化过程\3. Spark Streaming 和 Structured StreamingSpark 编程模型的进化过程⽬标Spark 的进化过程中, ⼀个⾮常重要的组

2021-08-24 08:52:16 260

原创 Spark Streaming

Spark Streaming流式计算流式计算拥有的特点：数据是⽆界的(unbounded)数据是动态的计算速度是⾮常快的计算不⽌⼀次计算不能终⽌离线计算的特点：数据是有界的(Bounded)数据静态的计算速度通常较慢计算只执⾏⼀次计算终会终⽌流式计算分为了实时计算和准实时计算实时计算就是来⼀条记录(⼀个事件Event)启动⼀次计算；⽽准实时计算则是介于实时计算和离线计算之间的⼀个计算，所以每次处理的是⼀个微⼩的批次。常⻅的离线和流式计算框架

2021-08-23 08:35:12 243

转载 python

pyhton3python是一个高层次的结合了解释性，编译性，互动性和面向对象的脚本语言python的设计具有很强的可读性，相比其他语言经常使用的英文关键字，其他语言的一些标点符号，他具有比其他语言更有特色的语法结构是一种解释型语言:这意味着开发过程没有编译这个环节是交互式语言:可以在>>>后直接执行代码是面向对象的语言:python支持面向对象的风格或代码封装在对象的编程技术python特点1.易于学习:相对较少的关键字,结构简单,和

2021-08-22 10:18:01 1266

原创 sparksql报错

Exception in thread "main" org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree:Exchange hashpartitioning(subject#6, 200)+- *HashAggregate(keys=[subject#6, name#7], functions=[count(1)], output=[subject#6, name#7, c#12L]) +- E..

2021-08-18 10:16:06 952

原创 spark报错

Error while instantiating 'org.apache.spark.sql.internal.SessionStateBuilder':Caused by: org.apache.spark.SparkException: Unable to create database default as failed to create its directory /user/hive/warehouseCaused by: org.apache.hadoop.se...

2021-08-18 09:49:59 180

原创 kafka

kafka基本概念apache kafka是一个开源消息系统,由scala写成,由apache基金会开发的开源消息系统项目,kafka是一个分布式消息队列:生产者消费者功能,提供了类似jms的特性,实现上完全不同,不是jms规范的实现kafaka对消息保存时根据topic进行归类发消息者称为producer,收消息者称为consumer,kafka集群由多个kafka实例组成,每个实例称为broker无论是kafka几区还是producer和consumer都依赖zookeeper集群保存的

2021-08-16 14:11:40 165

原创虚拟机重启之后突然没网了

打开服务找到上图虚线选中的这项启动即可

2021-08-14 10:32:06 672

原创 sparksql

sparksql介绍sparksql是spark用来处理结构化数据的一个模板，他提供了要给编程抽象叫做dataframe并且作为分布式sql查询引擎的作用sparksql将sparksql转化为rdd，然后提交到集群执行，执行效率快hive的应用其实是对应不会写java的开发人员，但是会写sql的数据库提供的是mr的一种简化sparksql其实是对之前学习的sparkcore中rdd的一种简化，用sql的语言可以对rdd编程进行开发spark是有处理上限的，10PB，超过这个范围还是

2021-08-13 16:29:35 315

原创 spark源码

sparkcontext初始化的流程-sparkConf对象,也就是spark的配置对象,用来描述spark的配置信息,主要是以键值对的形式加载配置信息-一旦通过newsparkconf()完成了对象的实例化,会默认加载spark.*配置文件class SparkConf(loadDefaults:Boolean){ def this()=this(true)}注意事项-SparkContext对象的实例化,需要一个sparkconf对象作为参数,-在sparkcontext.

2021-08-13 10:12:13 582

原创 SparkShuffle

SparkShuffle什么是shuffleshuffle是分布式计算中不可缺少的一部分,也是计算性能消耗最严重的部分,在spark中有些算子会触发shuffle进行分区数据的重新规划spark中的shuffl的演变过程-spark最早的shuffle 的处理方式是,是hashShuffleManager-spark0.8的时候,对hashshufflemanager进行了优化-spark1.2的时候出现了sortshufflemanager,代替了hashshufflemanag

2021-08-13 08:43:39 111

原创 spark05

自定义排序spark中对简单的数据类型可以直接排序,但是对于一些复杂的条件加以利用自定义排序实现键值对rdd数据分区spark目前支持hash分区和range分区,用户也可以自定义分区,hash分区为当前的默认分区,spark中分区器直接决定了rdd中分区的个数,rdd中每条数据经过shuffle过程属于那个分区和reduce的个数hashpartitionerspark中非常重要的一个分区器,也是默认分区器,默认用于90%以上的rdd相关api上功能:依据rdd中的key值的has

2021-08-10 17:59:32 112

原创 spark04

rdd的函数传递主要是序列化的问题,对象在jvm中表示的方式是字节,序列化的产生是为了分布式的程序,现在需要传递给另一个机器,那么传递的过程中需要的是010101这样的字节,那么对面接收的字节如何获取,那么就需要使用序列化spark是一个分布式计算框架,从driver端将数据传递到executor的时候就需要进行序列化,总结:1如果drr转换操作中使用到了class的方法或者变量,那么该class需要支持序列化,2如果通过局部变量的方式将class中的白能量赋值为局部变量,那么不需

2021-08-10 16:11:49 76

原创 spark03

action算子和其他算子reducedef reduce(f:(T,T)=>T):T通过传入的函数进行聚合,先分区内聚合,再分区间聚合foldfold和reduce的原理相同,但是与reduce不同,相当与每个redcue时迭代器去的第一个元素是zeroValueaggregate参数:(zeroValue:U)(seqOp:(U,T)=>U,combOp:(U,U)=>U)aggregate函数将每个分区里面的元素通过seqOp和初始值进行聚合,然后

2021-08-10 14:05:08 58

原创 spark01

Spark回顾hadoopapache Hadoop软件库是一个允许使用简单的编程模型夸计算机集群处理大型数据集合的框架,设计初衷是将单个服务器扩展成上千个计算机组成一个集群为大数据提供计算服务,每个计算机都提供了本地计算和储存服务hadoop中的优缺点高可靠性:Hadoop按位存储和处理数据的能力,值得人们的信赖高扩展型:Hadoop是在可用的计算机集簇间分配数据并完成计算任务,这些集簇可以方便地扩展到数以千计的节点中.高效性:Hadoop能够存在节点间动态的移动数据,并保证各个节

2021-08-09 16:35:24 101

原创 actor模型

actor模式是一种并发模型线程通过消息传递进行合作,线程叫actormapreduce是一种典型的actor单线程编程:程序是一个工厂,只有一个工人,干所有的事儿,多线程编程-共享内存干啥都要排队多线程/分布式编程:流水线,分工明确,每个线程都是一个actor,传递消息的方式进行什么是actor:可以看做是一个个独立的实体,单体之间毫无关联,可以通过消息,让其他的实体做出对应的事件基于并发机制,scala运用消息的发送接收实现高并发actor不共享数据,避免死锁,资

2021-08-09 08:52:02 736

原创 scala总结

变量和常量的使用关键字var:定义的是变量,值是可以变化的val:定义的是常量,值是不能变化的基础语法在scala中定义变量的时候,可以不带类型,由后面的值进行自动推导 var variable = value 不去指定variable的类型后面的值进行自动推导 2.var variable:Int 使用指定的类型声明一个变量,此时前面声明的类型必须和后面的值类型一致var a=10 //不设置类型,由值自动推导类型var b:Int=0 //设置一个变

2021-08-08 22:01:37 526

原创 scala5

String interpolation(字符串插值)用途:处理字符串类型:s:字符串插值f:插值并格式化输出raw:对字符串不做任何变化输出scala在2.10.0之后引入String Interpolation,允许用户在字符串中嵌入变量的引用字符串插值器在任何字符串前加s就可以在串中使用变量了val name = "lee"println(s"Hello,$name")字符串插值也可以放表达式println(s"1+1=${1+1}")f插值器

2021-08-04 16:42:31 95

原创 scala4

模式匹配和样例类模式匹配scala没有java的switch case语法,但是提供了 match case 模式匹配不同点switch case只能匹配变量的值,match case可以匹配各种情况,变量的类型,集合的元素,有值或无值match case 语法变量 match {case 值 => 代码}如果值为下划线,表示不满足以上所有情况下的处理match case中只要一个case分支满足并处理了,就不会继续判断下一个case更好的switchsc

2021-08-03 11:47:22 145

原创 hdfs--

HDFS是一个分布式的文件系统我们可以用命令来访问系统的文件- 访问HDFS的命令 hadoop dfs -- 已过时 hadoop fs -- 使用范围更大 hdfs dfs -- 使用范围较小 hadoop fs和hdfs dfs之间没有大的区别- 技巧 1.在命令行中输入hdfs ,回车后可以提示hdfs后可以使用哪些命令 2.hdfs dfs,回车后会提示dfs 可以添加的一些常用shell命令- 注意事项分布式文件系统的路径

2021-07-31 16:25:11 746

转载 hadoop介绍

hadoop是apache基金会旗下的一个开源的分布式存储和分析的计算平台,使用java语言开发,有很好的跨平台性,可以运行在商用(廉价)硬件上,用户不需要了解费不是底层细节,就可以开发分布式程序,充分使用集群的高速计算和存储谷歌三篇论文2003年的<GFS>硬盘不够大数据储存单份的安全隐患问题,提出分布式文件系统存储的理论思想解决如何存储大数据集的问题2004年的<MapReduce>基于分布式的计算分析编程框架模型,移动计算而非移动数据,分而治之解决了

2021-07-31 10:22:43 209

原创 scala3

类面向对象抽象定义一个类，实际上就是把一类事物的共有的属性和行为提取出来，形成一个物理模型。面向对象编程的三大特征，封装，继承，多态封装就是把抽象出的数据和对数据的操作封装在一起，数据被保护在内部，程序的其他部分只有通过授权的操作（成员方法），才能对数据进行操作封装的理解和好处隐藏实现细节可以对数据进行验证，保证安全合理如何体现封装对类中的属性进行封装通过成员方法，包实现封装封装的步骤，将属性进行私有化，提供一个公共的get方法，用于对属性判断

2021-07-31 08:28:23 422

原创杂记lee1

数据从获取到hdfs一共放大到三倍nginx一次flume一次hdfs一次要实现精准语义一定要实现replay要容错，要恢复数据多次落盘一般实现精准语义用kafka行为数据上报的策略采取批量上报的方式，并且使用gzip压缩以节省流量1 考虑客户端的性能和日志流量2 服务器的压力因此上报策略有两个条件限制，第一发送时间 flushInterval与上次发送的时间间隔，一般定义为15s和30s，第二缓存日志的熟练bulksize，一般定义为100条或者

2021-07-30 15:37:12 88

原创 supervisor启动报错

ERROR (spawn error)supervisor: couldn't exec /opt/apps/collect-app/scripts/start-flume-agent.sh: ENOEXECsupervisor: child process was not spawned在conf里的commond后面加上一个sh+空格再加路径名然后supervisorctl rereadsupervisorctl update access-f...

2021-07-29 20:27:49 1945

原创 sqoop报错

ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: java.lang.RuntimeException: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failurejavax.net.ssl.SSLException: Unsupported record version Unknown...

2021-07-28 20:52:15 535

原创 scala2

拉链扩展zip函数将传进来的两个参数中对应位置上的元素组成一个pair数组，如果其中一个参数元素比较长，那么多余的参数会被删除zipAll函数和zip函数类似，但是如果其中一个元素的个数比较少，那么江永默认的元素填充zipWithIndex函数将元素和其所在的位置索引组成一个pair该方法把集合中每个元素和该元素的索引进行一个拉链操作upzip函数可以键一个元组的列表转换成一个列表的元组列表List列表中的元素类型不可以不同列表是有序的不可变列表不可变列表的构造

2021-07-26 22:47:58 179

原创 sqoop

sqoop产生背景基于传统关系型数据库的稳定性，还是有很多企业将数据存储在关系型数据库中，早期由于工具的缺乏，hadoop与传统数据库之间的数据传输非常的困难，基于前两个方面的考虑，需要一个在传统关系型数据库和hadoop之间进行数据传输的项目，sqoop应运而生sqoop是什么sqoop是一个用于hadoop和结构化存储（如关系型数据库之间进行高效传输大批量数据的工具，他包括两个方面，可以用sqoop将数据从关系型数据库管理系统如mysql导入到hadoop系统（hdfs，hiv

2021-07-26 10:23:33 795

原创启动azkaban报错

Exception in thread "main" java.io.IOException: Cannot find 'database.properties' file in /usr/local/azkaban-solo/bin/sql/database.properties at azkaban.database.AzkabanDatabaseSetup.loadDBProps(AzkabanDatabaseSetup.java:178) at azkaban.d...

2021-07-24 18:45:50 260

原创 scala1

scalascala是多范式编程语言，集成面向对象编程和函数式编程的各种特性运行在虚拟机，兼容java程序scala被编译成java字节码，运行于jvm，可以调用java类库函数式编程更实用mapreduce和大数据模型，摒弃了数据与状态的计算模型，着眼于函数本身，而非执行过程的数据和状态数据的处理，函数时逻辑清晰简单更适合处理基于不变数据的批量处理工作这些工作都是通过mapreduce操作转化数据后生成新的副本，再进行处理，spark flink kafka都是采用scala开发

2021-07-22 17:52:43 199 1

原创地址已在使用

2021-07-21 19:40:16,542 (conf-file-poller-0) [WARN - org.mortbay.log.Slf4jLog.warn(Slf4jLog.java:76)] failed [email protected]:41414: java.net.BindException: 地址已在使用2021-07-21 19:40:16,543 (conf-file-poller-0) [WARN - org.mortbay.log.Slf4jL...

2021-07-21 19:45:50 2067

原创 sqoop导出parquet格式的数据报错

ERROR manager.SqlManager: Error executing statement: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failureThe last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from

2021-07-20 22:20:41 411

原创 sqoop mysql到hdfs报错

问题ERROR tool.ImportTool: Import failed: java.net.ConnectException: Call From leetom/192.168.10.88 to leetom:8020 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see: http://wiki.apache.org/hadoop/ConnectionRefusedCause

2021-07-20 19:45:35 167 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

手机流量上行下行数据.7z

springboot mybatis mysql echarts疫情表单.7z

ckpt-24ccccc.7z

ckpt-23cccccccccc.7z

ckpt-22cccccccccc.7z

中英翻译模型数据 中英互译语料

空空如也

中英翻译模型数据中英互译语料