爱小可爱的IT白-CSDN博客

原创 JVM之GC垃圾回收机制

GC的官方解释:GC（Garbage Collection)：JAVA/.NET中的垃圾回收器。Java是由C++发展来的。它摈弃了C++中一些繁琐容易出错的东西。其中有一条就是这个GC。而C#又借鉴了JAVA。在老式的C/C++程序中，程序员定义了一个变量，就是在内存中开辟了一段相应的空间来存值。由于内存是有限的，所以当程序不再需要使用某个变量的时候，就需要销毁该对象并释放其所占用的内存资源...

2019-04-26 20:09:14 1099 1

原创常用的排序算法的空间复杂度和时间复杂度

常用的排序算法的时间复杂度和空间复杂度1、时间复杂度（1）时间频度一个算法执行所耗费的时间，从理论上是不能算出来的，必须上机运行测试才能知道。但我们不可能也没有必要对每个算法都上机测试，只需知道哪个算法花费的时间多，哪个算法花费的时间少就可以了。并且一个算法花费的时间与算法中语句的执行次数成正比例，哪个算法中语句执行次数多，它花费时间就多。一个算法中的语句执行次数称为语句频度或时间频度。记...

2019-04-26 19:47:39 963

原创 Redis集群搭建

.1 Ruby环境准备redis集群管理工具redis-trib.rb依赖ruby环境，首先需要安装ruby环境安装rubyyum install -y rubyyum install -y rubygems当在redis的源码包src下面有这个的时候,说明安装成功将redis-3.0.0.gem放到跟redis和redis源码包同一目录下(比如我的是在usr/local下),然后执...

2019-03-05 19:53:17 200

原创手把手带你学习Scala(三)-Scala运算符和流程控制

手把手带你学习Scala(三)-Scala运算符和流程控制

2022-09-04 16:58:51 522 1

原创手把手带你学习Scala(二)-变量和数据类型

Scala变量和数据类型

2022-09-04 09:51:46 404

原创手把手带你学习Scala(一)-Scala概述、环境安装、插件安装以及案例讲解

从英文的角度来讲，Scala并不是一个单词，而是两个单词的缩写，表示可伸缩语言的意思。从计算机的角度来讲，Scala是一门完整的软件编程语言，那么连在一起就表示Scala是一门可伸缩的软件编程语言。之所以说它是可伸缩，是因为这门语言体现了面向对象，函数式编程等多种不同的语言范式，且融合了不同语言新的特性。Scala编程语言是由联邦理工学院洛桑（EPFL）的Martin Odersky于2001年基于Funnel的工作开始设计并开发的。...

2022-09-01 09:00:00 478

原创达梦、Oracle、PostgreSQL查询全部表备注，表字段，全部字段备注，全部索引，全部字段类型

嗨，各位小伙伴大家上午好呀，我是爱小可爱的IT白，忙里偷闲跟大家捞一捞呀；最近所做项目中，用到了达梦、Oracle、PostgreSQL等数据库，而在正式进入开发之前，我们需要先对数据源的表做一个关于数据质量的统计(主要包括所有库、所有表、所有字段、空值率、空字段率、表注释、库注释、表数据量等信息的统计)，这有利于我们后面的原型设计以及指标加工；.........

2022-08-31 10:59:49 4710

原创 Spark性能调优

嗨，各位小伙伴大家好，我是爱小可爱的IT白，最近应朋友所邀，一直让写一篇关于Spark调优方面的文章，这两天工作之余，忙里偷闲，写了这篇调优文章，跟大家一起共享；在大数据领域，肯定有很多小伙伴跟笔者一样为了让生产中数据执行速度更快、性能更高而去使用Spark，当我们用Spark程序实现功能开发并使程序正常稳定运行起来的时候，一定是非常有成就感的；但是随着数据量的增加以及需求的完善，我们就开始关注我们这个程序能否做到在运行起来的时候让数据查询更快、让页面响应更快、尽可能的节省空间占用率；

2022-08-24 10:31:10 2076

原创【由浅入深讨论HBase：自认全网最全最细】，你想了解的关于HBase知识，基本上都有，有需要的可以收藏当字典使用

文章目录前言一 HBase简介二 HBase表的数据模型1 rowkey行键2 Column Family列族3 Column列4 cell单元格5 Timestamp时间戳三 HBase整体架构1 Client客户端2 ZooKeeper集群3 HMaster4 HRegionServer5 Region四 HBase安装1 安装准备2 安装步骤3 启动HBase集群4 停止HBase集群五 HBase shell 命令基本操作1 进入HBase客户端命令操作界面2 HBase表模型特点3 HBase数据

2021-09-07 11:52:00 1671 37

原创【忙里偷闲一下午总结：全网最全最细】Linux实时监测CPU 温度，拿来即用版本，亲测无异常，建议收藏

文章目录前言项目需求需求具体实现1 lm_sensors工具安装2 每行脚本具体说明3 终极代码实现(放大招)前言各位小伙伴好久不见，最近工作和生活上琐事比较多，所以一直没更文，今天忙里偷闲，跟各位更新一篇拿来即用脚本文章，还望各位笑纳，另外附加介绍每一个的语句的使用以及含义。话不多说，直接开始我们今天的正题：项目需求我们采购的工作站老是因为CPU和显卡温度高而导致服务器挂掉，因此领导让写一个监控CPU的温度脚本来实时监测温度，并把异常情况输出到服务器需求具体实现1 lm_sensors工具安装

2021-09-03 18:58:25 3546 54

原创 ❤️电商用户行为分析-Flink【Java重写版本】，内附具体代码❤️，可以直接学习使用❤️【建议收藏】！

近些年，随着对实时数据需求越来越高，掀起了一波学习Flink的热潮，本文借鉴于尚硅谷大数据实战_电商用户行为分析（项目开发实战）学习，原始项目使用Scala，本文尝试用Java对项目进行重写，也会结合官方文档，介绍一些api的用处。话不多说，直接开始我们今天的正题：项目整体介绍项目主要模块基于对电商用户行为数据的基本分类，我们可以发现主要有以下三个分析方向：1.热门统计利用用户的点击浏览行为，进行流量统计、近期热门商品统计等。2.偏好统计利用用户的偏好行为，比如收藏、喜欢、评分等，进行用户画像

2021-08-15 18:39:09 3075 82

原创 Hive、Oracle、PgSQL实际生产中遇到的问题

前言：做为一名数据开发人员，难免在工作中遇到各种数据库的各种问题，下面总结如下，希望对遇到此类问题的各位同仁有所帮助，也希望大家多多指正和下方留言实际生产中遇到的关于数据库的各种疑难问题和解决方案，大家互相探讨学习1 怎么进行行列转换?将上面上图转换为下图形式Oracle语法：with temp as(select ‘50923’ 总在位人数 ,‘4126’ 不在位人数,‘46797’ 在位人数 from dws_fr_qyjbxx_df)select num,sort fromtemp

2021-08-10 20:56:27 1229 3

原创 Python缺pydotplus包和缺sklearn包和Python 中使用 zipfile 以及中文乱码问题和Python连接Hive

一关于缺包报错，且无法直接通过pip安装包在运行Python代码时候报错Traceback (most recent call last):File “/var/dana/dodox/filemanager/file/danastudio-unsubmit/s99JMJT7IWH”, line 15, in import pydotplusModuleNotFoundError: No module named 'pydotplus问题1：报错缺pydotplus包此报错是缺pydotpl

2021-08-01 17:50:31 563 10

原创大数据常用端口

常见端口汇总：Hadoop：50070：HDFS WEB UI端口8019 ： ZKFC端口8020 ：高可用的HDFS RPC端口9000 ：非高可用的HDFS RPC端口8088 ： Yarn 的WEB UI 接口8485 ： Journalnode默认的端口号8080： master的webUI，Tomcat的端口号Hbase:60010：Hbase的master的...

2020-07-16 22:50:12 197

原创启动 VMware WorkstationW32AuthConnectionLaunch: 回复错误Process creation failed以及Vmware提示以独占方式锁定此配置文件失败怎么办

这里一共两个问题**,第一个问题是以独占方式锁定此配置文件失败**,具体如下:在网上搜了解决方案:下面以win10系统为例:**第一种解决方法如下:结束 VMware Workstation进程即可,**事实证明非常不适用下附带win7的解决方案: 具体请参考这个网址https://jingyan.baidu.com/album/ed2a5d1f6fb4a309f6be17c3.htm...

2019-08-29 00:47:30 3395 9

原创 hive mysql 的一些知识点

1.hive中sort by与order by的区别sort by – 局部排序，只保证单个reduce内有顺序order by – 全局排序，保证所有的reduce中的数据都有顺序ps:如果reduce只有一个，两者都一样两者通常和asc desc搭配，默认使用升序asc只要使用order by，reduce的个数就是1个也可以自定义设置reduce数量:set mapre...

2019-04-08 23:59:23 260

原创 elasticsearch集群的安装

ps:有两种安装方式:1 所有的操作都在root下进行,最后再对其进行权限修改,因为这个集群要求的是需要用非root用户实现启动2 直接在非root用户下进行操作,这样造成的结果就是每次操作都需要注意权限问题,需要加sudo,个人觉得第二种方法比较复杂,所以用的第一种方式.下面以第一种方式为例,进行集群的搭建1 首先,es启动时需要使用非root用户，所以创建一个bigdata用户(nod...

2019-03-09 15:33:28 223

原创简述广播变量和累加器的使用场景以及使用中的注意事项

累加器用来对信息进行聚合，而广播变量用来高效分发较大的对象。广播变量对于经常用到变量值,在分布式计算当中,多个节点task一定会多次请求这个变量就会产生大量网络IO,会影响效率,这是就可以使用广播变量的方式广播到相对应的exector端,以后在使用该变量时就可以直接向本机获取该值计算即可.累加器:累加器是Spark提供,用于多个task并发的对某个变量进行操作,task可以定义累加器进行操...

2019-03-08 11:02:44 640

原创 kafka常用核心组件

**producer:**消息生产者，负责将数据写入（push）到broker，或者说将消息发布到 kafka 集群。**consumer:**消息的消费者，负责从kafka读取（pull）数据，老版本（0.9.0.0版本之前），消费者依赖zookeeper保存一些信息，如消费者群组的信息、主题信息、消费分区的偏移量；,新版本(0.9.0.0以及之后)引入了新的消费者接口，允许broker直接维...

2019-03-05 14:05:43 303 1

原创 kafka集群的安装

以kafka_2.11-0.8.2.2.gz版本为例:1 解压到一个目录下tar -zxvf kafka_2.11-0.8.2.2.gz -C /usr/local/2 修改配置文件:cd /usr/local/kafka_2.11-0.8.2.2/config/vi server.properties修改borker.id=0(node01为1,node02为1,node03为2,...

2019-03-01 16:44:07 111

原创 dataSet,dataFrame,RDD区别?

**共同点:**都是spark基本数据抽象,底层都是对整个数据集进行分区;并行化处理;都是不可变数据集;RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利;三者都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action如foreach时，三者才会开始遍历运算;DataFrame和Dataset均可使用模式匹配获取...

2019-03-01 11:02:46 314

原创 map、flatmap、mapPartitions、mapPartitionsWithIndex算子的区别?

map、flatmap、mapPartitions、mapPartitionsWithIndex算子的区别?相同点:都是对一个RDD元素进行映射,即map,具体怎么映射,根据传入的参数来决定区别: 首先map和mapPartitions的区别是map对RDD中每个元素取出来,作为定义函数的参数,然后传进去,计算值,得到新的RDD里面新的元素;mapPartitions是将每个分区里面的数据拿出...

2019-02-28 17:35:39 412

aikeaidecxy的博客