小强签名设计-CSDN博客

原创豆瓣最新国产电影Top10

我这里整理了下豆瓣目前来说排名最高的国产电影Top10Top1经典台词：1.真虞姬，假霸王2.不疯魔不成活（巩俐当时颜值爆表啊）经典画面：Top2经典台词：1.曾经有一份真挚的爱情摆在我的面前，可是我没有珍惜，等到失去的时候才后悔莫及，尘世间最痛苦的事莫过于此．如果上天可以让我再来一次的话，我会对那个女孩子说三个字：我爱你．如果要给这份爱加一个期限，我希望是一万年．2.我的意中人是个盖世英雄，有一...

2018-02-04 12:27:53 3037

原创换个眼界，换种心情

大家刚看我博客的时候肯定会好奇，为什么要起这个昵称呢，难道你会签名设计不成？？？在下不才，曾经在大学期间做过一段时间的签名设计，也就是小打小闹，体验了下过程罢了，不过经历还是值得回忆的。以下是我的一些作品，不为别的，就为作为IT的我们换个眼界，没必要整天眼中都是代码什么的，放松一下心情吧。登录新浪微博可...

2017-07-23 15:30:44 1140

原创 Parquet 文件生成和读取

这种方式的 User 实体类和上面方式的 schema.avsc 文件中的。

2024-02-26 16:19:48 720

原创 Redis安装及使用

简单来说 redis 就是一个数据库，不过与传统数据库不同的是 redis 的数据是存在内存中的，所以读写速度非常快，因此 redis 被广泛应用于缓存方向。另外，redis 也经常用来做分布式锁。为什么要用 redis/为什么要用缓存？主要从“高性能”和“高并发”这两点来看待这个问题。高性能：假如用户第一次访问数据库中的某些数据，这个过程会比较慢，因为是从硬盘上读取的。如果该用户访问的数据存在缓存中，这样下一次再访问这些数据的时候就可以直接从缓存中获取了。

2024-01-16 10:54:16 424

原创 CDH 6.3.2-1 离线安装部署（Centos7.9）

三台服务器都操作：三、安装 Cloudera-Manager四、访问 Cloudera Manager五、集群异常信息解决参考：Linux搭建Cloudera Manager+CDH6.3.1环境

2023-12-27 11:20:52 524

原创 SQL语句整理二--Mysql

这个是要区分环境的。就遇到了本来想根据三个字段去插入数据，结果 unique 索引只设置了两个字段，这就导致本来想插入两个字段值一样另一个字段值不一样的五条数据，但不一样的那个字段没设置为 unique 索引，这就导致只插入了一条循环后的最后一条数据。开窗函数与聚合函数一样，也是对行集组进行聚合计算，但是它不像普通聚合函数那样每组只返回一个值，开窗函数可以为每组返回多个值，因为开窗函数所执行聚合计算的行集组是窗口。会覆盖不指定字段的值，比如我更新字段1和2之前字段3的值为5，字段3设置的默认值为0，则。

2023-12-18 16:17:05 1130

原创 MinIo 的操作与使用和避坑

尝试解决2：新建一个纯 Maven 项目。

2023-12-05 17:13:08 1020

原创 Java 操作阿里 OSS

【代码】读取阿里OSS的txt文件。

2023-11-15 16:02:12 461

原创浪潮服务器安装操作系统

一开始认为将镜像文件导入U盘即可，但实操中并不行，得首先将U盘制作成启动盘才行。打开刻录软件，选择光盘镜像文件，点击”写入硬盘映像”，以下是刻录过程的截图。首先需要确定安装的版本，我这里要安装的是。

2023-11-14 11:57:30 1110

原创 Rclone 上传本地文件到 OSS

上面是通过 Amazon S3 协议挂载的 OSS，符合亚马逊 S3 标准的存储提供商，包括 AWS、阿里巴巴、Ceph、中国移动、Cloudflare、ArvanCloud、DigitalOcean、Dreamhost、华为OBS、IBM COS、IDrive e2、IONOS Cloud、Liara、Lyve Cloud、Minio、网易、RackCorp、Scaleway、SeaweedFS、StackPath、Storj、腾讯COS、Qiniu 和 Wasabi。

2023-11-13 12:00:27 719

原创 Dataset 的一些 Java api 操作

【代码】Dataset 的一些 Java api 操作。

2023-09-04 09:47:48 714

原创 Hbase的bulkload流程与实践

通常MapReduce在写HBase时使用的是方式，在 reduce 中直接生成 put 对象写入HBase，该方式在大数据量写入时效率低下（HBase 会 block 写入，频繁进行 flush、split、compact 等大量 IO 操作），并对HBase节点的稳定性造成一定的影响（GC 时间过长，响应变慢，导致节点超时退出，并引起一系列连锁反应），而HBase支持bulk load的入库方式，它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理，直接在HDFS中生成持久化的HFile。

2023-06-15 10:03:21 2170

转载漫谈数据仓库之拉链表（原理、设计以及在Hive中的实现）

本文将会谈一谈在数据仓库中拉链表相关的内容，包括它的原理、设计、以及在我们大数据场景下的实现方式。先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释，以及拉链表和常用的切片表的区别。举一个具体的应用场景，来设计并实现一份拉链表，最后并通过一些例子说明如何使用我们设计的这张表（因为现在Hive的大规模使用，我们会以Hive场景下的设计为例分析一下拉链表的优缺点，并对前面的提到的一些内容进行补充说明，比如说拉链表和流水表的区别。

2023-05-11 22:20:37 743

原创 Doris单机部署

Doris 的简单部署使用

2023-02-22 10:21:59 1744

原创 Word技能总结

Word技巧总结

2023-01-12 15:05:37 217

原创 Html 小功能总结二

HTML 小功能总结

2022-12-16 15:09:01 746

原创 Html 小功能总结一

当然有一种方式是在页面跳转前，先发个请求到后台将值存储到session中，跳转后再发个请求到后台取出。这种方式不仅仅慢而且还特别耗费资源。以下有其他的几种方式：

2022-11-24 14:52:43 408

原创 Thymeleaf小功能总结

thymeleaf小功能总结

2022-10-29 20:34:47 1547

原创 Neo4j的安装和使用

Neo4j是一个高性能的NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但是它将结构化数据存储在网络（从数学角度叫做图）上而不是表中。Neo4j也可以被看作是一个高性能的图引擎，该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下，而不是严格、静态的表中。但是他们可以享受到具备完全的事务特性、企业级的数据库的所有好处。Neo4j因其嵌入式、高性能、轻量级等优势，越来越受到关注。现实中很多数据都是

2022-06-15 16:05:48 1677

原创大数据各组件安装（数据中台搭建）

文章目录一、基础环境配置（三台机器都操作）1.修改主机名：2.关闭防火墙：3.关闭Selinux：4.文件描述符配置：5.自定义JDK安装：5.1 删除默认openJDK：5.2 安装jdk1.8.0_91：6.创建Hadoop用户：7.配置SSH免密登录：二、大数据组件安装1.安装Zookeeper：2.安装Hadoop：3.安装Hbase：4.安装Hive：4.1 安装MySQL：4.2 部署Hive：5.安装kafka：6.安装Solr：7.安装Atlas：7.1 集成 Hbase：7.2 集成 So

2022-04-02 12:14:01 7628 3

原创 Docker实践与命令

安装docker：yum -y install docker下载镜像：docker search centos 　　　　 //搜索镜像启动容器：因为是在1台虚拟机搭建3个docker的缘故，所以这次选择的docker 网卡类型为bridge模式（bridge模式容器ip无法自己指定），网段为 172.17.0.0/16 网关为172.17.0.1，三台容器的主机名和ip分别为：server 172.17.0.2agent1 172.17.0.3age

2022-03-21 15:50:34 1279

原创厨神之路十--减脂餐

第一天：牛奶➕牛排➕鸡蛋➕玉米➕小番茄➕西兰花➕胡萝卜

2022-02-11 14:39:05 397

原创 Pr小操作总结

文章目录一、设置16:9尺寸一、设置16:9尺寸

2021-11-15 10:57:40 1418

原创 Atlas学习二

文章目录一、安装atlas1.集成 Hbase：2.集成 Solr：3.集成 Kafka：首先调大虚拟机内存为6G左右：一、安装atlasmvn clean -DskipTests package -Pdist,external-hbase-solr -Denforcer.skip=true# 由于atlas只提供源码，所以需要我们先将源码编译后，再将压缩包上传到服务器tar -zxvf apache-atlas-2.1.0-server.tar.gz1.集成 Hbase：root

2021-10-15 17:38:49 467

原创 Atlas学习一

文章目录一、apache-atlas-1.1.0-sources源码编译打包1.遇到的问题：2.启动：一、apache-atlas-1.1.0-sources源码编译打包源码包下载地址：apache-atlas-1.1.0-sources.tar.gz Atlas目前只能自行编译源码进行安装，Atlas使用java开发，但是是以python方式启动，所以安装之前，环境必须满足以下需求：jdk 1.8+maven3.xpython2.7+ 我把源码包上传到了CentOS服务器上（Cent

2021-10-12 19:04:37 1603

原创大数据篇--Yarn资源队列配置和使用

文章目录一、前言二、调度器的选择三、Ambari2.7.4+HDP3.1.4.0中配置fair-scheduler一、前言理想情况下，我们应用对Yarn资源的请求应该立刻得到满足，但现实情况资源往往是有限的，特别是在一个很繁忙的集群，一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中，负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题，很难找到一个完美的策略可以解决所有的应用场景。为此，Yarn提供了多种调度器和可配置的策略供我们选择。试想一下，你现在所在

2021-09-30 09:46:49 7200 4

原创 Hadoop命令总结

文章目录一、hadoop fs命令二、yarn相关命令一、hadoop fs命令查看文件内容，配合more：hadoop fs -cat /in/hadoop-hadoop-namenode-h71.log | more统计hdfs中文件的行数：hadoop fs -cat /in/hadoop-hadoop-namenode-h71.log | wc -l 输出：16509查看hdfs中文件的前n行：hadoop fs -text file | head -n 100查看hdfs中文件的后n行

2021-08-20 09:27:17 2763 1

原创 Hive 之 API

JDBC 连接hive2, 程序挺简单, 跟其他数据库查询类似, 连接/执行查询/得到结果：package com.huiq.bigdata.test;import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.Statement;public class ApiQueryTest { private static String driverNam

2021-08-11 15:41:21 1498

原创算法篇--协同过滤

文章目录一、长尾理论二、协同过滤介绍1.基于用户的协同过滤算法（User-based CF，简称UserCF）一、长尾理论wiki链接：https://wiki.mbalib.com/wiki/%E9%95%BF%E5%B0%BE%E7%90%86%E8%AE%BA 长尾头部的商品往往代表了绝大多数用户的需求而长尾中的商品往往代表了一小部分用户的个性化需求。因此如果要通过发掘长尾来提高销售额就必须充分研究用户的个性化兴趣。而这正是个性化推荐系统主要解决的问题。推荐系统通过发掘用户的行为找到用户

2021-08-04 17:24:59 4905

原创算法篇--TF-IDF算法

文章目录一、前言二、简单实例一、前言 TF-IDF（term frequency–inverse document frequency，词频-逆向文件频率）是一种用于信息检索（information retrieval）与文本挖掘（text mining）的常用加权技术。 TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。 TF-IDF的主要思想是：如果某

2021-08-03 09:20:24 9314

原创算法篇--倒排索引

文章目录一、前言二、单词——文档矩阵一、前言见其名知其意，有倒排索引，对应肯定，有正向索引。正向索引（forward index），反向索引（inverted index）更熟悉的名字是倒排索引。在搜索引擎中每个文件都对应一个文件ID，文件内容被表示为一系列关键词的集合（实际上在搜索引擎索引库中，关键词也已经转换为关键词ID）。例如“文档1”经过分词，提取了20个关键词，每个关键词都会记录它在文档中的出现次数和出现位置。得到正向索引的结构如下：一般是通过key，去找value。“文档1

2021-08-01 20:24:00 5192

原创 SQL语句整理四--hive

文章目录创建数据库：使用数据库：重命名表名：建表时判断该表是否存在：查询某个表的分区信息：展示表结构：desc命令：将生成的结果导入到一个文件中：datediff，date_add和date_sub：创建数据库：create database jiuyebu;使用数据库：use jiuyebu;重命名表名：ALTER TABLE FaRen_JiChuShuJu141 RENAME TO FaRen_JiChuShuJu;建表时判断该表是否存在：create table if not

2021-07-13 14:30:29 819

原创 Scala学习

文章目录一、Windows下安装Scala一、Windows下安装Scala Scala是一种类似Java的纯面向对象的函数式编程语言，由于函数具有明确的确定输入对确定输出的关系，所以适合推理和计算，一切函数都可以看成一系列的计算组成，另外由于Scala函数是没有副作用和透明的，所以非常适合做多核并行计算和云计算，现在正被越来越多的应用到生产中因为Scala运行在JVM上，所以应该首先配置好JDK环境，然后下面是Windows安装Scala环境的过程：首先去官网http://www.sca

2021-07-05 18:53:05 426

原创大数据篇--中台概念总结

文章目录一、前言二、概述三、什么是数据中台四、数据处理需求的演进历程五、数据中台和数据仓库、数据平台的区别六、结尾一、前言现在各种新名词层出不穷，顶层的有数字城市、智慧地球、智慧城市、城市大脑；企业层面的有数字化转型、互联网经济，数字经济、数字平台；平台层面的有物联网，云计算，大数据，5G，人工智能，机器智能，深度学习，知识图谱；技术层面的有数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等等，总之是你方唱罢他登场，各种概念满天飞… 二、概述

2021-06-29 17:28:24 1398

原创大数据篇--数仓概念总结

文章目录一、数据仓库1.什么是数据仓库：2.技术发展历程：3.数据仓库特点：4.OLAP和OLTP的区别：参考：数仓基础概念一、数据仓库1.什么是数据仓库：数据仓库，英文名称为Data Warehouse，关于数据仓库概念的标准定义业内认可度比较高的，是由数据仓库之父比尔·恩门（Bill Inmon）在1991年出版的“Building the Data Warehouse”（《建立数据仓库》）一书中所提出：数据仓库（Data Warehouse）是一个面向主题的（Subject Oriente

2021-06-24 22:52:53 3866

原创厨神之路九--群英荟萃2

文章目录一、灯笼虾一、灯笼虾煮虾：等锅中水开倒入虾，再放入生姜片和料酒去腥用，煮个三五分钟捞出即可。土豆泥制作：土豆（大约150克）削皮切片煮熟或者蒸熟（用小刀可以轻易戳穿土豆块即可）。再加入2茶匙黄油，倒入20ml牛奶，适量盐和黑胡椒，我这里还用到了豌豆和玉米粒（后来感觉完全没必要用），碾碎即可。这个做土豆泥最大的左右就是用来黏合虾的排盘，考虑到家常性也可以用米饭来代替。排盘：将土豆泥揉成两个球放在盘中，将虾头去掉，虾皮剥掉，依次在土豆泥球上摆一圈。红青椒圈切完之后可能不好看可以再用小刀修饰

2021-06-15 22:05:31 207

原创大数据篇--Spark常见面试题总结二

文章目录一、Spark作业资源的设置情况二、DataFrame/Dataset/RDD的区别及编程三、Spark中的隐式转换的作用：结合Scala来学习一、Spark作业资源的设置情况二、DataFrame/Dataset/RDD的区别及编程三、Spark中的隐式转换的作用：结合Scala来学习...

2021-06-08 12:45:24 261

原创大数据篇--Spark常见面试题总结一

文章目录一、Spark on YARN两种方式的区别以及工作流程1.Yarn组件简介：2.spark on yarn cluster 模式：3.spark on yarn client 模式：一、Spark on YARN两种方式的区别以及工作流程1.Yarn组件简介：ResourceManager：负责整个集群的资源管理和资源分配NodeManager：每个节点的资源和任务的管理器，负责启动和停止Container，并监视资源使用情况ApplicationMaster：Yarn中每个Appli

2021-06-02 12:24:47 798 1

原创大数据篇--数据倾斜

文章目录一、什么是数据倾斜一、什么是数据倾斜简单的讲，数据倾斜就是我们在计算数据的时候，数据的分散度不够，导致大量的数据集中到了一台或者几台机器上计算，造成数据热点问题（数据倾斜的另一种说法），这些数据的计算速度远远低于平均计算速度，导致整个计算过程过慢。现象：大部分的task都非常快速的处理完成，只有极少数的task处理的非常慢，这种状况很可能就是数据倾斜了。对于Spark可以在WEB-UI的job=>stage=>task里看，你可以把task处理的数据量排序一下。上面场景下

2021-06-01 12:41:11 2904

原创大数据篇--Kafka数据丢失、重复与消息顺序保证

文章目录一、Kafka如何实现每秒上百万的超高并发写入二、数据重复1.Consumer重复消费数据：三、数据丢失四、Kafka的优化建议1.broker端：一、Kafka如何实现每秒上百万的超高并发写入 Kafka 是高吞吐低延迟的高并发、高性能的消息中间件，在大数据领域有极为广泛的运用。配置良好的 Kafka 集群甚至可以做到每秒几十万、上百万的超高并发写入。可参考这篇文章：页缓存技术 + 磁盘顺序写 + 零拷贝技术二、数据重复1.Consumer重复消费数据：底层根本原因：已经消费了数据

2021-05-30 17:52:42 2980 1