怡情灬XiaoBai-CSDN博客

原创一些基础的docker入门知识（学习中）

Docker 是一个开源的应用容器引擎，基于 Go 语言并遵从 Apache2.0 协议开源。可以让开发者打包他们的应用以及依赖包到一个轻量级可移植的容器中，然后发布到任何流行的 Linux 机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口（类似 iPhone 的 app）,更重要的是容器性能开销极低。一个CentOS的基础镜像仅170M一个宿主机理论可部署100+的容器。

2024-02-26 16:01:25 1007

原创 mysql varchar和bigint比较的坑

mysql 在 varchar和bigint比较时会互相转换，导致一些情况下不了解会搞混（插入时报错）。

2022-08-29 10:17:24 3044

转载 MySQL分页坑（limit+order by数据重复）

发现展示有问题，找半天才发现是排序用的有问题，加了个id排序才解决，转载备忘问题描述在MySQL中我们经常使用limit来进行分页查询，比如使用limit(0,10)标识列出第一页的10条数据，limit(10,10)表示列出第二页。但是，如果此时limit加上order by的时候，可能会出现翻到第二个时候，会出现第一页的数据。具体如下：select ORG_CODE,NAME from b_org order by CREATE_TIME desc limit 6,6;使用上述的SQL查询的

2022-05-16 10:59:09 591

原创 python踩坑日常（FileNotFoundError: Could not find module.......gfortran-win_amd64.dll）

报错：FileNotFoundError: Could not find module 'D:\Anaconda3\lib\site-packages\scipy\.libs\libbanded5x.EHDKC2XVYTQQ5MALRS6XN2CUSS6SRL6P.gfortran-win_amd64.dll' (or one of its dependencies). Try using the full path with constructor syntax.网上找半天，有几种不同的说法：1.s

2022-02-11 09:56:41 13672 1

原创数据治理学习笔记（一）：数据治理是什么，要做什么

前言：经常在各种数据工作的文章中看到这个词，看词语意思就是要把数据管理好。作为数据基础支撑工作，其重要性也是可以想象的，平时工作中，有数据问题，一圈查下来就是一条记录的质量问题，更坑的是可能会多次都是因为同一种问题。这里有原始业务代码的bug，也有数据没有做好监管的问题。这也是很多时候的痛点。不仅是传统提供数据仓库、BI、主数据管理、元数据管理、数据集成等数据服务的软件供应商在说数据治理，“BATJ”等互联网公司，大型国企、央企也都在谈数据治理，很多企业都将数据治理作为数智化战略的一项必要举措，列入了企

2022-01-19 10:30:04 7411 1

原创 SQL语法介绍，以及常见的一些用法

SQL语法结构化查询语言（Structured Query Language）简称SQL，是一种特殊目的的编程语言，是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统。基础语法数据库表一个数据库通常包含一个或多个表。每个表有一个名字标识（例如:“Websites”）,表包含带有数据的记录（行）。在本教程中，我们在 MySQL 的 RUNOOB 数据库中创建了 Websites 表，用于存储网站记录。我们可以通过以下命令查看 “Websites” 表的数据：mysql

2021-11-25 16:35:24 1201

原创 DBSCAN算法学习与运用（小白初试）

背景：有个需求是把几个行为发生的时间在一定范围的，分到一个团体，比如两个人做这件事的时间差是在15分钟以内，那就算是一个团体。另外一个人和这两个时间比较，如果是在15分钟以内，那他也是这个团体的。难点是，要确定来的每一个人都要和团体里已有的人的时间内比较到，万幸是时间是有序的。一开始想的太简单，本来想用sql语句直接搞出来，结果就跑远了。用java吧，一堆东西下去也差不多。所以就想着加个python用算法搞，网上找了一遍聚类的算法。发现DBSCAN挺符合需求的，虽然我这个都用不到多少它的优点…DBSCAN

2021-10-15 13:34:26 385

转载 Git常用命令讲解

GIT发现一个挺有意思的Git命令练习网址（https://learngitbranching.js.org）下面是其中一些比较常用的命令，感兴趣的可以去挑战一下基础命令1.Git Commit （提交代码，只是本地仓库） Git 仓库中的提交记录保存的是你的目录下所有文件的快照，就像是把整个目录复制，然后再粘贴一样，但比复制粘贴优雅许多！ Git 希望提交记录尽可能地轻量，因此在你每次进行提交时，它并不会盲目地复制整个目录。条件允许的情况下，它会将当前版本与仓库中的上一个版本进行对比，并把

2021-07-09 17:47:12 130

原创 MySQL修改已创建表的注释，以及批量生成修改注释的语句

单条的修改语句时这样的ALTER TABLE database_name.table_name01 CHANGE DATA_ DATA_ longblob COMMENT ''直接在数据库里运行下面的代码可以批量生成修改语句：select concat("ALTER TABLE ",TABLE_SCHEMA,".",TABLE_NAME," CHANGE ",COLUMN_NAME," ",COLUMN_NAME, " ",COLUMN_TYPE ,if(COLUMN_DEFAULT .

2021-03-24 09:55:04 1322

原创 Vmware Linux磁盘空间扩容（超简单）

Linux下扩展根分区-非LVM </h1> <div class="clear"></div> <div class="postBody">目录VMware虚拟机中配置Linux中设置引言在配置大数据节点的过程中，node03节点由于安装了图形化界面，以及IDEA等工具，导致/根分区只有几百兆了，因此需要对根分区进行扩...

2020-12-24 19:00:05 17001 19

原创 Kafka常用的命令行值指令

1、hadoop集群启动之后，启动Kafkakafka-server-start.sh /opt/soft/kafka211/config/server.properties开启Kafka 后面是server.properties的路径，不是在当前目录最后写全路径。2、建立Kafka topickafka-topics.sh --create --zookeeper hosts:2181 --replication-factor 1 --partitions 1 --topic mydemo

2020-12-09 19:15:32 195

转载 Sqoop的一些基本操作

目录Sqoop功能Sqoop架构数据导入Hive流程数据导入HDFS原理数据从HDFS导出原理Sqoop导数据语法mysql中导入表的指定列到HDFSmysql中增量导入数据到HDFS导入数据到Hive中导入数据到Hive分区中导入数据到HBase中HDFS向mysql中导出数据导入数据到job导数据报错处理前面已经给大家讲过sqoop的安装，如果还没有安装的可以再去看看详细安装流程：sqoop详细安装与环境配置sqoop的作用前面也说过主要用于做数据迁移，它用于从关系数据库（如MySQL，Oracl

2020-11-12 10:27:19 1084

原创 Hive创建表格报【Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException】

Hive创建表格报【Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException】在成功启动Hive之后感慨这次终于没有出现Bug了，满怀信心地打了长长的创建表格的命令，报了以下的错误Error, return code 1 from org.apache.Hadoop.hive.ql.exec.DDLTask. MetaException，第一步：查看配置文件确保没有出错第二步：上网找找同是天涯落人，

2020-11-11 17:55:12 464

原创 Python Knn算法详解（近邻算法）

KNN一、算法简述二、运行原理2.1、算法核心思想2.2、距离计算2.3、K值选择三、算法实现3.1、Sklearn KNN参数概述3.2、 KNN代码实例四、算法特点五、算法优缺点六、KNN 和 K-means比较一、算法简述KNN 可以说是最简单的分类算法之一，同时，它也是最常用的分类算法之一。注意：KNN 算法是有监督学习中的分类算法，它看起来和另一个机器学习算法 K-means 有点像（K-means 是无监督学习算法），但却是有本质区别的。二、运行原理2.1、算法核心思想KNN 的全称是

2020-11-04 19:31:50 4533

原创 idea 项目编译内存溢出解决配置（Job aborted due to stage failure:........... java.lang.StackOverflowError）

以下几种方式都可尝试下：在idea安装的bin目录修改配置文件-Xms512m-Xmx2024m-Xss4M-XX:MaxPermSize=2024m2.修改settings3.修改tomcat-server -Xms512m -Xmx2024m -Xss4M -XX:PermSize=512M -XX:MaxPermSize=2024m4.将java compiler的use compiler修改为ecllipse方式...

2020-10-23 09:13:03 4696

原创 ALS算法介绍（协同过滤算法介绍）

目录一、ALS算法概括二、ALS算法原理及运用（1）、协同过滤（2）、ALS算法工作原理（3）、ALS算法输入的参数三、代码实现一、ALS算法概括1、ALS算法用来补全用户评分矩阵。由于用户评分矩阵比较稀疏，将用户评分矩阵进行分解，变成V和U的乘积。通过求得V和U两个小的矩阵来补全用户评分矩阵。2、ALS算法使用交替最小二乘法来进行求解3、ALS分为显示反馈和隐式反馈两种。显示反馈是指用户有明确的评分。对于商品推荐来说，大部分是通过用户的行为，获取隐式反馈的评分。隐式反馈评分矩阵需要进行处理，如果有

2020-10-22 09:51:37 18301 1

原创 Spark RDD

这里写目录标题一、简介1、并行化集合2、外部数据集二、RDD运行过程1、特性2、工作过程三、RDD操作1、动作算子2、转换算子四、RDD持久化五、RDD共享变量一、简介RDD(弹性分布式数据集)是Spark的核心抽象。它是一组元素，在集群的节点之间进行分区，以便我们可以对其执行各种并行操作。有两种方法可以用来创建RDD：并行化驱动程序中的现有数据引用外部存储系统中的数据集，例如：共享文件系统，HDFS，HBase或提供Hadoop InputFormat的数据源。1、并行化集合并行化集合

2020-10-19 11:18:34 142

原创 K-means算法分析，案例（大数据的用户分组召回）

目录一、K-means算法1、简介2、基本思想及工作原理基本思想工作原理3、简单案例分析4、优缺点二、Spark ml实现K-means算法1、相关参数和构造方法2、MLlib 中的 k-means 训练函数3、MLlib 中的 k-means 的预测函数三、Spark ml实现k-means实例1、数据库连接的方法2、自定义函数3、数据清洗4、业务处理5、绘图分析质心点数重写绘图窗口方法分析质心数6、分组召回一、K-means算法1、简介k-means 算法是一种基于划分的聚类算法，它以 k 为参数

2020-10-16 10:31:44 3367

原创 Spark SQL原理及常用方法详解

Spark SQL一、Spark SQL基础知识1、Spark SQL简介（1）简单介绍（2）Datasets & DataFrames（3）Spark SQL架构（4）Spark SQL的特点二、入门案例1、案例代码2、SparkSession3、代码分析（1）创建spark Session（2）创建Dataset样例类创建Tuple创建JSON创建RDD创建（3）创建DataframeJson创建样例类创建Tuple创建RDD创建三、SQL操作（常用的操作方法）printSchema()show

2020-10-15 10:52:37 3281

原创快速编写HTML代码常用的方法

在前端开发的过程中，一个最繁琐的工作就是写 HTML、CSS 代码。数量繁多的标签、属性、尖括号、标签闭合等，让前端们甚是苦恼。于是，我向大家推荐 Emmet，它提供了一套非常简单的语法规则，书写起来非常爽快，然后只需要敲一个快捷键就立刻生成对应的 HTML 或 CSS 代码，极大提高了代码书写效率。Emmet 的前身是大名鼎鼎的 Zen coding，它是一个编辑器插件，需要基于指定的编辑器使用，官方网站提供多编辑器支持，目前它支持的编辑器如下：Sublime TextEclipse/Aptana

2020-10-14 10:53:13 4412 1

原创 Java面向对象(封装，继承，多态)

面向对象面向对象概念1、封装含义及优点封装的分类和实现2、继承继承的主要形式关键的词汇extendsimplementssuper 与 thisfinalstatic3、多态含义形式解释上转型下转型面向对象面向对象简称 OO（Object Oriented），20 世纪 80 年代以后，有了面向对象分析（OOA）、面向对象设计（OOD）、面向对象程序设计（OOP）等新的系统开发方式模型的研究。对 Java 语言来说，一切皆是对象。把现实世界中的对象抽象地体现在编程世界中，一个对象代表了某个具体的操作

2020-09-28 17:17:33 906

转载转载（RDD转换算子大全）

RDD 中的所有转换都是延迟加载的，也就是说，它们并不会直接计算结果。相反的，它们只是记住这些应用到基础数据集（例如一个文件）上的转换动作。只有当发生一个要求返回结果给 Driver 的动作时，这些转换才会真正运行。这种设计让 Spark 更加有效率地运行。常用的Transformationmap，filter，flatMap，mapPartitions，mapPartitonsWithIndex，sampl...

2020-09-23 14:06:57 413

原创 RDD算子大全，动作算子(active,non-lazy)，装换算子(transformation，lazy)

动作算子

2020-09-23 14:02:17 1455

原创 Spark基础知识（新手小白必备）

Spark1、Spark简介Apache Spark的功能Spark使用1、Spark简介Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与

2020-09-21 17:47:08 1398

原创 Scala OOP常用知识介绍(类（class）抽象类（abstract class）单例对象（object）特质（trait）样例类（case class）)

Scala OOP1、类定义类成员访问修饰符类的定义2、抽象类3、单例对象（object）4、伴生5、特质（trait）**混入特质（mixin）****动态混入特质**6、内部类7、样例类（case class）8、泛型类9、包与包对象1、类定义(1).类通过class关键字定义(2).类通过new关键字创建实例(3).类拥有成员变量和方法(4).类的成员默认为public，也支持private、protected(5).类中无法定义静态成员变量和方法(6).类无需明确定义构造方法，通过构

2020-09-17 16:42:41 690

原创 Scala中函数的常见问题（Lambda表达式，匿名函数，高阶函数，函数嵌套，柯里化（Currying），隐式函数）

Scala函数1、Scala函数简介2、函数的声明与定义（1）函数声明（2）函数定义（3）调用函数（4）参数操作命名参数参数缺省值（5）参数传递传值调用（call-by-value）传名调用（call-by-name）3、Lambda表达式4、内置的四大函数式接口5、匿名函数6、高阶函数7、函数嵌套7、柯里化（Currying）8、隐式函数（1）隐式参数（2）隐式函数（3）隐式类1、Scala函数简介（1）函数是一组执行的语句。您可以将代码按功能分成一个个单独的函数。如何在不同函数之间划分你的代码取决

2020-09-14 15:25:53 1061

原创 Scala集合函数方法大全（数组常用方法的详细解析）

++:deepheadminscantoIndexedSeq+:diffheadOptionminByscanLefttoIterable /:distinctindexOfmkStringscanRighttoIterator :+dropindexOfSlicenonEmptysegmentLengthtoList:\dropRight indexWhereorElseseqtoMapaddStringdropWhi...

2020-09-09 17:46:28 2844

原创 Scala基础知识（小白必备）

ScalaScala概括Scala 简介Scala的特点Scala和java的比较Scala基础语法Scala的关键词Scala 数据类型Scala概括Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。Scala 运行在Java虚拟机上，并兼容现有的Java程序。Scala源代码被编译成Java字节码，所以它可以运行于JVM之上，并可以调用现有的Java类库。Scala 简介Scala编程语言抓住了很多开

2020-09-07 17:11:31 458

原创 Hbase 详细介绍以及简单的Hbase命令操作（入门必备）

Hbase1、Hbase简介1）基础介绍2）Hbase特点2、Hbase体系结构1、Hbase简介1）基础介绍HBase的原型是Google的BigTable论文，受到了该论文思想的启发，目前作为Hadoop的子项目来开发维护，用于支持结构化的数据存储。HBase是Google Bigtable的开源实现，但是也有很多不同之处。比如：GoogleBigtable利用GFS作为其文件存储系统，HBase利用HadoopHDFS作为其文件存储系统；Google运行MAPREDUCE来处理Bigta

2020-09-03 16:46:41 1039

原创 Hive优化的重点——数据倾斜

数据倾斜数据倾斜优化数据倾斜的含义数据倾斜的主要原因数据倾斜的主要解决方法1、调整Map数（1）小文件合并（2）.复杂文件增加 Map 数2、调整 Reduce数（1）调整 reduce 个数方法一（2）调整 reduce 个数方法二3、根据出现的场景做调整（1）group by 产生数据倾斜数据倾斜的含义数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行 HiveQL 或者运行 MapReduce 作业时候，如果遇到一直卡在 map100%,reduce99%一般就是遇到了数据倾斜的问

2020-08-31 16:49:52 734

原创 Hive函数词典

Hive函数词典AA函数名函数介绍函数案例运行结果abs ceil 求其不小于小给定实数的最小整数如：ceil(6) = ceil(6.1)= ceil(6.9) = 6 SELECT ceil(-0.1) FROM src LIMIT 1; 0 ...

2020-08-28 14:20:20 1418

原创初识Hive——hive安装配置以及简单介绍

这里写目录标题1.Hive简介（1）直观的理解（2）Hive的特点2.Hive的安装与配置（1）安装（2）配置1）配置前的准备2）配置hive-site.xml3）将mysql-java驱动拷贝到 hive110/lib中4）配置环境变量5）初始化hive6）启动hive访问hiveserver7）启动hiveserver28）登入beeline客户端9）取消繁琐的日志信息1.Hive简介（1）直观的理解Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类S

2020-08-26 19:49:46 231

原创 Java操作elasticsearch集群（实例）

Java操作elasticsearch集群1.创建java工程（1）工程的创建（2）配置文件的配置（3）基本结构的创建2.操作实例（1）创建实体类对象（2）创建model层（3）编辑控制层（3）前端编辑index.js的编写index.html的编写（4）结果展示1.创建java工程（1）工程的创建首先用idea创建Spring initializr工程，完成基本的数据创建。完成相关的工程建立操作（2）配置文件的配置在该文件下配置以下信息server: port: 8085 #端口号s

2020-08-24 19:43:08 1573

原创工具包Chart

Chart类class Chart<T> { private List<String> xAxisData; private List<T> seriesData; protected Chart(){ this.xAxisData = new ArrayList<>(); this.seriesData = new ArrayList<>(); } public vo

2020-08-24 19:20:56 239

原创 Hadoop集群配置详细操作

Hadoop集群配置1.修改hadoop文件的目录权限2.配置hadoop文件下的JDK3.配置hadoop fs文件系统4.hadoop replicas 备份5.hadoop mapreduce 计算框架配置6.hadoop yarn 管理调度的配置7.配置集群的主机名8.配置hadoop 环境变量9.hadoop 格式化 HDFS(1).格式化 HDFS(2).多次格式化会出现从节点jps命令下的DataNode找不到10.配置hadoop-native库11.配置从机上的hadoop12.启动 ha

2020-08-20 19:22:24 961

空空如也

空空如也