自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据挖掘+大数据研发+算法学习

主要的学习领域:数据挖掘/大数据/算法设计/编程语言等

  • 博客(207)
  • 资源 (4)
  • 收藏
  • 关注

原创 python文章学习专栏--文章目录汇总

一:python基础学习python基础学习--语言基础及流程控制语句python基础--序列介绍python基础学习--字符串及正则表达式python基础--函数,面向对象,模块,异常处理python基础学习--文件及目录操作基础学习--pymysql二:python进阶学习numpy学习总结pandas学习总结Matplotlib学习总结三:python应用微信好友签名词云展示住哪儿网上面酒店信息爬虫源代码数据预处理-判断csv文件中每一行中空格/

2021-02-22 15:13:43 212

原创 Java--Java学习专栏--文章目录汇总

以下是对博客Java专栏的文章进行的汇总,对应目录及链接如下:一:Java基础学习Java--基础学习--数组总结Java--基础学习--字符串总结Java--基础学习--字符串总结(二)Java--基础学习--面向对象思维总结Java--基础学习--面向对象思维总结(二)Java--基础学习--集合类总结Java--基础学习--集合类总结(二)Java--基础学习--多线程编程总结Java--基础学习--文件操作总结Java--基础学习--编辑器IDEA使用总结

2021-01-17 14:51:10 341

原创 数据结构算法&leetcode专栏--文章目录汇总

一:问题描述 把Excel中两列数据合并为一列,并且以空格隔开。二:方法一 把Excel中的两列数据复制粘贴到txt文本文档中,再从txt文本文档中把数据粘贴到excel中的某一列。 【注意】:数据过多的时候,会有损失,不建议对大数据使用。三:方法二 在新的一列,在上方输入框中输入 =A1&" "&B1,点击回车。 鼠标移到C1右下角出现黑色的+,下拉即可生成对应行的值,即进行填充。 【注意...

2020-07-03 10:52:04 2547

原创 大数据学习专栏--文章目录

List<int[ ]> position = new ArrayList<int [ ] >(5)的使用以及该结构的形式及内容。package temp;import java.util.ArrayList;import java.util.List;/***@author YW*@version 创建时间:Jul 1, 20205:19:00 PM*代码作用说明:*/public class arrylist { public static void

2020-07-02 15:03:09 2704

原创 hive之视图

视图是一种虚拟存在的表,是一个逻辑表,本身并不包含数据。作为一个select语句保存在数据字典中的。通过视图,可以展现基表的部分数据;视图数据来自定义视图的查询中使用的表,使用视图动态生成。

2023-03-24 14:20:23 681 1

原创 开发实践中发现group by去重不生效

工作反思

2022-12-07 17:00:36 1237

原创 Doris最全使用手册

doris常用的理论基础

2022-09-17 16:05:03 9649

原创 hive静态分区和动态分区

真正理解动态分区的实践

2022-09-15 16:17:57 4753

原创 hive窗口函数最全总结

hive窗口函数使用

2022-09-02 17:23:44 9224 4

原创 hivesql中case when的基础总结和进阶使用

case when最全总结

2022-07-03 14:54:12 12664

原创 运动健身的一些心得经验

管住嘴、迈开腿、多喝水、多睡觉、多笑笑

2022-06-26 11:37:27 452 1

原创 HIve压缩和存储

3.8 数据压缩3.8.1 数据压缩的优缺点优点:减少磁盘I/O,减少磁盘存储空间。缺点:增加CPU开销。3.8.2 压缩原则1)运算密集型的Job,少用压缩。2)I/O密集型的Job,多用压缩3.8.3 MapReduce支持的压缩编码LZO可以进行切片,需要建立索引,还需要指定输入格式;Snappy不支持切片,和文本处理一样,不需要修改3.9存储格式介绍3.9.1 TextFile简介......

2022-06-03 10:26:09 1486 1

原创 推荐贴:一天就可以掌握的计算机实用技能推荐(附资源链接)

一:Latex介绍:学习链接:【LATEX】什么?!大家都不用word了?二:Python入门介绍:学习链接:https://mp.weixin.qq.com/s/5b7TR_h6U2gSryihp7zcDghttps://github.com/liyangbit/Python-Knowledge-Handbook三:毕业论文排版以及编辑等学习链接:听说掌握这项技能,论文问题不用愁!四:Git五:如何研究与写论文周志华教授:如何做研究与写论文?六:区块链

2022-06-03 10:19:47 2301

原创 正则表达式总结

目录1.正则表达式简介2. 正则表达式语法2.1 普通字符2.2 打印字符2.3 特殊字符2.4 限定符2.5 定位符2.6 选择和反向引用3修饰符和元字符3.1 修饰符3.2 元字符3.3 优先级4 匹配规则1.正则表达式简介正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符")。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的......

2022-06-03 09:19:28 849

原创 数理统计与机器学习

数理统计作业

2022-06-02 19:49:15 682

原创 大数据领域的一些重要网站和经典文章

大数据领域的一些重要网站和经典文章

2022-06-02 16:15:15 253

原创 数据挖掘方向研究生常用网站

数据挖掘

2022-06-02 15:20:00 880 2

原创 Spring boot科普总结

目录一:Spring Boot简介二:Spring Boot优点三:概念介绍3.1starters3.2入口类和@SpringBootApplication3.3 xxxAutoConfiguration四:Spring Boot配置一:Spring Boot简介随着Spring越来越火,Spring也慢慢从一个小而精的框架变成了一个覆盖面广大又全的框架,大量繁琐的XML配置和第三方整理配置.让Spring 使用者痛苦不已,这个时候急需一个解...

2022-05-27 12:34:59 215

原创 MyBatis科普总结

目录一:mybatis简介二:mybatis优点三:sqlsession四:mybatis全局配置文件五:mybatis工作原理六.编写代码一:mybatis简介mybatis是支持定制化SQL,存储过程以及高级映射的优秀的持久层框架; mybatis避免了几乎所有的jdbc代码和手动设置参数以及获取结果集; mybatis可以使用简单的XML或者注解用于配制和原始映射,将接口和Java的pojo(plain old java objects,普通的Java对象)映.

2022-05-27 11:05:50 123

原创 mysql事务和隔离级别

目录1. 事务的概念和特效1.1 事务1.2 事务的acid属性1.3 多个事务导致的并发问题2.事务处理3. 事务的隔离级别1. 事务的概念和特效1.1 事务事务由单独单元的一个或者多个SQL语句组成,在这个单元中,每个SQL语句是相互依赖的。而整个单独单元作为一个不可分割的整体,如果单元中某条SQL语句一旦执行失败或者产生错误,整个单元将会回滚。所有受影响的数据将返回到事务开始以前的状态;如果单元中的所有SQL语句均执行成功,则事务被顺利执行。...

2022-05-23 14:59:34 158

原创 mysql的约束总结

目录什么是约束?约束分类约束使用not null约束unique约束primary key约束foreign key什么是约束? 为了保证数据的一致性和完整性,SQL规范以约束的方式对表数据进行额外的条件限制。 约束是表级的强制规定。 可以在创建表时候规定约束(create table语句),或者在表创建之后也可以(通过alter table 语句)。 约束分类1)一般分类 not null 非空约束,规定某个字段不能为空; ..

2022-05-22 23:10:31 285

原创 Excel常用功能总结

目录1 excel提升速度小技能1.1.Excel快速提取功能1.2 单元格使用1.3 冻结窗格1.4 查找和替换1.5 分列功能2数据分析2.1条件格式2.2.Excel中图表2.3 求和/平均值/最大最小值等2.4 套用表格格式2.5 excel中数据录入3.数据清洗/数据预处理3.1 power query3.2 数据验证3.3 单元格条件格式3.4 删除重复值3.5 查找和定位条件4 函数4.1 函数使用规范4.2

2022-05-15 20:59:58 5748 1

原创 最全Git使用总结(包括在IDEA中实战使用Git教程)(含理论和实战)

全网最全git理论和实战总结: 1)包含git工作原理,流程,底层 2)idae中使用git详细步骤 3)git常用命令 4)使用git常见的问题及其解决方案

2022-05-11 22:58:34 1530

原创 Mac中磁盘没有正常推出的解决方案

问题:由于mac电脑关机或者没有实现正常推出硬盘导致的磁盘没有正常推出。问题排查:打开Mac自带的磁盘工具,其外置没有发现我们的磁盘名称。解决办法:1)打开终端,输入如下命令查看一下硬盘的信息,确定一下自己的磁盘是否可以显示:diskutil list显示在终端的最后一行显示了我硬盘的名字,因此/dev/disk2所在目录就是我的移动硬盘。2)杀死对应进程sudo fsck_hfs -fy /dev/disk23) 挂载移动硬盘数据卷sudo disku

2022-05-11 20:10:19 14228 1

原创 Python对Excel中具体某几列进行数据预处理

1.利用python读取Excel中.xls文件中所有数据#encoding=utf-8import xlrdimport xlwtfrom xlwt import *fileName="test01.xls"bk=xlrd.open_workbook(fileName)shxrange=range(bk.nsheets)try: sh=bk.sheet_by_name("Sheet1")except: print ("代码出错")nrows=sh.nrows #获

2022-05-07 20:34:59 1525

原创 HTML常用图表(柱状图,折线图,饼图,关联图,表格)的绘制

一:柱状图/折线图的绘制<!DOCTYPE html><head> <meta charset="utf-8"> <title>ECharts</title></head><body> <!-- 为ECharts准备一个具备大小(宽高)的Dom --> <div id="main" style="width:80%;height:400px;margin: 0 a

2022-05-07 20:09:08 11382 3

原创 大数据--spark生态6--spark高频面试题(常见算子之间的异同点)

一:map和mappartitions区别 map是对rdd中的每一个元素进行操作,mapPartitions则是对rdd中每个分区的迭代器进行操作;从性能上看,mappartitions的性能较高,举例来说,如果一个partition中有一万条数据,在使用map的时候,function需要执行和计算1万次;使用mappartitions操作的时候,一个task仅仅会执行一次function。从瓶颈上说,如果一个分区里面数据量过大,比如几百万条,一次传入function以后,内存可能不够,...

2022-04-13 16:02:51 1833

原创 大数据--spark生态7--spark的shuffle过程详解

目录一: 理解shuffle二: shuffle write2.1 shuffle write的目标2.2 shuffle write的位置2.3 桶(bucket)2.4 默认分区算法2.5 bucket数量太多的解决方案三: shuffle read3.1 在什么时候fetch3.2 边fetch边处理还是一次性fetch完再处理?3.3 fetch来的数据存放在哪?3.4 如何获得要fetch的数据的存放位置?3.5 reduce端的shuffle

2022-04-13 14:42:36 2700

原创 大数据--spark生态4--sparkSQL

目录一:rdd转换算子1.1 value类型1.2 key-value类型二:rdd行动算子一:rdd转换算子1.1 value类型map将处理的数据进行映射转换,这里的转换可以是类型的转换,也可以是值的转换。mappartitions将待处理的数据以分区为单位发送到计算节点进行处理,这里的处理是指可以进行任意的处理。flatMap将处理的数据进行扁平化后再进行映射处理,所以算子也称扁平映射。glom将同一个分区的数据直接转换为相同类型的内存数组进行处

2022-03-09 11:17:29 2829

原创 PS学习总结三:修图必备的高阶操作

目录一:滤镜二:滤镜下的一些操作三:智能对象四:通道五:通道抠图步骤六:裁剪工具七:修复工具八:仿制图章九:内容识别十:操作变形一:滤镜ps滤镜:主要通过各种命令来实现图像的各种特殊效果。智能滤镜优点:可编辑性强 有自带的蒙版,可以对局部进行处理 双击滤镜名称,修改滤镜参数 一个图层上可以添加多个滤镜效果camera raw滤镜打开单反相机源文件格式cr2,那么回自动使用camera raw 滤镜打开。是摄影师后期专业的调色插件,他

2022-02-24 11:50:06 1126

原创 PS学习总结二:色彩

目录一:色彩相关介绍二:橡皮擦工具三:模糊,锐化,涂抹四:蒙版五:色彩操作六:图层样式七:如何使用时间轴制作动画一:色彩相关介绍色彩:色彩是可见光导致的视觉现象。ps软件中颜色模式分为:位图,灰度,RGB颜色(最常用),CMYK(海报印刷)RGB:红绿蓝。色彩三要素:h 色相:赤(红),橙,黄,绿,蓝,靛,紫 s 饱和度(纯度):颜色的浓度,颜色的鲜艳程度 b 明度: 指的是颜色的明暗程度颜色的分类: 原色,间色,复色通道:通道用来存储颜

2022-02-24 10:57:59 2906

原创 PS学习总结一:入门版必备的基础功能

一:填充颜色填充前景色: alt + delete 填充背景色: ctrl + delete 锁定透明像素填充颜色: + shift二:选区工具添加到选区:可将新的选区添加到原来的选区中,快捷键shift。 从选区中减去: alt键。 与选区相交:alt + shift注意:按住ctrl键点击图层可以直接载入选区。三:常用快捷键...

2022-02-23 21:24:50 2405

原创 三阶魔方六面拼齐教程

目录一:拼白色十字围绕黄块二:拼一个白色十字三:拼白色完整面和第一层四: 还原第二层五:拼顶面十字六:还原顶面颜色七:对好角块颜色八:调整顶层一:拼白色十字围绕黄块 目的:标准魔方中,黄色中心是与白色中心处于正方体的对面的,我们要把黄色中心上下左右四个方位拼到时白色块。 方法:比较容易。二:拼一个白色十字目标:拼一个白色十字而且十字相邻四面顶层中间颜色与各面中心颜色相同。方法:中心为黄的一面朝上。先旋转顶层,使得这两面处于中心块...

2021-12-26 12:42:44 7902 2

原创 相机的介绍--新手入门级介绍

相机最大的两个类别:胶片和数码。一:单反和微单(无反)目前市面上主流的数码相机分为:单反,无反(微单),卡片机(紧凑型相机),旁轴。单反:全称叫做单镜头反光式取景照相机(single lens reflex caamera)。单镜头是指摄影曝光光路和取景光路共用一个镜头,不像旁轴相机或者双反相机那样取景光路有独立镜头。代表品牌:佳能,尼康,索尼无反:也就是常说的微单。无反就是没有反光板的可换。无反相机比单反更小更轻单反:看的和拍的不一样,难度高 便宜 稳定 ...

2021-12-04 19:52:11 2122

原创 hive调优最全总结

目录第八章 数据调优及其原理11/158.1 小问题问题8.1.1 小文件的危害8.1.2 小文件的产生原理8.1.3 小文件的治理方案8.2 数据倾斜问题8.3 减少数据量8.4 参数优化8.5 企业级调优第八章 数据调优及其原理11/158.1 小问题问题小文件过多会占用大量内存,且在初始化时会占用大量计算资源,严重影响性能。对于已经存在的小文件,建议把小文件进行归档;重建表,建表的时候减少reduce数量;通过参数调节,设置map/re...

2021-11-19 10:44:05 4225

原创 数据倾斜产生,原因及其解决方案

目录第七章 数据倾斜7.1 数据倾斜的产生,表现与原因7.1.1 数据倾斜的定义7.1.2 数据倾斜的危害7.1.3 数据倾斜发生的现象7.2 数据倾斜倾斜造成的原因7.3 几种常见的数据倾斜及其解决方案7.3.1 空值引发的数据倾斜7.3.2 不同数据类型引发的数据倾斜7.3.3 表连接时引发的数据倾斜7.3.4 group by分组时候key值分布不均7.3.5 count distinct去重的时候key值分布不均7.3.6 排序过程7.2.

2021-11-14 15:43:51 10877 4

原创 Hive底层原理

目录第六章HIve SQL底层执行原理和源代码解析6.1 HIve底层执行架构6.2 HIve底层执行原理6.3 HIve编译成MapReduce过程6.4 HIve编译成MapReduce原理6.4.1 Join的实现原理6.4.2 Group by的实现原理6.4.3 distinct的实现原理第六章HIve SQL底层执行原理和源代码解析6.1 HIve底层执行架构在Hive这一侧,总共有5个组件: UI:用户界面,可以看作我们..

2021-11-12 18:11:27 3993 1

原创 Hive函数大全

目录第四章 Hive函数4.1 聚合函数4.2 关系函数4.3 数学运算4.4 逻辑运算4.5 数值运算4.6 条件函数4.7 日期函数4.8 字符串函数4.9 字符串截取函数4.10 去空格函数4.11 正则表达式与解析函数4.12 explode函数4.13 行转列与列转行4.14 基础窗口函数与分析函数4.14.1 窗口函数简介4.14.2 窗口的含义4.14.3 窗口函数分类4.14.4 窗口函数的使用4.14.5.

2021-11-12 18:08:23 8348

原创 大数据2--hive--hive介绍

第一章 Hive介绍1.1hive概述1.1.1 hive的简介HIve是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQK查询功能。其本质是将SQL转换为MapReduce/Spark的任务进行运算,底层由HDFS来提供数据的存储,说白了,hive可以理解为一个将SQL转换为MapReduce/spark任务的工具。1.1.2 HIve的特点: 可扩展性: Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。 ...

2021-10-24 16:54:18 2123

原创 大数据--hadoop生态--hdfs最全总结

目录第二章:HDFS2.1 hdfs主要组件及其功能2.1.1 Hdfs的组成2.1.2 SecondaryNameNode2.2 hdfs数据存储原理2.2.1 冗余数据保存2.2.2 数据存取策略2.2.3 HDFS块的大小2.2.4 数据错误与恢复2.3 hdfs读写数据过程2.3.1 读数据过程2.3.2 写数据过程2.4 DataNode工作机制2.5 hdfs高可用原理2.6 hdfs常用命令命令会导出到当前目录下面)第二章:H

2021-10-13 09:33:21 444

html一些基础使用;界面展示

html一些基础使用

2022-05-07

秋招 技术岗面试 (大数据岗,Java岗)分享

Java+算法面试经验

2022-05-07

mosaicFile2.java

将一堆项集数据,根据数据的第一列值是否相同,来判断第二列的值是否该进行合并,相当于使之变成序列数据集。

2020-04-20

apriori_longer.pdf

apriori算法源文档,文档下载于开源spmf平台,上传到此处不做商业用途,只是为了方便博文管理和保存文档。 如有我侵权或者其他不正确行为,请联系,我会立即进行删除处理。

2019-05-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除