自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

星星的博客

不去仰望别人,自己亦是风景

  • 博客(88)
  • 资源 (2)
  • 收藏
  • 关注

原创 从安装系统到部署datax

8、按照githup修改配置文件。

2024-04-18 10:21:21 212

原创 Mac删除自带的ABC输入法,简单快捷

的value为“ABC”,这就是ABC输入法,点击上面的Delete按钮,删除整项ABC内容,然后保存一下退出就好了。三、其中有一个数字下面的。

2024-01-30 11:45:10 1301

原创 Hive函数

hive函数大全

2023-11-15 11:16:06 225

原创 问题与分类

设计思路的文档话,背景-》 设计思路-》 好处与不足 -》 其他设计思路的对比(淘汰其他设计思路的原因)新功能的支持,对应的新功能的开关,出现问题是否可以及时的关闭功能开关保证基本功能的可用性。插件的水平扩展,有单个如何扩展为多个?产品排期是否与当前的安排冲突,是否有足够的资源(人和时间),是否有对应的。设计思路的评审,如何评审,如何量化(横向,纵向相同指标的对比)插件对于类型的支持存在问题,支持的数量,转换的逻辑,精度。是否已经有类似的解决方案,是否需要当前的设计。用户的环境多样,如何提供维护的便利性?

2023-10-24 20:06:43 274

原创 HIve常用语法记录

hive 增加表名和修改字段位置。

2023-08-18 15:28:24 106

原创 PySpark获取hive库中的表行数

通过pyspark获取hive每一张表名和表行数

2023-08-17 15:08:47 152

原创 rows between unbounded preceding and current row,滚动统计数据

rows between unbounded preceding and current row,滚动统计

2023-06-07 11:44:36 288

原创 又是新一年的1024呦

学习、努力

2022-10-24 09:05:19 130

原创 Java代码创建hive外部表分区

Java代码创建hive外部表分区,简单便捷,主要是嗖嗖的

2022-06-02 12:04:03 544

原创 Mac提示“无法打开XXX因为来自身份不明的开发者” 或“已损坏,打不开“怎么办?

1.打开终端执行:sudo spctl --master-disable2.打开系统偏好设置-安全性与隐私,打开任何来源同时任何来源下会有你想要运行的软件,通过就好

2022-03-17 15:52:13 2692

原创 虚拟机磁盘扩容

虚拟机扩容

2022-03-07 16:53:19 930

原创 Python解析接口

# -*- coding:utf-8 -*-import requestsimport jsonfrom pymysql import *#差评接口url = "xxx"header={'content-type':'application/x-www-form-urlencoded'}#入参data={'appId':'xxx','pagenum':'1','pagetity':'10','regionCode':'xxx'}timeout=1000r = requests.po.

2021-03-25 15:47:11 456 1

原创 Spark Troubleshooting(故障检查)

Spark Troubleshooting以下8种1.控制reduce端缓冲大小以避免OOM2.JVM GC导致的shuffle文件拉取失败3.解决各种序列化导致的报错4.解决算子函数返回NULL导致的问题5.解决YARN-CLIENT模式导致的网卡流量激增问题6.解决YARN-CLUSTER模式的JVM栈内存溢出无法执行问题7.解决SparkSQL导致的JVM栈内存溢出8.持久化与checkpoint的使用

2020-10-27 12:13:51 147

原创 Spark-数据倾斜及解决方案

Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。例如,reduce点一共要处理100万条数据,第一个和第二个task分别被分配到了1万条数据,计算5分钟内完成,第三个task分配到了98万数据,此时第三个task可能需要10个小时完成,这使得整个Spark作业需要10个小时才能运行完成,这就是数据倾斜所带来的后果。

2020-10-27 11:33:54 629

原创 Spark-JVM调优

Spark之JVM调优

2020-10-27 10:17:18 144

原创 Spark-Suffle调优

Spark之Suffle调优

2020-10-27 09:53:15 405

原创 Spark算子调优

Spark之算子调优

2020-10-26 16:56:01 97

原创 Spark常规性能调优五:调节本地化等待时长

Spark常规性能调优五之调节本地化等待时长

2020-10-26 16:03:51 318

原创 Spark常规性能调优四:广播大变量-Kryo序列化

Spark常规性能调优四之广播大变量与Kryo序列化

2020-10-26 15:58:00 199

原创 Spark常规性能调优三:并行度调节

Spark常规性能调优三之并行度调节

2020-10-26 15:34:21 218

原创 Spark常规性能调优二:RDD优化

Spark常规性能调优二之RDD优化

2020-10-26 15:20:39 158 2

原创 Spark常规性能调优一:最优资源配置

Spark常规性能调优之最优资源配置:Spark性能调优第一步,就是为任务分配更多的资源,在一定的范围内,增加资源的分配与性能的提升是成正比的。

2020-10-26 14:37:38 328

原创 机器学习-有监督学习-分类-KNN

import numpy as npimport pandas as pd# 直接引入sklearn里的数据集,鸢尾花irisfrom sklearn.datasets import load_iris# 切分数据集为训练集和测试集from sklearn.model_selection import train_test_split# 计算分类预测的准确率from sklearn.metrics import accuracy_score# TODO 0.数据加载和预处理iri...

2020-08-16 00:37:54 379

原创 机器学习-有监督学习-线性回归-sklearn

import numpy as npimport matplotlib.pyplot as plt# 导入线性回归库from sklearn.linear_model import LinearRegression# 定义损失函数 ( y - w * x - b ) **2def cost(w , b , points): sum_cost = 0 M = len(points) for i in range(M): x = points[i,0] .

2020-08-14 22:20:25 469

原创 机器学习-有监督学习-线性回归-梯度下降

import numpy as npimport matplotlib.pyplot as plt# 定义损失函数 E(w,b) = (y -w * i -b) ** 2def cost(w , b , points): sum_cost = 0 M = len(points) for i in range(M): x = points[i,0] y = points[i,1] sum_cost += ( y - w * x.

2020-08-14 22:16:17 178

原创 机器学习-有监督学习-线性回归-最小二乘法

import numpy as npimport matplotlib.pyplot as plt# 定义损失函数def total_cost(w,b,points): M = len(points) cost = 0 for i in range(M): x = points[i,0] y = points[i,1] cost += ( y - w * x - b ) ** 2 return cost# 定义求平均数.

2020-08-13 23:40:22 267

原创 Python(九)函数

1.基本语法def 函数名(参数列表): 函数体2.函数分类2.1有参数(1)有几个参数,就得传入几个参数(2)在函数调用中输入参数时,参数名称必须对应def aa(x): print(x)aa(x=5)(3)当调用函数时,必须全部定义名称,且名称对应,顺序可以不同def aa(x,y): print(x)aa(y=2,x=5)(4)函数中可以定义默认值def aa(x=30,y): print(x)aa(y=2,x=5

2020-08-12 00:18:10 157

原创 Python(八)迭代器和生成器

迭代是Python最强大的功能之一,是访问集合元素的一种方式。迭代器是一个可以记住遍历的位置的对象。迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只能往前不会后退

2020-08-12 00:02:39 109

原创 Python(七)元组和字典

1.创建元组>>> tup1 =(0,1,2)>>> tup = 1,2,3>>> type(tup)<class 'tuple'>>>> tup(1, 2, 3)>>> tup1(0, 1, 2)2.获取元组值>>> tup[0]1>>> tup[0:2](1, 2)3.内置方法方法 描述 len(tuple)

2020-08-11 23:40:07 175

原创 Python(六)列表

1.创建列表>>> list = [0,1,2,3,4,5]>>> list[0, 1, 2, 3, 4, 5]>>> list1 = [x+1 for x in range(10) ]>>> list1[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]2.获取列表值>>> list[0]0>>> list[0:3][0, 1, 2]>>&gt

2020-08-11 23:15:02 189 1

原创 Python(五)字符串

1.创建字符串>>> s = '创建字符串'>>> v = "创建字符串">>> m = '''创建字符串'''>>> s'创建字符串'>>> v'创建字符串'>>> m'创建字符串'2.访问元素>>> a = s[0]>>> a'创'# s[n] 获取角标为n的元素,角标从0开始>>> l = len(

2020-08-11 22:40:53 251

原创 Python(四)运算符

1.算术运算符a = 10 b = 21运算符 描述 实例 + 加 两个对象相加;a + b 输出结果 31 - 减 得到负数或是一个数减去另一个数;a - b 输出结果 -11 * 乘 两个数相乘或是返回一个被重复若干次的字符串;a * b 输出结果 210 / 除 x 除以 y;b / a 输出结果 2.1 % 取模 返.

2020-08-11 21:59:37 432

原创 Python(三)基本数据类型-2

1.ListList(列表)是Python 中使用最频繁的数据类型。列表可以完成大多数集合类的数据结构实现。列表中元素的类型可以不相同,它支持数字,字符串甚至可以包含列表(所谓嵌套)。列表是写在方括号[]之间、用逗号分隔开的元素列表。和字符串一样,列表同样可以被索引和截取,列表被截取后返回一个包含所需元素的新列表。C:\Users\DELL>pythonPython 3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:59:51) [MSC v.1914 6

2020-08-11 19:59:50 354

原创 Python(三)基本数据类型-1

1.变量赋值我们可以看出Python在定义变量的时候不需要指定类型,它的类型可以通过类型推断来获得C:\Users\DELL>pythonPython 3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:59:51) [MSC v.1914 64 bit (AMD64)] on win32Type "help", "copyright", "credits" or "license" for more information.>>> a

2020-08-11 00:05:42 147

原创 Python(二)基本语法

1.编码默认情况下,python3源文件以UTF-8编码,所有字符串都是unicode字符串。同时可以指定源文件的不同编码文件开头加上# -*- coding: UTF-8 -*-# coding=utf-8(等号两边不能有空格)允许在源文件中使用utf-8字符集中的字符编码,对应的适合语言为中文等。2.标识符(1)第一个字符必须是字母表中的字母或下划线_(2)标识符中的其他部分由字母、数字和下划线组成(3)标识符对大小写敏感(4)在python3中,非ASCII标识符

2020-08-10 23:22:34 207

原创 Python(一)介绍及安装

1.Python是什么(1)Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。(2)Python的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特色语法结构。(3)Python是一种解释型语言: 这意味着开发过程中没有了编译这个环节。类似于PHP和Perl语言。(4)Python是交互式语言: 这意味着,我们可以在一个Python提示符后面直接互动执行写自己的程序。(5)Python是面向对象语言: 这意味着

2020-08-10 22:59:29 348

原创 FlinkSql(三)代码中的注意点

1.数据类型与 Table schema 的对应 DataStream 中的数据类型,与表的 Schema 之间的对应关系,是按照样例类中的字段名来对应的(name-based mapping),所以还可以用 as 做重命名。另外一种对应方式是,直接按照字段的位置来对应(position-based mapping),对应的过程中,就可以直接指定新的字段名了。基于名称的对应:val sensorTable = tableEnv.fromDataStream(dataStream, 'tim

2020-08-09 11:09:59 1197

原创 FlinkSql(二)API使用-sink

表的输出,是通过将数据写入 TableSink 来实现的。TableSink 是一个通用接口,可以支持不同的文件格式、存储数据库和消息队列。具体实现,输出表最直接的方法,就是通过 Table.insertInto() 方法将一个 Table 写入注册过的 TableSink 中。

2020-08-09 10:49:26 1516

原创 FlinkSql(二)API使用-transform

这个算子可以说是很多的,查看官方文档即可https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/tableApi.html#column-operations这个是从flink官网整下来的,需要什么找那个就行// environment configuration// ...// specify table programval orders: Table = tEnv.from("Orders") //

2020-08-08 23:38:04 208 2

原创 FlinkSql(二)API使用-source

0.前言FlinkSql的使用与流式计算结构是一样的,source、transform、sink,因此首先研究source。1创建表环境//创建流式计算的执行环境val env = StreamExecutionEnvironment.getExecutionEnvironment//表环境基于流式计算的环境createval tableEnv : StreamTableEnvironment = StreamTableEnvironment.create(env)2source(f

2020-08-08 23:29:06 234

kafka搭建与使用.doc

kafka集群搭建与使用,创建,删除,生产者,消费者,详细的描述了kafka怎么启动怎么使用怎么创建

2020-08-10

班级管理系统E-R图 Oracle数据库

班级管理系统是利用计算机来管理班级信息的计算机应用技术的创新。在计算机还未普及之前,班级管理都是靠手工实现,这样不仅浪费大量的时间、人力和物力,同时在信息的开放度和同学们的知情度方面不够透明。 能够快速查询,从而减少管理方面的工作量,对于促进班级管理和提高学校教学质量具有重要意义。

2018-12-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除