自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(72)
  • 收藏
  • 关注

原创 Hive 表

1. 建表drop table if exists {table_name};create table if not exists {table_name} ( {col_name_1} {col_type_1}, {col_name_2} {col_type_2}, {col_name_2} {col_type_3}, ... )row format delimited -- 设置分隔符设置开始

2021-12-21 11:02:39 231

原创 python 之 arrow

参考原文:python arrow库详解 - lincappu - 博客园导入包import arrow详细介绍1# 获取【当前日期时间】的 Arrow 对象arrow_0 = arrow.now() # <Arrow [2021-12-02T10:36:52.496200+08:00]># 获取【指定日期时间字符串】的 Arrow 对象arrow_1 = arrow.get('2021-12-02 12:30:45', 'YYYY-MM-DD HH:mm:ss'...

2021-12-02 10:56:57 887

原创 数据分层简述

以下内容摘抄自:最详细!深入浅出理解「3层6类」数据分层 | 人人都是产品经理【侵权即删!!! 】数据是通过观测得到的信息,是对客观物质世界的记录。数据建模是对客观物质世界的抽象,用数据来表征这个客观物质世界。数据分层是把数据以合理的方式表现,提高效率。数据分层的目的不外乎:降低存储成本、提高使用效率、保障数据质量。数据分层的设计思想,促使了数据仓库的诞生。数据仓库(DW 即Data Warehouse)大师曾定义,数据仓库是一个面向主题的(Subject Oriente..

2021-10-29 11:31:07 4557

原创 关于map的一些用法总结

1.data = [{"a": 1, "b": 2, "c": 3}, {"a": 11, "b": 22, "c": 33}, {"a": 111, "b": 222, "c": 333}]df = pd.DataFrame(data)dfdf['stat'] = df['a'].map(lambda x: 'big' if x > 100 else 'small')df2.def func(i): return ...

2021-10-11 19:25:02 198

原创 python 对文件实效性进行判断

def file_effective(logger, file, days=1): """ 文件实效性检查 如果是修改时间在设定时间段内,返回True,否则返回False :param logger: 日志对象 :param file: str 文件 :param days: int 默认取5 :return: """ try: m_time = os.stat(file).st_mtime n_tim.

2021-09-18 16:07:54 197

原创 python -- 对 DataFrame 的操作

1. 基础数据准备import pandas as pddata = [{"a": 1, "b": ' djidn. '}, {"a": 11, "b": 22.123456}, {"a": 111, "b": ''}, {"a": 1111}, {"a": '1111'}]df = pd.DataFrame(data)df2. 操作方法def func(num): if num != num.

2021-09-15 11:33:53 531

原创 python 多线程

import threading # 导入包# 定义线程threading_1 = threading.Thread(target=threading_func, args=(...))threading_1 = threading.Thread(target=threading_func, args=(...))threading_1 = threading.Thread(target=threading_func, args=(...))# 启动线程threading_1.start(.

2021-09-15 09:57:45 208

原创 【python】处理图片小方法

1. 改变图片大小(byte)def rebyte(pic_file, re_byte, quality_num=100): """ :param pic_file 图片文件 str 本地文件 :param re_byte 期望字节数 Kb :param quality_num 保存质量 :return: """ new_image = Image.open(pic_file) new_image = new_image.conver..

2021-07-05 17:39:31 282

原创 python 小方法集

1. python获得文件md5值def get_file_md5(file): """ 获得文件的 md5 值 :param file: str 图片文件 ../file.jgp :return: str 32位 md5 值 """ import hashlib file = open(file, 'rb') md5 = hashlib.md5(file.read()).hexdigest() return md52. ..

2021-06-29 17:53:54 116

原创 python 使用小结

1. python 自定义列表 在列表后面无意中带的 英文逗号,会使得原来的list变为tuplesite_list_1 = ['SITE_SET_WECHAT', 'SITE_SET_MINI_GAME_WECHAT'],print(site_list_1) # (['SITE_SET_WECHAT', 'SITE_SET_MINI_GAME_WECHAT'],)print(type(site_list_1)) # <class 'tuple'>s...

2021-06-29 10:28:42 86

原创 SHELL 总结

1. 局部变量全局变量var=200 # 全局变量function func3(){ local var=100 # 使用了local,仅在函数内有效,并在函数内覆盖了全局变量 echo $var # 显示局部变量值}func3echo $var# =======================100200# =======================...

2021-06-23 15:55:15 244

原创 python 异常处理

try: # 可能出错的代码except ZeroDivisionError as e: # 匹配每一种指定的错误 print(f"除零报错|{e}|")except Exception as e: # 匹配每一种指定的错误 print(f"执行报错|{e}|")...else: print('正常执行完毕') # 不报错时执行...

2021-06-09 14:58:00 173 2

原创 python 连接 hive 并读取数据

1. 连接hive类 DB_hiveclass DB_hive(object): def __init__(self, db, con_dict): """ 初始化说明 Args: db: hive中数据库名称 con_dict: hive链接信息字典 eg: {'host': '192.168.0.163', # 连.

2021-05-27 15:21:58 1864

原创 python 处理时间

1. time模块import time# 获得时间戳 float -- 1622094784.5939958time.time()# 时间结构体 struct# time.struct_time(tm_year=2021, tm_mon=5, tm_mday=27, tm_hour=13, tm_min=58, tm_sec=40, tm_wday=3, tm_yday=147, tm_isdst=0)time.localtime() # 获

2021-05-27 14:58:00 126

原创 Python 处理图片

使用PIL处理图片1. 图片对象基本处理img = Image.open('./file/pic01.png') # 加载图片对象img.format # 获取图片类型(后缀)img.size # 获取图片尺寸img.mode # 获取图片模式 如 RGBimg.info # 获取图片信息字典2. 改变图像的模式img2 = img.convert('RGBA')3. 新建图层# 新建一个图层# 模式为 'RGB'# 尺寸大小为 (256,...

2021-04-13 19:21:46 2962 3

原创 数据分析:方法+工具

如下摘自:https://bbs.pinggu.org/thread-10402077-1-1.html方法 完整的数据分析流程一般如下图工具

2021-01-31 16:32:03 446

原创 R语言学习与总结

1. 数据变量类型连续型变量 -- 可以呈现为某个范围内的任意值,并同时表示了顺序和数量 有序型变量 -- 表示顺序关系的变量,而非数量关系 名义型变量 -- 没有顺序之分的类别变量 在R中,类别(名义型)变量 和 有序类别(有序型)变量成为因子2. 数据类型(模式)数值型 -- "numeric" 字符型 -- "character" 逻辑型 (TRUE/FALSE) -- "" 复数型(虚数) -- "" 原生型(字节) -- ""3.数据结构标量 -...

2021-01-29 22:13:41 1064

原创 随笔有感2021-01-16

如果没有钱,或者更在意钱,那么就不要去购买不值得的东西;如果确实想拥有那个东西,就不要太计较钱。

2021-01-16 17:01:27 114

原创 python执行shell命令

import osshell_order = "<这里是shell命名>"os.system(shell_order)

2020-12-11 16:16:00 107

原创 python 列表去重

简单去重keyword_list_ = list(set(keyword_list))去重+列表原顺序不变keyword_list_nore = list(set(keyword_list))keyword_list_nore.sort(key=keyword_list.index)

2020-12-04 12:18:10 134

原创 Mac 版 vscode 配置go环境

1. 下载安装vscode mac版本下载地址https://code.visualstudio.com双击安装即可2. 打开vscode软件3. 在电脑上自定义go工程目录 如 "/Users/edz/yh/code/go"4. 修改 go 的环境配置变量 -GOPATHGOPATH="/Users/edz/yh/code/go"5. 核对 go 安装目录 -GOROOTGOROOT="/usr/local/go"6. 设置环境变量,从公共代理镜像中快速拉取...

2020-12-02 11:40:12 2763

原创 vscode使用备忘

1. 设置为中文按照上图操作,安装 install ---> 重启vscode即可注意:上图是安装后的效果2.改变字体大小选择 Code --> 首选项 --> 设置3. 开启自动保存功能选择 文件 --> 自动保存4....

2020-12-01 19:52:45 86

原创 Mac本上部署go环境

1. 下载安装包a. 下载网页链接https://studygolang.com/dlb. 如下载 软件包go1.15.5.darwin-amd64.pkg2. 安装goa. 打开软件包的目录b. 双击--> 选择默认设置 --> 安装软件3. 配置环境变量a. 打开终端b. 输入命令查看go版本$ go version # 显示 go version go1.15.5 darwin/amd64c. 输入命令查看环境变量配置$ go e...

2020-12-01 16:36:32 306

原创 pandas.read_csv 读取文件报错

错误类型1pandas.errors.ParserError: Error tokenizing data. C error: EOF inside string starting at row 847227错误原因推测——数据文件太大或数据文件中部分数据行不符合要求解决方案一,在读取文件的 read_csv 方法中加入参数error_bad_lines=False 如下所示【该方法来源于网络,未验证】df = pd.read_csv({csv_file_name}, error_ba..

2020-11-29 17:42:12 1447

原创 python-pd.DataFrame 总结备忘

1. 去重对df1进行去重操作(去除完全重复的行数据):df1 = df1.drop_duplicates()对df1的指定若干字段去重操作:df.drop_duplicates(subset=['col_name1','col_name2'],keep='first',inplace=True)subset: 列名,可选,默认为None keep:枚举为{'first', 'last', False} 'first' - str 去重后保留第一次...

2020-11-27 20:09:22 4991

原创 HiveSQL函数总结

数学函数保留几位小数(四舍五入) -- MySQL可用 select round(1.23456, 3) AS f; -- 取值为 1.235 向下取整 -- MySQL可用 SELECT FLOOR(1.234) AS I; -- 取值为1 求开方 -- MySQL可用 SELECT SQRT(9) AS s; -- 取值3.0 求模|求余数 -- MySQL不可用 SELECT pmod(10, 3) AS p; -...

2020-11-26 18:46:31 1005

原创 Hadoop运行环境搭建

关闭防火墙 工作中,共有云服务器,防火墙默认是关闭的 Ubuntu 查看防火墙状态 $sudo ufw status 显示 Status: inactive. 表示防火墙关闭 $ sudo ufw enable //启用防火墙 关闭防火墙 $sudo ufw disable // 关闭防火墙 ...

2020-11-26 16:13:15 73

原创 【每天一篇博客】python 连接数据库

python 连接MySQL class DB(): """ 与 统计 数据库交互 """ def __init__(self, user=feed_username, # 服务器用户名 passwd=feed_password, # 服务器密码 host=feed_ip, # 服务器IP port=<feed_po...

2020-09-23 14:44:14 154

原创 【每天一篇博客】python 知识点总结(一)

python 字符串查找 之 str.find() s = 'abcdedfghi's.find('a') # int 0s.find('c') # int 2s.find('I') # 不存在则返回 int -1

2020-09-23 14:09:33 83

原创 MySQL 使用备忘

在SQL语句中,如果要对字符串使用统配,需要加上引号 如下面例子中的 '{creative_id}' SELECT `status` AS `audit_status` FROM creativeFeedsWHERE creative_response_id='{creative_id}';

2020-09-18 18:57:42 76

原创 hive 优化与设置

配置mapreduce.job.reduce.slowstart.completedmaps 参数 该参数默认为 0.05, 表示map执行 5%之后,开始reduce过程 如果集群资源不够,有可能导致reduce把资源全抢光,可以把这个参数调整到0.8,map完成80%后才开始reduce copy过程。 可以配置为如下: set mapreduce.job....

2020-09-18 18:34:16 310

原创 计算机基础

CPU 中央处理器(CPU,Central Processing Unit)是一块超大规模的集成电路,是一台计算机的运算核心(Core)和控制核心( Control Unit)。它的功能主要是解释计算机指令以及处理计算机软件中的数据。CPU包括运算逻辑部件、寄存器部件和控制部件等。负责多任务管理、调度,它是领导者,负责指挥。计算能力方面没有GPU强。 GPU 图形处理器(英语:Gra...

2020-09-18 18:32:47 74

原创 python 格式化字符串

>> '{0}ABC{1}DE{2}'.format(0, 1, 2)>> '0ABC1DE2'>> '{0}ABC{1}DE{2}'.format('0', '1', '2')>> '0ABC1DE2' >> '{x0}ABC{x1}DE{x2}'.format(x0=0, x1=1, x2=2)>> '0ABC1DE2'>> '{x0}ABC{x1}DE{x2}'....

2020-08-31 14:37:02 95

原创 python 将图片合成视频

导包 import osimport cv2 获取图片列表 pic_path = '/<path>/pics/out'pics_list = [i for i in os.listdir(pic_path) if i.endswith('.jpg')] 定义视频变量 fps = 1.1 # size = (1140, 640) # 视频尺寸out_file_name = '{0}.mp4'.format('示例视频') # 输出...

2020-08-17 19:14:16 790

原创 ubuntu 创建定时任务

安装 cron 模块 $ sudo apt-get install cron 启动 cron $ service cron star 显示当前用户的计划文件内容 $ crontab -l 删除当前用户的计划任务文件 $ crontab -r 编辑(自定义) crontab任务文件 $ crontab -e 进入编辑环境时,有md文本编辑器和vim编辑器,下面介绍md编辑器 进入编辑环境后编写要定时的任务即可...

2020-06-19 19:34:27 833

原创 python 项目生成依赖关系文件|并使用依赖关系文件安装python包

安装 pipreqs 包 $ pip install pipreqs 生成依赖关系文件 $ cd <python项目目录>$ pipreqs ./ --encoding=utf8 # 默认在项目目录下生成 requirements.txt 文件 根据依赖关系文件 使用pip工具批量安装python包 $ pip install -r ./requirements.txt ...

2020-06-15 14:49:39 457

原创 tmux 使用总结

[感谢原文: http://www.ruanyifeng.com/blog/2019/10/tmux.html]Tmux 是一个终端复用器(terminal multiplexer),非常有用,属于常用的开发工具 安装tmux # Ubuntu 或 Debian$ sudo apt-get install tmux# CentOS 或 Fedora$ sudo yum...

2020-03-19 11:01:37 134

原创 python 模块介绍(1)

requests 模块 # 导入模块import requests# 发送post请求 url:请求目标的地址 json:请求的json格式的数据response = requests.post(url=get_account_url, json=body)# 接收返回的json格式的数据return_info = response.json() json...

2020-03-10 16:18:43 104

原创 python 基本知识总结2

设置脚本文件文件编码类型改为UTF-8的类型 # -*- coding: utf-8 -*- 字典的update()更新操作 dict_a = {"a": 1, "b": 2}dict_b = {"c": 3}dict_a.update(dict_b)print(dict_a)-------------------------{"a": 1, "b"...

2020-03-07 23:38:08 249

原创 python 使用SQLAlchemy 管理mysql数据库(未完)

安装mysql数据库 修改mysql,使得可远程登录 -- 修改mysql服务器的mysql数据库的 user 表中的 host字段update user set host = '%' where user = 'root';FLUSH RIVILEGESalter user 'root'@'%' identified with mysql_native_p...

2020-03-07 20:40:48 219

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除