自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(59)
  • 资源 (2)
  • 收藏
  • 关注

原创 文本分类综述博客

文本分类综述博客:博客链接

2022-10-09 11:12:07 155 1

原创 word2vec训练词向量 参数选择

word2vec训练词向量 参数选择 链接:word2vec训练词向量 参数选择

2022-09-27 10:47:31 328

原创 正则表达式,取两个特定字符串中间的部分

正则表达式,取两个特定字符串中间的部分。

2022-09-15 13:51:32 1376

原创 pytorch预测之解决多次预测结果不一致问题

torch.backends.cudnn.deterministic = True #cpu/gpu结果一致。torch.backends.cudnn.benchmark = True #训练集变化不大时使训练加速。推荐下面的方法,上面的的方法计算梯度,但是并不反向传播,下面的方法既不计算梯度,也不反向传播,速度更快。原文链接:https://www.jb51.net/article/213787.htm。torch.cuda.manual_seed_all(seed) #并行gpu。

2022-09-13 11:31:17 1733

原创 Windows CMD常用命令大全(值得收藏

Windows CMD常用命令大全(值得收藏)Windows CMD常用命令大全(值得收藏)

2022-08-09 10:07:05 135

原创 机器学习AUC指标的理解

AUC在机器学习领域中是一种模型评估指标,是指模型ROC曲线下的面积。分类器效果月AUC值成正比。即当分类器的分类效果越好的时候,ROC曲线下面积越大,AUC越大。从下面三张图看到,分类器效果越好(正负样本的分布的均值离得越远),AUC值越大(ROC曲线下的面积)其中,ROC是混淆矩阵中,以FPR为横坐标,TPR为纵坐标形成的曲线。...

2022-08-05 09:29:32 1394

原创 用python request 请求实现爬虫

用python request 请求实现爬虫post请求https://blog.csdn.net/weixin_42485712/article/details/106280239?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522165277462416780357297079%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=1652

2022-05-17 16:27:38 410

原创 Python中None的判断用 is

Python中的NonePython里面None True False之间的区别

2022-02-21 16:48:10 560

原创 python del split json.loads小知识

python del split json.loads小知识删除df# 删除dfdel temp_df split的使用# split的使用,不保留分隔符,将字符串分割为一个字符串list。# 若保留分隔符可使用re.split,但re.split会把分隔符单独作为list中的一个值,会破坏原有的数据结构。# 建议的做法的把原有的分隔符替换,再进行分割。比如分隔符是"}, ",则替换成"},=",用“,=”进行分割。mail["title"] = mail["title"].apply(l

2022-02-17 14:21:57 388

原创 python pandas 将结果输出到excel的sheet页——pd.ExcelWriter

python pandas 将结果输出到excel的sheet页——pd.ExcelWriter# 声明一个读写对象writer# excelpath为文件要存放的路径writer = pd.ExcelWriter(r"C:\Users\00311458\PycharmProjects\pdlearn\各类型文件大小箱线图\mycode\result1.xlsx", engine='xlsxwriter')# 分别将表df1、df2、df3写入Excel中的sheet1、sheet2、sheet3

2021-11-05 15:04:04 6724 1

原创 Dataframe 多列字符串拼接成一列

用str.cat() 或者用“+” 拼接,注意要将na替换,否则结果拼接结果也是na df_merge2 = df_merge2.fillna('') # 将NA换成str,方便查NA df_merge2["异常类型"] = np.where(df_merge2['异常类型_1'] != '', df_merge2['异常类型_1'], '') + \ np.where(df_merge2['异常类型_2'] != '', ' ' + df_merge2['

2021-10-19 17:20:52 2909

原创 df中一列list拆成多列

df中一列list拆成多列方法1 方法2实测方法2 在数据量大时更有效 result = pd.DataFrame(all_log["mail_attach"].values.tolist(), columns=['mail_attach_name', 'mail_attach_ordinal', 'mail_attach_name_suffix', "mail_attac

2021-10-12 16:47:45 1400

原创 将单行数据拆分到多行

将单行数据拆分到多行id科目1数学、英语2语文、英语转换成id科目1数学1英语2语文2英语all_log = all_log.drop("科目", axis=1).join( all_log['科目'].str.split('、', expand=True).stack().reset_index(level=1, drop=True).rename('枯木'))...

2021-10-11 09:14:05 241

原创 python3 dataframe中列数据为字典,拆分成多列或转存某个关键字的值

python3 dataframe中列数据为字典,拆分成多列或转存某个关键字的值文章地址

2021-09-28 11:57:45 1008

原创 python库matplotlib之plt画子图

python库matplotlib之plt画子图文章来源

2021-09-23 09:05:02 421

原创 append()函数是会修改自身的,并且返回None,所以根本不能用变量去接收它

append()函数是会修改自身的,并且返回None,所以根本不能用变量去接收它转载文章来源

2021-09-22 17:09:31 276

原创 python关于inplace=True后,df为none的原因

**python关于inplace=True后,df为none的原因https://blog.csdn.net/IT_charge/article/details/118874532?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522163184729616780271574553%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&requ

2021-09-17 10:58:24 739

原创 python Dataframe 根据某一列数据的值修改另一列的值

df.loc[(df[“Height”]<0.00244), “Height_type”] = “A”

2021-09-16 17:53:34 6077

原创 elastic search小白学习代码(1)

1.创建非结构化索引put /haoke{ "settings":{ "index":{ "number_of_shards":"2", "number_of_replicas":"0" } }}2.删除索引delete/haoke3.mapping创建结构化索引put /itcast{ "settings":{ "index":{ .

2021-07-21 11:00:41 129

原创 java学习笔记(小白学习)

chapter1java基础dk jre jvm[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xpoFWGY9-1621587586531)(C:\Users\phoeb\AppData\Roaming\Typora\typora-user-images\image-20210428153654241.png)]hello world1.创建一个java文件2.编写代码3.编译javac java文件,会生成一个class文件4.运行class文件,java c

2021-05-21 17:01:03 380 2

原创 数据仓库-知识点-思维导图1

数据仓库-知识点-思维导图1

2020-10-15 11:19:42 786 2

原创 数据分析-numpy-知识点-思维导图

数据分析-numpy-知识点-思维导图

2020-10-15 11:17:28 271

原创 数据分析-pandas-Series,DataFrame-知识点-思维导图

数据分析-numpy-Series,DataFrame-知识点-思维导图

2020-10-15 11:15:40 291

原创 如何建立数据指标体系

数据指标体系做数据分析的时候,有一个很重要的过程,就是搭建数据指标体系。对于指标体系,在某些出版物中是这么定义的,指标体系,是由一系列具有相互联系的指标所组成的整体,可以从不同的角度客观的反映现象总体或样本的数量特征。指标体系中的指标彼此间要存在逻辑关系,单独一个指标或毫无关系的指标都不能称作指标体系。1.指标架构按照不同的意识形态,构建不同的指标架构。理解与认知需要一个主体,而主体圈定范围。目前互联网公司基本都有自己的CRM、ERP、OA等信息管理系统,这是以公司为主体,组织层面根据业务搭建管理系统

2020-09-18 19:45:21 2704

转载 数据仓库hive调优经验总结

hive是数据仓库,主要涉及到对海量数据的存储和读取,以及数据的处理。数据的存储和读取基本是基于hadoop的hdfs,所以要进行的优化就是提高数据的传输速度,可以通过配置参数(map和reduce阶段),优化hive的性能(如:在map阶段设置task的数量mapred.min.split.size:通过调整max可以起到调整map数的作用,减小max可以增加map数,增大max可以减少map数。)。数据的处理就是hsql,hsql本质上是转换为mapreduce来处理数据,对于性能的优化,就是一些

2020-09-18 19:32:55 247

原创 python流程控制结构---if else 、while、for

python流程控制结构—if else 、while、for#一、选择流程————if 选择分支语句'''单分支if 条件表达式: 比较运算符 逻辑运算符/符合的条件表达式 代码指令 .... '''score=60if score <=60: print("你的成绩为:\n%d"%(score)) print('failed') pass #空语句print('语句运行结束')'''---------------------------

2020-09-11 11:26:59 214

原创 python 数据类型——字符串str、列表list、元组tuple、字典dict

python 数据类型——字符串str、列表list、元组tuple、字典dict#---------------------字符串str------------------------------------'''python的序列:一组按照顺序排列的值【数据集合】在python中存在三种内置的序列类型字符串、列表、元组优点:支持索引和切片的操作特征:第一个正索引为0,指向的是左端,第一个索引为负数的时候,指向的是右端切片:截取字符串中的一段内容,支持下标切片的使用语法:[起始下标:结

2020-09-11 11:18:13 310

原创 python的输入与输出 字符串格式化与input

python的输入与输出 字符串格式化与input#python的输入与输出 字符串格式化与inputname=input("请输入您的姓名:")QQ=input("请输入您的QQ:")phone=input("请输入您的电话:")adress=input("请输入您的地址:")print("姓名:{}\nQQ:{}\n电话:{}\n家庭地址:{}\n-----您的信息录入完毕-----".format(name, QQ,phone,adress))name=input("请输入您的姓名:

2020-09-08 17:13:14 316

原创 数据仓库的四个特性、主流架构

数据仓库的四个特性1.面向主题:数据仓库的数据按照一定的主题域进行组织。2.集成性:数据仓库的数据是从原有分散的数据库中抽取、清洗、消除数据的不一致性。(不一致性来自于异构的数据源)3.不可更新:企业主要是利用数据仓库中的历史数据进行分析决策,所以数仓中的数据很少会被修改或删除,只需定期加载和刷新。4.反映历史变化:数据仓库中有一个时间维度,记录数据的历史轨迹,通过历史数据,可以做定量分析和预测数据仓库主流架构:数据缓冲层:将数据从数据源导入数据仓库。操作数据存储:按照业务归属存储数据,同时对

2020-09-04 11:35:36 1933

原创 数据库 常用缩写

数据库 常用缩写Data:数据DataBase(DB):数据库DataBase Management System(DBMS) :数据库管理系统Data Definition Language (DDL):数据定义语言Data Manipulation Language(DML):数据操纵语言Data Control Language(DCL):数据控制语言DataBase System(DBS):数据库系统:指在计算机系统中引入数据库后的系统,一般由数据库、数据库管理系统(及其开发工具)、应

2020-09-04 10:14:21 9698

原创 数据管道(data pipeline)和ETL管道(ETL pipeline)的概念和区别

数据管道(data pipeline)和ETL管道(ETL pipeline)的概念和区别ETL管道:将数据从系统中抽取出来加载到数据仓库或者数据库中,再对其进行转换,这个过程就是ETL管道。数据管道是比ETL管道更通用的概念,只要是实现系统之间数据迁移的处理过程就可以称为数据管道。数据管道并不一定以将数据加载到数据库或数据仓库为结束,举个例子,它也可以通过webhook的方式来触发其他业务系统的业务流程。...

2020-09-04 09:54:51 2896

原创 数据仓库——ODS/stg层数据漂移问题

数据仓库——ODS/stg层数据漂移问题数据漂移是ODS数据的一个顽疾,通常是指ODS表的同一个业务日期数据中包含前一天或后一天凌晨附近的数据或者丢失当天变更数据。数据漂移的处理方式:1)多获取后一天的数据2)通过多个时间戳字段限制时间来获取相对准确的数据。...

2020-08-29 21:34:32 2463

原创 数据仓库的数据体系和数据加工链路

数据仓库的数据体系和数据加工链路1. 数据体系数据仓库的数据体系主要分为数据采集、数据计算、数据服务和数据应用。1)数据采集层数据采集体系包括web端日志采集技术方案和app端日志采集技术方案。数据采集分为日志采集和数据库数据同步两部分。对大数据系统而言,数据同步指数据从业务系统同步进入数据仓库和数据从数据仓库同步进入数据服务和数据应用两个方面。2)数据计算层数据计算层包括Maxcompute离线计算平台、Streamcompute实时计算平台、Onedata数据整合及管理体系。从数据计算频率的角

2020-08-27 17:21:31 1314

原创 数仓整体架构体会

数仓整体架构体会1.数据仓库的stg阶段的数据来源于日志采集和离线数据采集。对离线数据开发,包括数据开发平台和任务调度系统,数据开发平台对数据进行计算和整理,任务调度系统对作业进行调度,调度方式包括时间触发、依赖触发和时间+依赖出发。作业的状态有成功、准备中和等待(附任务未完成)。2.在odm层、idm层和sdm层建立数据模型,对数据进行开发。数据模型是指数据组织和存储方法,强调从业务、数据存取、使用角度来合理存储数据。建立数据模型的方法包括维度建模和三范式建模,根据不同的需求建立选择不同的模型。

2020-08-27 16:54:09 380

原创 excel函数——vlookup()函数

excel函数——vlookup()函数vlookup()函数是Excel中的一个纵向查找函数,可以用来进行数据核对,多个表格之间的数据进行快速引用,动态表格的制作等它主要包括四个参数。近似查找会选择小于查找内容的最大值一般对查询区域进行绝对引用,可以有效避免拖动公式带来的数据报错。1)lookup_value:要查找的值数值、引用或文本字符串2)table_array :要查找的区域数据表区域3)col_index_num: 返回数据在查找区域的第几列数正整数4)range_lookup :

2020-08-27 16:50:51 337

原创 hive常用函数

hive常用函数1)#round()四舍五入select round(1.3);2) #Ceil()向上取整select ceil(4.1);3) #sqrt()开平方根select sqrt(1.2)4) #abs()取绝对值select abs(-3)5) #greatest()取一组数中的最大值select greatest(1.2, 3, 2)6) #least()取一组数中的最小值select least(1.2, 3, 2)7) #cast(…

2020-08-27 16:45:55 850

原创 sql语法中group by 和having子句,用select嵌套查询来替代

sql语法中group by 和having子句,用select嵌套查询来替代擅用嵌套查询1)group by是分组聚合函数,与having连用,having是对分组计算后的字段进行筛选,必须与group by连用。2)where子句是对from中的数据进行过滤,where中的字段必须是from中的字段,当要过滤的字段不在from中时而在select中时,可以用select嵌套。如:select T.name,T.avg_scorefrom (select name,avg(score)

2020-08-27 16:44:08 2532

原创 hive中排名函数row_number() over()、rank() over()、dense_rank() over()

hive中排名函数row_number() over()、rank() over()、dense_rank() over()1)row_number() over()函数row_number() OVER (PARTITION BY COL1 ORDER BY COL2 [desc])表示根据COL1分组,在分组内部根据 COL2排序,而此函数计算的值就表示每组内部排序后的顺序编号(组内连续的唯一的)empid deptid salary1 10

2020-08-27 16:22:08 1376

原创 数据仓库——存储优化管理方法

数据仓库——存储优化管理方法存储优化管理的方式包括数据压缩、数据重分布、存储治理项优化、生命周期管理等方法。数据压缩在分布式文件系统中,会将数据存储3份,这意味着存储1TB的逻辑数据,实际上会占用3TB的物理空间。使用盘古RAID file格式的文件,将存储比从1:3提高至1:1.5。这样做的缺点是数据块损坏时的修复时间比原来更长,读的性能也有损失。数据重分布由于每个表的数据分布不同,插入顺序不同,导致压缩效果有很大的差异,通过修改表的数据重分布(distribute by, sort by字段

2020-08-27 16:20:24 849 1

原创 mysql中截取字符串——substring的用法

mysql中截取字符串——substring的用法substring(x,startindex,length)SELECT substring("qwrew",2,2);wr

2020-08-27 16:15:47 481

不均衡数据资料--自用

不均衡数据资料--自用

2022-01-19

MySQL学习资料知识点总结.pdf

mysql知识点汇总,面试100问,资料不错,与大家共享。

2020-10-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除