wenfei1997-CSDN博客

原创 word2vec训练词向量参数选择

word2vec训练词向量参数选择链接：word2vec训练词向量参数选择

2022-09-27 10:47:31 328

原创正则表达式，取两个特定字符串中间的部分

正则表达式，取两个特定字符串中间的部分。

2022-09-15 13:51:32 1376

torch.backends.cudnn.deterministic = True #cpu/gpu结果一致。torch.backends.cudnn.benchmark = True #训练集变化不大时使训练加速。推荐下面的方法，上面的的方法计算梯度，但是并不反向传播，下面的方法既不计算梯度，也不反向传播，速度更快。原文链接：https://www.jb51.net/article/213787.htm。torch.cuda.manual_seed_all(seed) #并行gpu。

2022-09-13 11:31:17 1733

原创 Windows CMD常用命令大全（值得收藏

Windows CMD常用命令大全（值得收藏）Windows CMD常用命令大全（值得收藏）

2022-08-09 10:07:05 135

原创机器学习AUC指标的理解

AUC在机器学习领域中是一种模型评估指标，是指模型ROC曲线下的面积。分类器效果月AUC值成正比。即当分类器的分类效果越好的时候，ROC曲线下面积越大，AUC越大。从下面三张图看到，分类器效果越好（正负样本的分布的均值离得越远），AUC值越大（ROC曲线下的面积）其中，ROC是混淆矩阵中，以FPR为横坐标，TPR为纵坐标形成的曲线。...

2022-08-05 09:29:32 1394

原创用python request 请求实现爬虫

用python request 请求实现爬虫post请求https://blog.csdn.net/weixin_42485712/article/details/106280239?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522165277462416780357297079%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=1652

2022-05-17 16:27:38 410

原创 Python中None的判断用 is

Python中的NonePython里面None True False之间的区别

2022-02-21 16:48:10 560

原创 python del split json.loads小知识

python del split json.loads小知识删除df# 删除dfdel temp_df split的使用# split的使用，不保留分隔符，将字符串分割为一个字符串list。# 若保留分隔符可使用re.split,但re.split会把分隔符单独作为list中的一个值，会破坏原有的数据结构。# 建议的做法的把原有的分隔符替换，再进行分割。比如分隔符是"}, "，则替换成"},="，用“,=”进行分割。mail["title"] = mail["title"].apply(l

2022-02-17 14:21:57 388

原创 python pandas 将结果输出到excel的sheet页——pd.ExcelWriter

python pandas 将结果输出到excel的sheet页——pd.ExcelWriter# 声明一个读写对象writer# excelpath为文件要存放的路径writer = pd.ExcelWriter(r"C:\Users\00311458\PycharmProjects\pdlearn\各类型文件大小箱线图\mycode\result1.xlsx", engine='xlsxwriter')# 分别将表df1、df2、df3写入Excel中的sheet1、sheet2、sheet3

2021-11-05 15:04:04 6724 1

原创 Dataframe 多列字符串拼接成一列

用str.cat() 或者用“+” 拼接，注意要将na替换，否则结果拼接结果也是na df_merge2 = df_merge2.fillna('') # 将NA换成str，方便查NA df_merge2["异常类型"] = np.where(df_merge2['异常类型_1'] != '', df_merge2['异常类型_1'], '') + \ np.where(df_merge2['异常类型_2'] != '', ' ' + df_merge2['

2021-10-19 17:20:52 2909

原创 df中一列list拆成多列

df中一列list拆成多列方法1 方法2实测方法2 在数据量大时更有效 result = pd.DataFrame(all_log["mail_attach"].values.tolist(), columns=['mail_attach_name', 'mail_attach_ordinal', 'mail_attach_name_suffix', "mail_attac

2021-10-12 16:47:45 1400

原创将单行数据拆分到多行

将单行数据拆分到多行id科目1数学、英语2语文、英语转换成id科目1数学1英语2语文2英语all_log = all_log.drop("科目", axis=1).join( all_log['科目'].str.split('、', expand=True).stack().reset_index(level=1, drop=True).rename('枯木'))...

2021-10-11 09:14:05 241

原创 python3 dataframe中列数据为字典，拆分成多列或转存某个关键字的值

python3 dataframe中列数据为字典，拆分成多列或转存某个关键字的值文章地址

2021-09-28 11:57:45 1008

原创 python库matplotlib之plt画子图

python库matplotlib之plt画子图文章来源

2021-09-23 09:05:02 421

原创 append()函数是会修改自身的，并且返回None，所以根本不能用变量去接收它

append()函数是会修改自身的，并且返回None，所以根本不能用变量去接收它转载文章来源

2021-09-22 17:09:31 276

原创 python关于inplace=True后，df为none的原因

**python关于inplace=True后，df为none的原因https://blog.csdn.net/IT_charge/article/details/118874532?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522163184729616780271574553%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&requ

2021-09-17 10:58:24 739

原创 python Dataframe 根据某一列数据的值修改另一列的值

df.loc[(df[“Height”]<0.00244), “Height_type”] = “A”

2021-09-16 17:53:34 6077

原创 elastic search小白学习代码（1）

1.创建非结构化索引put /haoke{ "settings":{ "index":{ "number_of_shards":"2", "number_of_replicas":"0" } }}2.删除索引delete/haoke3.mapping创建结构化索引put /itcast{ "settings":{ "index":{ .

2021-07-21 11:00:41 129

原创 java学习笔记（小白学习）

chapter1java基础dk jre jvm[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xpoFWGY9-1621587586531)(C:\Users\phoeb\AppData\Roaming\Typora\typora-user-images\image-20210428153654241.png)]hello world1.创建一个java文件2.编写代码3.编译javac java文件，会生成一个class文件4.运行class文件，java c

2021-05-21 17:01:03 380 2

原创数据仓库-知识点-思维导图1

数据仓库-知识点-思维导图1

2020-10-15 11:19:42 786 2

原创数据分析-numpy-知识点-思维导图

数据分析-numpy-知识点-思维导图

2020-10-15 11:17:28 271

原创数据分析-pandas-Series，DataFrame-知识点-思维导图

数据分析-numpy-Series，DataFrame-知识点-思维导图

2020-10-15 11:15:40 291

原创如何建立数据指标体系

数据指标体系做数据分析的时候，有一个很重要的过程，就是搭建数据指标体系。对于指标体系，在某些出版物中是这么定义的，指标体系，是由一系列具有相互联系的指标所组成的整体，可以从不同的角度客观的反映现象总体或样本的数量特征。指标体系中的指标彼此间要存在逻辑关系，单独一个指标或毫无关系的指标都不能称作指标体系。1.指标架构按照不同的意识形态，构建不同的指标架构。理解与认知需要一个主体，而主体圈定范围。目前互联网公司基本都有自己的CRM、ERP、OA等信息管理系统，这是以公司为主体，组织层面根据业务搭建管理系统

2020-09-18 19:45:21 2704

转载数据仓库hive调优经验总结

hive是数据仓库，主要涉及到对海量数据的存储和读取，以及数据的处理。数据的存储和读取基本是基于hadoop的hdfs，所以要进行的优化就是提高数据的传输速度，可以通过配置参数（map和reduce阶段），优化hive的性能（如：在map阶段设置task的数量mapred.min.split.size:通过调整max可以起到调整map数的作用，减小max可以增加map数，增大max可以减少map数。）。数据的处理就是hsql，hsql本质上是转换为mapreduce来处理数据，对于性能的优化，就是一些

2020-09-18 19:32:55 247

原创 python流程控制结构---if else 、while、for

python流程控制结构—if else 、while、for#一、选择流程————if 选择分支语句'''单分支if 条件表达式: 比较运算符逻辑运算符/符合的条件表达式代码指令 .... '''score=60if score <=60: print("你的成绩为：\n%d"%(score)) print('failed') pass #空语句print('语句运行结束')'''---------------------------

2020-09-11 11:26:59 214

原创 python 数据类型——字符串str、列表list、元组tuple、字典dict

python 数据类型——字符串str、列表list、元组tuple、字典dict#---------------------字符串str------------------------------------'''python的序列：一组按照顺序排列的值【数据集合】在python中存在三种内置的序列类型字符串、列表、元组优点：支持索引和切片的操作特征：第一个正索引为0，指向的是左端，第一个索引为负数的时候，指向的是右端切片：截取字符串中的一段内容，支持下标切片的使用语法：[起始下标:结

2020-09-11 11:18:13 310

原创 python的输入与输出字符串格式化与input

python的输入与输出字符串格式化与input#python的输入与输出字符串格式化与inputname=input("请输入您的姓名：")QQ=input("请输入您的QQ：")phone=input("请输入您的电话：")adress=input("请输入您的地址：")print("姓名：{}\nQQ：{}\n电话：{}\n家庭地址：{}\n-----您的信息录入完毕-----".format(name, QQ,phone,adress))name=input("请输入您的姓名：

2020-09-08 17:13:14 316

原创数据仓库的四个特性、主流架构

数据仓库的四个特性1.面向主题：数据仓库的数据按照一定的主题域进行组织。2.集成性：数据仓库的数据是从原有分散的数据库中抽取、清洗、消除数据的不一致性。（不一致性来自于异构的数据源）3.不可更新：企业主要是利用数据仓库中的历史数据进行分析决策，所以数仓中的数据很少会被修改或删除，只需定期加载和刷新。4.反映历史变化：数据仓库中有一个时间维度，记录数据的历史轨迹，通过历史数据，可以做定量分析和预测数据仓库主流架构：数据缓冲层：将数据从数据源导入数据仓库。操作数据存储：按照业务归属存储数据，同时对

2020-09-04 11:35:36 1933

原创数据库常用缩写

数据库常用缩写Data：数据DataBase（DB）：数据库DataBase Management System（DBMS）：数据库管理系统Data Definition Language （DDL）：数据定义语言Data Manipulation Language（DML）：数据操纵语言Data Control Language(DCL)：数据控制语言DataBase System（DBS）：数据库系统：指在计算机系统中引入数据库后的系统，一般由数据库、数据库管理系统（及其开发工具）、应

2020-09-04 10:14:21 9698

原创数据管道（data pipeline）和ETL管道（ETL pipeline）的概念和区别

数据管道（data pipeline）和ETL管道（ETL pipeline）的概念和区别ETL管道：将数据从系统中抽取出来加载到数据仓库或者数据库中，再对其进行转换，这个过程就是ETL管道。数据管道是比ETL管道更通用的概念，只要是实现系统之间数据迁移的处理过程就可以称为数据管道。数据管道并不一定以将数据加载到数据库或数据仓库为结束，举个例子，它也可以通过webhook的方式来触发其他业务系统的业务流程。...

2020-09-04 09:54:51 2896

原创数据仓库——ODS/stg层数据漂移问题

数据仓库——ODS/stg层数据漂移问题数据漂移是ODS数据的一个顽疾，通常是指ODS表的同一个业务日期数据中包含前一天或后一天凌晨附近的数据或者丢失当天变更数据。数据漂移的处理方式：1）多获取后一天的数据2）通过多个时间戳字段限制时间来获取相对准确的数据。...

2020-08-29 21:34:32 2463

原创数据仓库的数据体系和数据加工链路

数据仓库的数据体系和数据加工链路1. 数据体系数据仓库的数据体系主要分为数据采集、数据计算、数据服务和数据应用。1）数据采集层数据采集体系包括web端日志采集技术方案和app端日志采集技术方案。数据采集分为日志采集和数据库数据同步两部分。对大数据系统而言，数据同步指数据从业务系统同步进入数据仓库和数据从数据仓库同步进入数据服务和数据应用两个方面。2）数据计算层数据计算层包括Maxcompute离线计算平台、Streamcompute实时计算平台、Onedata数据整合及管理体系。从数据计算频率的角

2020-08-27 17:21:31 1314

原创数仓整体架构体会

数仓整体架构体会1.数据仓库的stg阶段的数据来源于日志采集和离线数据采集。对离线数据开发，包括数据开发平台和任务调度系统，数据开发平台对数据进行计算和整理，任务调度系统对作业进行调度，调度方式包括时间触发、依赖触发和时间+依赖出发。作业的状态有成功、准备中和等待（附任务未完成）。2.在odm层、idm层和sdm层建立数据模型，对数据进行开发。数据模型是指数据组织和存储方法，强调从业务、数据存取、使用角度来合理存储数据。建立数据模型的方法包括维度建模和三范式建模，根据不同的需求建立选择不同的模型。

2020-08-27 16:54:09 380

不均衡数据资料--自用

MySQL学习资料知识点总结.pdf

空空如也