竹竹竹～-CSDN博客

原创 pandas-dataframe-输出显示全部行列

PS：行数过多容易卡，不关注全部行列的时候可以注释掉相关部分。

2024-02-26 14:10:11 477

原创 Linux-查看虚拟环境

conda activate 虚拟环境名称。3.查看虚拟环境中安装了哪些python包。1.查看自己的虚拟环境。

2024-02-25 10:26:14 533

原创 Excel-批量替换

批量替换：点击编辑->点击查找->点击替换->填写好内容->点击全部替换。

2024-02-25 10:17:49 373

例子中value表示我们想取分位数的列值；nums为分区总行数；如果没有分区需求，去掉dt相关的部分即可。最终结果是取了value的0.25分位，0.5分位，0.75分位，0.9分位。具体想取多少分位，直接改数值即可。如果有分区需求，筛选排序值 = 分区总数 * 分位数，则可以得到每个分区的分位数；没有分区需求，筛选排序值 = 总行数 * 分位数，则可以得到分位数。如果有分区需求，先对数据分区排序；没有分区需求，则直接对数据排序。如果有分区需求，求每个分区的总数；没有分区需求，则直接求总行数。

2024-02-01 11:56:28 1019 1

原创常用SQL —— presto SQL 消除科学记数法，保留2位小数

【代码】常用SQL —— presto SQL 消除科学记数法，保留2位小数。

2024-02-01 11:11:21 449

原创常用SQL——concat_ws字符串拼接

【代码】常用SQL——concat_ws字符串拼接。

2024-02-01 10:34:01 343

原创 python-sql-spark常用操作

distinct用来查询不重复记录的条数,即用distinct来返回不重复字段的条数（count(distinct id)）,其原因是distinct只能返回他的目标字段，而无法返回其他字段。可以直接运行select rand() 获取0~1之间的float型的数字，类似的，如果想获得例如1~100之间的整数随机数可以运行 select round(100*rand(),0)group by， order by 后面跟数字，指的是 select 后面选择的列（属性），1 代表第一个列（属性），依次类推。

2023-12-07 11:29:29 1150

原创 PSO粒子群算法

（1）对于有多个局部极值点的函数，容易陷入到局部极值点中，得不到正确的结果。造成这种问题的原因是PSO算法并没有很充分地利用计算过程中获得的信息，在每一步迭代中，仅仅利用了群体最优和个体最优的信息。（4）PSO算法是一种启发式的仿生优化算法，当前还没有严格的理论基础，仅仅是通过对某种群体搜索现象的简化模拟而设计的，但并没有从原理上说明这种算法为什么有效，以及它适用的范围。粒子群算法也是多目标搜索，有利于得到多目标意义下的最优解，可以并行的探索多个非劣解，也探索到多个pareto解。

2023-12-06 15:52:59 539

原创 ItemCF召回

内容：itemCF算法通过计算用户的历史行为记录，来分析物品之间的相似度：如果喜欢物品a的用户大多数也喜欢物品b，那么认为物品A与物品B具有一定的相似度。精度（准确率和召回率）：准确率和召回率与参数k并不呈正相关或者负相关，但是选择合适的K对于获得推荐系统高的精度比较重要。流行度：随着K的增大，推荐结果的流行度会逐渐提高，但是当K增加到一定的程度，流行度就不会再有明显变化。除此之外，不同领域的最热门物品之间的相似度往往也是很高的。活跃的用户，相比起不活跃的用户而言，对物品之间相似度的贡献更小。

2023-12-06 15:42:59 409

原创 RTB召回系统

美团DSP广告策略实践：https://tech.meituan.com/2017/05/05/mt-dsp.html。广告召回系统的演进：https://zhuanlan.zhihu.com/p/110112102。

2023-12-06 15:41:23 353

原创 DML算法

在double-log的基础上对数据进行去偏处理后再建模。

2023-12-06 15:15:07 404

原创 VNS-变邻域搜索算法

变邻域搜索算法（VNS）就是一种改进型的局部搜索算法。它利用不同的动作构成的邻域结构进行交替搜索，在集中性和疏散性之间达到很好的平衡。其思想可以概括为“变则通”。变邻域搜索算法依赖于以下事实：1) 一个邻域结构的局部最优解不一定是另一个邻域结构的局部最优解。2) 全局最优解是所有可能邻域的局部最优解。变邻域搜索算法主要由以下两个部分组成：1) VARIABLE NEIGHBORHOOD DESCENT (VND) 变邻域下降2) SHAKING PROCEDURE 震荡程序。

2023-12-06 15:06:03 1201

原创树模型与深度模型对比

同上：https://fesian.blog.csdn.net/article/details/126798583?为什么基于树的模型在表格数据上仍然优于深度学习：https://blog.csdn.net/deephub/article/details/126580032。

2023-12-06 11:08:48 431

原创多场景多任务优化

一种面向多场景多任务优化的自动稀疏专家选择方法，它通过简洁有效的架构，实现了样本级细颗粒度的自动网络结构学习，对各种场景结构有较强的普适性。论文已被 SIGIR2022 录用，同时已经在支付宝数金搜索场景上进行了全流量推全，获得了显著的业务效果。

2023-12-06 11:06:47 321

原创盒马补贴量价-2021KDD

电商商品定价三个关键问题：在只有观测数据的时候，怎么构建价格弹性，现在来看这就是一个反事实推断的问题，不仅是如何做的问题，还有如何评估的问题。长周期的规划决策问题怎么建模 & 求解，如何在决策优化中考虑不确定性。这种pricing的问题，在现实世界中如何做A/B、如何科学评估效果。采取促销时，使得利润最优的价格折扣应该是多少？（关于价格弹性曲线拟合以及价格优化）易腐商品多个阶段的动态定价问题。这个问题中需求学习的主要挑战在大部分商品的价格并不会经常变动，甚至从未变动过。

2023-12-06 10:59:05 1013

原创常用SQL——IF介绍

在MySQL中，`IF`函数接受一个条件表达式，如果条件为真，则返回`true_value`，否则返回`false_value`。下面是一个简单的教程，介绍如何在不同的数据库中使用`IF`语句。上述示例中，如果`students`表中存在`score`大于等于60的记录，则返回'及格'，否则返回'不及格'。上述示例中，如果`students`表中存在`score`大于等于60的记录，则输出'及格'，否则输出'不及格'。上述示例中，如果`score`列的值大于等于60，则返回'及格'，否则返回'不及格'。

2023-11-10 14:54:43 3769

原创进阶SQL——数据表中多列按照指定格式拼接，并将多行内容合并为map拼接

1. `collect_set(concat_ws(':',modelname,score))`：首先，使用`concat_ws()`函数将`modelname`和`score`两列的值以冒号为分隔符拼接在一起，然后使用`collect_set()`函数将拼接后的字符串进行去重，得到一个包含唯一值的集合。接下来，使用Spark SQL语句将字符串转换为Map类型，并将结果赋值给`result`变量。4. `as score_map`：最后，将转换后的Map类型赋值给一个名为`score_map`的别名。

2023-11-10 14:49:39 610

原创常用SQL——设置浮点数保留几位小数

【代码】常用SQL——设置浮点数保留几位小数

2023-11-10 14:37:19 216

原创常用SQL——row_number()介绍

其中，碰到相同的值，排序的序号不会重复，而是按照相同的值随机排序，递增进行序号编码。如果是升序排序，则去掉上面示例中的“DESC”即可。上述示例中的ro_no即为排序序号。

2023-11-10 14:31:24 1022

原创常用SQL——CASE WHEN 介绍

【代码】常用SQL——CASE WHEN 介绍

2023-11-10 14:22:25 19

原创 python格式化输出

python格式化输出

2022-12-05 22:15:48 403 1

原创 PSO实战

PSO实战，代码可执行

2022-12-05 22:03:55 168

原创 pandas、dataframe-获取某列等于指定值的行、获取指定行列

dataframe获取某列等于指定值的指定行；dataframe获取指定行列的数据。

2022-12-05 21:44:15 366

原创 python常用时间处理

获取今天的日期，t-1、t-2、t+1的日期；计算两个日期字符串之间的间隔天数

2022-12-05 21:34:00 391

原创 pyspark sql大数据处理常用操作

常用建表语句，设置分区并设置表内容存储方式；数据转成Dataframe，并创建临时表，插入到数据库表中；toPanda()操作展示数据不完全解决方法；sql查询出来的数据创建临时表并缓存。

2022-12-05 21:29:15 889

原创 Python dict强制转化元组（key重复问题）

使用dict强制将元组转化为dict，如果碰到key重复问题，Python内部会如何解决？解决方式如上图实验所示：如果元组转为dict后key重复，则后面的key-value会覆盖前面的key-value。

2022-02-21 19:51:41 1088

原创 Python正则忽略大小写（两种解决方案介绍）

方法一：利用包re中的函数来进行大小写忽略，示例如下：re.compile(pattern，re.IGNORECASE)re.search(pattern, mystring, re.IGNORECASE)其中，re.IGNORECASE是compile的flag参数。默认是识别正则中字母的大小写。注意：IGNORECASE必须是大写，小写无效。加上该参数之后，可以找出正则中的字母的大写和小写情况。方法二：利用正则表达式来进行大小写忽略，示例如下：re.search(r'

2022-02-21 19:47:00 13025

原创 MySQL命令行基础操作

从无到有创建自己的数据库和数据表基础操作：连接数据库：mysql -h地址-u用户名--port=端口号-p 当mysql显示Enter password:提示时，输入密码。退出数据库交互界面：QUIT 查找服务器上当前存在的数据库：SHOW DATABASES; 创建数据库：CREATE DATABASE menagerie; 使用数据库：USE menagerie 查看当前数据库下的表情况：SHOW TABLES; 创建表： ...

2020-11-16 21:46:36 144

原创 phpMyAdmin批量导入数据内容到MySQL数据库失败

按照常规流程来进行数据批量导入，但是导入失败。可以从以下几个点检查，逐一排除失败原因。1. excel数据另存为csv数据，数据用逗号分隔。2. csv数据的数据编码方式是否与MySQL数据一致，比如都设置为utf-8编码。检查csv数据是否是utf-8的方法：在终端输入：file -s xxxxxxxx.csv 查看结果是否为utf-8编码，如果不是，则修改为utf-8编码。3. csv数据中每列的顺序是否与MySQL中要导入的表中列的顺序一致，如果不一致，需要修改为一致。MySQ

2020-11-06 00:26:13 718

原创 Excel-从可参考行列里为指定列内容匹配结果：vlookup操作

批量替换点击编辑->点击查找->点击替换->填写好内容->点击全部替换

2020-11-04 16:59:05 242

原创 python中对复杂格式的时间进行排序

import datetime# 按照时间顺序排列会话内容chat_record = {'1':{'time':'2019-07-29 23:43:50', 'role':2},'2':{'time':'2020-07-29 23:43:51', 'role':2},'3':{'time':'2020-07-29 23:43:50', 'role':2}}chat_key = chat_record.keys()for temp in chat_key: chat_record[temp].

2020-10-10 16:28:19 536

原创 Python3转Python2踩坑记录

虽然目前Python3已经全面使用，但是工程项目中为了兼顾之前的代码，还是会继续采用Python2，这就会使得用惯了Python3的我们可能需要经常进行Python3转Python2的操作，故把踩坑经验记录在这里，不定期更新。print问题和编码问题混合除法问题...

2020-09-27 13:39:59 506

原创 LeetCode-108-将有序数组转换为二叉搜索树

题目：分析：二叉搜索树：二叉查找树（Binary Search Tree），（又：二叉搜索树，二叉排序树）它或者是一棵空树，或者是具有下列性质的二叉树：若它的左子树不空，则左子树上所有结点的值均小于它的根结点的值；若它的右子树不空，则右子树上所有结点的值均大于它的根结点的值；它的左、右子树也分别为二叉排序树。二叉搜索树作为一种经典的数据结构，它既有链表的快速插入与删除操作的特点，又有数组快速查找的优势；所以应用十分广泛，例如在文件系统和数据库系统一般会采用这种数据结构进行高效率的排序与检索

2020-07-04 10:48:15 87

原创 LeetCode-32-最长有效括号

题目：python3代码如下：class Solution: def longestValidParentheses(self, s: str) -> int: nstack = [] start = 0 maxlen = 0 for i in range(len(s)): if s[i] == '(': nstack.append(i)

2020-07-04 09:59:20 148

原创用TorchSnooper工具解决pytorch代码常见错误

在pytorch代码编写过程中，经常容易碰到一类错误，比如：RuntimeError: Expected object of scalar type Float but got scalar type Double for argument #4 'mat1' Expected object of backend CPU but got backend CUDA for sequence...

2020-04-01 10:26:24 683

原创 RuntimeError: "softmax" not implemented for 'torch.LongTensor'

写了一小段代码来进行pytorch中tensor的维度变换实验，实验代码如下所示：import torchimport numpy as npa = np.array([[[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]], [[11, 12, 13, 14, 15], [16, 17, 18, 19, 20]], [[21, 22, 23, 24, 25], [26...

2020-04-01 10:01:38 6039 2

原创 linux下载工具：使用 axel 代替 wget！axel最通用安装方式（无sudo权限安装axel）！！！

背景：从网页往服务器下载39G数据，一开始使用wget命令，总是中断。改为 wget -t 0 -curl后，默认会重试20次, -t 0 会让他一直重试，直到把我的文件下载完成。但发现还是中断了，错误原因：cannotwriteto ‘file_name’ (success)。猜测原因：wget版本较低，服务器上安装的版本 wget -c有bug（即断点重传指令有bug）...

2019-10-27 12:10:07 2430

原创 h5文件小白入门基础操作——H5PY快速入门指南

下述内容根据官方文档翻译而来，官方文档链接如下：http://docs.h5py.org/en/latest/quick.html快速入门指南：h5py包是HDF5二进制数据格式的python接口。HDF5允许您存储大量数字数据，并且可以轻松地从NumPy操作这些数据。例如，您可以将存储在磁盘上的多TB数据集切片，就像它们是真正的NumPy数组一样。数千个数据集可以存储在一个文件中...

2019-03-01 21:09:16 5789

原创爬虫小白入门实例 —— 爬取全国某天所有火车的运行时刻表

受好朋友的委托，帮忙爬取全国某天所有火车的运行时刻表。在此之前没有用过爬虫，但是会用python，所以迅速学习了一下。把自己的学习过程整理如下，爬虫小白可以通过下述内容快速入门。任务描述：爬取的站点：http://search.huochepiao.com/chaxun/resultc.asp?txtCheci=D2&cc.x=0&cc.y=0希望能把当前运行的...

2019-02-28 21:25:38 5510 4

原创为VS2013配置igraph库

因为要进行图数据可视化方面的研究，所以需要在C++上配置igraph进行后续的实验测试。但是在配置igraph的过程中遇到了很多阻碍，通过搜索网上多位博主的经验，以及求助同学，耗时特别久终于解决了这个问题，于是决定写篇博客造福后人。同时感谢之前贡献经验的博主，感谢帮助我解决了问题的张同学和贾同学。需要条件：安装好的VS2013。igraph的C++包下载地址为：http://igr

2017-07-16 18:43:18 1291 1

空空如也

空空如也