jp_666-CSDN博客

原创 bert embedding取平均

【代码】bert embedding取平均。

2024-03-20 11:17:43 109

原创 pandas dataframe 怎么保留重复的行

方法查找DataFrame中的重复行，返回一个布尔Series，其中值为True表示对应的行是重复的。然后，我们使用这个布尔Series作为布尔索引，从DataFrame中选择重复的行，并将结果存储在。要保留Pandas DataFrame 中的重复行，可以使用。在上述代码中，我们首先使用。

2023-11-08 10:02:48 355

原创 pandas dataframe 统计某一列的值出现的次数并形成一列新的列

要统计Pandas DataFrame 中某一列的值出现的次数，并将结果形成一列新的列，可以使用。这样，DataFrame对象就包含了原始列和对应的值出现次数的新列。列中每个值的出现次数，然后将结果存储在。在上述代码中，我们首先使用。中的统计结果映射到新的列。

2023-11-08 09:56:12 877

原创 pysaprk 筛选一列中包含某个字符串的行

函数来筛选出一列中包含某个字符串的行。在 PySpark 中，你可以使用。

2023-10-31 11:33:43 416

原创查看linux的ip地址

以上命令执行后，会列出系统中所有网络接口的IP地址信息。通常，IP地址会显示在类似于。ifconfig命令会显示网络接口的详细信息，包括IP地址、子网掩码、网关等。ip命令可以显示网络接口的详细信息，包括IP地址、子网掩码、网关等。请注意，执行这些命令可能需要root权限或者使用sudo命令。hostname命令可以显示主机的IP地址。

2023-10-16 20:26:46 553

Git 作为版本控制工具，通过在开发过程中记录代码的变化，简化了开发者之间的代码协作。而对于许多开发者而言，命令行提交 Git 代码却是一项让人感到困难的任务。然而，现在你可以轻松地通过 VSCode 提交 Git 代码，让你的代码管理变得更加轻松和高效。在本文中，我们将介绍如何使用 VSCode 来实现简单的 Git 提交，帮助你更加流畅地完成软件开发。1、打开vscode中的源代码管理模块，快捷键 Ctrl+Shift+G，如下图：2、点击“+”提交暂存区，如下图：2

2023-10-16 20:18:43 829

原创 pandas dataframe 分组统计次数

要在 Pandas DataFrame 中进行分组统计次数，可以使用。方法结合聚合函数，如。

2023-10-13 15:06:50 309

原创 pyspark常用算子总结

7. pyspark中的DataFrame对一列分组统计数量，并添加到原来的dataframe，示例代码。12. 打印pyspark中dataframe中列的数据类型和列名，示例代码1。10. 打印pyspark中的dataframe的某一列的纯文本值，示例代码。1. pyspark中时间格式的数据转换为字符串格式的时间，示例代码。9. pyspark中的dataframe取前n行，示例代码。4. pyspark中选择其中一列不是空的行，示例代码。3. pyspark中选择其中一些列，示例代码。

2023-09-23 21:47:44 153

原创打印 pyspark.sql.dataframe.DataFrame 有哪些列

属性获取列名，并将其打印出来。您可以将代码中的 DataFrame。在上述示例中，我们创建了一个包含三列的 DataFrame (替换为您的实际 DataFrame 对象。在 PySpark 中，要打印。

2023-09-20 14:07:15 419

原创 pyspark.sql.dataframe.DataFrame 怎么转pandas DataFrame

方法之前，您已经创建了 SparkSession 对象，并且在环境中正确配置了 PySpark。这样，您就可以将 PySpark DataFrame 转换为 Pandas DataFrame 并进行后续的分析和处理。方法将 PySpark DataFrame 转换为 Pandas DataFrame，并将结果存储在。pyspark.sql.dataframe.DataFrame 怎么转pandas DataFrame。在上述示例中，我们首先使用 PySpark 创建了一个示例 DataFrame。

2023-09-19 14:20:49 957

原创从pandas dataframe中随机删除n个某一列是某个值的元素

从pandas dataframe中随机删除n个某一列是某个值的元素。

2023-09-18 15:19:02 93

原创 torch 怎么向 dataloader的collate_fn传参数

是Python的内置函数，它可以创建一个新的函数，其中一些参数被预先设置为特定的值。函数将在每个批次的数据被组合时被调用，并可以使用预先设置的参数值。函数将在每个批次的数据被组合时被调用，并可以使用预先设置的参数值。，以便根据您的需求执行自定义的逻辑。请根据您的情况选择适合的方法。另一种方法是定义一个接受参数的函数，并在该函数内部调用真正的。在上述代码中，我们首先定义了一个自定义的。然后，我们定义了一个新的函数。对象，并将新的函数作为。，生成一个新的函数。最后，我们创建了一个。，并执行自定义逻辑。

2023-09-14 16:04:40 203

原创 pandas dataframe groupby 输出和指定索引输出

pandas dataframe groupby 输出和指定索引输出。

2023-09-14 15:51:13 490

原创 linux查看ip

在输出中，您会看到各个网络接口的详细信息，包括 IP 地址。请注意，这些命令可能需要使用管理员权限（sudo）来执行。3. 使用 hostname 命令。这会显示当前主机的 IP 地址。1.使用ifconfig命令。2. 使用 ip 命令。

2023-09-12 14:18:09 91

原创 jupyterlab在linux服务器部署

linux 服务器安装和运行 jupyterlab。

2023-09-12 14:11:56 53

原创一个用ranknet优化排序模型的demo

一个用ranknet优化排序模型的demo。

2023-09-08 17:43:54 103

原创用 TripletLoss 优化bert ranking

下面是用 TripletLoss 优化bert ranking 的demo。

2023-09-08 14:42:25 706

原创 bert ranking listwise demo

【代码】bert ranking listwise demo。

2023-09-08 14:30:52 417

原创 bert ranking pairwise demo

下面是用bert 训练pairwise rank 的 demo。

2023-09-08 14:28:25 541

原创 linux对一个文件夹中的所有文件重命名

请注意，在执行重命名操作之前，请确保你在目标文件夹的正确路径下，并且要小心操作，以防止不必要的数据丢失。命令对一个文件夹下的所有文件进行重命名。方法2: 使用正则表达式重命名。在Linux中，你可以使用。如果你想给这些文件添加前缀。例如，假设你有一个文件夹。

2023-09-08 13:53:28 1674

原创 vscode 远程连接

这里记录的是修改ssh配置文件的方式远程连接服务器中的docker服务器。假如已经创建好了docker，并已经启动。4. vs code连接远程服务器。3. 在docker中重启服务器。

2023-08-28 13:48:23 646

原创 proto 编译命令

proto 编译命令。

2023-08-14 14:23:22 225

原创 github ssh配置

注意：上面的操作完了之后，如果是访问特定组织的rep，可能需要再次点开settings => SSH and GPG keys => 找到刚添加的SSH key => 点击 “Configure SSO” => 点击授权对应的组织。打开github的settings => SSH and GPG keys => new SSH key => 把复制的公钥添加在对应的key的文本框内 => 点击 “Add SSH key”生成的公钥默认在文件夹 ~/.ssh/ 下的 id_rsa.pub。

2023-08-14 14:17:56 1462

原创在服务器开jupyter notebook server

生成的配置文件，在linux下的路径一般是“/home/USERNAME/.jupyter/jupyter_notebook_config.py”上面的指令也可以添加上 --allow-root。5、启动notebook后台运行。1、安装notebook。7、查看端口是不是被占用。6、在本地浏览器访问。

2023-08-13 18:06:43 668

原创模型量化转int8

在模型部署阶段，考虑到模型大小，通常会做量化，其中一种方式是把模型输出转成int8，这样可以节省存储空间。下面是转成int8的代码。

2023-08-13 15:22:38 164

原创 python 写json格式的文件，每行都是json数据形式

上面的代码用于把一个list的数据写入一个文件，文件的每一行都是json格式的数据。

2023-08-11 16:28:46 158

原创 python怎么引用其他项目的代码

采用下面的方式把需要引用的项目添加进来。

2023-08-11 14:17:35 219

原创双塔模型DSSM及各种变体塔

本文是由参考1和参考2整合而来。本文主要介绍项目中用于商业兴趣建模的DSSM双塔模型。作为推荐领域中大火的双塔模型，因为效果不错并且对工业界十分友好，所以被各大厂广泛应用于推荐系统中召回阶段。通过构建user和item两个独立的子网络，将训练好的两个“塔”中的user embedding 和item embedding各自缓存到内存数据库中。线上预测的时候只需要在内存中计算相似度运算即可。DSSM双塔模型是推荐领域中不得不会的重要模型。1 为什么要学习DSSM双塔模型我们标签组主要的服务.

2021-03-21 19:39:55 4416

原创搜索系统中的纠错问题

原文来自：微信公众号：CS的陋室（chashaoroom）欢迎关注微信公众号：鸿煊的学习笔记（Techs_AI）纠错是搜索引擎中一个非常有特色的模块，对用户输入的内容进行改写从而让用户得到正确的结果，有的时候也会带有一些惊喜度，所以纠错技术是一个搜索体验的加分项。1、纠错技术的背景人非圣贤，孰能无过，别说是搜索的时候，哪怕是我们打字、写作文的时候，都会出现错字，一般的错别字不会对最终目标带来很大影响，且出现频率很低，不拘小节的我们常常会忽略这样的小问题，但是，在搜索场景下，错别字意味着.

2021-01-08 17:54:51 460

原创短文本相似度-CNN_SIM

原文来自：微信公众号：CS的陋室（chashaoroom）欢迎关注微信公众号：鸿煊的学习笔记（Techs_AI）今天和大家分享一篇有关文本相似度的经典文章。Severyn A , Moschitti A . Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks[C]. the 38th International ACM SIGIR Conference. ACM, 2015.有关实现，幸运地在g.

2021-01-08 16:49:46 993

原创词权重问题

词权重问题原文来自：微信公众号：CS的陋室（chashaoroom）欢迎关注微信公众号：鸿煊的学习笔记（Techs_AI）NLP领域，大家的目标可能都集中在语言模型、文本分类、命名实体识别等热点任务上，且由于NLP的自动特征工程的特性，词权重问题显得就不那么在大家的目光中，但实际上，他却在很多领域里产生了重要作用，个人感觉词权重更像是一个支持性的任务，能给很多具体任务提供参考吧，而且这种支持因为简单快捷，效果显著，甚至能代替大体量模型完成基线任务，所以在工业界其实用处不少，但是又由于其工作.

2021-01-07 13:53:32 924

原创搜索中的命名实体识别

搜索中的命名实体识别原文来自：微信公众号：CS的陋室（chashaoroom）欢迎关注微信公众号：鸿煊的学习笔记（Techs_AI）命名实体识别基线 BiLSTM+CRF在了解基线的基础上，谈搜索中的业务可能就会比较容易了。在文章前面给出参考文献：美团旅游搜索召回策略演进：https://tech.meituan.com/2017/06/16/travel-search-strategy.html1、简述搜索中的NLP应用日常所谓的搜索，大家最常见的就是类似百度之类的大搜，.

2021-01-06 23:54:46 531

原创无中生有：论推荐算法中的Embedding思想

本文来自微信公众号：荐频道（RecSysTao）欢迎关注微信公众号：鸿煊的学习笔记（Techs_AI）前言前段时间面试了许多应界生同学，惊讶地发现很多同学只做深度学习，对LR/GBDT这样的传统机器学习算法，既不掌握理论，也从未实践过。于是就想写一篇文章，梳理一下推荐算法由传统机器学习，发展到深度学习，再到未来的强化学习、图神经网络的技术发展脉络，因为「只有了解过去，才能更好地把握当下与未来」。无奈这个题目太大，再加上近来分身乏术，实在无暇宏篇大论。于是今日小撰一文，聚焦于深度学习的核心思想

2021-01-05 19:42:09 555

原创万物皆可Embedding

本篇文正是转载于微信公众号：深度学习与推荐系统在做推荐系统算法模型时，embedding是重要的一个步骤，有的推荐算法模型其实就是在做embedding的过程，可见embedding在推荐系统中的重要性。这篇文章就专门把embedding单独提出来，梳理一下embedding在推荐系统中的应用。以下内容主要从深度学习方法和传统的协同过滤方法两个方面加深和理解在推荐系统领域对embedding的认识，感受下“embedding”这一重要思想。Embedding在深度学习推荐系统中的应用先.

2020-12-26 17:00:23 396

原创 DeepFM原理与实践

CTR预估DeepFM是CTR预估领域优秀的模型之一，因此这里简单介绍下CTR预估。CTR预估数据特点：1. 输入中包含类别型和连续型特征。类别型特征需要经过one-hot处理, 连续型数据可以先离散化再one-hot，也可以直接保留原值2. 维度非常高3. 数据非常稀疏4. 特征按照Field分组CTR预估重点在于学习组合特征。注意，组合特征包括二阶、三阶甚至更高阶的，阶数越高越复杂，越不容易学习。Google 的论文研究得出结论：高阶和低阶的组合特征都非常重要，同时学习到这两

2020-11-23 20:35:53 616 1

原创 Spark删除HDFS文件的两种方式

import org.apache.hadoop.fs.Pathimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.SparkSessionobject DeleteHdfsFile { /** * 删除hdfs文件目录方法1 */ def deleteHdfsPath1(sc: SparkContext, filePath: String): Unit = { .

2020-11-17 20:38:22 2306

原创 Spark中RDD转换为DataFrame的方法总结

直接贴出代码吧。import org.apache.spark.sql.hive.HiveContextimport org.apache.spark.sql.{DataFrame, Row, SQLContext, SparkSession}import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}import org.apache.spark.{SparkConf, SparkCon

2020-11-16 17:25:22 834

原创 FM理论与实践

背景FM算法（Factor Machine），又叫因子分解机算法。在推荐系统和点击率预估（CTR预估）中，FM算法有很广泛的应用。这两个场景的实质都是根据所提供的一些特征信息来判断用户是否会有点击行为，或者说点击的概率。在推荐系统和CTR预估任务中，通常把LR作为baseline。如果直接利用所提供的特征信息，线性模型将是最简单直接的方法。如下图所示，xi 就是某个特征值，线性模型需要为每一个特征值学习一个权重wi，最终的模型预测值就是所有的特征值乘以这个权重，加起来求和。公式如下：如果是

2020-10-25 00:07:07 1990

原创在windows环境下创建python虚拟环境

这里简单记录下，在windows上安装python虚拟环境的过程。这里假定已经安装好了python环境。在任意盘符下创建一个存储虚拟环境的目录，如D:/virtualenvs。目录名可以随意设置进入创建环境变量，新建系统变量变量名为：WORKON_HOME变量值为：D:\virtualenvs(刚刚命名的文件路径) 在cmd中输入命令：pip install virtualenv -i https://pypi.tuna.tsinghua.edu.cn/simpl

2020-08-24 17:44:43 200

原创全网最全Hive近百个函数详解

以下文章来源于BigDataplus，作者后羿背景Apache Hive是一个建立在ApacheHadoop之上的数据仓库软件项目，用于提供数据查询和分析，现支持引擎有MapReduce、Tez、Spark等等。Hive像传统的关系型数据库一样含有大量内置函数，但也可支持UDF、UDAF等用户自定义函数编写。Hive自身支持函数的隐式转换，方便用户使用。但是这些隐式转换出现问题可能不会报错，但是也会给用户带来非期望的结果。建议大家函数按照规范来使用。内置...

2020-07-19 21:50:15 192

波士顿房价数据集

空空如也