jingyi130705008-CSDN博客

原创 FastText 微调

安装之前只需要把model.cc文件中以下几行代码注释掉即可实现【冻结词向量】。

2024-03-31 17:04:28 238

原创 RAG排序策略探索——基于GPT2的PPL的方案

RAG排序策略探索——基于GPT2的PPL的方案

2024-01-24 21:57:56 388

原创采用ERNIE计算 Perplexity （PPL）

采用ERNIE多种方式计算PPL。

2024-01-23 17:38:20 508

一个简单的HTTP代理参数说明: -h, --host 指定代理主机地址，默认获取本机地址，代表本机任意ipv4地址 -p, --port 指定代理主机端口，默认随机生成一个运行代码主机的闲置端口 -l, --listen 指定监听客户端数量，默认10 -b, --bufsize 指定数据传输缓冲区大小，值为整型，单位kb，默认8 -d, --delay 指定数据转发延迟，值为浮点型，单位ms，默认1 简单使用

2024-01-16 16:43:03 66

原创 TypeError: cannot pickle ‘module‘ object

TypeError: cannot pickle 'module' object

2023-03-08 16:08:13 3930 1

原创增量解析日志文件

异步定时加载大规模日志文件，并完成解析。

2023-03-01 17:12:25 182

原创 ModuleNotFoundError: No module named ‘setuptools.command.build‘

ModuleNotFoundError: No module named 'setuptools.command.build'

2022-11-22 14:46:18 2552 1

原创基于gensim的文档相似度判断

基于gensim的文档相似度判断：包含文本预处理、向量获取、相似度计算等。

2022-11-01 15:17:14 322

原创 mysql 分组查询最新的/最高的一条记录

mysql 分组查询最新的/最高的一条记录

2021-12-21 16:30:53 882

原创 PySpark error: AttributeError: ‘NoneType‘ object has no attribute ‘_jvm‘

出现这种问题，一般是由调用udf的过程报错，报错的几个原因如下：（1）引用pyspark.sql.functions的方法覆盖python本身的方法；（2）没有处理None值

2021-11-29 14:22:22 1061

原创 paddlenlp使用预训练模型实现快递单信息抽取中CrossEntropyLoss()指定weight报错

paddlenlp使用预训练模型实现快递单信息抽取中CrossEntropyLoss()指定weight报错

2021-08-17 19:44:38 361

原创 python3 request返回结果出现乱码

nlpc_res = requests.post(url, json.dumps(params))nlpc_res.encoding='utf-8' # 加上zhe yi j

2021-06-18 14:24:23 650

原创机器学习自动调参小试

1. 安装环境2. 脚本

2021-06-07 15:01:36 686 1

原创 dlopen：cannot load any more object with static TLS：

这是一个低版本glibc （< 2.23）的已知bug，通过dlopen加载一个动态链接库（DSO），并依次将其依赖的DSO也加载进来的时候。具体产生条件是：glibc < 2.23 已经加载了超过14个含TLS的DSO 当前加载的DSO使用了static TLS注意条件2，3。如果能够在加载14个含TLS的DSO前，提前加载含有static TLS的DSO，即可绕过这个问题。具体做法：找到报错模块（比如paddle）如果可以单独import成功的话，调整import包的顺序...

2021-06-06 12:27:26 1815

原创 pandas 快速读写大csv文件

1. 快速读2.快速写

2021-05-21 11:15:21 752

原创 java.io.IOException: No space left on device

java.io.IOException: No space left on device原因是 /root/tmp 空间不够了，可以制定自己的tmp目录，在conf/spark-default.conf 里加上 “spark.local.dir /home/XXX/你自己的目录” 即可。

2021-03-22 21:01:09 8158

原创 Python-pandas：每组均值填充缺失值

使用transform：>>> df name value0 A 11 A NaN2 B NaN3 B 24 B 35 B 16 C 37 C NaN8 C 3>>> df["value"] = df.groupby("name").transform(lambda x: x.fillna(x.mean()))

2021-03-16 15:09:55 5676 3

原创 pyspark udf传入固定参数

1. udf 定义def udf_test(column1, column2): if column1 == column2: return column1 else: return column2apply_test = udf(udf_test, StringType())df = df.withColumn('new_column', apply_test('column1', 'column2'))2. 带固定变量的udf定义.

2021-03-08 18:56:19 685

原创 PySpark dataframe 按照某列排序

df.orderBy('column_name', ascending=False)

2021-02-26 19:28:34 4530

原创 Linux查看物理CPU个数、核数、逻辑CPU个数

2021-02-22 19:26:11 278 1

原创 pandas apply 并行处理的几种方法

1.pandarallel2.joblib (Parallel, delayed 两个函数)https://blog.csdn.net/Jerr__y/article/details/71425298?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.control&dist_request_id=4ddf3b64-071d-4fd7-a503-9272a88468...

2021-02-22 19:23:57 12963 4

原创深度学习在NLP中的演进

前一段时间看了一篇知乎专栏《PTMs| 2020最新NLP预训练模型综述》，介绍了NLP的一些主流模型。如下图所示：

2021-02-18 17:32:15 181

原创 XGBoost学习资料

1. 原论文2. PPT3. 学习视频XGBoost Part 1 (of 4): Regression：https://www.youtube.com/watch?v=OtD8wVaFm6EXGBoost Part 2 (of 4): Classification：https://www.youtube.com/watch?v=8b1JEDvenQUXGBoost Part 3 (of 4): Mathematical Details:https://www.youtube..

2021-01-24 20:13:35 141

原创 python matplotlib绘制动态图

1. 效果2. 代码import matplotlib.animation as aniimport matplotlib.pyplot as pltimport numpy as npimport pandas as pddef load_data(): """ 获取数据 """ url = "./time_series_covid19_deaths_global.csv" df_all = pd.read_csv(url, delim.

2021-01-22 13:55:32 1142 2

原创 pandas shift方法

1. 接口介绍2. 使用示例3. 小结

2021-01-18 15:23:40 557

原创 dlopen: cannot load any more object with static TLS

交换import顺序解决解决方法：降级sklearn版本降级为scikit-learn 0.20.3会使问题消失。

2020-12-17 18:57:35 1793 3

原创 python 操作cassandra

1. 安装python使用cassandra_driver库操作cassandra:b.1、下载https://pypi.org/project/cassandra-driver/#files: cassandra-driver-3.16.0.tar.gz，解压后安装：python setup.py install备注：3.16版本的cassandra要求Cython的版本大于0.20，小于0.29b.2、安装cassandra-driver过程中提示缺少Cython，官网下载：htt...

2020-11-25 18:07:51 1304

原创利用spark迁移cassandra集群数据

目前工作中遇到需求，需要将一个cassandra集群的数据迁移到另一个cassandra集群。从网上查询发现有两个解决方案，如下1. 读写的时候切换CassandraConnectorimport com.datastax.spark.connector._import com.datastax.spark.connector.cql._import com.datastax.spark.connector.rdd.CassandraTableScanRDDimport org.apa

2020-11-17 16:14:33 424

原创 spark another attempt succeeded

执行spark任务发现提示信息“another attempt succeeded”，这是由于设置了spark.speculation为true,该参数的含义如下：参考：If a task appears to be taking an unusually long time to complete, Spark may launch extra duplicate copies of that task in case they can complete sooner. This is r.

2020-11-16 14:45:27 1885

原创 vim常用命令

1. 移动光标的方法操作功能 [Ctrl] + [f] 屏幕『向下』移动一页，相当于 [Page Down]按键 [Ctrl] + [b] 屏幕『向上』移动一页，相当于 [Page Up] 按键 0 或功能键[Home] 移动到这一行的最前面字符处 $ 或功能键[End] 移动到这一行的最后面字符处

2020-10-30 15:09:59 91

原创 Hadoop安装

http://dblab.xmu.edu.cn/blog/install-hadoop/

2020-10-27 15:46:37 100

原创 geoip2解析IP的地理位置和城市

python 代码# coding=utf-8import geoip2.databasereader = geoip2.database.Reader('./GeoLite2-City.mmdb')# Open a filefo = open("ip.txt", "r")Lines = fo.readlines()fw = open("ipoutput.txt","w+")count = 0# Strips the newline characterfor line in Li

2020-10-23 10:38:05 2638

原创 python高效读写文件

1. 读文件with open("./input.txt") as fp: for line in fp: line = line.strip() if line: print(line)2. 保存文件对于频繁写入文件的模块，可以采用以下方式：先将数据暂存到一个result数组中，等数组满了再一次性写入文件。output_file = "./result.txt"result = []def save(line,.

2020-09-23 14:31:35 1424

原创 python 常用代码块

本文梳理在学习、工作中经常使用的一些代码。1. 读写文件2. 时间转换

2020-09-23 14:21:29 150

原创 PySpark将dataframe写入本地文件，只生成文件夹含有SUCCESS

1. 代码results = res.rdd\ .map(lambda word: (word[0].replace(u"(", u"（").replace(u")", u"）"), word[1], word[2]))\ .filter(lambda word: word[0] in companys_list)\ .map(lambda word: (companys_dic.get(word[0], word[0]),word[1],

2020-08-26 11:16:52 5193

原创 TextCnn 模型固化后预测时报 The operation, ‘drop_prob‘, does not exist in the graph.“

对于这一问题，由于模型设计中采用tf.layers.dropou函数，而该函数在预测时不起作用，因此固化模型时无需传drop_prob这一参数，因此如果想获取，就会报这个错。

2020-08-06 15:47:00 681

原创 BiLSTM + CRF 命名实体识别实践（下）

0. 前言上一篇博客简单讨论了理论知识，这篇博客主要是实践部分，主要针对上一篇博客中提到的代码的优化。优化点主要包含以下几个方面：（1）max_seq_len如何取值？（2）sequence_len不固定会给模型带来多大的提升？（3）batch_size不固定，方便预测（4）词向量的预训练能给模型带来哪些好处？（5）特定业务场景下，如何迁移？...

2020-07-21 12:43:57 399

转载 Python之队列queue模块使用常见问题与用法

https://blog.csdn.net/yangzhenzhen/article/details/53536335

2020-07-16 21:46:30 327

原创 BILSTM+CRF 的命名实体识别（上）

1. CRF介绍参考资料最通俗易懂的BiLSTM-CRF模型中的CRF层介绍条件随机场（CRF）和隐马尔科夫模型（HMM）最大区别在哪里？CRF的全局最优体现在哪里？

2020-07-16 15:45:17 551

fastText增量训练版本代码

本版代码支持fastText进行增量训练，目前仅支持fasttext命令行格式。

2024-03-29

json转excel的demo示例

json转excel的demo示例，支持json多层级拉平变成Excel中的列名。采用python中的json、pandas实现。可在此基础上进一步开发。

2023-08-08

NLP各类任务pytorch代码

2022-01-18

time_series_covid19_deaths_global.csv

2021-01-22

geoip2.database包 GeoLite2-City.mmdb

geoip2 可解析出ip的位置和所在城市等信息，GeoLite2-City.mmdb数据库，仅供学习使用。

2020-10-23

bilstm_crf_code.tar.gz

该代码完整实现了基于bilstm+crf的tensorflow实现，可训练、预测。 ├── Batch.py # 实现batch功能 ├── bilstm_crf.py # 模型定义 ├── data # 数据文件夹 │ ├── Bosondata.pkl # 训练数据的输入（加工后） │ ├── generate_dataset.py # 数据加工脚本，将原数据处理成模型需要的格式 │ └── wordtagsplit.txt # 原数据 ├── train.py # 训练相关的代码 └── utils.py # 功能函数

2020-07-24

TA关注的人

fastText增量训练版本代码

json转excel的demo示例

NLP各类任务pytorch代码

time_series_covid19_deaths_global.csv

geoip2.database包 GeoLite2-City.mmdb

bilstm_crf_code.tar.gz

采用fasttext对文本公告进行分类

数据分析之统计分析操作.xlsx

数据分析之数据处理操作.xlsx

additionalCode.tar.gz

MySQL安装文件及安装教程

xgboost源代码

python_dateutil-2.6.0-py2.py3-none-any.whl

pandas-0.16.0rc1.win32-py2.7.exe

asp.net考试系统可参考源码含数据库

C语言实现五子棋

表达式后置代码实现

births_transformed.csv.gz

将dataframe中的两列数据转换成字典dic，结果竟然成这样？

asp.net写得网页第一次打开为何会跳动一下

Asp.net中GridView中button的用法

用命令行调用编译程序前必须要调用call prefix\vcvars32.bat吗？