远行人_Xu-CSDN博客

原创顺畅下载chatglm2-6b的模型文件

用推荐的清华源的url下，也卡，但url转换之后的，在windows下不了。不管是从huggingface下，git下，wget下，都可能卡。但是在linux上就几十兆每秒。

2023-07-14 13:21:37 1614

原创 from datasets import load_dataset 下不下来，怎么办？

from datasets import load_dataset

2022-12-23 15:16:01 1947 4

原创向企业微信发送文字、图片的接口【亲测有效】

向企业微信发送文字、图片的接口【亲测有效】

2022-04-27 16:02:08 1145

首发地址： https://zhuanlan.zhihu.com/p/451144980读了复旦大学发的文章《Template-free Prompt Tuning for Few-shot NER》，是用小样本思路prompt做ner的新方法，就是没开源代码很遗憾，导致有的小问题就是不明白，通过给作者发邮件弄明白了。目录：1、原有的prompt做ner的方式，及弊端；2、该文章的思路；3、该文章的思路的主要问题的解决思路；4、我对该文章的思考。1、原有的prompt做ner的方式，及弊端：

2021-12-29 16:02:18 880

原创【已解决】notepad++ 连不上服务器

notepad++安装nppftp插件后还是连不上服务器。如果用FTP，则如果改成sftp，则。原因分析：所连接的服务器的初始化会echo或者cat一些字符。winscp就直接忽略了，但是notped++的nppftp插件就处理不了，就连不上。解决方式：登陆到相连接的服务器，vim /etc/bash.bashrc，把里面的echo、cat等等显示的命令都注释掉或者删掉。就可以了。亲测有效！参考：https://eggea.blogspot.com/2019/11/notepad-nppf

2021-08-04 18:25:19 2398 1

原创 py2neo基本操作（v4版本，亲测有效）

知乎写的，懒得搬运了：https://zhuanlan.zhihu.com/p/83032004

2020-11-13 18:17:01 1174

原创 python操作图数据库neo4j的两种方式

在知乎写的，懒得搬运了。https://zhuanlan.zhihu.com/p/82958776

2020-11-13 18:15:54 281

原创【笔记】2020语言与智能技术竞赛冠军团队分享

回访地址： https://blog.csdn.net/weixin_38100489/article/details/109625897未完待续感觉请用请点赞，谢谢

2020-11-12 18:33:13 293

原创【回放】2020语言与智能技术竞赛冠军团队分享

回放地址：http://mbd.baidu.com/webpage?type=live&action=liveshow&source=h5pre&room_id=4008201814

2020-11-11 16:33:21 513

原创风控评分卡模型流程

网上搜到的资料都缺思维步骤，所以自己总结资料写了一个。其中需要注意几点：1、woe转换之后的数据是lr分类的输入。2、lr分类结果没用，用的是内部拟合线的各个变量的各个系数。3、认为上述拟合的线的结果是odd。4、认为odd和最终分数符合图中第五步的式子。5、第四步可以理解为，设定两组“odd和想要的对应分数”，算出公式中的某些参数。有用请点赞，欢迎指正！...

2020-10-27 16:03:02 210 2

原创 EDA 文本增强（和我的思考）

EDA: Easy Data Augmentation文章结构：原理、设置参数、代码。一、原理文章来源：https://arxiv.org/abs/1901.11196通过对文本中部分词的改变，达到重写文本，让样本数量增多的目的，并增强对应训练模型的泛化能力。具体有四种方式：1、同义词替换：在句子中的词中随即选择n个非停用词。将每个词换成一个随即的同义词。2、随机插入：在句子中的词中随即选择一个非停用词的一个随即同义词，将其插入句中的随机位置。做n次。3、随机交换：在句子中随机选两个词做交换

2020-08-27 14:26:27 908 2

原创 python出“黑白”曲线图、柱状图（写黑白论文用）

目的：从彩色图变黑白图思路：我到要出图这步骤时，是pandas的dataframe。如果是要出曲线图，则直接在df.plot里改参数style即可。就能出图4。fig = df.plot(kind='line', color='k', style=['--', ':', '-']fig.savefig(r'xx/xxx/xx/xxx.jpg')其中线性共有这些选项： ‘-’, ‘–’, ‘-.’, ‘:’, ‘None’, ’ ', ‘’, ‘solid’, ‘dashed’, ‘da

2020-08-11 16:12:48 2359

原创 Relu激活函数的多种变体

2020-07-10 14:38:01 411

原创｛降维｝ ISOMAP等距特征映射 & MDS多维标度法

首发：https://zhuanlan.zhihu.com/p/60599491介绍两种降维方法镇楼_MDS: http://www.utdallas.edu/~herve/Abdi-MDS2007-pretty.pdf镇楼_ISOMAP: http://www-clmc.usc.edu/publications/T/tenenbaum-Science2000.pdfMultidimensional Scaling (MDS) 多维标度法1、经典应用场景在不知各点坐标的，仅知道各点间距离的情况

2020-07-07 15:41:00 699

原创降维方法小结和理解：PCA、LDA、MDS、ISOMAP、SNE、T-SNE、AutoEncoder

PCA：Principle component analysis 主成分分析百度百科：它是一个线性变换。这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上，第二大方差在第二个坐标(第二主成分)上，依次类推。主成分分析经常用于减少数据集的维数，同时保持数据集的对方差贡献最大的特征。PCA是无监督的。（其实也可以不降维，比如上面的x1和x2变成了y1和y2，就没降维。）LDA：Linear Discriminant Analysis 线性判别分析区别于

2020-07-07 15:28:40 3186

原创社区问答（Q-Q匹配问答）文本相似度计算的四类方法

本文是我自己的思考。如果有纰漏，欢迎大佬们在评论区怼我，帮助我进步~~智能问答的其中一类社区问答（也就是Q-Q匹配问答）的第一个环节是计算问题的文本语义向量表示；第二个环节就是通过向量的匹配得到最佳的问题候选。下面是我知道的做第二个环节的4类方式。（不是四种，而是四类。）第0种、直接两两做bert最慢的方式。复杂度是O(n)。每次两两匹配的耗时都要做一次bert（可以转tensorflow的estimator做成实时的）。也是耗时最长的方式。如果匹配的q-q对较少，是可以直接用bert类的模型直接

2020-07-02 16:48:10 1219

原创【已解决】pip成功安装模块（如uvicorn）后，无法在命令行中使用（-bash: uvicorn: command not found）

问题以uvicorn模块为例。其他模块原理一致。问题：我在pip成功安装模块uvicorn后，用运行shell语句：uvicorn try:app --reload上面的try是指try.py，但是报bug：-bash: uvicorn: command not found为啥攻略都行，我不行呢？原因我在pip安装时候习惯输入完整的虚拟环境中的pip路径，而在shell中运行uvicorn时并未调用虚拟环境，是在基本python路径下找，所以肯定找不到。解决方式先shell运行：s

2020-07-02 11:15:50 17999 2

原创【随笔】暴力、通透讲解：信息熵 & 交叉熵

收发地址：https://zhuanlan.zhihu.com/p/68363765本文是随笔哈，想到哪里写到哪里。------------------------ 割 -------------------------上面公式是信息熵公式，“热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。”那为什么上述公式就能代表某事情的不确定程度呢？（或者叫混乱程度）？？怎么做到的呢？？？？我在上学学概率时候就是楞背下来公式的，老师讲的、书里写的都太抽象了，联系公式最初

2020-06-26 23:59:39 209

原创决策树系列思路（ID3、C4.5、CART、adaboost、GBDT、xgboost）

首发链接：https://zhuanlan.zhihu.com/p/149950949本文涉及决策树、随机森林、adaboost、xgboost等的思路系统。都是大思路，和各算法之间的差异对比，没有推导过程。1、单棵决策树单棵决策树的思路是，在现有节点选择某种划分方式，生成新的多个子节点，反复重复，直至某种限制条件让新增过程终止。其中的划分过程详细是，预先设定某项指标，选择某列特征作为划分方式，然后计算在该列特征划分数据集前后之间，该指标的变化量，变化的越大就越应该选择该列特征作为划分标准。这种思

2020-06-22 15:21:50 309

原创 xgboost基本过程、公式推导

给自己的学习过程做个记录。不是学习攻略。

2020-06-22 10:31:15 197

原创 [对应示例]λ-算子、λ-DCS、SPARQL、Cypher

举例：people who had children born in Seattle 对应的λ-算子：λx.∃y.Chilren( x , y ) ∧ PlaceOfBirth( y , Seattle ) λ-DCS：Chilren.PlaceOfBirth.SeattleSPARQL：prefix ns: <神马神马>select ?s1where { ?s1 ns: Chilren ?s2, ?s2 ns: PlaceOfBirth

2020-06-03 10:06:20 258

原创知识图谱问答的思路 -- 笔记2

首发地址：https://zhuanlan.zhihu.com/p/144311555本文是段楠《智能问答》一书第五章“知识图谱问答”的笔记。（其中有略的部分。同时夹私货。）本文和姊妹篇《知识图谱问答的思路 – 笔记1》是两本书的笔记，不是前后两部分。二者思路有同有异，可搭配食用。）本文（确切的说是这本书的这一章）的信息量很大，一定要先把握大逻辑之后，再细扣具体的实现方式。本人水平有限（。。真的。。）导致书中好几处不懂的，大佬读到我下文说没看懂的地方，还请告知的评论区，真的谢谢了！1、知识图谱和语义

2020-06-01 11:34:53 913

原创【知识图谱应用】实体链接的思路

首发：https://zhuanlan.zhihu.com/p/144183030本文是段楠《智能问答》一书第三章“实体链接”的笔记。（其中有略的部分。同时夹私货。）有不对的地方请评论告诉我哈，谢谢。实体链接（entity linking）是指将文本中出现的实体提及（entity mention）关联到对应在知识图谱中的相关实体的任务。具体步骤为，先生成候选实体，然后给候选实体排序，然后取权重查过阈值的排名第一的候选实体作为实体链接的结果。另外还有知识图谱中对应不上的情况，称为无链接指代预测。1

2020-05-28 15:37:04 1037 4

原创知识图谱问答的思路 -- 笔记1

收发地址：https://zhuanlan.zhihu.com/p/143722983本文是赵军《知识图谱》一书第十章“知识问答与对话”的笔记。（我觉得用处小的略。同时夹私货。）有不对的地方请评论告诉我哈，谢谢。一、知识图谱问答（KGQA）1、基于语义解析的方法（Semantic Parsing）将自然语言转化成结构化查询语言，如SPARQL、CQL ( cypher )等。（私货1：另外关键词可以是Seq2Sql、Text2Sql等。当然这输出是SQL，但思路完全可以用到KGQA。）首届中文

2020-05-26 19:51:00 602

转载 NLP基本任务

转载自：http://www.zhuzongkui.top/nlp_base_task/1、词法分析（Lexical Analysis）：对自然语言进行词汇层面的分析，是NLP基础性工作分词（Word Segmentation/Tokenization）：对没有明显边界的文本进行切分，得到词序列新词发现（New Words Identification）：找出文本中具有新形势、新意义或是新用法的词形态分析（Morphological Analysis）：分析单词的形态组成，包括词干（

2020-05-26 13:58:08 310

原创梯度消失、梯度爆炸的解决方法及其解释

1、梯度消失1.1、换激活函数从sigmoid换成relu或relu的一系列改进版，比如leaky relu等。sigmoid中导数接近于零的情况，就换成了导数恒定的情况，单个节点的梯度（导数）就不管x变化都永远有了。但是多个0~1之间的数相乘还是趋近于0的趋势没变，所以只是缓解，而非完全解决。1.2、Batch Norm还用sigmoid，可以通过normalization将值scale到sigmoid的有效范围内，有效范围内导数大于0，可以缓解梯度下降的情况。（图片来源：李宏毅讲t

2020-05-25 16:34:09 687

原创【智能问答】社区问答（CQA）的思路

详详细细的记载了我做CQA时的思考：https://zhuanlan.zhihu.com/p/84694993

2020-05-20 17:24:42 425

原创【tensorflow】多维张量做tf.matmul

首发地址：https://zhuanlan.zhihu.com/p/138731311线性代数都学过二维矩阵的乘法，而tf.matmul还可以处理多维矩阵，比如import tensorflow as tfimport numpy as npa = tf.random.uniform([2, 1, 2, 3])b = tf.random.uniform([1, 3, 3, 2])c = tf.matmul(a, b)c是什么呢？先给出结论：不管几维矩阵都是先做最后两维的矩阵的乘法，再在不同

2020-05-20 17:20:13 860 2

原创【NLP碎碎念】关于口语文本的一点想法

（很久没在csdn写文章了，一直在知乎，现在慢慢搬过来，原创在https://blog.csdn.net/weixin_38100489哈）看了https://zhuanlan.zhihu.com/p/142168215有一点思考。之前做对话系统时，看实际的对话记录，发现口语文本有如下特点：一是大量的口语词汇；二是打错字；三是语序错乱。1、处理错字很自然有两种思路：一是把错字纠正；二是就把训练集也刻意弄出错字。1.1、错字纠正1.1.1、针对应用场景和实际历史记录，做常见错字的规则。（实际上没

2020-05-20 17:13:30 825

转载 GBDT详解

原地址：https://www.cnblogs.com/peizhe123/p/5086128.htmlGBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力（...

2018-02-21 15:36:32 342

原创 bagging和随机森林的原理和区别

来自西瓜书区别在于，随机森林在采样时不仅“重采样”，而且只选了部分的“列”（特征）。好处就是第三张图的上面的三个小图，可以出来更多的线来用。...

2018-02-18 12:09:23 7794 3

转载 “熵”与“基尼不纯度”同为判断混乱程度的标准

“熵”与“基尼不纯度”同为判断混乱程度的标准1、信息熵信息论中的信息量和信息熵。信息量：信息量是对信息的度量，就跟温度的度量是摄氏度一样，信息的大小跟随机事件的概率有关。例如：在哈尔滨的冬天，一条消息说：哈尔滨明天温度30摄氏度，这个事件肯定会引起轰动，因为它发生的概率很小（信息量大）。日过是夏天，“明天温度30摄氏度”可能没有人觉得是一个新闻，因为夏天温度30摄氏度太正...

2018-02-18 10:23:04 1726

原创 python datetime时间格式与时间字符串相互转化

文章地址：http://blog.csdn.net/weixin_38100489/article/details/79146481In [1]: from datetime import datetimeIn [2]: a = '2018-1-20 08:12:50'In [3]: b = datetime.strptime(a, '%Y-%m-%d %H:%M:%S')In [

2018-01-24 07:50:25 894

原创 ResourceExhaustedError (see above for traceback): OOM when allocating tensor with shape[100,35,35,64

原因是显存不够了，解决方式缩小图片大小，我试了管用。参考： http://wenda.chinahadoop.cn/question/6162

2018-01-18 14:40:53 2156

原创【已解决】Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-build-GFFuD_/ipython/

ubuntu下如果sudo apt install ipython出来的版本是2.多，太老；如果sudo pip install ipython出bugsudo apt install ipython 应该：sudo pip install ipython==5.1就可以啦，又新又方便。注意，ipython6.多是不支持python2.7的，只支持python3.多。

2018-01-07 16:59:29 2218

原创【大坑啊，已出坑】ubuntu tensorflow/keras 使用gpu

【大坑啊，已出坑】ubuntu tensorflow/keras 使用gpu一望一抹泪～一试一滴血～这是我自学机器学习以来第二大坑，不是一个坑，是“坑群”。———————–静心，静心，别着急————————当你看到这里时，不管你做到了哪一步，请先做如下尝试，不成再详细阅读后面的东西： 1、试试这个sudo apt-get install libcupti-dev2、

2018-01-07 15:26:35 2591 2

原创【已出坑】ImportError: libcudnn.so.5: cannot open shared object file: No such file or directory 。。。

ImportError: libcudnn.so.5: cannot open shared object file: No such file or directoryFailed to load the native TensorFlow runtime.只需要sudo apt-get install libcupti-dev再尝试就可以。如果实在不行就留言给我

2018-01-07 15:15:49 807 1

原创解决ImportError: No module named cv2

装opencv（网上有很多让下载再编译的，其实不用单纯用终端就行，由于我试了太多攻略，我也不确定那个管用，应该是下面这个就能确保装上）：sudo apt-get install libcv2.4 libcvaux2.4 libhighgui2.4 libcv-dev libcvaux-dev libhighgui-dev 装上opencv以后还是会出现importerror，需要sudo pip i

2018-01-02 22:04:00 1419

原创 ImportError: Failed to import pydot. You must install pydot and graphviz for `pydotprint` to work.

在运行 from keras.utils import plot_model plot_model(model, to_file='model.png') 时会出现下图情况提示的解决方法不管用，不仅要sudo pip install pydot, graphviz 而且还要sudo apt-get install graphviz

2018-01-01 16:43:38 1021

原创【干货】MySQL和pymysql最基本扫盲～带你上路～

对于pymysql，网上所有文章一上来就连接数据库，根本就不说数据库怎么来的。我来个真正扫盲帖。本文写给知道什么是mysql，却不会用python调用mysql的ren。但凡懂的人，请移步。默认已经安装了MySQL，python2.7已经有了pymysql模块。1、在命令行/终端中输入：mysql -u root -p，回车。让你输入密码，就是你安装mysql时的密码。回车。

2017-12-13 10:58:08 1108

neo4j-community-4.1.3-unix.tar.gz

graphviz安装文件 (windows)

空空如也