自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 资源 (2)
  • 收藏
  • 关注

原创 顺畅下载chatglm2-6b的模型文件

用推荐的清华源的url下,也卡,但url转换之后的,在windows下不了。不管是从huggingface下,git下,wget下,都可能卡。但是在linux上就几十兆每秒。

2023-07-14 13:21:37 1614

原创 from datasets import load_dataset 下不下来,怎么办?

from datasets import load_dataset

2022-12-23 15:16:01 1947 4

原创 向企业微信发送文字、图片的接口【亲测有效】

向企业微信发送文字、图片的接口【亲测有效】

2022-04-27 16:02:08 1145

原创 【无标题】

首发地址: https://zhuanlan.zhihu.com/p/451144980读了复旦大学发的文章《Template-free Prompt Tuning for Few-shot NER》,是用小样本思路prompt做ner的新方法,就是没开源代码很遗憾,导致有的小问题就是不明白,通过给作者发邮件弄明白了。目录:1、原有的prompt做ner的方式,及弊端;2、该文章的思路;3、该文章的思路的主要问题的解决思路;4、我对该文章的思考。1、原有的prompt做ner的方式,及弊端:

2021-12-29 16:02:18 880

原创 【已解决】notepad++ 连不上服务器

notepad++安装nppftp插件后还是连不上服务器。如果用FTP,则如果改成sftp,则。原因分析:所连接的服务器的初始化会echo或者cat一些字符。winscp就直接忽略了,但是notped++的nppftp插件就处理不了,就连不上。解决方式:登陆到相连接的服务器,vim /etc/bash.bashrc,把里面的echo、cat等等显示的命令都注释掉或者删掉。就可以了。亲测有效!参考:https://eggea.blogspot.com/2019/11/notepad-nppf

2021-08-04 18:25:19 2398 1

原创 py2neo基本操作(v4版本,亲测有效)

知乎写的,懒得搬运了:https://zhuanlan.zhihu.com/p/83032004

2020-11-13 18:17:01 1174

原创 python操作图数据库neo4j的两种方式

在知乎写的,懒得搬运了。https://zhuanlan.zhihu.com/p/82958776

2020-11-13 18:15:54 281

原创 【笔记】2020语言与智能技术竞赛冠军团队分享

回访地址: https://blog.csdn.net/weixin_38100489/article/details/109625897未完待续感觉请用请点赞,谢谢

2020-11-12 18:33:13 293

原创 【回放】2020语言与智能技术竞赛冠军团队分享

回放地址:http://mbd.baidu.com/webpage?type=live&action=liveshow&source=h5pre&room_id=4008201814

2020-11-11 16:33:21 513

原创 风控评分卡模型流程

网上搜到的资料都缺思维步骤,所以自己总结资料写了一个。其中需要注意几点:1、woe转换之后的数据是lr分类的输入。2、lr分类结果没用,用的是内部拟合线的各个变量的各个系数。3、认为上述拟合的线的结果是odd。4、认为odd和最终分数符合图中第五步的式子。5、第四步可以理解为,设定两组“odd和想要的对应分数”,算出公式中的某些参数。有用请点赞,欢迎指正!...

2020-10-27 16:03:02 210 2

原创 EDA 文本增强(和我的思考)

EDA: Easy Data Augmentation文章结构:原理、设置参数、代码。一、原理文章来源:https://arxiv.org/abs/1901.11196通过对文本中部分词的改变,达到重写文本,让样本数量增多的目的,并增强对应训练模型的泛化能力。具体有四种方式:1、同义词替换:在句子中的词中随即选择n个非停用词。将每个词换成一个随即的同义词。2、随机插入:在句子中的词中随即选择一个非停用词的一个随即同义词,将其插入句中的随机位置。做n次。3、随机交换:在句子中随机选两个词做交换

2020-08-27 14:26:27 908 2

原创 python出“黑白”曲线图、柱状图(写黑白论文用)

目的:从彩色图变黑白图思路:我到要出图这步骤时,是pandas的dataframe。如果是要出曲线图,则直接在df.plot里改参数style即可。就能出图4。fig = df.plot(kind='line', color='k', style=['--', ':', '-']fig.savefig(r'xx/xxx/xx/xxx.jpg')其中线性共有这些选项: ‘-’, ‘–’, ‘-.’, ‘:’, ‘None’, ’ ', ‘’, ‘solid’, ‘dashed’, ‘da

2020-08-11 16:12:48 2359

原创 Relu激活函数的多种变体

2020-07-10 14:38:01 411

原创 {降维} ISOMAP等距特征映射 & MDS多维标度法

首发:https://zhuanlan.zhihu.com/p/60599491介绍两种降维方法镇楼_MDS: http://www.utdallas.edu/~herve/Abdi-MDS2007-pretty.pdf镇楼_ISOMAP: http://www-clmc.usc.edu/publications/T/tenenbaum-Science2000.pdfMultidimensional Scaling (MDS) 多维标度法1、经典应用场景在不知各点坐标的,仅知道各点间距离的情况

2020-07-07 15:41:00 699

原创 降维方法小结和理解:PCA、LDA、MDS、ISOMAP、SNE、T-SNE、AutoEncoder

PCA:Principle component analysis 主成分分析百度百科:它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用于减少数据集的维数,同时保持数据集的对方差贡献最大的特征。PCA是无监督的。(其实也可以不降维,比如上面的x1和x2变成了y1和y2,就没降维。)LDA:Linear Discriminant Analysis 线性判别分析区别于

2020-07-07 15:28:40 3186

原创 社区问答(Q-Q匹配问答)文本相似度计算的四类方法

本文是我自己的思考。如果有纰漏,欢迎大佬们在评论区怼我,帮助我进步~~智能问答的其中一类 社区问答(也就是Q-Q匹配问答)的第一个环节是计算问题的文本语义向量表示;第二个环节就是通过向量的匹配得到最佳的问题候选。下面是我知道的做第二个环节的4类方式。(不是四种,而是四类。)第0种、直接两两做bert最慢的方式。复杂度是O(n)。每次两两匹配的耗时都要做一次bert(可以转tensorflow的estimator做成实时的)。也是耗时最长的方式。如果匹配的q-q对较少,是可以直接用bert类的模型直接

2020-07-02 16:48:10 1219

原创 【已解决】pip成功安装模块(如uvicorn)后,无法在命令行中使用(-bash: uvicorn: command not found)

问题以uvicorn模块为例。其他模块原理一致。问题:我在pip成功安装模块uvicorn后,用运行shell语句:uvicorn try:app --reload上面的try是指try.py,但是报bug:-bash: uvicorn: command not found为啥攻略都行,我不行呢?原因我在pip安装时候习惯输入完整的虚拟环境中的pip路径,而在shell中运行uvicorn时并未调用虚拟环境,是在基本python路径下找,所以肯定找不到。解决方式先shell运行:s

2020-07-02 11:15:50 17999 2

原创 【随笔】暴力、通透讲解:信息熵 & 交叉熵

收发地址:https://zhuanlan.zhihu.com/p/68363765本文是随笔哈,想到哪里写到哪里。------------------------ 割 -------------------------上面公式是信息熵公式,“热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。”那为什么上述公式就能代表某事情的不确定程度呢?(或者叫混乱程度)??怎么做到的呢????我在上学学概率时候就是楞背下来公式的,老师讲的、书里写的都太抽象了,联系公式最初

2020-06-26 23:59:39 209

原创 决策树系列思路(ID3、C4.5、CART、adaboost、GBDT、xgboost)

首发链接:https://zhuanlan.zhihu.com/p/149950949本文涉及决策树、随机森林、adaboost、xgboost等的思路系统。都是大思路,和各算法之间的差异对比,没有推导过程。1、单棵决策树单棵决策树的思路是,在现有节点选择某种划分方式,生成新的多个子节点,反复重复,直至某种限制条件让新增过程终止。其中的划分过程详细是,预先设定某项指标,选择某列特征作为划分方式,然后计算在该列特征划分数据集前后之间,该指标的变化量,变化的越大就越应该选择该列特征作为划分标准。这种思

2020-06-22 15:21:50 309

原创 xgboost基本过程、公式推导

给自己的学习过程做个记录。不是学习攻略。

2020-06-22 10:31:15 197

原创 [对应示例]λ-算子、λ-DCS、SPARQL、Cypher

举例:people who had children born in Seattle 对应的λ-算子:λx.∃y.Chilren( x , y ) ∧ PlaceOfBirth( y , Seattle ) λ-DCS:Chilren.PlaceOfBirth.SeattleSPARQL:prefix ns: <神马神马>select ?s1where { ?s1 ns: Chilren ?s2, ?s2 ns: PlaceOfBirth

2020-06-03 10:06:20 258

原创 知识图谱问答的思路 -- 笔记2

首发地址:https://zhuanlan.zhihu.com/p/144311555本文是段楠《智能问答》一书第五章“知识图谱问答”的笔记。(其中有略的部分。同时夹私货。)本文和姊妹篇《知识图谱问答的思路 – 笔记1》是两本书的笔记,不是前后两部分。二者思路有同有异,可搭配食用。)本文(确切的说是这本书的这一章)的信息量很大,一定要先把握大逻辑之后,再细扣具体的实现方式。本人水平有限(。。真的。。)导致书中好几处不懂的,大佬读到我下文说没看懂的地方,还请告知的评论区,真的谢谢了!1、知识图谱和语义

2020-06-01 11:34:53 913

原创 【知识图谱应用】实体链接的思路

首发:https://zhuanlan.zhihu.com/p/144183030本文是段楠《智能问答》一书第三章“实体链接”的笔记。(其中有略的部分。同时夹私货。)有不对的地方请评论告诉我哈,谢谢。实体链接(entity linking)是指将文本中出现的实体提及(entity mention)关联到对应在知识图谱中的相关实体的任务。具体步骤为,先生成候选实体,然后给候选实体排序,然后取权重查过阈值的排名第一的候选实体作为实体链接的结果。另外还有知识图谱中对应不上的情况,称为无链接指代预测。1

2020-05-28 15:37:04 1037 4

原创 知识图谱问答的思路 -- 笔记1

收发地址:https://zhuanlan.zhihu.com/p/143722983本文是赵军《知识图谱》一书第十章“知识问答与对话”的笔记。(我觉得用处小的略。同时夹私货。)有不对的地方请评论告诉我哈,谢谢。一、知识图谱问答(KGQA)1、基于语义解析的方法(Semantic Parsing)将自然语言转化成结构化查询语言,如SPARQL、CQL ( cypher )等。(私货1:另外关键词可以是Seq2Sql、Text2Sql等。当然这输出是SQL,但思路完全可以用到KGQA。)首届中文

2020-05-26 19:51:00 602

转载 NLP基本任务

转载自:http://www.zhuzongkui.top/nlp_base_task/1、词法分析(Lexical Analysis):对自然语言进行词汇层面的分析,是NLP基础性工作分词(Word Segmentation/Tokenization):对没有明显边界的文本进行切分,得到词序列新词发现(New Words Identification):找出文本中具有新形势、新意义或是新用法的词 形态分析(Morphological Analysis):分析单词的形态组成,包括词干(

2020-05-26 13:58:08 310

原创 梯度消失、梯度爆炸的解决方法及其解释

1、梯度消失1.1、换激活函数从sigmoid换成relu或relu的一系列改进版,比如leaky relu等。sigmoid中导数接近于零的情况,就换成了导数恒定的情况,单个节点的梯度(导数)就不管x变化都永远有了。但是多个0~1之间的数相乘还是趋近于0的趋势没变,所以只是缓解,而非完全解决。1.2、Batch Norm还用sigmoid,可以通过normalization将值scale到sigmoid的有效范围内,有效范围内导数大于0,可以缓解梯度下降的情况。(图片来源 : 李宏毅讲t

2020-05-25 16:34:09 687

原创 【智能问答】社区问答(CQA)的思路

详详细细的记载了我做CQA时的思考:https://zhuanlan.zhihu.com/p/84694993

2020-05-20 17:24:42 425

原创 【tensorflow】多维张量做tf.matmul

首发地址:https://zhuanlan.zhihu.com/p/138731311线性代数都学过二维矩阵的乘法,而tf.matmul还可以处理多维矩阵,比如import tensorflow as tfimport numpy as npa = tf.random.uniform([2, 1, 2, 3])b = tf.random.uniform([1, 3, 3, 2])c = tf.matmul(a, b)c是什么呢?先给出结论:不管几维矩阵都是先做最后两维的矩阵的乘法,再在不同

2020-05-20 17:20:13 860 2

原创 【NLP碎碎念】关于口语文本的一点想法

(很久没在csdn写文章了,一直在知乎,现在慢慢搬过来,原创在https://blog.csdn.net/weixin_38100489哈)看了https://zhuanlan.zhihu.com/p/142168215有一点思考。之前做对话系统时,看实际的对话记录,发现口语文本有如下特点:一是大量的口语词汇;二是打错字;三是语序错乱。1、处理错字很自然有两种思路:一是把错字纠正;二是就把训练集也刻意弄出错字。1.1、错字纠正1.1.1、针对应用场景和实际历史记录,做常见错字的规则。(实际上没

2020-05-20 17:13:30 825

转载 GBDT详解

原地址:https://www.cnblogs.com/peizhe123/p/5086128.htmlGBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(...

2018-02-21 15:36:32 342

原创 bagging和随机森林的原理和区别

来自西瓜书 区别在于,随机森林在采样时不仅“重采样”,而且只选了部分的“列”(特征)。好处就是第三张图的上面的三个小图,可以出来更多的线来用。...

2018-02-18 12:09:23 7794 3

转载 “熵”与“基尼不纯度”同为判断混乱程度的标准

“熵”与“基尼不纯度”同为判断混乱程度的标准1、信息熵 信息论中的信息量和信息熵。 信息量: 信息量是对信息的度量,就跟温度的度量是摄氏度一样,信息的大小跟随机事件的概率有关。 例如: 在哈尔滨的冬天,一条消息说:哈尔滨明天温度30摄氏度,这个事件肯定会引起轰动,因为它发生的概率很小(信息量大)。日过是夏天,“明天温度30摄氏度”可能没有人觉得是一个新闻,因为夏天温度30摄氏度太正...

2018-02-18 10:23:04 1726

原创 python datetime时间格式 与 时间字符串 相互转化

文章地址:http://blog.csdn.net/weixin_38100489/article/details/79146481In [1]: from datetime import datetimeIn [2]: a = '2018-1-20 08:12:50'In [3]: b = datetime.strptime(a, '%Y-%m-%d %H:%M:%S')In [

2018-01-24 07:50:25 894

原创 ResourceExhaustedError (see above for traceback): OOM when allocating tensor with shape[100,35,35,64

原因是显存不够了,解决方式缩小图片大小,我试了管用。参考: http://wenda.chinahadoop.cn/question/6162

2018-01-18 14:40:53 2156

原创 【已解决】Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-build-GFFuD_/ipython/

ubuntu下 如果sudo apt install ipython出来的版本是2.多,太老; 如果sudo pip install ipython出bugsudo apt install ipython 应该:sudo pip install ipython==5.1就可以啦,又新又方便。注意,ipython6.多 是不支持python2.7的,只支持python3.多。

2018-01-07 16:59:29 2218

原创 【大坑啊,已出坑】ubuntu tensorflow/keras 使用gpu

【大坑啊,已出坑】ubuntu tensorflow/keras 使用gpu一望一抹泪~ 一试一滴血~ 这是我自学机器学习以来第二大坑,不是一个坑,是“坑群”。———————–静心,静心,别着急————————当你看到这里时,不管你做到了哪一步,请先做如下尝试,不成再详细阅读后面的东西: 1、试试这个sudo apt-get install libcupti-dev2、

2018-01-07 15:26:35 2591 2

原创 【已出坑】ImportError: libcudnn.so.5: cannot open shared object file: No such file or directory 。。。

ImportError: libcudnn.so.5: cannot open shared object file: No such file or directoryFailed to load the native TensorFlow runtime.只需要sudo apt-get install libcupti-dev再尝试就可以。如果实在不行就留言给我

2018-01-07 15:15:49 807 1

原创 解决ImportError: No module named cv2

装opencv(网上有很多让下载再编译的,其实不用单纯用终端就行,由于我试了太多攻略,我也不确定那个管用,应该是下面这个就能确保装上):sudo apt-get install libcv2.4 libcvaux2.4 libhighgui2.4 libcv-dev libcvaux-dev libhighgui-dev 装上opencv以后还是会出现importerror,需要sudo pip i

2018-01-02 22:04:00 1419

原创 ImportError: Failed to import pydot. You must install pydot and graphviz for `pydotprint` to work.

在运行 from keras.utils import plot_model plot_model(model, to_file='model.png') 时会出现下图情况 提示的解决方法不管用,不仅要sudo pip install pydot, graphviz 而且还要sudo apt-get install graphviz

2018-01-01 16:43:38 1021

原创 【干货】MySQL和pymysql最基本扫盲~带你上路~

对于pymysql,网上所有文章一上来就连接数据库,根本就不说数据库怎么来的。我来个真正扫盲帖。 本文写给知道什么是mysql,却不会用python调用mysql的ren。但凡懂的人,请移步。默认已经安装了MySQL,python2.7已经有了pymysql模块。1、在命令行/终端中输入:mysql -u root -p,回车。 让你输入密码,就是你安装mysql时的密码。回车。

2017-12-13 10:58:08 1108

neo4j-community-4.1.3-unix.tar.gz

社区版 4.1.3 neo4j-community-4.1.3-unix.tar.gz

2020-10-23

graphviz安装文件 (windows)

Python可视化工具 /Packages/stable/windows/10/msbuild/Debug/Win32

2020-10-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除