coding_xian-CSDN博客

原创 Bert Encoder和Transformer Encoder有什么不同

前言：本篇文章主要从代码实现角度研究 Bert Encoder和Transformer Encoder 有什么不同？应该可以帮助你：深入了解Bert Encoder 的结构实现深入了解Transformer Encoder的结构实现本篇文章不涉及对注意力机制实现的代码研究。注：本篇文章所得出的结论和其它文章略有不同，有可能是本人代码理解上存在问题，但是又没有找到更多的文章加以验证，并且代码也检查过多遍。观点不太一致的文章：bert-pytorch版源码详细解读_bert pyto

2024-03-04 16:01:55 1204

原创 nn.Embedding 理解及其参数 padding_idx含义

误区文章：https://blog.csdn.net/weixin_38257276/article/details/114195454。看到一些文章对Embedding层理解上存在误区，故贡献一点自己的想法。

2024-03-03 13:47:41 348

原创 win10使用IE访问某些特殊地址的极简办法（成功有效）

1、打开win10默认的Edge浏览器的设置：点击右上角的三个点，然后里面有个设置选项。5、在Edge中去访问你要访问的地址，就好了。前言：看了好多其它办法，都没什么作用~2、找到默认浏览器选项。3、添加你要访问的地址。

2024-02-01 18:55:46 195

原创交叉验证理解

2、k-折交叉验证，就是把数据集分成k份，其中k-1份作为训练集，剩下的1份作为测试集，于是模型可以训练k次，每次训练好的模型都在不同的测试集上得到一个指标比如是acc，把k次的指标取平均值，可以更好地，更准确地，更客观地知道模型的表现或者效果。即每种参数选择之后，都是用k-折交叉验证，获取当前参数下，模型的综合水准，然后比较哪种参数情况下，模型的综合表现效果最好。1、将数据切分成单一的训练集和测试集，然后用测试集去验证模型的效果，是不那么可靠的，有可能刚好这部分测试集更容易被训练好的模型拟合。

2024-01-10 17:26:12 440

原创 python使用SQLAlchemy连接国产化数据库高斯DB（OpenGauss）

这使得安装速度更快，因为它不需要编译过程。我们现在要让SQLAlchemy去连接OpenGauss，OpenGauss对应的驱动程序是psycopg2，需要先安装psycopg2包，可以安装psycopg2-binary，更简单、方便（pip install psycopg2-binary）。也就是说，要用SQLAlchemy操作数据库，需要安装SQLAlchemy和对应的数据库驱动程序，然后就能用统一的ORM执行相应的操作，即使数据库改变了，程序也不需要变动，只需要更改与数据库的连接方式；

2023-06-07 10:23:15 2501

原创 oracle创建带有自增字段和自动更新时间的表

oracle创建表，时间字段，自增id

2022-07-07 11:11:49 1742 1

原创 Keras使用load_weights加载模型之后，没有predict方法

有可能你是这么写的，按图片中修改即可：

2022-05-31 15:55:10 421

原创 docker 操作

docker中镜像和容器的区别：1、镜像是包含了各种环境或者服务的一个模板，而容器是镜像的一个实例；2、镜像是不能运行的，是静态的，而容器是可以运行的，是动态的。1、镜像操作（0）查看版本docker --version（1）列出镜像docker image ls -aREPOSITORY：镜像所在的仓库名称TAG：镜像标签IMAGEID：镜像IDCREATED：镜像的创建日期(不是获取该镜像的日期)SIZE：镜像大小（2）从镜像去启动一个容器，也就是创建一个容器实例doc

2022-05-25 10:16:53 226

原创 git push 有冲突，pycharm解决

1、上传本地文件–add->缓冲区–commit–>本地仓库–push–>远程仓库（1）git ls-files 查看缓冲区内有哪些文件;git add 是将本地文件存到缓冲区；git restore --staged 是将缓冲区文件撤出缓冲区；git resore 将不在暂存区的文件撤销更改；（2）git status 用于查看在你上次提交之后是否有对文件进行再次修改；会显示文件有如下几种状态：Changes to be committed 当前文件已经在缓冲区，可以

2022-03-08 16:22:54 2617

原创终于解决了模型训练每次结果不同的问题

1、解决方法1、确保训练过程中每个epoch的数据之间是不同的，但是又要保证每次实验中的所有epoch数据是相同的；def batch_iter2(x, y, seed_id, batch_size): """生成批次数据""" data_len = len(x) num_batch = int((data_len - 1) / batch_size) + 1 np.random.seed(seed_id) # 设置每个epoch的随机种子，保证每个epoch的数据不同

2022-01-21 13:58:26 12654

原创集成模型1

参考：https://blog.csdn.net/hellozhxy/article/details/82143554参考：https://blog.csdn.net/liulina603/article/details/787426141、策略:Bagging和Boosting将弱分类器转换成强分类器，常用的方式有两种：Bagging和BoostingBagging即套袋法，其算法过程如下：A）从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping（Bootstrapi.

2022-01-12 09:57:11 383

原创其实挺简单：RNN的反向传播

1、一个结构和两个公式st=f(U⋅xt+W⋅st−1)s_t=f(U\cdot x_t+W\cdot s_{t-1})st=f(U⋅xt+W⋅st−1)ot=g(V⋅st)o_t=g(V\cdot s_t)ot=g(V⋅st)2、简要说明反向传播在训练过程中，我们会进行前向传播，得到每一时刻的预测值，在RNN中预测值就是oto_tot，这些预测值oto_tot和真实值yty_tyt之间存在误差，利用这一点我们可以想办法构造出损失函数，常见的是交叉熵损失，则对于每一时刻的损

2021-12-28 18:02:56 2119 1

原创余弦相似度证明

1、余弦定理证明定理：给定任意一个三角形，其夹角余弦为：cos(θ)=a2+b2−c22abcos(\theta)=\frac{a^2+b^2-c^2}{2ab}cos(θ)=2aba2+b2−c2证明：做红色辅助线，有，c=b⋅cos(α)+a⋅cos(β)c=b\cdot cos(\alpha)+a\cdot cos(\beta)c=b⋅cos(α)+a⋅cos(β)则，c2=bc⋅cos(α)+ac⋅cos(β)c^2=bc\cdot cos(\alpha)+ac\cdot cos(\

2021-12-27 16:24:54 703

原创 pytorch和cuda的版本匹配

https://pytorch.org/get-started/previous-versions/

2021-11-25 15:24:58 2575

原创 git常用操作总结

1、本地仓库 & 远程仓库1、创建本地仓库 git init2、链接远程仓库，默认名称是origin git remote add origin https://github.com/coding-xian/my-nlp.git3、查看链接到的远程仓库地址 git remote -v 注意：会显示fetch和push两行，其中fetch标识的是远程仓库到本地仓库的地址（从哪里获取），push标识的是本地仓库提交到的远程仓库地址（推送到哪里去）；4、删除本地仓库和远程仓库的链接（如果

2021-08-25 14:48:01 139

原创在windows上安装第二个版本的cuda

1、先看看版本匹配图查看电脑驱动版本，也就是下面红色框框中的版本怎么查直接输入nvidia-smi命令查询你可能会遇到如下问题GPU之nvidia-smi命令详解Windows NVIDIA Corporation下没有NVSMI文件夹解决方法找不到nvidia-smi命令怎么办：需要安装环境变量说明，图片里显示的是我电脑的驱动可支持的CUDA最高版本是11.0，我已经在电脑上安装了cuda-10.1，现在我想再安装一个cuda-102、查看tensorflow-gpu版本、cu

2021-08-15 22:28:08 3051

原创 linux压缩和解压

1、有关tar的压缩命令、解压命令dirname 表示文件或者文件夹（1）dirname -> filename.tar压缩：tar czvf filename.tar dirname解压： tar zxvf filename.tar（2）dirname -> filename.tar.gz压缩：tar zcvf filename.tar.gz dirname解压：tar zxvf filename.tar.gz（3）dirname -> filename.tar.

2021-08-12 17:28:20 90

原创 pytorch框架（1）安装那些破 ~ 事

本文将介绍如何安装pytorch，包括cpu版本和gpu版本，conda安装，pip安装

2021-08-10 01:27:17 497

原创将tensorflow版本的预训练模型转换成pytorch版本的

参考：https://blog.csdn.net/qq_38880498/article/details/998670331、安装pytorch2、安装pytorch-transformers3、下载模型，例如bert-base-chinese4、转换5、改名【转换后的结果】【修改目录名称、修改文件名称、可以删除ckpt文件】这样就得到了转换好的模型6、使用import torchfrom pytorch_transformers import B..

2021-07-15 15:11:06 1729

原创 from tensorflow.python.eager.context import get_config报错

一定是keras和tensorflow版本不匹配的问题https://docs.floydhub.com/guides/environments/

2021-05-31 20:20:56 11022

原创 Mac中环境变量的添加

只需要知道，PATH是一个变量，如下，就是在往这个变量中添加一条路径，路径和路径之间规定用冒号分割export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_181.jdk/Contents/Homeexport PATH=${PATH}:${JAVA_HOME}/bin...

2021-04-13 14:50:10 162

原创 PyCharm中调用另一个文件夹下的py文件下的方法，报错？？？

vecTest.py是和addrSimPurPython平级目录Test下的一个py文件，可以发现当调用addrSimPurPython目录下的三个py文件时，出现了如上图所示的错误，原因就是py文件名不规范！！！，MyTFIDF是可以，而Addr-2是不可以的...

2021-04-12 09:53:25 1480

原创复杂网络分团算法分类及评价指标

理论指标：复杂网络分团的评价指标复杂网络划分方法的研究综述（Research Review on Algorithms of Community Detection in Complex Networks-Jingyi Zhang et al.）2002年，提出了社区结构的概念纽曼（Newman）认为，社区中节点之间的联系比不同社区中节点之间的连接更紧密。社区检测算法分为重叠社区检测算法和非重叠社区检测算法。重叠社区检测算法具有较好的实际意义比非重叠社区检测算法。首先，重叠节点是关..

2021-03-02 11:33:26 1016

原创 mac安装docker

1.安装-菜鸟教程https://www.runoob.com/docker/macos-docker-install.html2.可能会报错：测试，是否安装成功报错：docker: Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?.See 'docker run --help'.我的解决方法：mac启动docker，参考方法2：h

2021-03-01 09:49:58 189

原创互联网业务风控

https://github.com/fgyeason/algorithm-and-risk-management互联网业务风控1. 不同场景下的业务风控1.1 账户业务风控1.1.1账户安全账号安全是所有强账号体系应用的基础，强账号体系，如电商、网游、第三方支付、社交网络、即时通讯等；是需要登录后产生数据和交互的应用，而搜索、导航、杀毒客户端不需要登录也能用、属于弱账号体系应用。对用户来说，账号安全涉及用户个人隐私的信息的安全、用户体验以及资金安全等方面；对于互联网平台，账户安.

2021-02-19 19:20:06 4015

原创 PySpark（5）创建DataFrame

# 数据准备columns = ["language","users_count"]data = [("Java", "20000"), ("Python", "100000"), ("Scala", "3000")]1. Create PySpark DataFrame from an existing RDD.'''1. Create PySpark DataFrame from an existing RDD.'''# 首先创建一个需要的RDDspark = SparkSess..

2021-02-19 10:16:32 523

原创 PySpark（4）RDD Actions with examples

foreach()# Action foreach(function) : Applies a function to all elements of this RDDrdd6.foreach(print)# (27, 'anyone')# (27, 'anywhere')# (27, 'at')# (27, 'and')count()# Action - count() : Return the number of elements in this RDD.print("Coun.

2021-02-19 09:33:40 110

原创 PySpark（3）RDD Transformations with examples

1.RDD Transformations介绍：RDD Transformations操作是在RDD上执行时的Spark操作，。它会导致一个或多个新RDD。由于RDD本质上是不可变的，因此转换总是在不更新现有RDD的情况下创建新的RDD，因此，这会创建RDD族谱。RDD谱系也称为RDD运算符图或RDD依赖图。RDD Transformations操作的两个特点是，在调用Spark RDD上的action操作之前，不会执行任何Transformations操作；由于RDD是不可变的，因此对其进行任

2021-02-18 18:50:29 147

原创 PySpark（2）创建RDD

1.什么是RDD-弹性分布式数据集?RDD（弹性分布式数据集）是PySpark的基本构建块，它是容错的，不可变的对象分布式集合。不变的含义一旦创建了RDD，就无法更改。 RDD中的每个记录都分为逻辑分区，可以在群集的不同节点上进行计算。换句话说，RDD是类似于Python中列表的对象的集合，区别在于RDD是在分散在多个物理服务器（也称为集群中的节点）上的多个进程上计算的，而Python集合仅在一个进程中存在和处理。此外，RDD提供数据的分区和分布的数据抽象，这些数据旨在在多个节点上并行运行计算，而在

2021-02-18 17:18:16 815

空空如也

空空如也