自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(138)
  • 收藏
  • 关注

原创 Bert Encoder和Transformer Encoder有什么不同

前言:本篇文章主要从代码实现角度研究 Bert Encoder和Transformer Encoder 有什么不同?应该可以帮助你:深入了解Bert Encoder 的结构实现 深入了解Transformer Encoder的结构实现本篇文章不涉及对注意力机制实现的代码研究。注:本篇文章所得出的结论和其它文章略有不同,有可能是本人代码理解上存在问题,但是又没有找到更多的文章加以验证,并且代码也检查过多遍。观点不太一致的文章:bert-pytorch版源码详细解读_bert pyto

2024-03-04 16:01:55 1204

原创 nn.Embedding 理解及其参数 padding_idx含义

误区文章:https://blog.csdn.net/weixin_38257276/article/details/114195454。看到一些文章对Embedding层理解上存在误区,故贡献一点自己的想法。

2024-03-03 13:47:41 348

原创 win10使用IE访问某些特殊地址的极简办法(成功有效)

1、打开win10默认的Edge浏览器的设置:点击右上角的三个点,然后里面有个设置选项。5、在Edge中去访问你要访问的地址,就好了。前言:看了好多其它办法,都没什么作用~2、找到默认浏览器选项。3、添加你要访问的地址。

2024-02-01 18:55:46 195

原创 交叉验证理解

2、k-折交叉验证,就是把数据集分成k份,其中k-1份作为训练集,剩下的1份作为测试集,于是模型可以训练k次,每次训练好的模型都在不同的测试集上得到一个指标比如是acc,把k次的指标取平均值,可以更好地,更准确地,更客观地知道模型的表现或者效果。即每种参数选择之后,都是用k-折交叉验证,获取当前参数下,模型的综合水准,然后比较哪种参数情况下,模型的综合表现效果最好。1、将数据切分成单一的训练集和测试集,然后用测试集去验证模型的效果,是不那么可靠的,有可能刚好这部分测试集更容易被训练好的模型拟合。

2024-01-10 17:26:12 440

原创 python使用SQLAlchemy连接国产化数据库高斯DB(OpenGauss)

这使得安装速度更快,因为它不需要编译过程。我们现在要让SQLAlchemy去连接OpenGauss,OpenGauss对应的驱动程序是psycopg2,需要先安装psycopg2包,可以安装psycopg2-binary,更简单、方便(pip install psycopg2-binary)。也就是说,要用SQLAlchemy操作数据库,需要安装SQLAlchemy和对应的数据库驱动程序,然后就能用统一的ORM执行相应的操作,即使数据库改变了,程序也不需要变动,只需要更改与数据库的连接方式;

2023-06-07 10:23:15 2501

原创 oracle创建带有自增字段和自动更新时间的表

oracle创建表,时间字段,自增id

2022-07-07 11:11:49 1742 1

原创 Keras使用load_weights加载模型之后,没有predict方法

有可能你是这么写的,按图片中修改即可:

2022-05-31 15:55:10 421

原创 docker 操作

docker中镜像和容器的区别:1、镜像是包含了各种环境或者服务的一个模板,而容器是镜像的一个实例;2、镜像是不能运行的,是静态的,而容器是可以运行的,是动态的。1、镜像操作(0)查看版本docker --version(1)列出镜像docker image ls -aREPOSITORY:镜像所在的仓库名称TAG:镜像标签IMAGEID:镜像IDCREATED:镜像的创建日期(不是获取该镜像的日期)SIZE:镜像大小(2)从镜像去启动一个容器,也就是创建一个容器实例doc

2022-05-25 10:16:53 226

原创 git push 有冲突,pycharm解决

1、上传本地文件–add->缓冲区–commit–>本地仓库–push–>远程仓库(1)git ls-files 查看缓冲区内有哪些文件;git add 是将本地文件存到缓冲区;git restore --staged 是将缓冲区文件撤出缓冲区;git resore 将不在暂存区的文件撤销更改;(2)git status 用于查看在你上次提交之后是否有对文件进行再次修改;会显示文件有如下几种状态:Changes to be committed 当前文件已经在缓冲区,可以

2022-03-08 16:22:54 2617

原创 终于解决了模型训练每次结果不同的问题

1、解决方法1、确保训练过程中每个epoch的数据之间是不同的,但是又要保证每次实验中的所有epoch数据是相同的;def batch_iter2(x, y, seed_id, batch_size): """生成批次数据""" data_len = len(x) num_batch = int((data_len - 1) / batch_size) + 1 np.random.seed(seed_id) # 设置每个epoch的随机种子,保证每个epoch的数据不同

2022-01-21 13:58:26 12654

原创 集成模型1

参考:https://blog.csdn.net/hellozhxy/article/details/82143554参考:https://blog.csdn.net/liulina603/article/details/787426141、策略:Bagging和Boosting将弱分类器转换成强分类器,常用的方式有两种:Bagging和BoostingBagging即套袋法,其算法过程如下:A)从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping(Bootstrapi.

2022-01-12 09:57:11 383

原创 其实挺简单:RNN的反向传播

1、一个结构和两个公式st=f(U⋅xt+W⋅st−1)s_t=f(U\cdot x_t+W\cdot s_{t-1})st​=f(U⋅xt​+W⋅st−1​)ot=g(V⋅st)o_t=g(V\cdot s_t)ot​=g(V⋅st​)2、简要说明反向传播    在训练过程中,我们会进行前向传播,得到每一时刻的预测值,在RNN中预测值就是oto_tot​,这些预测值oto_tot​和真实值yty_tyt​之间存在误差,利用这一点我们可以想办法构造出损失函数,常见的是交叉熵损失,则对于每一时刻的损

2021-12-28 18:02:56 2119 1

原创 余弦相似度证明

1、余弦定理证明定理:给定任意一个三角形,其夹角余弦为:cos(θ)=a2+b2−c22abcos(\theta)=\frac{a^2+b^2-c^2}{2ab}cos(θ)=2aba2+b2−c2​证明:做红色辅助线,有,c=b⋅cos(α)+a⋅cos(β)c=b\cdot cos(\alpha)+a\cdot cos(\beta)c=b⋅cos(α)+a⋅cos(β)则,c2=bc⋅cos(α)+ac⋅cos(β)c^2=bc\cdot cos(\alpha)+ac\cdot cos(\

2021-12-27 16:24:54 703

原创 pytorch和cuda的版本匹配

https://pytorch.org/get-started/previous-versions/

2021-11-25 15:24:58 2575

原创 git常用操作总结

1、本地仓库 & 远程仓库1、创建本地仓库 git init2、链接远程仓库,默认名称是origin git remote add origin https://github.com/coding-xian/my-nlp.git3、查看链接到的远程仓库地址 git remote -v 注意:会显示fetch和push两行,其中fetch标识的是远程仓库到本地仓库的地址(从哪里获取),push标识的是本地仓库提交到的远程仓库地址(推送到哪里去);4、删除本地仓库和远程仓库的链接(如果

2021-08-25 14:48:01 139

原创 在windows上安装第二个版本的cuda

1、先看看版本匹配图查看电脑驱动版本,也就是下面红色框框中的版本怎么查直接输入nvidia-smi命令查询你可能会遇到如下问题GPU之nvidia-smi命令详解Windows NVIDIA Corporation下没有NVSMI文件夹解决方法找不到nvidia-smi命令怎么办:需要安装环境变量说明,图片里显示的是我电脑的驱动可支持的CUDA最高版本是11.0,我已经在电脑上安装了cuda-10.1,现在我想再安装一个cuda-102、查看tensorflow-gpu版本、cu

2021-08-15 22:28:08 3051

原创 linux压缩和解压

1、有关tar的压缩命令、解压命令dirname 表示文件或者文件夹(1)dirname -> filename.tar压缩:tar czvf filename.tar dirname解压: tar zxvf filename.tar(2)dirname -> filename.tar.gz压缩:tar zcvf filename.tar.gz dirname解压:tar zxvf filename.tar.gz(3)dirname -> filename.tar.

2021-08-12 17:28:20 90

原创 pytorch框架(1)安装那些破 ~ 事

本文将介绍如何安装pytorch,包括cpu版本和gpu版本,conda安装,pip安装

2021-08-10 01:27:17 497

原创 将tensorflow版本的预训练模型转换成pytorch版本的

参考:https://blog.csdn.net/qq_38880498/article/details/998670331、安装pytorch2、安装pytorch-transformers3、下载模型,例如bert-base-chinese4、转换5、改名【转换后的结果】【修改目录名称、修改文件名称、可以删除ckpt文件】这样就得到了转换好的模型6、使用import torchfrom pytorch_transformers import B..

2021-07-15 15:11:06 1729

原创 from tensorflow.python.eager.context import get_config报错

一定是keras和tensorflow版本不匹配的问题https://docs.floydhub.com/guides/environments/

2021-05-31 20:20:56 11022

原创 Mac中环境变量的添加

只需要知道,PATH是一个变量,如下,就是在往这个变量中添加一条路径,路径和路径之间规定用冒号分割export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_181.jdk/Contents/Homeexport PATH=${PATH}:${JAVA_HOME}/bin...

2021-04-13 14:50:10 162

原创 PyCharm中调用另一个文件夹下的py文件下的方法,报错???

vecTest.py是和addrSimPurPython平级目录Test下的一个py文件,可以发现当调用addrSimPurPython目录下的三个py文件时,出现了如上图所示的错误,原因就是py文件名不规范!!!,MyTFIDF是可以,而Addr-2是不可以的...

2021-04-12 09:53:25 1480

原创 复杂网络分团算法分类及评价指标

理论指标:复杂网络分团的评价指标复杂网络划分方法的研究综述(Research Review on Algorithms of Community Detection in Complex Networks-Jingyi Zhang et al.)2002年,提出了社区结构的概念纽曼(Newman)认为,社区中节点之间的联系比不同社区中节点之间的连接更紧密。 社区检测算法分为重叠社区检测算法和非重叠社区检测算法。 重叠社区检测算法具有较好的实际意义比非重叠社区检测算法。 首先,重叠节点是关..

2021-03-02 11:33:26 1016

原创 mac安装docker

1.安装-菜鸟教程https://www.runoob.com/docker/macos-docker-install.html2.可能会报错:测试,是否安装成功报错:docker: Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?.See 'docker run --help'.我的解决方法:mac启动docker,参考方法2:h

2021-03-01 09:49:58 189

原创 互联网业务风控

https://github.com/fgyeason/algorithm-and-risk-management互联网业务风控1. 不同场景下的业务风控1.1 账户业务风控1.1.1账户安全账号安全是所有强账号体系应用的基础,强账号体系,如电商、网游、第三方支付、社交网络、即时通讯等;是需要登录后产生数据和交互的应用,而搜索、导航、杀毒客户端不需要登录也能用、属于弱账号体系应用。 对用户来说,账号安全涉及用户个人隐私的信息的安全、用户体验以及资金安全等方面;对于互联网平台,账户安.

2021-02-19 19:20:06 4015

原创 PySpark(5)创建DataFrame

# 数据准备columns = ["language","users_count"]data = [("Java", "20000"), ("Python", "100000"), ("Scala", "3000")]1. Create PySpark DataFrame from an existing RDD.'''1. Create PySpark DataFrame from an existing RDD.'''# 首先创建一个需要的RDDspark = SparkSess..

2021-02-19 10:16:32 523

原创 PySpark(4)RDD Actions with examples

foreach()# Action foreach(function) : Applies a function to all elements of this RDDrdd6.foreach(print)# (27, 'anyone')# (27, 'anywhere')# (27, 'at')# (27, 'and')count()# Action - count() : Return the number of elements in this RDD.print("Coun.

2021-02-19 09:33:40 110

原创 PySpark(3)RDD Transformations with examples

1.RDD Transformations介绍:RDD Transformations操作是在RDD上执行时的Spark操作,。它会导致一个或多个新RDD。由于RDD本质上是不可变的,因此转换总是在不更新现有RDD的情况下创建新的RDD,因此,这会创建RDD族谱。RDD谱系也称为RDD运算符图或RDD依赖图。RDD Transformations操作的两个特点是,在调用Spark RDD上的action操作之前,不会执行任何Transformations操作;由于RDD是不可变的,因此对其进行任

2021-02-18 18:50:29 147

原创 PySpark(2)创建RDD

1.什么是RDD-弹性分布式数据集?RDD(弹性分布式数据集)是PySpark的基本构建块,它是容错的,不可变的对象分布式集合。不变的含义一旦创建了RDD,就无法更改。 RDD中的每个记录都分为逻辑分区,可以在群集的不同节点上进行计算。换句话说,RDD是类似于Python中列表的对象的集合,区别在于RDD是在分散在多个物理服务器(也称为集群中的节点)上的多个进程上计算的,而Python集合仅在一个进程中存在和处理。此外,RDD提供数据的分区和分布的数据抽象,这些数据旨在在多个节点上并行运行计算,而在

2021-02-18 17:18:16 815

原创 pyspark(1)介绍与安装概要

目录1.什么是pyspark2.pyspark的特点3.pyspark的优点4.pyspark架构5.pyspark的模块6.pyspark的安装1.什么是pysparkPySpark是一个用Python编写的Spark库,用于使用Apache Spark功能运行Python应用程序,使用PySpark,我们可以在分布式集群(多个节点)上并行运行应用程序。换句话说,PySpark是用于Apache Spark的Python API。 Apache Spark是一个分析处

2021-02-18 15:28:42 3136

原创 Spark history-server详解

好文章:https://blog.csdn.net/yu0_zhang0/article/details/80396080注意点:没有spark-defaults.conf文件的话,就创建一个,不然显示不出来。其它文件同理

2021-02-07 14:52:55 184

原创 pip安装tensorflow-gpu;keras

1.tensorflow-gpu对应的cuda;dudnn版本:查询地址:https://tensorflow.google.cn/install/source_windows如python3.8可以安装:pip install tensorflow-gpu==2.3.02.cuda配置:cuda下载地址:https://developer.nvidia.com/cuda-toolkit-archive可参考:https://www.cnblogs.com/fanfzj/p/85217

2020-11-03 21:11:22 257

原创 spider-bs4

文档中文文档使用-bs4如何选择文档中的元素安装bs4是一个可以从HTML或XML文件中提取数据的Python库.除了安装bs4模块,还需要安装文档解析器,以lxml HTML 解析器为例,通常使用该解析器pipinstalllxml使用,以一段html文档为例,使用bs4来对其进行解析from bs4 import BeautifulSouphtml = '''<title name='bbb'> <h2>2222222222222..

2020-09-23 15:04:40 123

原创 spider-re

文档re模块基本使用正则表达式书写规范总结re.match()# re.match()方法:必须从字符串的第一个字符开始匹配content = "hello 1234567 World_This is a Regex Demo"result = re.match('^hello.*Demo$', content)print(result)print(result.group())print(result.span())输出:<re.Match object; s

2020-09-23 14:37:24 104

转载 spider-requests

文档requests中文文档实例requests基本使用其它json字符串和json字典对象的转化import requestsresponse1 = requests.get("http://httpbin.org/get?key1=value1")print(response1.url)print(response1.request.headers)print(response1.headers)# Json是一种数据格式,而不是数据类型print(type

2020-09-23 14:10:16 111

翻译 spider-urllib

文档阅读# 1、urllib库包含4个模块# (1)urllib.request是用来打开和读取url的# (2)urllib.error包含urllib.request引发的异常# (3)urllib.parse用于解析URL# (4)urllib.robotparser用于解析robots.txt文件# urllib.request模块常用功能# (1)urllib.request.urlopen(url, timeout)方法,包含许多参数,这里只显示常用的两个参数,其中time

2020-09-23 10:56:30 79

原创 机器学习笔记-决策树和随机森林

预备知识;信息熵(会在决策树和随机森林中用到)决策树和随机森林—邹博决策树基本原理决策树的依据:信息熵下降;即子结点的熵小于父节点的熵;节点的信息熵代表了节点的不确定性程度,不确定性越小,确定性越大;原理:决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶子节点中的实例都属于同一类。一个例子及其分析(1...

2019-12-19 11:57:01 586

原创 机器学习笔记-回归(线性和逻辑)

1.线性回归—邹博目标函数-损失函数的推导(1)给定假设函数h(theta)其中,h表示y的预测值,h和y之间具有一个误差值ε;(2)对误差值ε的假设;由中心极限定理,可以认为误差服从正态分布ε~N(0, sigma2);进一步假设误差是独立同分布的。(3)损失函数J(theta)的由来公式变换;第二个公式右边是对第一个公式结合上述公式替换得到,公式左边...

2019-12-18 12:45:07 760

转载 python模块pandas的常用方法

1、基本数据集操作(1)读取 CSV 格式的数据集pd.DataFrame.from_csv(“csv_file”)或者:pd.read_csv(“csv_file”)(2)读取 Excel 数据集pd.read_excel("excel_file")(3)将 DataFrame 直接写入 CSV 文件如下采用逗号作为分隔符,且不带索引:df.to_csv("data....

2019-09-26 16:46:43 496

原创 python实现逻辑回归算法

前言:在实现线性回归的基础上,继续推出逻辑回归的算法实现;本节将对比线性回归,说明逻辑回归的原理。1、原理注:逻辑回归,属于二分类问题,是分类算法,预测的是离散值;不是回归算法2、实现数据准备:https://blog.csdn.net/Carl_changxin/article/details/100857456代码:# 逻辑回归python...

2019-09-21 10:35:54 5017 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除