自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(58)
  • 收藏
  • 关注

原创 ChineseBERT使用指北

bert是语义模型,因此无法解决形近字、音近字的问题。ChineseBERT主要引入了文本的拼音编码和字形编码解决上述问题。

2023-06-14 18:39:27 655

原创 GNN图神经网络

图神经网络是一个相对宽泛的概念,本质是每个节点embedding都要融合邻居的特征,根据具体融合方式的不同又衍生出了下面各种具体模型。最简单的GNN消息传递可以看做fc,所有邻居节点以权重w向当前节点加权,最终取一个mean/max/min等激活函数。embedding,W是可训练参数。调整后的邻接矩阵即对原始邻接矩阵做。增加了attention结构,计算。之间的相似度,进行加权。

2023-05-11 10:20:54 662 2

原创 BatchNormalization和LayerNormalization的理解、适用范围、PyTorch代码示例

学习神经网络归一化时,文章形形色色,但没找到适合小白通俗易懂且全面的。学习过后,特此记录。

2023-04-25 19:17:30 555

原创 python爬虫反反爬机制:动态User-Agent+动态ip

ip是计算机在网络中的地址,如果同一个ip同时访问该网站,即使换了user-agent依然会被识破。User-Agent是浏览器的头部信息,不设置时会被识别出Python。因此一般将自己的浏览器User-Agent传入。网络上有很多免费的ip地址,但是对我们的目标网站不一定能用,因此需要先进行测试。这里直接贴代码(来源:置顶连接)代码可以直接用,需要改的只是test_url换成你要爬取的目标网站,因为同一个ip对不同目标网站也不一定能访问。url是我们免费爬取ip地址的网站,这里也可以换成其他免费网站。

2023-03-23 11:32:09 1188

原创 论文笔记(4):Information Asymmetry and Trading in Dark Pools: Evidence from Earnings Announcement and An

探究了定期(earning announcement)和不定期(analyst recommendation revision)公司信息披露事件前后的黑池交易量。发现在这两类事件前后都会发生更多交易。

2023-02-22 15:54:23 164

原创 jupyter使用指北:如何打开.ipynb文件|修改jupyter notebook的默认路径|在jupyter按照包

不需要先进入jupyter再把文件拷贝到默认路径。

2023-02-21 14:20:06 1537

原创 论文笔记(3):Analyst Forecast Revision Consistency and Bias in Earnings Forecast Revisions

analyst forecast revision consistency

2023-02-21 13:32:03 141 1

原创 论文笔记(2):Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

chain-of-thought提示学习,推理任务中间链

2023-02-06 19:45:39 2240 2

原创 论文笔记(1):Large Language Models are few(1)-shot Table Reasoners

2023论文精读:表结构推理;少样本提示学习

2023-02-01 11:18:49 527 1

原创 推荐系统方法梳理

推荐系统入门:召回、粗排、精排、重排常见算法

2022-08-16 12:37:36 1052 1

原创 从零开始的tensorflow小白使用指北

数据准备、模型准备、模型训练、保存和加在预训练模型

2022-08-03 18:04:09 377 1

原创 csdn图片去水印 | 其他方法无效时的解决方案

图片地址后面没有?,其他方法无效时怎样去除水印。

2022-08-03 14:48:01 621

原创 git入门基础

git基础操作

2022-07-26 16:44:55 110

原创 从零开始的pytorch小白使用指北

pytorch框架简简简介及入门编程

2022-07-20 22:47:39 1444

原创 USCD行人异常数据集使用指南 | 快速下载

数据集介绍UCSD是一个行人异常检测数据集(官网:http://www.svcl.ucsd.edu/projects/anomaly/dataset.htm)。通过安装在高程处的固定摄像头获取,可俯瞰人行道。数据被拆分为 2 个子集,每个子集对应于不同的场景。从每个场景录制的视频片段被分成大约200帧的各种剪辑。Peds1:一群人走向和远离相机的片段,以及一定程度的透视失真。包含 34 个train视频示例和 36 个test视频示例。Peds2:行人平行于摄像机平面移动的场景。包含 16 个tra

2022-03-25 10:01:35 1937 3

原创 inductive learning和transductive learning最最简单易懂的解释 | 算法举例

文章目录概念定义算法举例区别实例网上很多大神对inductive learning和transductive learning进行了原理层面的讲解,并且给出了数学符号进行严谨定义。但机器学习小白理解起来还是有些费劲,本文力求用最最简单易懂的语言介绍二者的定义和区别。概念定义inductive learning:归纳学习,从特殊到一般;transductive learning:转导学习,从特殊到特殊。算法举例文字性的叙述一大堆很难看明白,但先上例子其实就很容易自己get到二者的区别了。indu

2022-03-14 14:59:19 2354 1

原创 Keras保存训练过程中的最好模型

以xDeepFM为例保存模型参数from deepctr.models import xDeepFMmodel = xDeepFM(...)model.compile(...)model.fit(...)# save_weightsmodel.save_weights('... .h5')读取h5模型model = xDeepFM(...)# load_weightsmodel.load_weights('... .h5')由于h5文件保存的是模型参数,因此模型结构需要自己手动构

2022-01-05 16:03:19 3114

原创 大厂面试机器学习算法(0):特征工程 | 数据预处理

文章目录数据分桶(分箱)卡方分桶等距分桶等频分桶聚类分桶数据规范化min-max normalizationz-score数据清洗数据缺失噪音数据数据不一致特征选择与特征提取特征选择特征提取数据分桶(分箱)概念数据分桶是一种数据预处理技术,通过对连续变量离散化,提高模型性能。意义离散后的特征对异常值更有鲁棒性,尤其避免极端异常值的干扰;特征离散后模型更稳定,不会因为特征值的轻微变化而改变结果;稀疏向量内积乘法运算速度快,算法速度更快,也便于存储。分桶方法有监督:best-ks分桶和卡

2021-12-15 15:51:17 1032

转载 机器学习中的矩阵向量求导

文章目录向量对向量求导的链式法则标量对多个向量的链式求导法则标量对多个矩阵的链式求导法则向量对向量求导的链式法则假设多个向量存在依赖关系,比如三个向量????→????→????存在依赖关系,则我们有下面的链式求导法则:∂????∂????=∂????∂????∂????∂????\frac{∂????}{∂????}=\frac{∂????}{∂????}\frac{∂????}{∂????}∂x∂z​=∂y∂z​∂x∂y​        该法则也可以推广到更多的向量依赖关系。但是要注意的是要求所有

2021-12-01 15:53:06 138

原创 shell/sh/bash的区别和基本操作

shell/sh/bash的区别和联系和常用命令

2021-10-27 15:31:35 723

原创 cs服务与thrift协议

文章目录RPC服务thrift协议RPC服务thrift协议thrift是接口定义语言和通讯协议(类比http),放在远程的接口,实现跨语言开发。建立thrift服务的步骤:服务端建立IDL文件(.thrift文件),定义接口(不实现函数)。这里可以选择Python、Java等多种语言。以Python为例:namespace py example#consist of 2 parts:struct and service# struct:字段前需要indexstruct Data

2021-10-27 14:01:55 175

原创 HDFS的命令行操作

doas hdfs dfs -命令访问hdfs文件:doas hdfs dfs -ls URI新建hdfs文件:doas hdfs dfs -mkdir URI复制文件到指定位置:hdfs dfs -cp [-f] URI选项:-f选项覆盖已经存在的目标。查看文件内容:doas hdfs dfs -cat URI......

2021-10-26 18:32:01 757

原创 大厂面试机器学习算法(6)时间序列分析

文章目录序列特征构造时间序列分析任务- Indexing/Query by Content- Clustering- Classification- Segmentation/Summarization- Prediction- Anomaly Detection- Motif Discovery时间序列分析算法Autoregression, Moving Average系列- Autoregression (AR)- Moving Average (MA)- Autoregressive Moving A

2021-10-26 17:06:20 2342 1

原创 SQL常见面试题目与答案整理

文章目录海量数据如何优化SQL数据库存储位置MySQL与hive海量数据如何优化SQL根据执行计划(explain)设置合适的索引,选择合适的type(system最好,all最差)数据库存储位置数据库的数据文件和索引都储存在磁盘中;每次查找数据都需要将索引文件读取到内存中MySQL与hiveOLAP:在线分析处理,对应数据仓库hive,数据量大,不追求效率OLTP:在线数据处理,对应数据库,数据量较小,追求效率...

2021-10-25 11:33:37 1976

原创 pyspark学习笔记

文章目录spark dataframespark dataframespark dataframe与pandas的dataframe不同,是两种不同的数据类型,具有不同的函数和使用方法。搭建sc环境:from pyspark.sql import SparkSessionfrom pyspark.sql import Row建立spark dataframe: df=spark_session.sql(‘sql’)将spark dataframe转化为二维列表: df.col

2021-10-22 15:17:55 529

原创 Spark常见面试问题整理

文章目录数据倾斜数据倾斜什么是数据倾斜在并行处理的大数据系统中,某个部分(Partition)的数据量严重大于其他部分,导致该部分的数据处理速度成为数据集处理的瓶颈。为什么会数据倾斜同一Stage中不同task处理的数据量存在显著差异,某个task处理的数据量严重大于其他task。怎样解决数据倾斜的问题① 提高shuffle操作的并行度为了避免task较少导致多个key分配到同一task且分配不均的问题,可以适当提高task的数量(但是并不能解决某一个key数据量严重大于其他key的情况的

2021-10-09 11:09:14 120

原创 Spark SQL/Hive SQL

文章目录Spark SQL/Hive SQL与SQL的关系HSQL与普通SQL的区别数据类型Spark SQL/Hive SQL与SQL的关系SQL:Structured Query Language,用于对关系型数据库进行操作的标准化语言。不同数据库对应不同类型的SQL。Spark SQL/Hive SQL:Spark使用的数据存储是Hive,因此Spark SQL即Hive SQL,具有其自身的一些标准和使用方法。HSQL与普通SQL的区别HSQL不支持等值链接,即不能省略join,如:

2021-10-08 16:48:28 1873

原创 团伙挖掘算法整理

团伙挖掘技术调研文章目录模块度优化LouvainLeiden标号传播DeepWalk经典的DeepwalkGEMSEC频谱聚类经典的频谱聚类Multi-view clustering经典的multi-view clusteringGMCGNNDMoNSDCNO2MACLGNNMatrix Factorization经典的NMF (Nonnegative Matrix Factorization)NSEDMNMFDANMFGenerative ModelCommunityGANSupplementary模

2021-09-23 18:37:08 1387

原创 plsql创建Oracle数据库报错:使用Database Control配置数据库时,要求在当前Oracle主目录中配置监听程序 必须运行Netca以配置监听程序,然后才能继续。或者

百度得到答案:启动OracleListener服务即可进入任务管理器,发现没有Oracle Listener解决:找到Oracle开头,Listener结尾的服务并右键开始即可,如我的机器是这样的:

2021-09-15 11:12:47 456

原创 Oracle创建数据库“监听程序未启动或数据库服务未注册”错误处理

“监听程序未启动或数据库服务未注册”错误处理建立数据库过程中,出现“监听程序未启动或数据库服务未注册到该监听程序”错误。在其他博客找到一种解决方案:https://blog.csdn.net/qq_30725371/article/details/79993206但是我打开Net Manager发现,没有“添加地址”这个按钮。这里提供另一种解决方案:先不要关闭错误提示的窗口找到Oracle安装目录(即上一篇博客中的/product/11.2.0/db_home1.打开./NETWORK/AD

2021-09-15 10:48:54 2432

原创 频谱聚类|拉普拉斯矩阵

文章目录频谱聚类的概念拉普拉斯矩阵频谱聚类的步骤频谱聚类的概念频谱聚类的本质是利用样本间的相似度,降维后使用聚类算法进行节点聚类。其中用到的拉普拉斯矩阵的特征值被成为“谱”。拉普拉斯矩阵① 样本相似度矩阵S:我们有n个样本,利用某种相似度度量方法可以获得两两样本之间的相似度。如使用高斯相似度:Si,j=exp(−∣∣xi−xj∣∣222σ2)S_{i,j}=exp(-\frac{||x_i-x_j||_2^2}{2\sigma^2})Si,j​=exp(−2σ2∣∣xi​−xj​∣∣22​​)

2021-09-03 16:40:38 867

原创 机器学习零散笔记:一些概念和注意

文章目录Matrix Factorizationencoder-decoder | auto-encoder在文字上的例子:搜索引擎,用query搜索documentMatrix Factorization以电影为例,电影可能具有一些隐藏因子:演员、题材、主题、年代……,而用户针对这些隐因子有偏好特征属性,为了便于理解,我们假设隐因子数量 k 是 2,分别代表着喜剧片和动作片两种题材,矩阵分解后的两个小矩阵,分布代表着电影对这两种题材的符合程度以及用户对这两种题材的偏好程度,如下图:encoder-

2021-08-27 14:44:55 100

原创 大厂面试机器学习算法(5)推荐系统算法:从wide&deep说起

推荐系统CTR算法汇总

2021-08-20 13:36:15 883

原创 大厂面试机器学习算法(4)提升树模型:GDBT、XGBoost、LightGBM(未完待续)

文章目录Xgboost简介整体介绍计算叶子阶段的权重构建第k棵树的结构常见面试问题如何实现并行?学习率的作用?如何处理缺失值?Xgboost简介XGBoost的全称是eXtreme Gradient Boosting,它是经过优化的分布式梯度提升库,旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具,它是目前最快最好的开源 boosting tree工具包,比常见的工具包快10倍以上。整体介绍xgboost是集成了K棵树之后的集成模型,如下图所示。每个样本需要经

2021-08-20 13:25:01 921

原创 python包安装、搜索路径|anaconda虚拟环境|安装包后仍然no module named解决方案

Python包搜索路径Python中使用import sys sys.prefix我们记输出为<prefix>,即Python路径的前缀,那么:我们的Python解释器就位于<prefix>/ bin/ python;在import包时会搜索:Python标准库位于<prefix>\ lib(标准库)、Python第三方

2021-08-19 12:52:08 5408

原创 Community detection|模块度含义理解|Louvain算法

文章目录Community detection:团伙挖掘/社团发现Modularity:模块度模块度增益Louvain算法Community detection:团伙挖掘/社团发现利用图拓扑结构中蕴藏的信息,从复杂网络中解析出存在密切联系的节点(团伙)。Modularity:模块度度量社区划分优劣的指标,直观上表示某社团划分状态下,社团内部连边数量与该划分下随机连边数量的差值。计算公式如下:Q=12m∑i,j[Aij−kikj2m]δ(ci,cj)=12m∑i,jAijδ(ci,cj)−∑i,j

2021-08-17 17:07:49 1356 3

原创 大厂面试机器学习算法(2)回归算法常考问题

文章目录线性回归、Lasso回归、岭回归损失函数线性回归、Lasso回归、岭回归损失函数线性回归:J(θ)=12m∑i=1m(h(x(i))−y(i))2J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h(x^{(i)})-y^{(i)})^2J(θ)=2m1​∑i=1m​(h(x(i))−y(i))2Lasso回归:J(θ)=12m∑i=1m(h(x(i))−y(i))2+λ∑j=1n∣θ∣J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h(x^{(i

2021-07-13 18:09:53 139

原创 大厂面试机器学习算法(1)SVM常考问题

网易有道数据挖掘面试题:介绍svm的原理字节跳动机器学习算法面试题:手推svm过程今天整理一下面试常考问题。文章目录1. SVM算法原理2. SVM与感知机(Perceptron)的区别3. 什么是支持向量4. 手推SVM原理1. SVM算法原理SVM的基本原理是求解能够正确划分训练数据集并且几何间隔最大的超平面。如图1, wx+b=1wx+b=1wx+b=1和 wx+b=−1wx+b=-1wx+b=−1 即为所求超平面。2. SVM与感知机(Perceptron)的区别感知机所求超平面为

2021-07-12 12:20:05 310

原创 粒子群算法原理|python实现|参数调优

粒子群算法是比较有名的群体智能算法之一,其他群体智能算法还包括蚁群算法、鱼群算法、人工蜂群算法等。今天为大家介绍粒子群算法。文章目录算法原理优化过程二元函数优化算法原理粒子群算法来源于鸟群的觅食行为,一群鸟随机寻找区域内唯一食物的位置,粒子群算法中的粒子就是鸟群中的小鸟。该算法最重要的三个变量即每只鸟拥有的信息:自己当前位置距离食物的距离(适应度P,是目标函数的映射)、飞行速度(向量V)、当前位置(坐标X)。优化过程与大多数机器学习算法一样,粒子群算法的初始值随机确定。在每次鸟群按照当前速度飞

2021-05-28 10:39:16 7199 5

原创 python中import用法|如何调用不同.py文件|连环import报错

文章目录1 调用函数(未定义在类内)1.1 import 文件名;文件名.函数名()1.2 from 文件名 import 函数名;函数名()2 调用类(包括调用类内的方法等)2.1 import 文件名;文件名.类名()(即init函数)2.2 from 文件名 import 类名;类名()(即init函数)跨文件调用主要分为调用函数(未定义在类内)和调用类(包括类内方法等)两种情况。相应的调用语句有两种格式:1. import 文件名2. from 文件名 import 函数名/类名第一种

2021-05-16 19:54:02 4741

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除