我是女生，我不做程序媛-CSDN博客

原创 ChineseBERT使用指北

bert是语义模型，因此无法解决形近字、音近字的问题。ChineseBERT主要引入了文本的拼音编码和字形编码解决上述问题。

2023-06-14 18:39:27 655

原创 GNN图神经网络

图神经网络是一个相对宽泛的概念，本质是每个节点embedding都要融合邻居的特征，根据具体融合方式的不同又衍生出了下面各种具体模型。最简单的GNN消息传递可以看做fc，所有邻居节点以权重w向当前节点加权，最终取一个mean/max/min等激活函数。embedding，W是可训练参数。调整后的邻接矩阵即对原始邻接矩阵做。增加了attention结构，计算。之间的相似度，进行加权。

2023-05-11 10:20:54 662 2

原创 BatchNormalization和LayerNormalization的理解、适用范围、PyTorch代码示例

学习神经网络归一化时，文章形形色色，但没找到适合小白通俗易懂且全面的。学习过后，特此记录。

2023-04-25 19:17:30 555

原创 python爬虫反反爬机制：动态User-Agent+动态ip

ip是计算机在网络中的地址，如果同一个ip同时访问该网站，即使换了user-agent依然会被识破。User-Agent是浏览器的头部信息，不设置时会被识别出Python。因此一般将自己的浏览器User-Agent传入。网络上有很多免费的ip地址，但是对我们的目标网站不一定能用，因此需要先进行测试。这里直接贴代码（来源：置顶连接）代码可以直接用，需要改的只是test_url换成你要爬取的目标网站，因为同一个ip对不同目标网站也不一定能访问。url是我们免费爬取ip地址的网站，这里也可以换成其他免费网站。

2023-03-23 11:32:09 1188

原创论文笔记（4）：Information Asymmetry and Trading in Dark Pools: Evidence from Earnings Announcement and An

探究了定期（earning announcement）和不定期（analyst recommendation revision）公司信息披露事件前后的黑池交易量。发现在这两类事件前后都会发生更多交易。

2023-02-22 15:54:23 164

原创 jupyter使用指北：如何打开.ipynb文件|修改jupyter notebook的默认路径|在jupyter按照包

不需要先进入jupyter再把文件拷贝到默认路径。

2023-02-21 14:20:06 1537

原创论文笔记（3）：Analyst Forecast Revision Consistency and Bias in Earnings Forecast Revisions

analyst forecast revision consistency

2023-02-21 13:32:03 141 1

原创论文笔记(2)：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

chain-of-thought提示学习，推理任务中间链

2023-02-06 19:45:39 2240 2

原创论文笔记(1)：Large Language Models are few(1)-shot Table Reasoners

2023论文精读：表结构推理；少样本提示学习

2023-02-01 11:18:49 527 1

原创推荐系统方法梳理

推荐系统入门：召回、粗排、精排、重排常见算法

2022-08-16 12:37:36 1052 1

原创从零开始的tensorflow小白使用指北

数据准备、模型准备、模型训练、保存和加在预训练模型

2022-08-03 18:04:09 377 1

原创 csdn图片去水印 | 其他方法无效时的解决方案

图片地址后面没有？，其他方法无效时怎样去除水印。

2022-08-03 14:48:01 621

原创 git入门基础

git基础操作

2022-07-26 16:44:55 110

原创从零开始的pytorch小白使用指北

pytorch框架简简简介及入门编程

2022-07-20 22:47:39 1444

原创 USCD行人异常数据集使用指南 | 快速下载

数据集介绍UCSD是一个行人异常检测数据集（官网：http://www.svcl.ucsd.edu/projects/anomaly/dataset.htm）。通过安装在高程处的固定摄像头获取，可俯瞰人行道。数据被拆分为 2 个子集，每个子集对应于不同的场景。从每个场景录制的视频片段被分成大约200帧的各种剪辑。Peds1：一群人走向和远离相机的片段，以及一定程度的透视失真。包含 34 个train视频示例和 36 个test视频示例。Peds2：行人平行于摄像机平面移动的场景。包含 16 个tra

2022-03-25 10:01:35 1937 3

原创 inductive learning和transductive learning最最简单易懂的解释 | 算法举例

文章目录概念定义算法举例区别实例网上很多大神对inductive learning和transductive learning进行了原理层面的讲解，并且给出了数学符号进行严谨定义。但机器学习小白理解起来还是有些费劲，本文力求用最最简单易懂的语言介绍二者的定义和区别。概念定义inductive learning：归纳学习，从特殊到一般；transductive learning：转导学习，从特殊到特殊。算法举例文字性的叙述一大堆很难看明白，但先上例子其实就很容易自己get到二者的区别了。indu

2022-03-14 14:59:19 2354 1

原创 Keras保存训练过程中的最好模型

以xDeepFM为例保存模型参数from deepctr.models import xDeepFMmodel = xDeepFM(...)model.compile(...)model.fit(...)# save_weightsmodel.save_weights('... .h5')读取h5模型model = xDeepFM(...)# load_weightsmodel.load_weights('... .h5')由于h5文件保存的是模型参数，因此模型结构需要自己手动构

2022-01-05 16:03:19 3114

原创大厂面试机器学习算法（0）：特征工程 | 数据预处理

文章目录数据分桶（分箱）卡方分桶等距分桶等频分桶聚类分桶数据规范化min-max normalizationz-score数据清洗数据缺失噪音数据数据不一致特征选择与特征提取特征选择特征提取数据分桶（分箱）概念数据分桶是一种数据预处理技术，通过对连续变量离散化，提高模型性能。意义离散后的特征对异常值更有鲁棒性，尤其避免极端异常值的干扰；特征离散后模型更稳定，不会因为特征值的轻微变化而改变结果；稀疏向量内积乘法运算速度快，算法速度更快，也便于存储。分桶方法有监督：best-ks分桶和卡

2021-12-15 15:51:17 1032

转载机器学习中的矩阵向量求导

文章目录向量对向量求导的链式法则标量对多个向量的链式求导法则标量对多个矩阵的链式求导法则向量对向量求导的链式法则假设多个向量存在依赖关系，比如三个向量????→????→????存在依赖关系，则我们有下面的链式求导法则：∂????∂????=∂????∂????∂????∂????\frac{∂????}{∂????}=\frac{∂????}{∂????}\frac{∂????}{∂????}∂x∂z=∂y∂z∂x∂y　　　　　　　　该法则也可以推广到更多的向量依赖关系。但是要注意的是要求所有

2021-12-01 15:53:06 138

原创 shell/sh/bash的区别和基本操作

shell/sh/bash的区别和联系和常用命令

2021-10-27 15:31:35 723

原创 cs服务与thrift协议

文章目录RPC服务thrift协议RPC服务thrift协议thrift是接口定义语言和通讯协议（类比http），放在远程的接口，实现跨语言开发。建立thrift服务的步骤：服务端建立IDL文件（.thrift文件），定义接口（不实现函数）。这里可以选择Python、Java等多种语言。以Python为例：namespace py example#consist of 2 parts:struct and service# struct:字段前需要indexstruct Data

2021-10-27 14:01:55 175

原创 HDFS的命令行操作

doas hdfs dfs -命令访问hdfs文件：doas hdfs dfs -ls URI新建hdfs文件：doas hdfs dfs -mkdir URI复制文件到指定位置：hdfs dfs -cp [-f] URI选项：-f选项覆盖已经存在的目标。查看文件内容：doas hdfs dfs -cat URI......

2021-10-26 18:32:01 757

原创大厂面试机器学习算法（6）时间序列分析

文章目录序列特征构造时间序列分析任务- Indexing/Query by Content- Clustering- Classification- Segmentation/Summarization- Prediction- Anomaly Detection- Motif Discovery时间序列分析算法Autoregression, Moving Average系列- Autoregression (AR)- Moving Average (MA)- Autoregressive Moving A

2021-10-26 17:06:20 2342 1

原创 SQL常见面试题目与答案整理

文章目录海量数据如何优化SQL数据库存储位置MySQL与hive海量数据如何优化SQL根据执行计划（explain）设置合适的索引，选择合适的type（system最好，all最差）数据库存储位置数据库的数据文件和索引都储存在磁盘中；每次查找数据都需要将索引文件读取到内存中MySQL与hiveOLAP：在线分析处理，对应数据仓库hive，数据量大，不追求效率OLTP：在线数据处理，对应数据库，数据量较小，追求效率...

2021-10-25 11:33:37 1976

原创 pyspark学习笔记

文章目录spark dataframespark dataframespark dataframe与pandas的dataframe不同，是两种不同的数据类型，具有不同的函数和使用方法。搭建sc环境：from pyspark.sql import SparkSessionfrom pyspark.sql import Row建立spark dataframe： df=spark_session.sql(‘sql’)将spark dataframe转化为二维列表： df.col

2021-10-22 15:17:55 529

原创 Spark常见面试问题整理

文章目录数据倾斜数据倾斜什么是数据倾斜在并行处理的大数据系统中，某个部分(Partition)的数据量严重大于其他部分，导致该部分的数据处理速度成为数据集处理的瓶颈。为什么会数据倾斜同一Stage中不同task处理的数据量存在显著差异，某个task处理的数据量严重大于其他task。怎样解决数据倾斜的问题① 提高shuffle操作的并行度为了避免task较少导致多个key分配到同一task且分配不均的问题，可以适当提高task的数量（但是并不能解决某一个key数据量严重大于其他key的情况的

2021-10-09 11:09:14 120

原创 Spark SQL/Hive SQL

文章目录Spark SQL/Hive SQL与SQL的关系HSQL与普通SQL的区别数据类型Spark SQL/Hive SQL与SQL的关系SQL：Structured Query Language，用于对关系型数据库进行操作的标准化语言。不同数据库对应不同类型的SQL。Spark SQL/Hive SQL：Spark使用的数据存储是Hive，因此Spark SQL即Hive SQL，具有其自身的一些标准和使用方法。HSQL与普通SQL的区别HSQL不支持等值链接，即不能省略join，如：

2021-10-08 16:48:28 1873

原创团伙挖掘算法整理

团伙挖掘技术调研文章目录模块度优化LouvainLeiden标号传播DeepWalk经典的DeepwalkGEMSEC频谱聚类经典的频谱聚类Multi-view clustering经典的multi-view clusteringGMCGNNDMoNSDCNO2MACLGNNMatrix Factorization经典的NMF (Nonnegative Matrix Factorization)NSEDMNMFDANMFGenerative ModelCommunityGANSupplementary模

2021-09-23 18:37:08 1387

原创 plsql创建Oracle数据库报错：使用Database Control配置数据库时，要求在当前Oracle主目录中配置监听程序必须运行Netca以配置监听程序，然后才能继续。或者

百度得到答案：启动OracleListener服务即可进入任务管理器，发现没有Oracle Listener解决：找到Oracle开头，Listener结尾的服务并右键开始即可，如我的机器是这样的：

2021-09-15 11:12:47 456

原创 Oracle创建数据库“监听程序未启动或数据库服务未注册”错误处理

“监听程序未启动或数据库服务未注册”错误处理建立数据库过程中，出现“监听程序未启动或数据库服务未注册到该监听程序”错误。在其他博客找到一种解决方案：https://blog.csdn.net/qq_30725371/article/details/79993206但是我打开Net Manager发现，没有“添加地址”这个按钮。这里提供另一种解决方案：先不要关闭错误提示的窗口找到Oracle安装目录（即上一篇博客中的/product/11.2.0/db_home1.打开./NETWORK/AD

2021-09-15 10:48:54 2432

原创频谱聚类|拉普拉斯矩阵

文章目录频谱聚类的概念拉普拉斯矩阵频谱聚类的步骤频谱聚类的概念频谱聚类的本质是利用样本间的相似度，降维后使用聚类算法进行节点聚类。其中用到的拉普拉斯矩阵的特征值被成为“谱”。拉普拉斯矩阵① 样本相似度矩阵S：我们有n个样本，利用某种相似度度量方法可以获得两两样本之间的相似度。如使用高斯相似度：Si,j=exp(−∣∣xi−xj∣∣222σ2)S_{i,j}=exp(-\frac{||x_i-x_j||_2^2}{2\sigma^2})Si,j=exp(−2σ2∣∣xi−xj∣∣22)

2021-09-03 16:40:38 867

原创机器学习零散笔记：一些概念和注意

文章目录Matrix Factorizationencoder-decoder | auto-encoder在文字上的例子：搜索引擎，用query搜索documentMatrix Factorization以电影为例，电影可能具有一些隐藏因子：演员、题材、主题、年代……，而用户针对这些隐因子有偏好特征属性，为了便于理解，我们假设隐因子数量 k 是 2，分别代表着喜剧片和动作片两种题材，矩阵分解后的两个小矩阵，分布代表着电影对这两种题材的符合程度以及用户对这两种题材的偏好程度，如下图：encoder-

2021-08-27 14:44:55 100

空空如也

空空如也