自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(129)
  • 资源 (3)
  • 收藏
  • 关注

原创 科赛网新人赛-员工满意度预测 MSE 0.02882

科赛网新人赛-员工满意度预测 - 竞赛思路原贴地址项目地址文章目录科赛网新人赛-员工满意度预测 - 竞赛思路有用的资料、文档、博客环境与工具1.0 基础知识1.1 数据挖掘流程:2.0 数据探索性分析2.1 单变量分析2.2 多变量分析3.0 特征工程3.1 特征创建3.1.1 笛卡尔积特征创建3.1.2 使用 number_project 对 average_monthly_hours 进行加权3.2 特征筛选3.2.1 互信息法3.3 特征预处理3.3.1 package 特征3.3.2

2020-12-31 22:35:55 727

原创 古诗推荐服务

项目地址项目地址 https://github.com/Liangzhuoxuan/PoemRS推荐服务架构设计使用基于大数据的推荐架构基于 Hadoop 的数据存储基于 Spark 的数据预处理和特征工程(离线层)基于 Hive 的数据管理基于 Flume + Spark-Streaming + Redis 的数据采集及传输(在线层)...

2020-11-21 11:09:30 317

原创 AI_EXPRESS

1.聚类划分方向2.深度优先寻找最短路径3.动态规划进行货车分配from math import inf, sqrtfrom copy import deepcopyimport pandas as pdimport numpy as npfrom sklearn.cluster import KMeans, DBSCANimport matplotlib.pyplot as pl...

2019-12-30 09:29:15 410

原创 知网spider

使用selenium模拟浏览器爬取,详情页使用requests请求爬取关键点:数据内容是嵌入子框架iframe的,要switch_to 子框架里面请求详情页的url分为两种,一种直接用URLID构造,另一种要提交参数dbname,dbcode,filename详情页有一个更多的按钮要点击才会展示全文当翻页次数过多会跳出英文数字验证码,开始是一次,后面会不断跳验证码,需要分析两种情况的截...

2019-11-03 14:59:05 1012

原创 利用关联规则找出IPv6地址分段之间的关联

对数据集进行数据清洗,并应用fpgrowth算法寻找频繁项集,最后找出关联规则代码:import pandas as pdimport numpy as npfrom pandas import DataFrame, Seriesfrom io import BytesIOfrom mlxtend.preprocessing import TransactionEncoderfrom...

2019-09-13 17:31:21 608 1

原创 破解滑块验证码(打码平台)

此处以模拟登录B站为例,链接 >>> https://passport.bilibili.com/login打码平台用的是 联众打码 >>> https://www.jsdati.com/滑块验证码样式如下步骤:使用selenium键入账号密码,点击登录待验证码弹出并加载完毕后,进行全屏截图人工定位图片的位置,利用图片处理软件测量验证码距离全屏截...

2019-05-26 12:50:26 24482 4

原创 Rethink LSTM&GRU

它们表示的意思是,聚合当前的输入信息以及记忆信息(之前的信息),来决定模型不同的位置有多少比例保留下来。从这六条式子中,一定要知道,LSTM 接收 3 个输入值分别为。这三个 0 到 1 的值,是聚合当前的输入特征。是加权的矩阵,写模型的时候用。是 Sigmoid 函数。和 上一时刻的隐藏状态。理解起来和前者的叙述类似。

2023-09-10 21:10:46 593 1

原创 DGNN Survey

在图分析中,假设节点是会受其邻居的影响的(Inductive Bias),Message Passing 的设计是为了学习节点如何受其邻居的影响。学习动态图神经网络的动态变化,即学习动态图随时间演化的重复模式。动态图表示随着时间演变的图,不同类型的图演变是不一样的,有的变化得非常快而有的非常慢。起始节点 到 目标节点 的时间距离,是评估信息从起始节点流动到目标节点所需时间的度量。是很重要的,使用不同的图结构,对应的图神经网络算法不一样。是表示节点特征的矩阵,矩阵的每一行是一个节点的嵌入向量。

2023-07-29 19:53:03 336

原创 如何快速看出矩阵乘法的时间复杂度

个元素,每个元素需要经过d个元素相乘再相加得到(加权求和),所以。咱姑且把 Softmax 和 Softmax里面的除以。如果你不想鸟我上面写的,你只需要按照这个规则来看。以 Attention Score 的计算为例。去掉(其运算时间复杂度小),表示为。是每个token的维度,一般认为。从矩阵乘法上看维度变换是。删掉一个即可表示时间复杂度。是token的数量,

2023-07-07 11:53:01 333

原创 pytorch model代码内tensor device不一致的问题

在编写一段处理两个tensor的代码如下,需要在forward函数内编写函数创建一个新的tensor进行索引的掩码计算。统一下进行掩码计算的张量的设备即可。这段代码报了这个错误。

2023-07-04 14:03:32 904

原创 Backbone共享参数,代码出现的一个错误

因为是共享参数的骨干网络,如果这样写的话,就是不共享参数的网络了。正确做法应该是,初始化的时候,用同一个vgg来初始化。这块是共享一个backbone特征提取网络。

2023-06-14 22:20:10 98

原创 图嵌入 Node2Vec

设cic_ici​表示随机游走中的第 i 个节点,cic_ici​πvx\pi_{vx}πvx​表示节点vvv和xxx之间未归一化的过渡概率,ZZZ是进行归一化的常数即从当前节点 v 到下一个节点 x 的条件概率等于πvxZZπvx​​πvx\pi_{vx}πvx​怎么算往下看。

2023-04-07 10:40:35 517 1

原创 图嵌入 DeepWalk

通过神经网络训练得到的节点向量是低维的、元素值是实数(连续值),且可进行相似度的度量,可以反应节点间的关系。分层 Softmax 如图,构建一颗二叉树,其中每个叶子节点对应一个词,非叶子结点是一个 LR 分类器,LR 在这里的应用就是判断在当前节点要走左子树还是右子树,其输出的值在当前节点往左走或右走的概率。由于此树从根节点的分类器到叶子节点的编码是唯一的(路径是唯一的),路径上每个 LR 预测概率之积,就可以视为在当前输入词的词向量下,得到的输出。当词表非常大的时候,Softmax 回归将会非常耗时。

2023-04-05 16:56:31 392

原创 Pytorch demo 1

为了完成这一目标,我们首先对每个未规范化的预测求幂,这样可以确保输出非负。为了确保最终输出的概率值总和为1,我们再让每个求幂后的结果除以它们的总和。处理多分类问题,求各个分类的概率。

2023-04-04 17:12:28 286

原创 图嵌入前篇之词嵌入模型 Wrod2Vec

设每个词对应的词向量矩阵 C,输入的多个词的 one-hot 向量拼接为 x,输入到隐藏层的权重矩阵为w,偏置bias为 b,则前向传播表示为为:softmax(w1(xC) + b)设定语料库中词的个数是 v,对每个词进行 one-hot 编码,得到每个词对应的编码是 1×v维的;假设给定 x 个词,预测下一个出现的词,那么就先根据这 x 个词的独热编码乘以 C,得到对应的 x 个词向量。会出现的词,如给定 “他”,“是”,“一个”,预测下一个会出现的词的概率。:根据给定的词序列,预测。

2023-04-03 16:01:40 325

原创 PAT 1039 到底买不买 巧用STL map 和 set

pat乙

2023-02-05 11:27:31 71

原创 【操作系统】操作系统绪论

补充关中断在此中断处理完成之前,系统不会处理其他中断

2020-12-05 15:50:24 229

原创 【操作系统】设备管理

文章目录I/O 控制器I/O 控制方式缓冲区管理设备的分配与回收假脱机技术I/O 控制器I/O 控制方式缓冲区管理设备的分配与回收假脱机技术

2020-12-01 19:49:28 205

原创 【操作系统】文件管理

文章目录文件的逻辑结构文件目录文件的物理结构文件存储空间管理磁盘结构文件的逻辑结构文件目录文件的物理结构文件存储空间管理磁盘结构

2020-11-30 21:15:53 202

原创 【操作系统】进程管理

文章目录进程管理进程引入前趋图进程执行方式进程的定义定义进程的特征进程和程序的关系进程和作业的区别进程的组成PCB 的作用进程的状态与转换进程的状态进程状态的转换进程控制进程控制都是通过【原语】实现的进程创建进程撤销进程的阻塞与唤醒线程线程的引入线程的定义线程的实现线程和进程的比较多线程模型进程通信通信方式分类高级进程通信进程调度处理器的三级调度调度算法的评估指标进程调度的功能引起进程调度的原因不能进行进程调度的情况进程调度的方式进程调度算法死锁概念死锁产生的原因死锁产生的必要条件处理死锁的方法死锁预防死锁

2020-11-25 21:33:35 430

原创 【操作系统】内存管理

文章目录内存管理内存管理的功能内存的分配与回收地址转换内存扩充存储保护程序的编译、链接、装入编译链接装入覆盖与交换覆盖交换连续分区分配管理单一分区分配固定分区分配动态分区分配页面分配策略驻留集页面分配策略页面调入策略从何处调入页面工作集抖动与缺页Belady现象抖动缺页率非连续分区分配管理基本分页存储管理基本分段存储管理基本段页式存储管理补充虚拟存储器引入请求分页存储管理内部碎片与外部碎片内部碎片外部碎片内存管理内存管理的功能内存的分配与回收地址转换内存扩充覆盖交换虚拟存储器存储保护

2020-11-25 15:56:18 277

原创 CLOCK页面置换算法

页面置换算法1 时钟置换算法 CLOCK1.1 代码实现原谅我的无聊,偏要写一下代码实现以下给定驻留集大小访问串计算每次内存中页面,并最终计算缺页率BLOCKS = 3 # 驻留集大小PAGE_ACCESS = [3, 4, 2, 6, 4, 3, 7, 4, 3, 6, 3, 4, 8, 4, 6] # 输入串class Clock(object): def __init__(self, BLOCKS, PAGE_ACCESS): self.BL

2020-11-23 20:00:29 2272

原创 使用Word2Vec完成基于文本相似度的推荐

使用 Word2Vec 完成基于文本相似度的推荐之前的基于文本相似度的推荐使用的是one-hot的词向量,虽然可以使用稀疏向量来存储里面的非0值,但是以这种形式的词向量存在很多问题:稀疏的向量表达效率是不高的,需要降低词向量的维度难以发现词之间的关系,以及难以捕捉句子结构和语义之间的关系使用 Word2Vec 可以得到每个词对应的词向量,它是一个稠密向量,每一维的浮点数的数值大小,表示...

2020-11-21 10:59:04 1029 1

原创 Django 中 Markdown 插件不能渲染数学公式的问题解决

1. 使用官方的 markdown 插件是渲染不出 latex 公式的,如下图2. 所以我进行了 markdown + MathJax 两个插件结合使用的尝试,但是未果3.于是我想了两个办法将要渲染为 markdown 的代码中的公式替换为图片在Django中修改:将对应文本替换为 <img> 标签通过 JS 来修改:通过 JS 来匹配对应文本并替换为 <img> 标签我首先尝试的是第二种方法,但是对于 Django 中,文本在前后端传递机制不了解,导致有一

2020-11-08 22:19:38 814

原创 无情单词检测器

闲来无事,写了个QT程序方便背单词,哈哈from PyQt5.QtWidgets import *from PyQt5.QtGui import *import sysfrom PyQt5.QtCore import Qtimport stringimport randomfrom copy import deepcopyclass ChildWindow(QDialog): def __init__(self, word_vocab, hash_map): su

2020-11-01 12:40:44 845

原创 HMM

HMM设隐藏状态序列,及其状态值的集合,ZZZ 为离散型随机变量,有 mmm 种取值Z=z1,z2...zT,Q={q1,q2,...qm}Z=z_1,z_2...z_T, Q=\{q_1, q_2,...q_m\}Z=z1​,z2​...zT​,Q={q1​,q2​,...qm​}设观测序列,及其观测值的集合X=x1,x2,...xT,V={v1,v2,...vT}X = x_1, x_2,...x_T,V=\{v_1, v_2,...v_T\}X=x1​,x2​,...xT​,V={v

2020-08-09 14:13:17 206

原创 LSTM

LSTM长短期记忆网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件,LSTM 是为了解决 RNN 结构中存在的”梯度消失“的问题而提出的。RNN 只有一个隐状态 h,对短期的输入十分敏感,但是对于长期的输入,就不能很好的记忆其信息,LSTM 设计了 3 个门,输入门、遗忘门和输出门,不仅学习在 t 时刻的隐藏状态 hhh,还会多学习一个 ccc 来形成长期的记忆,使得 LSTM 可以记住长期的信息LSTM 的输入与输出在 t 时刻,LSTM 有 三个输入当前网络的输入值:xtx_txt

2020-08-09 13:39:10 707

原创 RNN

RNNANN 和 CNN 都是假设:元素之间是相互独立的,输入与输出也是相互独立的,但是现实中很多东西是有先后顺序的,比如时间序列,语句等,因此其输出依赖于输入与记忆,一句话解释RNN,就是重复使用一个单元结构;RNN 中多少个输入就有多少层RNN是一个序列到序列的模型,设 XtX_tXt​:表示 t 时刻的输入,oto_tot​:表示 t 时刻的输出,StS_tSt​:表示 t 时刻的记忆当前时刻的输出取决于当前时刻的输入和记忆St=f(U∗Xt+W∗St−1)S_t = f(U*X_t + W

2020-07-31 11:07:46 206

原创 Pytorch 基础(1)

自动求梯度 AutogradTensor 设定属性 .requires_grad 为 True,那么在利用这个张量计算得到其他张量,对结果张量调用 .backward() 来计算所有的梯度时,梯度会保存到 .grad 中如果不想张量被继续追踪求梯度,可以用 .detach() 或者用 with torch.no_grad() 包裹住代码,这种方法在评估模型的时候很常用,因为在评估模型时,我们并不需要计算可训练参数requires_grad=True的梯度。Function 类和 Tens

2020-07-29 15:33:49 387

原创 URL编码的一个坑

Url 的编码只能采用 ASCII 字符,不可使用 ASCII 以外的其他字符,如中文,不然的话,可能会应为客户端或者服务器端支持的编码不相同而造成问题。URL 对中文编码的方式是:得到中文的 UTF-8 编码的字符集,如 0xE4 0xB8 0xAD 0xE6 0x96 0x87,然后把 0x 用 % 替换就好了。对于某一些网站,他们对中文的URL编码是是跟随网页的编码的,比如他们网页的编码是 GBK 或者 GB2312,并不是常规的使用 UTF-8 编码,比如这个网站 https://www.52z

2020-07-12 11:38:14 384

原创 排序1

编码前分析:采用的数据结构和算法问题是输入规模和输出规模机器执行速度(IO密集型问题,计算密集型问题等)评判排序算法好坏的标准时间复杂度最好情况,最坏情况,一般情况下的时间复杂度空间复杂度是否需要另辟空间,还是原地排序算法稳定性这里的稳定性是指:如果待排序的序列中存在值相等的元素,经过排 序之后,相等元素之间原有的先后顺序不变。冒泡排序从头到尾,一次对相邻的两个元素进行对比,对符合要求的这两个元素进行交换import java.util.Arrays;

2020-07-12 11:21:42 161

原创 Linux 安装 fastFM

使用 pip 安装会出现奇怪的问题,所以此处选择用源码安装这是官方给的安装方法$ sudo apt-get install python-dev libopenblas-dev# Clone the repo including submodules (or clone + `git submodule update --init --recursive`)$ git clone --r...

2020-03-20 19:59:22 958

原创 Flume 对接 Spark-Streaming

用 Flume 收集实时点击日志,以 Http 请求的形式 Post Json 数据,传入 Flume,通过 SparkStreaming 对数据进行处理,此处 SparkStreaming 于 Flume 对接的方式是 Push,所以启动顺序是先启动 SparkStreaming 再 启动 Flume添加依赖到 Maven<?xml version="1.0" encoding="UT...

2020-02-29 22:44:47 382 1

原创 Pytorch 实现逻辑回归

因为项目的原因,要使用逻辑回归进行CTR预估,可以进行权重实时更新,并且对每个用户要使用提前计算好的权重初始化模型(自定义模型权重参数),在sklearn没有找到这个功能,所以自己写一个,顺便练习一下神经网络的写法步骤:定义模型前向求损失反向求梯度利用梯度更新模型权重代码:import torchfrom torch import nnfrom torch.autograd ...

2020-02-16 12:38:25 516

原创 sklearn 模型在线学习、增量更新实现 (以SGD方式训练LR为例)

sklearn online learning在 sklearn官方文档里以 online 为关键字进行检索在线学习是可以通过小批量的数据迭代更新模型的权重,增量训练方法看 partial_fit,于是检索了一下 partial_fit,介绍如下:不同与使用fit方法,partial_fit 方法不需要清空模型(不用清空模型原来就学习好的权重),只需要每次用小批量的数据进行 partia...

2020-02-13 17:35:30 7069 5

原创 分析用 Surprise 库跑 SVD,电脑爆炸的原因

昨天使用 Book Crossing 数据集 跑了一个SVD矩阵分解算法,计算每个用户推荐的 Top-N,然后电脑直接崩掉了分析首先 SVD 算法用的是surprise库,并且计算每个用户推荐的 Top-N 用的是官方文档的 demo,如下%%timefrom surprise import SVDfrom surprise import Datasetfrom surprise im...

2020-02-12 20:26:04 790 8

原创 DL学习 Day1:从线性回归理解神经网络底层构建

线性回归Day 1 打卡。。。线性回归的基本要素评估误差单个样本的误差l(i)(w,b)=12(y^(i)−y(i))2,l^{(i)}(\mathbf{w}, b) = \frac{1}{2} \left(\hat{y}^{(i)} - y^{(i)}\right)^2,l(i)(w,b)=21​(y^​(i)−y(i))2,小批量样本的误差,对 batch 里面的每个样本求...

2020-02-11 23:25:42 209

原创 小记 Python self

如果想要对一个实例链式的使用该实例的方法,返回这个实例In [1]: class C: ...: def pprint(self, arg): ...: print(arg) ...:In [2]: class D: ...: def pprint(self, arg): ...: print(arg) .....

2020-02-08 15:25:29 137

原创 FM 模型推导

FM 模型推导论文地址:https://www.csie.ntu.edu.tw/~b97053/paper/Rendle2010FM.pdf在使用 LR 的时候,要进行大量的特征工程,如对离散值进行独热编码,在进行大量的独热编码之后,特征矩阵会变得非常稀疏。在特征创建的时候,两两特征进行组合,由于特征向量过于稀疏,无法学习到很多组合特征的权重,FM 模型在 LR 模型的基础上,多了特征两两组合...

2020-02-08 12:06:25 426

原创 server 配置 mongo,用 robo 3T连接

mongodb版本 4.0+tar zxvf mongo原文件cd /usr/localmkdir mongodbcd /usr/local/srcmv mongo原文件/* /usr/local/srccd /usr/local/mongodbmkdir -p data/dbmkdir logsvim ~/.bashrc # 把环境变量添加上cd binvim mongo...

2020-02-06 11:41:37 329

spark-2.4.4-bin-hadoop2.6.tgz

spark-2.4.4-bin-hadoop2.6.tgz

2020-02-02

GetIPv6.py

爬取国外某网站提供的大量ipv6地址,保存为csv。

2019-06-22

zzulioj 1296 a/b+c/d

1296: a/b + c/d 时间限制: 1 Sec 内存限制: 128 MB 提交: 213 解决: 135 [提交] [状态] [讨论版] [命题人:外部导入] 题目描述 给你2个分数,求他们的和,并要求和为最简形式。 输入 输入首先包含一个正整数T(T<=1000),表示有T组测试数据,然后是T行数据,每行包含四个正整数a,b,c,d 输出 对于每组测试数据,输出两个整数e和f,表示a/b + c/d的最简化结果是e/f,每组输出占一行。 样例输入 2 1 2 1 3 4 3 2 3 样例输出 5 6 2 1 来源/分类

2018-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除