Last 炫神-CSDN博客

原创科赛网新人赛-员工满意度预测 MSE 0.02882

科赛网新人赛-员工满意度预测 - 竞赛思路原贴地址项目地址文章目录科赛网新人赛-员工满意度预测 - 竞赛思路有用的资料、文档、博客环境与工具1.0 基础知识1.1 数据挖掘流程：2.0 数据探索性分析2.1 单变量分析2.2 多变量分析3.0 特征工程3.1 特征创建3.1.1 笛卡尔积特征创建3.1.2 使用 number_project 对 average_monthly_hours 进行加权3.2 特征筛选3.2.1 互信息法3.3 特征预处理3.3.1 package 特征3.3.2

2020-12-31 22:35:55 727

原创古诗推荐服务

项目地址项目地址 https://github.com/Liangzhuoxuan/PoemRS推荐服务架构设计使用基于大数据的推荐架构基于 Hadoop 的数据存储基于 Spark 的数据预处理和特征工程（离线层）基于 Hive 的数据管理基于 Flume + Spark-Streaming + Redis 的数据采集及传输（在线层）...

2020-11-21 11:09:30 317

原创 AI_EXPRESS

1.聚类划分方向2.深度优先寻找最短路径3.动态规划进行货车分配from math import inf, sqrtfrom copy import deepcopyimport pandas as pdimport numpy as npfrom sklearn.cluster import KMeans, DBSCANimport matplotlib.pyplot as pl...

2019-12-30 09:29:15 410

原创知网spider

使用selenium模拟浏览器爬取，详情页使用requests请求爬取关键点：数据内容是嵌入子框架iframe的，要switch_to 子框架里面请求详情页的url分为两种，一种直接用URLID构造，另一种要提交参数dbname，dbcode，filename详情页有一个更多的按钮要点击才会展示全文当翻页次数过多会跳出英文数字验证码，开始是一次，后面会不断跳验证码，需要分析两种情况的截...

2019-11-03 14:59:05 1012

原创利用关联规则找出IPv6地址分段之间的关联

对数据集进行数据清洗，并应用fpgrowth算法寻找频繁项集，最后找出关联规则代码：import pandas as pdimport numpy as npfrom pandas import DataFrame, Seriesfrom io import BytesIOfrom mlxtend.preprocessing import TransactionEncoderfrom...

2019-09-13 17:31:21 608 1

原创破解滑块验证码(打码平台)

此处以模拟登录B站为例，链接 >>> https://passport.bilibili.com/login打码平台用的是联众打码 >>> https://www.jsdati.com/滑块验证码样式如下步骤：使用selenium键入账号密码，点击登录待验证码弹出并加载完毕后，进行全屏截图人工定位图片的位置，利用图片处理软件测量验证码距离全屏截...

2019-05-26 12:50:26 24482 4

原创 Rethink LSTM&GRU

它们表示的意思是，聚合当前的输入信息以及记忆信息（之前的信息），来决定模型不同的位置有多少比例保留下来。从这六条式子中，一定要知道，LSTM 接收 3 个输入值分别为。这三个 0 到 1 的值，是聚合当前的输入特征。是加权的矩阵，写模型的时候用。是 Sigmoid 函数。和上一时刻的隐藏状态。理解起来和前者的叙述类似。

2023-09-10 21:10:46 593 1

原创 DGNN Survey

在图分析中，假设节点是会受其邻居的影响的（Inductive Bias），Message Passing 的设计是为了学习节点如何受其邻居的影响。学习动态图神经网络的动态变化，即学习动态图随时间演化的重复模式。动态图表示随着时间演变的图，不同类型的图演变是不一样的，有的变化得非常快而有的非常慢。起始节点到目标节点的时间距离，是评估信息从起始节点流动到目标节点所需时间的度量。是很重要的，使用不同的图结构，对应的图神经网络算法不一样。是表示节点特征的矩阵，矩阵的每一行是一个节点的嵌入向量。

2023-07-29 19:53:03 336

原创如何快速看出矩阵乘法的时间复杂度

个元素，每个元素需要经过d个元素相乘再相加得到（加权求和），所以。咱姑且把 Softmax 和 Softmax里面的除以。如果你不想鸟我上面写的，你只需要按照这个规则来看。以 Attention Score 的计算为例。去掉（其运算时间复杂度小），表示为。是每个token的维度，一般认为。从矩阵乘法上看维度变换是。删掉一个即可表示时间复杂度。是token的数量，

2023-07-07 11:53:01 333

原创 pytorch model代码内tensor device不一致的问题

在编写一段处理两个tensor的代码如下，需要在forward函数内编写函数创建一个新的tensor进行索引的掩码计算。统一下进行掩码计算的张量的设备即可。这段代码报了这个错误。

2023-07-04 14:03:32 904

原创 Backbone共享参数，代码出现的一个错误

因为是共享参数的骨干网络，如果这样写的话，就是不共享参数的网络了。正确做法应该是，初始化的时候，用同一个vgg来初始化。这块是共享一个backbone特征提取网络。

2023-06-14 22:20:10 98

原创图嵌入 Node2Vec

设cic_ici表示随机游走中的第 i 个节点，cic_iciπvx\pi_{vx}πvx表示节点vvv和xxx之间未归一化的过渡概率，ZZZ是进行归一化的常数即从当前节点 v 到下一个节点 x 的条件概率等于πvxZZπvxπvx\pi_{vx}πvx怎么算往下看。

2023-04-07 10:40:35 517 1

原创图嵌入 DeepWalk

通过神经网络训练得到的节点向量是低维的、元素值是实数（连续值），且可进行相似度的度量，可以反应节点间的关系。分层 Softmax 如图，构建一颗二叉树，其中每个叶子节点对应一个词，非叶子结点是一个 LR 分类器，LR 在这里的应用就是判断在当前节点要走左子树还是右子树，其输出的值在当前节点往左走或右走的概率。由于此树从根节点的分类器到叶子节点的编码是唯一的（路径是唯一的），路径上每个 LR 预测概率之积，就可以视为在当前输入词的词向量下，得到的输出。当词表非常大的时候，Softmax 回归将会非常耗时。

2023-04-05 16:56:31 392

原创 Pytorch demo 1

为了完成这一目标，我们首先对每个未规范化的预测求幂，这样可以确保输出非负。为了确保最终输出的概率值总和为1，我们再让每个求幂后的结果除以它们的总和。处理多分类问题，求各个分类的概率。

2023-04-04 17:12:28 286

原创图嵌入前篇之词嵌入模型 Wrod2Vec

设每个词对应的词向量矩阵 C，输入的多个词的 one-hot 向量拼接为 x，输入到隐藏层的权重矩阵为w，偏置bias为 b，则前向传播表示为为：softmax(w1(xC) + b)设定语料库中词的个数是 v，对每个词进行 one-hot 编码，得到每个词对应的编码是 1×v维的；假设给定 x 个词，预测下一个出现的词，那么就先根据这 x 个词的独热编码乘以 C，得到对应的 x 个词向量。会出现的词，如给定 “他”，“是”，“一个”，预测下一个会出现的词的概率。：根据给定的词序列，预测。

2023-04-03 16:01:40 325

原创 PAT 1039 到底买不买巧用STL map 和 set

pat乙

2023-02-05 11:27:31 71

原创【操作系统】操作系统绪论

补充关中断在此中断处理完成之前，系统不会处理其他中断

2020-12-05 15:50:24 229

原创【操作系统】设备管理

文章目录I/O 控制器I/O 控制方式缓冲区管理设备的分配与回收假脱机技术I/O 控制器I/O 控制方式缓冲区管理设备的分配与回收假脱机技术

2020-12-01 19:49:28 205

原创【操作系统】文件管理

文章目录文件的逻辑结构文件目录文件的物理结构文件存储空间管理磁盘结构文件的逻辑结构文件目录文件的物理结构文件存储空间管理磁盘结构

2020-11-30 21:15:53 202

原创【操作系统】进程管理

文章目录进程管理进程引入前趋图进程执行方式进程的定义定义进程的特征进程和程序的关系进程和作业的区别进程的组成PCB 的作用进程的状态与转换进程的状态进程状态的转换进程控制进程控制都是通过【原语】实现的进程创建进程撤销进程的阻塞与唤醒线程线程的引入线程的定义线程的实现线程和进程的比较多线程模型进程通信通信方式分类高级进程通信进程调度处理器的三级调度调度算法的评估指标进程调度的功能引起进程调度的原因不能进行进程调度的情况进程调度的方式进程调度算法死锁概念死锁产生的原因死锁产生的必要条件处理死锁的方法死锁预防死锁

2020-11-25 21:33:35 430

原创【操作系统】内存管理

文章目录内存管理内存管理的功能内存的分配与回收地址转换内存扩充存储保护程序的编译、链接、装入编译链接装入覆盖与交换覆盖交换连续分区分配管理单一分区分配固定分区分配动态分区分配页面分配策略驻留集页面分配策略页面调入策略从何处调入页面工作集抖动与缺页Belady现象抖动缺页率非连续分区分配管理基本分页存储管理基本分段存储管理基本段页式存储管理补充虚拟存储器引入请求分页存储管理内部碎片与外部碎片内部碎片外部碎片内存管理内存管理的功能内存的分配与回收地址转换内存扩充覆盖交换虚拟存储器存储保护

2020-11-25 15:56:18 277

原创 CLOCK页面置换算法

页面置换算法1 时钟置换算法 CLOCK1.1 代码实现原谅我的无聊，偏要写一下代码实现以下给定驻留集大小访问串计算每次内存中页面，并最终计算缺页率BLOCKS = 3 # 驻留集大小PAGE_ACCESS = [3, 4, 2, 6, 4, 3, 7, 4, 3, 6, 3, 4, 8, 4, 6] # 输入串class Clock(object): def __init__(self, BLOCKS, PAGE_ACCESS): self.BL

2020-11-23 20:00:29 2272

原创使用Word2Vec完成基于文本相似度的推荐

使用 Word2Vec 完成基于文本相似度的推荐之前的基于文本相似度的推荐使用的是one-hot的词向量，虽然可以使用稀疏向量来存储里面的非0值，但是以这种形式的词向量存在很多问题：稀疏的向量表达效率是不高的，需要降低词向量的维度难以发现词之间的关系，以及难以捕捉句子结构和语义之间的关系使用 Word2Vec 可以得到每个词对应的词向量，它是一个稠密向量，每一维的浮点数的数值大小，表示...

2020-11-21 10:59:04 1029 1

原创 Django 中 Markdown 插件不能渲染数学公式的问题解决

1. 使用官方的 markdown 插件是渲染不出 latex 公式的，如下图2. 所以我进行了 markdown + MathJax 两个插件结合使用的尝试，但是未果3.于是我想了两个办法将要渲染为 markdown 的代码中的公式替换为图片在Django中修改：将对应文本替换为 <img> 标签通过 JS 来修改：通过 JS 来匹配对应文本并替换为 <img> 标签我首先尝试的是第二种方法，但是对于 Django 中，文本在前后端传递机制不了解，导致有一

2020-11-08 22:19:38 814

原创无情单词检测器

闲来无事，写了个QT程序方便背单词，哈哈from PyQt5.QtWidgets import *from PyQt5.QtGui import *import sysfrom PyQt5.QtCore import Qtimport stringimport randomfrom copy import deepcopyclass ChildWindow(QDialog): def __init__(self, word_vocab, hash_map): su

2020-11-01 12:40:44 845

原创 HMM

HMM设隐藏状态序列，及其状态值的集合，ZZZ 为离散型随机变量，有 mmm 种取值Z=z1,z2...zT,Q={q1,q2,...qm}Z=z_1,z_2...z_T, Q=\{q_1, q_2,...q_m\}Z=z1,z2...zT,Q={q1,q2,...qm}设观测序列，及其观测值的集合X=x1,x2,...xT,V={v1,v2,...vT}X = x_1, x_2,...x_T,V=\{v_1, v_2,...v_T\}X=x1,x2,...xT,V={v

2020-08-09 14:13:17 206

原创 LSTM

LSTM长短期记忆网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件，LSTM 是为了解决 RNN 结构中存在的”梯度消失“的问题而提出的。RNN 只有一个隐状态 h，对短期的输入十分敏感，但是对于长期的输入，就不能很好的记忆其信息，LSTM 设计了 3 个门，输入门、遗忘门和输出门，不仅学习在 t 时刻的隐藏状态 hhh，还会多学习一个 ccc 来形成长期的记忆，使得 LSTM 可以记住长期的信息LSTM 的输入与输出在 t 时刻，LSTM 有三个输入当前网络的输入值：xtx_txt

2020-08-09 13:39:10 707

原创 RNN

RNNANN 和 CNN 都是假设：元素之间是相互独立的，输入与输出也是相互独立的，但是现实中很多东西是有先后顺序的，比如时间序列，语句等，因此其输出依赖于输入与记忆，一句话解释RNN，就是重复使用一个单元结构；RNN 中多少个输入就有多少层RNN是一个序列到序列的模型，设 XtX_tXt:表示 t 时刻的输入，oto_tot:表示 t 时刻的输出，StS_tSt:表示 t 时刻的记忆当前时刻的输出取决于当前时刻的输入和记忆St=f(U∗Xt+W∗St−1)S_t = f(U*X_t + W

2020-07-31 11:07:46 206

原创 Pytorch 基础（1）

自动求梯度 AutogradTensor 设定属性 .requires_grad 为 True，那么在利用这个张量计算得到其他张量，对结果张量调用 .backward() 来计算所有的梯度时，梯度会保存到 .grad 中如果不想张量被继续追踪求梯度，可以用 .detach() 或者用 with torch.no_grad() 包裹住代码，这种方法在评估模型的时候很常用，因为在评估模型时，我们并不需要计算可训练参数requires_grad=True的梯度。Function 类和 Tens

2020-07-29 15:33:49 387

原创 URL编码的一个坑

Url 的编码只能采用 ASCII 字符，不可使用 ASCII 以外的其他字符，如中文，不然的话，可能会应为客户端或者服务器端支持的编码不相同而造成问题。URL 对中文编码的方式是：得到中文的 UTF-8 编码的字符集，如 0xE4 0xB8 0xAD 0xE6 0x96 0x87，然后把 0x 用 % 替换就好了。对于某一些网站，他们对中文的URL编码是是跟随网页的编码的，比如他们网页的编码是 GBK 或者 GB2312，并不是常规的使用 UTF-8 编码，比如这个网站 https://www.52z

2020-07-12 11:38:14 384

spark-2.4.4-bin-hadoop2.6.tgz

GetIPv6.py

zzulioj 1296 a/b+c/d

空空如也