自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 收藏
  • 关注

原创 CVPR | Let‘s Think Outside the Box: Exploring Leap-of-Thought in LLM with Creative Humor Generation

大喜利”本来是指一系列日本传统戏剧游戏,随着时代的快速发展。现代的“大喜利”,目前一般是指一种叫Tonchi (頓智)的游戏,通常以游戏节目或智力问答节目的形式呈现,可以参考B站的日本著名节目IPPON大獎賽 (视频链接)。玩家被提供各种多模态内容,可以是简单的问题、随机图像等,然后提示玩家想出幽默的、有创意的反应,以达到令人惊讶的喜剧效果,如下图所示的例子。例子1) 在第一个“图文到文”的例子中,玩家要求阅读图像,和上面对应的文字,尝试想出一段文字填入对应的“问号?

2024-04-14 15:33:33 867 1

转载 SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models

一般来说,如果是人类使用stable diffusion这样的模型时,写出来的prompt是接近自然语言(simple prompt),而不是一些复杂的甚至是特定格式的“咒语”(complex prompt)。因此一种直觉的想法是:如何将大语言模型的语义能力迁移到预训练文本编码器如CLIP中,以减缓图文不匹配的问题?本文引入一个transformer结构的Adapter在特定隐含层中蒸馏大语言模型的语义特征,并将Adapter引导的大语言模型信息和原来文本编码器输出的语义特征做线性组合获得最终的语义特征。

2023-08-22 13:28:22 204

转载 Python自然语言处理资料库

1、LTP - 语言技术平台(LTP) 提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。经过哈工大社会计算与信息检索研究中心 11 年的持续研发和推广,LTP 已经成为国内外最具影响力的中文处理基础平台。2、NLPIR汉语分词系统 - 又名ICTCLAS2013,主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取。3、结巴中文分词 - 支持三种分词模式:精确

2021-04-21 14:42:33 233

原创 SPSS-参数检验

1. 假设检验假设检验分为参数检验与非参数检验。(1) 参数检验:已知总体分布, 猜测总体的某参数(原假设H0,null hypothesis),用一组样本来检验这个假设, 是否正确 (即接受还是拒绝假设H0)。(2) 非参数检验:两总体的分布未知,检验两总体分布是否一致(用两组样本来检验);由样本分布推测其总体分布 (假设H0),用另一组样本来检验这个假设,是否正确。1.1. 正态总体下的参数假设检验前提:总体分布为正态分布。若计算出Z统计量的区间估计在(-k,k)之间,同时设定一个置

2021-04-21 10:04:44 6884 1

原创 TimeGAN_Time-series generative adversarial networks

论文:Time-series generative adversarial networks代码:https://github.com/jsyoon0823/TimeGAN现有的时间序列研究中,自回归模型明确地将时间序列模型分解为条件分布的乘积。这种方法在预测中表现优秀,但是无需添加外部条件就能获得新序列信息,作者考虑到这并不是一种“生成”方法。另一方面的研究是使用GAN,这种方法简单地应用标准的loss函数,可能不能捕捉序列之间的逐步依赖关系。因此作者将上述两种不同实现机制的方法结合在一起——时间序

2021-04-13 18:32:16 5144 4

原创 13-包含min函数的栈

题目描述定义栈的数据结构,请在该类型中实现一个能够得到栈中所含最小元素的min函数(时间复杂度应为O(1))。Me俺不会……困惑点:如何使min和data的pop保持一致。题解使用冗余解决我的困惑点,即使min和data的长度保持一致。import java.util.Stack;public class Solution { Stack<Integer> date = new Stack<>(); Stack<Integer> min

2021-04-08 13:24:52 84 2

原创 12-字符串分隔

题目描述• 连续输入字符串,请按长度为8拆分每个字符串后输出到新的字符串数组;• 长度不是8整数倍的字符串请在后面补数字0,空字符串不处理。输入描述:连续输入字符串(输入多次,每个字符串长度小于100)输出描述:输出到长度为8的新字符串数组Mepublic static void main(String[] args) { Scanner in = new Scanner(System.in); while (in.hasNextLine()) { St

2021-04-08 13:23:15 108 2

原创 11-明明的随机数

题目描述明明想在学校中请一些同学一起做一项问卷调查,为了实验的客观性,他先用计算机生成了N个1到1000之间的随机整数(N≤1000),对于其中重复的数字,只保留一个,把其余相同的数去掉,不同的数对应着不同的学生的学号。然后再把这些数从小到大排序,按照排好的顺序去找同学做调查。请你协助明明完成“去重”与“排序”的工作(同一个测试用例里可能会有多组数据(用于不同的调查),希望大家能正确处理)。注:测试用例保证输入参数的正确性,答题者无需验证。测试用例不止一组。当没有新的输入时,说明输入结束。输入描述:

2021-04-08 13:22:31 175 1

原创 10-计算某字母出现次数

题目描述写出一个程序,接受一个由字母、数字和空格组成的字符串,和一个字母,然后输出输入字符串中该字母的出现次数。不区分大小写。输入描述:第一行输入一个由字母和数字以及空格组成的字符串,第二行输入一个字母。输出描述:输出输入字符串中含有该字符的个数。Me使用了双指针的思想,前后两指针夹击字符串序列。public static void main(String[] args) { Scanner in = new Scanner(System.in); String a =

2021-04-08 13:21:57 163 1

原创 9-字符串最后一个单词的长度

题目描述计算字符串最后一个单词的长度,单词以空格隔开。输入描述:输入一行,代表要计算的字符串,非空,长度小于5000。输出描述:输出一个整数,表示输入字符串最后一个单词的长度。Me使用系统函数。public static void main(String[] args) { Scanner sc = new Scanner(System.in); String[] s = sc.nextLine().split(" "); System.o

2021-04-08 13:21:22 135 3

原创 8-连续非负整数

题目描述给出一个正整数N和长度L,找出一段长度大于等于L的连续非负整数,他们的和恰好为N。答案可能有多个,我们需要找出长度最小的那个。例如 N = 18 L = 2:5 + 6 + 7 = 183 + 4 + 5 + 6 = 18都是满足要求的,但是我们输出更短的 5 6 7 。Me主要使用了队列的思想,绕了一大圈还运行超时……import java.util.Scanner;public class Main { public static void main(String[]

2021-04-08 13:20:47 311 3

原创 6-重建二叉树

题目描述输入某二叉树的前序遍历和中序遍历的结果,请重建出该二叉树。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。例如输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4,7,2,1,5,3,8,6},则重建二叉树并返回。此题的重建二叉树的意思是还原二叉树并返回root节点。Me使用规则:中序遍历的i位值如果等于前序遍历的首位值,那么中序遍历的i位左侧为左子树,i位右侧为右子树,前序遍历i位左侧为左子树(去掉首位根节点),i位右侧为右子树public TreeNode reC

2021-04-08 13:19:41 80

原创 线性回归和逻辑回归

线性回归预测结果是一个连续的数值;逻辑回归输出每个可能的选项(非连续)的可能值。逻辑回归相对于线性回归多了一个sigmoid激活函数,计算出非连续变量对应的概率值。对于非连续变量的预测问题,如果预测结果取值有n个,那么在数据预处理过程中,一般将lable设置为长度为n的向量,其中每个位置的值表示对应数值的概率值(或许其他具有一定意义的数值,反正得有一定的映射规律)。例如如果取值为0~9,那么训练集中label为1的输入对应的输出为[0, 1, 0, 0, 0, 0, 0, 0, 0, 0],..

2021-04-02 17:08:02 160

原创 交叉熵

信息量:事件的信息量为事件发生的概率的自然对数值取负。熵:所有信息量的期望,即信息量与事件发生概率的乘积的和取负。相对熵:KL散度。如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x),我们可以使用 KL 散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异。在机器学习中,P往往用来表示样本的真实分布,比如[1,0,0]表示当前样本属于第一类。Q用来表示模型所预测的分布,比如[0.7,0.2,0.1]。直观的理解就是如果用P来..

2021-04-02 17:04:38 127

原创 SPSS-估计

分布的类型:卡方分布、t分布、F分布……分布的参数估计:根据样本估计总体分布的参数(均值,方差……)点估计:均值、方差……区间估计:在要求的置信区间下估计其他参数的区间。...

2021-03-31 08:54:59 5311

原创 SPSS-描述统计与图示分析

描述统计连续性变量统计指标需要反映的是数据以下几方面的特征:SPSS描述统计中有多项可以展示最大值、最小值等,这里重点介绍频率:点击统计之后出现:(后验分布可以认为是分布特征指标)自行选择指标之后,得到分析结果: 偏态系数为负-0.212,分布左偏,即大部分样本数据集中靠右,长尾在左。反之,系数为正,分布右偏,长尾在右。一般0.51.0或-0.5-1.0之间为中等程度的偏斜。标准正态分布的偏态系数为0。利用直方图能够很好地观察偏度。 Z 分数(Z_Scores):相对位置的测

2021-03-29 16:57:38 5665

原创 5-数组中只出现一次的两个数字

题目描述一个整型数组里除了两个数字之外,其他的数字都出现了两次。请写程序找出这两个只出现一次的数字。Me第一次用python完成题目,太简单了,简直让人想放过自己!泪目????。但是!可以明显看出,python封装性太强,并不利于我们了解数据结构的底层结构。因此还是老老实实地用Java吧……class Solution: def FindNumsAppearOnce(self , array ): # write code here d = {}

2021-03-28 20:38:06 130

原创 4-链表倒数第k个结点

题目描述输入一个链表,输出该链表中倒数第k个结点。如果该链表长度小于k,请返回空。Me我的实现思路为:通过一次完全遍历获取链表长度,根据长度于k的差值定位倒数第k个节点。这个思路很好想,也很难优化。public ListNode FindKthToTail (ListNode pHead, int k) { if (k == 0) return null; ArrayList<ListNode> arr = new ArrayList<ListNode>();

2021-03-28 20:37:08 127

原创 3-用两个栈实现队列

题目描述用两个栈来实现一个队列,完成队列的Push和Pop操作。 队列中的元素为int类型。import java.util.Stack;public class Solution { Stack<Integer> stack1 = new Stack<Integer>(); Stack<Integer> stack2 = new Stack<Integer>(); public void push(int node)

2021-03-28 20:36:37 91

原创 2-树的子结构

题目描述输入两棵二叉树A和B,判断B是不是A的子结构(约定空树不是任意一个树的子结构)。B是A的子结构, 即 A中有出现和B相同的结构和节点值。例如:给定的树 A 3 / \ 4 5 / \ 1 2给定的树 B: 4 / 1返回 true,因为 B 与 A 的一个子树拥有相同的结构和节点值。Me主要使用递归的方法。该题有两种指针移动:主树和子树当前节点值不同,主树指针下移,子树指针不动——HasSubtree;主树和子树当前节点值相同

2021-03-28 20:36:03 96

原创 1-最小的k个数

题目描述输入整数数组 arr ,找出其中最小的 k 个数。例如,输入4、5、1、6、2、7、3、8这8个数字,则最小的4个数字是1、2、3、4。这是标注为“简单”的一道题目,但是题解版本很多,涉及的点也很深很全(菜鸟本菜),因此记录下自己的学习过程。Me我的解题思路是使用冒泡排序算法,具体代码如下:class Solution { public int[] getLeastNumbers(int[] arr, int k) { int [] result = new int

2021-03-28 20:35:31 151

原创 阅读——TF-IDF算法

博文TF-IDF算法介绍及实现主要介绍了TF-IDF,包括原理、不足、实战。阅读问题的提出中包含了对TF-IDF的拓展。TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随

2021-03-20 16:42:50 1976

原创 小程序制作

小程序制作笔记https://www.bilibili.com/video/BV1Ss411p7Mk?p=4小程序项目由n个页面组成每一个页面一般有4个核心文件:逻辑代码(js)、页面结构(wxml,其实是html代码)、页面样式(wmss,其实是css代码)、页面配置(json)demo代码1. app.json全局配置文件,所有页面生效pages:用于声明当前程序项目有几个页面windows:声明小程序界面配置。如标题、标题颜色背景等2. index和logs当前小程序有两个页面

2021-03-19 16:28:14 278

原创 正则化

* `decays` * we adopt L2 regularization and use the decays to control the penalty strength. * L2 regularization term is tuned in {1e-7, 1e-6, 1e-5, 1e-4, 1e-3, 1e-2}.顶会看多了,模型跑多了,知识 要自学的东西 也变多了。啥叫正则化?用来干啥的?啥是L1、L2?我将在这篇博文做一个综合性整理。1.正则化引入惩罚因子/正则化参数,

2021-03-16 20:53:45 234 1

原创 NGCF调参——拉普拉斯矩阵

最近在跑NGCF模型(Xiang Wang, Xiangnan He, Meng Wang, Fuli Feng, and Tat-Seng Chua. 2019. Neural graph collaborative filtering. In SIGIR. 165–174.),发现作者给的代码中,有如下注释* `adj_type` * It specifies the type of laplacian matrix where each entry defines the decay facto

2021-03-16 19:32:51 674 1

原创 SPSS-数据的检核与整备

1. 数据核查与清理确保数据输入过程的正确无误,是侦错的过程。经过这一过程的数据为Computerized raw data, 其数据格式,内容与排列方式,均与文本资料完全一致,并符合编码系统的编码原则。目的:维持数据输入过程的正确性。(1) 标识和删除重复个案总体思路:利用“标识重复个案”创建标识列标识重复列;利用“选择个案”删除被标识的重复列。删除重复个案生成标识重复列Repeat根据repeat列的值选择特定个案,进行删除完成。(2) 逻辑校验录入的数据因为填写者

2021-03-15 23:39:35 2148

原创 保温杯内壁有很多小泡泡

保温杯内壁有很多小泡泡

2021-03-14 16:05:43 5873

原创 SPSS-多重响应分析

多重响应分析两个问题,问题一使用了中文SPSS,问题二使用了英文版SPSS。名词解释穿插在操作步骤中。Q5:经常进行的网络活动(多选,10个可选项)数据介绍问题5对应数据集中下述字段:操作步骤(1) 定义多重响应集此处变量编码方式中选择的是“二分法”,二分法的基本方式是,多选题有多少个选项就设计多少个变量,每个变量分别有“是”和“否”两种回答,如果选择了该选项,对应为“是”,否则为“否”,分别赋值为“1”和“0”。如果多选题的选项很多,比如选择项有10项以上,如果按照二分法编码就应该设计

2021-03-13 11:31:45 22919 1

原创 Neo4j检索优化和Java项目配置

1. Neo4j 检索速度慢通过创建索引解决。Neo4j索引原理参考:neo4j - 查询效率的几种优化思路1.1 python先阅读(https://blog.csdn.net/MaoziYa/article/details/114195824)代码:graph.run(‘CREATE INDEX ON : PersonTest(name)’)钟爱python,操作方便叻!1.2 neo4j-shell + cypher-shell因为使用的是Linux远程服务,所有没有直接访问浏览器

2021-03-05 15:38:27 612 6

原创 Maven常用指令和常见错误(Linux)

1. Linux新建项目mvn archetype:generate,然后在命令行的提示下输入你要建的项目的 groupId,artifactId,以及version等2. 常用指令mvn install(安装): 把包安装到本地仓库,使该包可以作为其他本地项目的依赖。mvn package(打包): 源码编译之后,使用合适的格式(例如JAR格式)对编译后的源码进行打包。mvn clean: 清除项目mvn compile(编译): 编译项目源码mvn test-compile : 编译项目

2021-03-01 20:19:27 298

原创 Redis 基本原理和常见错误

1. Redis 存储由于Redis的数据都存放在内存中,如果没有配置持久化,redis重启后数据就全丢失了,于是需要开启redis的持久化功能,将数据保存到磁盘上,当redis重启后,可以从磁盘中恢复数据。redis提供两种方式进行持久化,一种是RDB持久化(原理是将Reids在内存中的数据库记录定时dump到磁盘上的RDB持久化),另外一种是AOF持久化(原理是将Reids的操作日志以追加的方式写入文件)。1.1 RDBRDB持久化是指在指定的时间间隔内将内存中的数据集快照写入磁盘,实际操作过程是

2021-03-01 19:17:24 748

原创 Redis 快速导入大量数据

1. 问题描述有大量以“key’\t’value’ ‘value’ '……”存储的数据,示例如下:0000 0475_48070 0477_7204 0477_7556 0480_33825 0481_206660 0482_76734 0436_33682 0484_13757 0538_217492 0727_83721 0910_39874 0436_82813 0421_24138 0433_113233 0425_67342 0475_56710 0438_83702 0421_144

2021-03-01 19:10:43 1697

原创 Neo4j安装和基础使用

1. Neo4j安装1.1 安装下载:wget http://dist.neo4j.org/neo4j-community-3.4.5-unix.tar.gz解压:tar -axvf neo4j-community-3.4.5-unix.tar.gz修改配置:进入解压后的文件夹后: vi conf/neo4j.conf修改如下相应配置:# 修改第22行load csv时l路径,在前面加个#,可从任意路径读取文件#dbms.directories.import=import# 修改35

2021-02-27 22:20:42 525

原创 操作系统笔记——第12章 文件系统

文件系统内容比较多,老师讲得比较浅。1. 基本概念文件系统和文件文件系统:一种用于持久性存储的系统抽象文件:文件系统中一个单元的相关数据在操作系统中抽象文件系统的功能:分配文件磁盘空间(管理文件块;管理空闲空间;分配算法)管理文件集合(定位;命名;最常见的是分层文件系统)提供便利及特征(保护;可靠性/持久性)文件和块:文件属性,存储在文件块中,表示文件的表征属性文件描述符:【内容较多,只记录部分】(用户角度)需要元数据数据来管理打开文件文件指针:指向最近的一次读写文职

2020-07-21 17:10:09 163

原创 操作系统笔记——第11章 死锁和进程间通讯

死锁1. 死锁问题一组阻塞的进程持有一种资源等待获取另一个进程所占有的一个资源。例子:系统有两个磁带驱动器,P1和P2都有一个,都需要另一个。2. 系统模型从数学角度建立死锁形式化模型。可重复使用的资源:在一个时间只能一个进程使用且不能被删除进程获得资源,后来释放由其他资源重用处理器,I/O通道,主副存储器,设备和数据结构,如文件、数据库和信号量如果每个进程拥有一个资源并请求其他资源,死锁可能发生使用资源:创建和销毁在I/O缓冲区的中断,信号、信息、消息如果接受信息看阻塞可

2020-07-20 21:30:04 192

原创 操作系统笔记——003 并行性:互斥与同步

一. 概论1.多道程序设计在单处理器上实现,多道程序并行运行,属于宏观的虚拟概念,即在任何给定时刻只有一道程序在CPU上运行。多道程序设计技术带来了操作系统中的并行性和资源(硬资源和软资源)共享,从而提高了操作系统的性能和效率。但也带来了进程间的互斥、同步问题。当前的操作系统都支持多道程序设计技术。2. 多处理器系统多处理器系统是指对运行在多个处理器上的多个进程和线程进行管理。多采用 SMP 模式(对称型多处理器系统)。 如 Windows NT 工作站是双机 SMP 系统,Windows N

2020-07-02 23:09:00 285

原创 Python-反爬篇

使用fake_useragent随机构建UserAgentfrom fake_useragent import UserAgentua = UserAgent(verify_ssl=False)def get_header(): return { 'User-Agent': ua.random } 使用代理池import requests# 首先需要配置代理池,具体见:https://github.com/Python3WebSpider/Porx

2020-06-10 09:39:21 323

原创 操作系统笔记——第10章 信号量、管程

背景操作系统存在并发问题:竞态条件,即多程序并发存在大的问题操作系统同步指多线程共享公共资源的协调执行,包括互斥和条件同步。互斥指同一时间只有一个线程可以在临界区执行。实际条件中,确保同步正确很难。需要高层次的编程抽象(如:锁)和底层硬件支持编译。信号量和管程是比lock更高级的解决方法。信号量信号量(sem)是抽象数据类型:一个整形(sem),两个原子操作(P【减】,V【增】,荷兰语)P():sem减1,如果sem<0,等待,否则继续V():sem加1,如果sem<=0,

2020-06-09 19:17:55 359

原创 操作系统笔记——第9章 同步

背景合作的线程:线程之间对共享资源协同合作,进程/线程、计算机/设备需要合作。共享资源加速:I/O操作和计算可以重叠;多处理器-将程序分为多个部分并行执行模块化:将大程序分解成小程序;使系统易于扩展程序可以调用函数fork()创建一个新进程操作系统需要分配一个新的且唯一的进程ID在内核中,这个系统调用会运行 new_pid = next_pid++翻译成机器指令(4条)LOAD next_pid Reg1STORE Reg1 new_pidINC Reg1STORE Reg1

2020-06-01 20:51:11 300

原创 操作系统笔记——第7章 虚拟内存管理算法篇

页面置换算法针对局部页面的算法,针对一个正在运行的程序。1. 功能与目标缺页中断:缺页中断的发生常见为:当前内存中有进程abcde,现需要执行f,那么需要将abcde中的某页移出。功能:当缺页中断发生,需要调入新的页面而内存已满时,选择内存中哪个页面被置换。目标:尽可能减少页面的换进换出次数(即缺页中断的次数)。具体来说,把未来不再使用的或短期内较少使用的页面换出,通常只能在局部性原理指导下依据过去的统计数据来进行预测页面锁定(frame locking):用于描述必须常驻内存的操作系统的关键

2020-05-18 10:24:15 563

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除