- 博客(1351)
- 资源 (7)
- 收藏
- 关注
原创 数据集笔记:windows系统下载北大开放数据研究平台的POI数据
这是北大开放数据研究平台的POI数据,一开始我以为直接点下载键就可以了,但每次快下完了就又重新开始了,一开始以为是vpn/浏览器的问题,但都不是。gbrecs=true是“复制下载链接”D:\Data\2018-POICSV-1.rar 就是要下载的位置。
2024-04-26 11:56:21 101
原创 论文辅助笔记:LLM-MOB代码解读
每一条记录的格式是:('09:08 PM', 'Wednesday', 466, 10),提取当前研究的uid的长期历史mobility(M条)```短期mobility(临近5段location)```长期mobility(不同的test数据共享)就是读取这个user 之前已经保存的预测记录。提供gpt prompt获得相应的结果。#转化成几点几分 AM/PM的形式。提取数据集对应的user id。保存location的预测结果。#转化成星期几的形式。
2024-04-25 00:09:52 257
原创 python 笔记ast.literal_eval
是 Python 标准库ast模块中的一个函数,用于安全地评估表示 Python 字面量或容器(如列表、字典、元组、集合)的字符串。
2024-04-25 00:02:43 151
原创 OpenAI 笔记:获取embedding
默认情况下,text-embedding-3-small 的嵌入向量长度为 1536,text-embedding-3-large 的长度为 3072。看起来也不是直接截断。
2024-04-24 15:20:23 265
原创 论文笔记:Leveraging Language Foundation Models for Human Mobility Forecasting
语言模型+POI客流量预测。
2024-04-22 16:23:20 303
原创 论文笔记:Large Language Models Are Zero-Shot Time Series Forecasters
完全是零样本(zero-shot)的,不需要微调。
2024-04-22 15:54:08 377
原创 论文笔记:PromptCast: A New Prompt-based Learning Paradigm for Time Series Forecasting
TKDE 2023\
2024-04-22 15:24:18 195
原创 论文笔记;LargeST: A Benchmark Dataset for Large-ScaleTraffic Forecasting
Neurips 2023
2024-04-21 21:41:10 1001 1
原创 论文笔记:Time-LLM: Time Series Forecasting by Reprogramming Large Language Models
iclr 2024 reviewer 评分 3888。
2024-04-21 15:26:32 348
原创 论文笔记:How Can Large Language Models Understand Spatial-Temporal Data?
arxiv 202401
2024-04-21 03:17:01 292 1
原创 论文笔记:Spatial-Temporal Large Language Model for Traffic Prediction
arxiv 2024 时空+大模型。
2024-04-20 23:45:56 345
原创 论文笔记:UrbanGPT: Spatio-Temporal Large Language Models
时空预测的目标是预测并洞察城市环境随时间和空间不断变化的动态。其目的是预见城市生活多个方面的未来模式、趋势和事件,包括交通、人口流动和犯罪率。虽然已有许多努力致力于开发神经网络技术,以准确预测时空数据,但重要的是要注意,许多这些方法。不幸的是,数据稀缺问题在实际的城市感知场景中普遍存在。在某些情况下,从下游场景收集任何标记数据变得具有挑战性,这进一步加剧了问题。因此,建立一个能。借鉴大型语言模型(LLM)的显著成就,我们的目标是创建一个能在。为实现这一目标,我们推出了UrbanGPT,它。
2024-04-20 16:56:25 549 1
原创 论文笔记:TEMPO: Prompt-based Generative Pre-trained Transformer for Time Series Forecasting
iclr 2024 reviewer评分 568。
2024-04-20 14:54:34 145 1
原创 论文辅助笔记:处理geolife数据
论文笔记:Context-aware multi-head self-attentional neural network model fornext location prediction-CSDN博客 对应命令行里这一句根据geolife数据,使用滑动窗口的方法获取staypoint 同时geolife DataFrame加一列staypoint 如果staypoint停留时间>25min,那么是为一个活跃的staypoint在两个stypoint之间的部分创建行
2024-04-20 00:32:40 594
原创 sklearn 笔记: preprocessing.OrdinalEncoder
如果是列表,则列表中的每个元素代表对应特征的预期类别,这些类别应该是有序的。时使用,这个值用来编码训练数据中未出现的类别。需要注意的是,这个值必须和已有的编码值不同。,编码器将自动从训练数据中确定类别。,即如果遇到未知类别时会抛出错误。或是一个类别的列表。,未知类别将被编码为。处理未知类别的方式。
2024-04-20 00:26:39 322
原创 trackintel 笔记:generate_staypoints,create_activity_flag
从位置修正(positionfixes)生成停留点(staypoints)。根据 Li 等人(2008)的算法,仅在用户离开该停留点时才检测到停留点。这将省略最后一个停留点(如果有的话)。设置‘include_last’为 True 可以包含这最后一个停留点。【去掉的行应该是duplicate】【staypoint_id是NA的表示不是staypoint】‘sliding’方法的距离阈值,即用户必须移动多远才能生成新的停留点。如果使用‘haversine’度量,单位是米。在生成停留点前过滤重复的位置修正。
2024-04-18 22:31:52 343
原创 geolife笔记/python笔记:trackintel.io.read_geolife
键是拥有“labels.txt”文件的用户的用户 ID。包含 geolife 数据的目录路径。包含可用模式标签的字典。
2024-04-18 21:01:56 211
原创 论文笔记:Does Writing with Language Models Reduce Content Diversity?
iclr 2024 reviewer评分 566。
2024-04-17 23:00:48 982
原创 论文笔记:Are Human-generated Demonstrations Necessary for In-context Learning?
iclr 2024 reviewer 评分 6668。
2024-04-17 20:14:14 655
原创 论文略读:The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Language Models
从设计提示模板或探测方案开始,以引出PLMs的偏见输出。iclr 2024 reviewer 打分 6668。
2024-04-17 18:56:58 226
原创 论文略读:Data Distillation Can Be Like Vodka: Distilling More Times For Better Quality
iclr 2024 reviewer 评分 568。
2024-04-17 14:45:53 139
原创 论文略读:REALISTIC EVALUATION OF SEMI-SUPERVISED LEARNING ALGORITHMS IN OPEN ENVIRONMENTS
iclr 2024 spotlight reviewer 评分 8888。
2024-04-17 11:45:56 137
原创 论文略读:Memorization Capacity of Multi-Head Attention in Transformers
iclr spotlight reviewer评分 6888。
2024-04-16 23:58:01 136
原创 论文略读:Can Sensitive Information Be Deleted From LLMs? Objectives for Defending Against Extraction Att
iclr 2024 spotlight reviewer 评分 6888。
2024-04-16 23:15:23 184
原创 论文笔记:(INTHE)WILDCHAT:570K CHATGPT INTERACTION LOGS IN THE WILD
iclr 2024 spotlight reviewer 评分 5668。
2024-04-16 21:27:16 1109 2
原创 论文略读:Window Attention is Bugged: How not to Interpolate Position Embeddings
iclr 2024 reviewer 打分 6666。
2024-04-16 18:00:21 230
原创 论文略读 Low Rank Matrix Completion via Robust Alternating Minimization in Nearly Linear Time
矩阵补全是计算机科学和机器学习理论与实践中广泛研究的问题 给定一个矩阵 M ∈ R^(m×n),矩阵补全问题要求仅通过观察 M 的少数(随机)条目来恢复该矩阵 从理论上讲,为了获得可证明的保证,需要对矩阵M做出额外的结构性假设 最自然和实用的假设是矩阵M是一个秩为k的低秩矩阵 另一个流行的假设是矩阵M具有无关的行和列 这直观地消除了M只有少数几个大条目的退化情况,从而强调必须观察它们 在这些假设下,基于凸松弛的多种算法已被推导出来 这些算法将问题放松为一个可以通过
2024-04-16 17:08:28 118
原创 论文略读:GOAt: Explaining Graph Neural Networks via Graph Output Attribution
举例(GCN)【3层graph conv+2层MLP的分类层】iclr 2024 reviewer评分 568。计算每个节点或边缘特征对每个标量乘积的贡献。
2024-04-16 16:37:22 215
原创 论文略读:SWE-bench: Can Language Models Resolve Real-world Github Issues?
iclr 2024 oral reviewer评分 5668。
2024-04-16 11:43:59 314
原创 论文略读:LLMCarbon: Modeling the End-to-End Carbon Footprint of Large Language Models
准确预测密集型和MoE LLMs在其训练、推理、实验和存储阶段的碳足迹。iclr 2024 oral reviewer 评分 556810。
2024-04-15 23:36:10 183
原创 论文略读:FINE-TUNING ALIGNED LANGUAGE MODELS COMPROMISES SAFETY, EVEN WHEN USERS DO NOT INTEND TO!
reviewer 打分 66610。
2024-04-15 20:50:54 177
原创 论文速读:Do Generated Data Always Help Contrastive Learning?
在对比学习领域,最近很多研究利用高质量生成模型来提升对比学习 给定一个未标记的数据集,在其上训练一个生成模型来生成大量的合成样本,然后在真实数据和生成数据的组合上执行对比学习 这种使用生成数据的最简单方式被称为“数据膨胀” 这与数据增强过程正交,其中无论是原始还是生成的图像都会经过手动增强以产生在对比学习中使用的正负样本对 论文发现:生成的数据并不总是有利于对比学习 仅仅将CIFAR-10通过DDPM生成的100万图像进行数据膨胀,反而导致线性探测精度更差 ——>论文从两个
2024-04-15 19:01:13 389
原创 论文略读:Benign Oscillation of Stochastic Gradient Descent with Large Learning Rate
iclr 2024 reviewer评分 368。
2024-04-15 15:23:58 121
原创 论文略读:ZipIt! Merging Models from Different Tasks without Training
iclr 2024 reviewer 评分 5666。
2024-04-15 15:01:10 193
network embedding lecture slide
2023-01-01
python 实现 cmaes (调用方便)
2022-02-13
ASTGCN(AAAI 2019).pdf
2021-08-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人