- 博客(189)
- 资源 (1)
- 收藏
- 关注
原创 【阅读论文】When Large Language Models Meet Vector Databases: A Survey
VecDB作为一种有效的解决方案,通过提供存储、检索和管理LLM操作中固有的高维向量表示的方法,成为解决这些问题的有力工具。向量数据库是一种新型数据库,主要用于存储和检索高维向量数据,特别是在自然语言处理和计算机视觉领域中,词、短语或图像特征常被表示为稠密或稀疏向量。例如,GPT-3、BERT、阿里云的通义千问等都是LLMs的例子。在NLP领域中,RAG模型会在生成文本响应之前,先从一个大型知识库中检索相关信息,并将检索结果与待生成文本的上下文相结合,从而提高模型生成的准确性和一致性。
2024-03-20 17:53:22 623
原创 【阅读论文】智能数据可视分析技术综述
中文引用格式: 骆昱宇, 秦雪迪, 谢宇鹏, 李国良. 智能数据可视分析技术综述. 软件学报, 2024, 35(1): 356–404. http://www.jos.org.cn/1000-9825/6911.htm。智能数据可视分析技术综述 文章结构。
2024-03-15 01:57:43 385
原创 【数据挖掘】工具整理 - 期刊 - 会议 - 论坛/博客 - 数据集
数据集搜索关键词包括分类(classification)、聚类(clustering)、回归(regression)、Web挖掘(web mining)、文本挖掘(text mining)、时间序列(time series)、关联规则挖掘的数据(association rule mining)。
2023-12-08 00:53:24 431
原创 【阅读论文】时间序列异常检测:综合评价
在金融应用中,检测时间序列数据中的异常子序列是一项重要的任务,从制造过程到医疗保健监测。异常可以指示重要的事件,例如生产故障、交付瓶颈、系统缺陷或心脏闪烁,因此是核心兴趣。由于时间序列通常很大并且表现出复杂的模式,数据科学家已经开发了各种专门的算法来自动检测这种异常模式。异常检测算法的数量和种类在过去已经显着增长,并且由于其中许多解决方案是独立开发的,并且由不同的研究社区开发,没有全面的研究系统地评估和比较不同的方法。出于这个原因,为给定的异常检测任务选择最佳检测技术是一项艰巨的挑战。
2023-12-03 19:24:36 864
原创 【论文阅读】MAG:一种用于航天器遥测数据中有效异常检测的新方法
异常检测是保证航天器稳定性的关键。在航天器运行过程中,传感器和控制器产生大量周期较长的多维时间序列遥测数据,以及及时准确地检测航天器内部异常的一个关键点是从大量遥测数据中提取基本特征。然而,由于遥测数据内的耦合关系和时间特征复杂,存在巨大的挑战。为了解决这个问题,我们提出了一种称为最大信息系数注意力图网络 (MAG) 的新方法。
2023-11-20 00:25:25 798
原创 【数据库系统】--【5】DBMS查询处理
小结● 查询处理概述● 查询编译词法、语法分析语义分析查询重写查询优化● 查询执行算法● 查询执行模型。
2023-08-20 00:36:49 236
原创 【数据库系统】--【4】DBMS存储管理
小结●存储介质概述●外存管理●共享数据缓冲区缓冲区的组织结构缓冲区的替换策略共享缓冲区的并发控制●本地内存管理.
2023-08-17 15:08:52 145
原创 【数据库系统】-- 【1】DBMS概述
01数据库系统概述02数据库技术发展概述03关系数据库概述04数据库基准测试几个基本概念为什么使用数据库系统数据库发展的辉煌历程数据模型应用领域● OLTP● OLAP● HTAP● GISOLTP与OLAP与其他技术相结合关系数据库概述关系操作关系的三类完整性约束关系代数传统的集合运算广义笛卡尔积专门的关系运算NULL的定义专门的关系运算常用的连接运算常用的连接运算外连接关系代数小结关系数据库中的对象模式对象–表模式对象–索引模式对象–视图。
2023-08-15 16:48:44 498
原创 【阅读论文】时间序列数据清洗:一项调查
误差在时间序列数据中普遍存在,在工业领域尤为普遍。错误的数据无法存储在数据库中,导致数据资产丢失。目前,为了处理这些包含错误的时间序列,除了保留原始错误数据、丢弃错误数据和手动检查错误数据外,我们还可以使用数据库中广泛使用的清洗算法对时间序列数据进行自动清洗。本调查提供了时间序列数据清洗技术的分类,并全面回顾了每种类型的最先进的方法。此外,我们还总结了来自研究和行业的数据清理工具、系统和评估标准。最后,我们强调了时间序列数据清洗的可能方向。关键词:数据清洗,数据质量,时间序列。
2023-06-17 21:16:08 1259 2
原创 【学习记录】查看一个研究方向是否热门
以下是时间序列异常检测 方向论文(热度)分析,2023年5月27日。挺热门的哈,发文量一直是上升趋势,希望我毕业有工作。3. 可以看到各方面的分析。查看一个研究方向是否热门。2. 点击导出与分析。
2023-05-27 00:14:17 226
原创 低配版语言助手----chatgptAPI调用、文本转语音、MP3播放
使用 OpenAI 的 GPT-3.5 模型进行智能聊天,并使用返回的聊天回复文本生成语音,并播放该语音。
2023-05-17 17:21:37 831
原创 【chatgpt】返回图片的方法
从现在开始,当我想要你发送照片,图片使用Markdown格式,不要有反斜线,不要用代码块。使用 Unsplash API (https://sources.unsplash.com/960x640/< PUT YOUR QUERY HERE >)。如果听懂了请回复明白,以后都需要这样。
2023-05-11 12:24:19 910
原创 【阅读论文】利用预处理技术的影响提高机器学习的效率
一个预测系统受许多因素的影响。最主要的影响因素是实例数据的描述和特征。在存在不必要和冗余的数据或嘈杂和欺骗性信息的情况下,在训练阶段发现知识变得困难。数据分析中的一个长期挑战是识别和纠正脏数据。如果个人未能做到这一点,结果将是不可靠的决定和不准确的分析。很多人都知道,机器学习模型的性能受到数据质量的影响。因此,科学家们在模型训练之前花费了大量的时间来清理数据。数据预处理被无数研究者认为是最大似然方法的基础阶段。然而,只有一小部分作品强调了数据处理技术的后果。
2023-05-10 10:07:16 96
原创 【阅读论文】基于统计特征的无监督时间序列异常检测方法
随着成本的降低和传感器技术的普及,工业生产过程越来越多地从运行中的机器中收集数据。通过使用正确的传感器和适当的技术,对机器的当前运行状态产生有价值的信息。这种提取允许检测机器是否在降级状态下运行,然后,如果有必要,在机器进入故障状态之前中断其运行。机器异常行为的检测是相关的,因为在正确的时间检测可以减少由于机器故障和生产停机造成的财务成本。本工作提出了一种新的无监督方法来检测工业机器中的异常,并在机器进入故障状态之前中断其运行。该方法接收来自多个传感器的一组时间序列数据作为输入。
2023-05-06 19:01:44 929
原创 【阅读论文】USAD:多变量时间序列上的无监督异常检测
IT系统的自动监控是Orange目前面临的挑战。考虑到其IT运营所达到的规模和复杂性,随着时间的推移,用于推断正常和异常行为的测量所需的传感器数量急剧增加,使得传统的基于专家的监督方法变得缓慢或容易出错。在本文中,我们提出了一种快速而稳定的方法,称为基于反向训练的自动编码器的多变量时间序列的无监督异常检测(USAD)。其自动编码器架构使其能够以无监督的方式进行学习。对抗性训练及其架构的使用使其能够隔离异常,同时提供快速训练。
2023-04-06 21:29:26 2211
原创 【阅读论文】基于VAE-LSTM混合模型的时间序列异常检测
在这项工作中,我们提出了一种VAE-LSTM混合模型,作为一种无监督的时间序列异常检测方法。我们的模型既利用VAE模块在短窗口上形成稳健的局部特征,又利用LSTM模块在从VAE模块推断的特征之上估计序列中的长期相关性。因此,我们的检测算法能够识别跨越多个时间尺度的异常。我们证明了我们的检测算法在五个现实世界问题上的有效性,并发现我们的方法优于其他三种常用的检测方法。关键词:异常检测、时间序列、深度学习、无监督学习时间序列的异常检测涉及检测时间上的意外系统行为,以提供信息性见解。
2023-04-05 21:44:23 4252 1
原创 【阅读论文】Anomaly Detection in Univariate Time-series: A Survey on the State-of-the-Art
长期以来,时间序列数据的异常检测一直是一个重要的研究领域。关于异常检测方法的研讨会工作一直集中在统计方法上。近年来,已经开发了越来越多的机器学习算法来检测时间序列上的异常。随后,研究人员试图使用(深度)神经网络来改进这些技术。鉴于异常检测方法的数量不断增加,研究主体缺乏对统计、机器学习和深度学习方法的广泛比较评估。本文研究了这三类中的20种单变量异常检测方法。评估是在公开可用的数据集上进行的,这些数据集是时间序列异常检测的基准。通过分析每种方法的准确性以及算法的计算时间,我们对这些异常检测方法的性能有了
2023-04-02 20:43:13 765
原创 【工具】【CodeGeeX插件】 代码生成与补全工具
想用Copilot, Copilot好像要收费,就发现了codegeex。它好像不太理解,写的代码,emmmmm,有待提升。直接在VScode插件里面搜。
2023-03-23 22:52:45 981 3
原创 【边缘计算】讲座记录
边缘计算的定义:维基百科->边缘计算产业联盟(ECC):边缘计算是一个开放分布式平台。边缘计算的发展来自技术存储、市场规模的发展。端边云架构:前端硬件 边缘智能 云端应用。
2023-03-23 14:18:49 343
原创 【强化学习】----训练Flappy Bird小游戏
Flappy Bird游戏需要玩家控制一只小鸟越过管道障碍物。玩家只可以进行“跳跃”或者“不操作”两种操作,即点或不点。点则让小鸟上升一段距离,不点小鸟继续下降。若小鸟碰到障碍物或地面,则游戏失败。如今,深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示,使得机器学习模型可以直接学习概念,如直接从原始图像数据进行物体类别分类。深层卷积神经网络采用平铺分层卷积滤波器层来模拟视野接受域的影响,在处理计算机视觉问题上,如分类和检测问题,获得了很大成功。
2023-03-22 01:27:44 2754 7
原创 【笔记】数据异常检测与修复总结
NNF 算法不仅具有 MA 算法均等填充数据的优势,而且对于逐渐演化的数据也有很好的填充优 势,在变化的数据中,异常数据信息,包括重复数据、无序数据、缺失数据、 无效数据、漂移数据、模糊数据。近邻数据填充 NNF(Nearest Neighbor Fill)算法。除了重复数据、无序数据、缺失数据、 无效数据。不同的研究对象,有着不同的异常分类方式。以上这些异常的检测难度也较大。
2023-02-17 01:45:32 605
原创 【论文阅读】Mind the Gap:An Experimental Evaluation of Imputation of Missing Values Techniques in TS
首先,某些算法显然是一流的。第二个结论是,在severe blackouts 的情况下,没有一种算法能够提供可接受的准确性。不幸的是,人们对它们的相对性能知之甚少,因为现有的比较仅限于相关算法的一小部分或极少数数据集,或者通常两者都有。标题: Mind the Gap: An Experimental Evaluation of Imputation of Missing Values Techniques in Time Series (Mourad Khayati,2020)时间序列 修复缺失值。
2023-02-07 15:24:06 122 1
原创 【论文阅读】Exathlon: A Benchmark for Explainable Anomaly Detection over Time Series
其中一些执行是通过引入六种不同类型的异常事件(例如,行为不当的输入、资源争用、进程失败)的实例来故意干扰的。,包括:(i) 精选的异常数据集,(ii) 用于 AD 和 ED 的新型基准测试方法,以及 (iii) 用于根据提供的数据集和方法实施和评估 AD 和 ED 算法的端到端数据科学管道。,展示了 Exathlon 的数据集、评估方法和端到端数据科学管道设计的实用性。了一个具有挑战性的应用领域,而不是提供多个更小、更简单的数据集几个独立的域。
2023-02-04 15:41:54 747 1
原创 【论文阅读】Cleanits: A Data Cleaning System for Industrial Time Series
Cleanits中的不一致性修复解决方案首先进行分类器预测,然后将不一致的子序列与其对应的属性进行匹配。构建了基于随机森林的分类器,考虑到其对大规模数据的效率和对多维时间序列的高性能。作者: Xiaoou Ding, Hongzhi Wang, Jiaxuan Su, Zijue Li, Jianzhong Li, Hong Gao。(2)在检测之后,使用基于统计的方法以及SD解决方案以我们的模型中定义的最大似然来修复异常点。1)缺失值插补,2)匹配不一致的属性值,以及 3)异常检测和修复。
2023-02-02 14:53:10 440 1
原创 【python】【数据分析】2022年全国大学生数据分析大赛题解-医药电商销售数据分析
报名了个2022年全国大学生数据分析大赛,本来不想做了的,但是想想不做就浪费我的报名费了,这两天还是给做了,比较粗糙,得不得奖不重要了。
2023-01-08 08:00:00 3284 4
原创 【学坑】 学无止境
整理了一下,还有好多要学Kafka: Kafka 是一个消息队列,用于转发。MQTT : 一种物联网通信协议,用的最多。ModBus协议:总线,用于通信今天看完了JavaWeb,还要看spring boot,希望我这星期能学完。。
2022-12-06 17:28:28 755 2
2022年全国大学生数据分析大赛题目 A题解 题目、数据、程序、论文、结果数据
2023-01-07
基于opengauss数据库的酒水销售管理系统
2022-09-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人