- 博客(1778)
- 资源 (26)
- 收藏
- 关注
原创 2023年第十四届蓝桥杯 - 省赛 - C/C++大学A组 - B.有奖问答
一共 30 道题,得分情况为 0 ~ 100 分。创建一个 30 行 100 列的 dp 数组,dp[i][j] 表示做完第 i 题,得分为 j 的方案数。
2024-04-02 16:56:20 518
原创 2023年第十四届蓝桥杯 - 省赛 - Python研究生组 - A.工作时长
直接通过 datetime 模块加载时间字符串进行格式化,然后对时间列表进行排序,最后两两计算时间差。
2024-04-01 23:40:35 472 1
原创 记一次 pdfplumber 内存泄漏导致的服务器宕机
我是通过 pdfplumber 加载的 PDF 文件,所以自然而然的去 pdfplumber 的 GitHub 上看看有没有人遇到类似的问题,果然找到了一个。本地跑没什么问题,但是一放到服务器上跑就会宕机,而且是毫无征兆的宕机,至少在宝塔面板上看到的宕机前的负载、CPU使用率和内存占用率还是正常的。在执行这个函数的过程中,通过 htop 命令实时观察内存占用,发现随着处理的页面越来越多,占用的内存也越来越多,直到服务器完全卡住,宕机了。所以问题就很明显了,服务器的资源不够,内存占满了,所以才导致了宕机。
2024-04-01 21:45:25 639
原创 这应该是全网第一篇全面解读OpenAI Sora报告的文章,精读报告:Video generation models as world simulators
今天是2024年2月16号,大年初七,年还没过完,早晨起来朋友圈就被Sora刷屏了。本来以为没啥,都是公众号或者视屏啥的,都没点开看,直到看到我导也发了Sora的文章,我就知道这个事情不简单了。先来看一段非常炸裂的效果,就是下面这个视频。真的,如果你不跟我说这是AI生成的,我还以为是哪个电影的镜头呢。这场景,这运镜,这清晰度,放大之后连脸上的斑都清晰可见,Oh my God,现实不存在了,现实真的不存在了。Tokyo walk。
2024-02-16 20:40:23 1933 1
原创 作为国产大模型之光的智谱AI,究竟推出了多少模型?一篇文章带你详细了解!
总的来说,还是挺期待未来可以有所突破的!!!但是我觉得这个大模型算是国内的很不错的大模型了,起码gpt49有的它都有,虽然是打折版的。并且使用也免费,已经挺够意思了。正如张鹏所言,和国外大模型相比,国内的大模型发展起步晚一些,加上高性能算力的限制和数据质量的差距等等,国内研发的大模型无论规模还是核心能力,与世界先进水平还存在一年左右的差距。但是未来一年,我们将有希望看见国内大模型的崛起之路!pvs=4。
2024-02-15 16:06:08 434
原创 论文精读:InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions
视觉基座模型还没有基于CNN的大模型CNN不具有长距离依赖性和自适应空间聚合能力改进了DCNv2一方面是模型做大之后效果怎么样,另一方面关注是否解决了长距离依赖性和自适应空间聚合能力。
2024-01-29 12:58:22 1027
原创 论文精读:VMamba Visual State Space Model
Institution: 中国科学院大学(UCAS), 华为, 鹏城实验室Summary: CNNs和ViTs是视觉特征表示领域常用的两个基座模型,CNNs具有显著的可扩展性,线性复杂度与图像分辨率相关,ViTs的拟合能力更强,通过注意力机制的全局感受野和动态权重可以有更好的表现,但是复杂度是二次的。本文提出了一种新的架构——VMamba(Visual State Space Model),继承了CNNs和ViTs的优点,同时还提高了计算效率,在不牺牲全局感受野的情况下可以达到线性复杂度。
2024-01-23 14:30:11 3972
原创 论文精读:Improving CLIP Training with Language Rewrites
Summary: CLIP模型通过对比损失进行训练,这通常依赖于数据增强来防止过拟合,但是在CLIP的训练过程中,只对图像进行了数据增强,并没有对文本进行数据增强。基于此,这篇文章提出了文本增强CLIP(Language augmented CLIP, LaCLIP),利用大语言模型的ICL能力,对每张图片的文本描述进行重写。重写的文本保持原意不变,在句子结构和文本表达上具有多样性。在模型训练的时候,随机选择采用原始文本还是重写的文本。
2024-01-22 14:26:09 1042
原创 论文精读:Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
大规模视觉-语言模型(Large Vision-Language Models,LVLMs)基本上使用得都是同一个视觉词表——CLIP,它也适用于大部分的视觉任务。但是,对于一些特殊的任务往往需要更密集和更细致的感知,比如文档OCR和图标理解,特别是对于非英语场景,CLIP的词表在分词时往往比较低效,并且还可能会遇到无法分词的问题。基于此问题,作者提出了Vary(Vary),一种有效扩展LVLMs视觉词表的方法。
2024-01-12 12:09:04 1287 1
原创 论文精读:EVA-CLIP Improved Training Techniques for CLIP
Summary: 作者使用了一系列方法来提升CLIP的训练效率和效果,包括新的表示学习方法、更换优化器和数据增强技术,使得EVA-CLIP相比于具有相同参数量的模型徐连成本更小,性能更优。
2024-01-10 14:29:00 1347
原创 ElasticSearch环境准备
Elasticsearch 在许多应用中被广泛使用,包括日志和事件数据分析、内容搜索、数据可视化、地理搜索等。在本应用中,我们有大量的非结构化文档要存储(PDF、TXT和HTML),而ElasticSearch恰好可以帮助我们实现相应的检索功能。然后,创建一个Elasticsearch客户端实例,并连接到本地运行在9200端口上的Elasticsearch服务器。6.灵活的查询语言:Elasticsearch 提供了一种非常灵活的查询语言,可以执行简单的文本查询到复杂的聚合查询。
2023-10-07 18:18:20 727
原创 小学生都听得懂的数据库范式
比如,我们有一张学生表,其中一个字段是地址。如果我们把地址拆分成省份、城市、街道、门牌号等多个字段存储,那么这就不符合第一范式的要求了,因为地址被分解成了多个部分,不再是原子性的了。正确的做法是把地址作为一个属性,存储为一个完整的字符串。函数依赖是指在一个关系中,一个或多个属性的值可以唯一地决定另一个属性的值。就像我们在算数中,如果我们知道了某些数字的值,就可以唯一地确定另一个数字的值。举个例子,假设我们有一个学生表,其中包括学生姓名、年龄、班级、学号等字段。
2023-03-21 18:36:38 757
原创 模型训练和推理过程中的显存占用问题
我有两个GPT2的模型,只有1亿参数,并以16位浮点数存储,也就是250MB左右,有35亿参数,同样以16位浮点数存储,也就是7GB左右。我以为推理的时候加载模型到显存中后占用的空间应该也是差不多的大小,但是1亿参数的模型加载到TorchServe中后却占用了957MB,不知道为什么多出来700多MB。
2023-03-19 14:09:07 3466
原创 OSError: [WinError 126] 找不到指定的模块。 Error loading “......caffe2_nvrtc.dll“ or one of its dependencies.
昨天晚上跑的好好的训练脚本,今天早晨突然就开始报错了。主要是在Jupyter Notebook上跑的时候报错,但是直接打开Python Console跑是可以的。果然CUDA Version变成了12.0,我记得之前是11.7,所以降级就可以了。(我也想升级,但是当前时间点PyTorch暂时还不支持12.0)然后突然想起来,昨天晚上更新了CUDA驱动,主要是NVIDIA GeForce Experience推荐我更新的,没在意就直接点了。更新完之后重启电脑就可以了,神奇。
2023-02-23 08:46:23 1834
原创 线性卡尔曼滤波详解
自动驾驶汽车首先需要准确的知道自己在地图上的位置。理所当然的我们可以想到通过GPS来进行定位,但获取GPS信号需要跟卫星进行通信,这就导致它的更新频率比较低,每次获取的位置是不连续的。换一个思路,我们高中都学过物理,当知道了一个小车的起点、速度和加速度之后,就可以通过直线运动公式预测接下来的位置,再结合小车偏向的角度、角速度和角加速度,完全可以通过运动学模型预测小车在二维道路上接下来的位置。此时我们有了两种定位的方式:直接通过GPS观测和间接通过运动模型预测,那该选择哪一种呢?
2023-02-09 11:38:13 989 1
原创 【Linux】常用指令
在当前窗口新建一个终端:Ctrl + Shift + t。新开一个终端窗口: Ctrl + Shift + n。在当前窗口跳到某个终端:Alt + 1…
2023-01-01 13:28:18 513
原创 Linux的Anaconda换阿里源
Anaconda是一个用于科学计算的Python发行版,支持Linux, Mac, Windows,包含了众多流行的科学计算、数据分析的Python包。
2022-11-11 10:15:34 2039 1
原创 LeetCode Algorithm 1620. 网络信号最好的坐标
思路:先根据坐标范围遍历整个第一象限,然后再遍历所有的信号塔,针对每一个点判断是否在信号塔的范围内,如果在的话,就累加上它的信号强度,然后再根据一个全局最大值判断就可以了。
2022-11-02 21:45:00 580
原创 LeetCode Algorithm 540. 有序数组中的单一元素
思路:相同的两个数异或等于0。/ 偶数与1进行异或结果为原来偶数加一后的奇数,奇数与1进行异或结果为原来的奇数减一后的偶数。算法:位运算 / 二分。
2022-11-01 20:15:00 539
原创 To小白,方法比努力更重要!
今天是在1024程序员节,想想这也是我在CSDN胡诌八扯的第4年了,正好今天写文章还给勋章,嘿嘿,来水一篇。不过这篇文章的灵感还是来源于最近在带的几个刚入门计算机的小白,结合之前的一些经历,发现很多人学不会编程并不是不够努力,而是没有掌握方法。所以这篇文章就跟分享一下我学习计算机的一些方法论,包括从理论层面到实践层面。
2022-10-24 20:15:00 1009 2
原创 Some NCCL operations have failed or timed out.
看样子貌似是两台机器没有同步导致的报错,并且这个问题也是偶发性的,可以先重启一下看看能不能解决。背景:在两台服务器上通过torchrun进行分布式模型训练。
2022-10-12 14:54:50 5641
原创 pip报错:Script file ‘D:\anaconda3\Scripts\pip-script.py‘ is not present.
【代码】pip报错:Script file 'D:\anaconda3\Scripts\pip-script.py' is not present.
2022-09-24 14:43:32 1696
原创 日积月累,在迷茫彷徨中前进 —— 我的大学经历
想想好久没写过程序人生了,恰逢一位学弟成为了母校的CSDN联合校园大使,为开学季话题征文,不禁回想起四年前,我也是忐忑而又兴奋的等待着大学生活的开始。坎坎坷坷四年来,我也已毕业,看着新一届的同学们又将面临开学季,我这肚子里的半瓶墨水又憋不住了,总想撰文一篇,既是对自己大学四年的总结,也是希望给新同学们一点点建议。
2022-09-20 22:43:54 30546 41
原创 你一定用过htop,但你有看懂每个栏位么?
身为一个工程师,不管你写的是前端、后端、全栈还是什么端,一定多少用过 htop,就算真的没用过也会听同事说过。htop 是一个 process manager,他可以让你看到执行中的 process、系统资源的使用量,也可以让你轻松 kill 掉任何一个 process,总之,你想得到的功能统统都有~
2022-09-09 23:45:00 3225
原创 论文精读:XGBoost: A Scalable Tree Boosting System
提升树模型是一种高效且广泛使用机器学习方法。在本文中,我们提出了一个可扩展的端到端提升树系统,称为XGBoost,它被数据科学家广泛使用,在许多机器学习挑战中取得了最先进的结果。我们提出了一种新的针对稀疏数据的稀疏感知算法和针对近似树学习的加权分位点算法。更重要的是,我们对缓存访问模式、数据压缩和分片进行了深入的研究,构建了一个可扩展的提升树系统。通过结合这些见解,XGBoost可以使用比现有系统少得多的资源来扩展数十亿个示例。关键字:大规模可扩展机器学习陈天奇。...
2022-08-25 22:32:36 1093 7
翻译 从零开始Q-Learning,用强化学习教出租车接送乘客
设想一个训练宠物狗新技巧的场景:狗听不懂人类的语言,所以我们不能直接告诉它该怎么做。我们可以模拟一种情况(或提示),而狗会试图以许多不同的方式做出反应。如果狗的反应是我们想要的,就用零食奖励它们,那么下一次狗遇到同样的情况时,大概率会以更热情的方式执行类似的动作,期待更多的食物。这就像从积极的经历中学习“做什么”一样。同样,狗也会倾向于学习在面对负面经历时不该做什么。狗就是暴露在环境中的智能体(agent)。环境可以是客厅或草坪,随你。你和狗当前的情况就类似于一种状态。
2022-08-22 23:00:00 1859
原创 震惊!我竟然在1080Ti上加载了一个35亿参数的模型(ZeRO, Zero Redundancy Optimizer)
在最近几年,虽然大规模预训练模型已经越来越普遍,但是关于如何训练这些模型的内容却很少有人关注,一般都是一些财大气粗的企业或实验室来训练大模型并发布,然后中小型企业以及高校来使用。即便如此也有一些门槛,受限于机器配置,可能效果更好的大模型并不能直接加载到显卡中,或者是单机多卡希望可以通过分布式的方法进行微调。
2022-08-22 22:40:25 2983 1
转载 nvcc和nvidia-smi显示的版本不一致?
CW 近日在自己的机子上发现,和nvidia-smi显示出来的CUDA版本不一致,其中前者显示的版本是10.2,而后者是11.0,但是深度学习相关的程序是能正常跑的,期间GPU也确实有在使用(通过nvidia-smi可以看出)。由于个人一贯以来的“居安思危”风格,担心这种情况会埋坑,于是查阅了相关资料进行了解,正好也弥补了这部分知识的空白。...
2022-08-18 12:08:12 1395
原创 LeetCode Algorithm 1403. 非递增顺序的最小子序列
排个序,然后从后往前取,如果当前取得数之和大于剩下的数,则break。
2022-08-09 19:49:01 1555
原创 LeetCode Algorithm 1472. 设计浏览器历史记录
思路:这明明是一道栈的题目,不知道为啥LeetCode给标成了链表的题目。用来存储访问历史,另外一个也用来存储访问历史,什么是前进历史呢,就是当我们执行一次。操作时才能找到之前弹出的历史。可以利用两个栈来实现,一个栈。咳咳,开个玩笑,另外一个栈。栈的栈顶元素弹出,然后塞入。...
2022-08-09 19:34:49 1563
原创 LeetCode Algorithm 914. 卡牌分组
思路:统计所有牌的个数,找到最大公约数,如果最大公约数大于等于2,返回true,否则返回false。
2022-08-08 20:55:38 1161
原创 LeetCode Algorithm 1721. 交换链表中的节点
思路:可以用快慢指针进行定位,先找到正数第k个节点,然后找倒数第k个节点,之后就是节点交换的操作了。
2022-08-08 20:45:40 615
翻译 2022年NeurIPS智能驾驶大赛
自动驾驶(Autonomous Driving, AD)是人工智能和机器学习应用的下一个领域。为了进一步研究AD,我们邀请您参加由华为技术有限公司和学术合作者组织的自动驾驶比赛。
2022-08-06 00:15:00 947
面向对象&网络编程基础·第1章面向对象 开发一套选课系统
2022-03-19
函数编程作业 网站访问日志分析
2022-02-19
股票信息查询程序-Python作业
2022-02-12
sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz.zip
2020-06-08
apache-hive-2.1.1-bin.tar.gz.zip
2020-06-08
spark-2.4.0-bin-hadoop2.7.tgz.zip
2020-06-08
hbase-1.2.4-bin.tar.gz.zip
2020-06-07
hadoop-2.7.3.tar.gz.zip
2020-06-07
zookeeper-3.4.10.tar.gz.zip
2020-06-06
jdk-8u171-linux-x64.tar.gz.zip
2020-06-05
Redis-x64-3.0.504.zip
2020-04-10
HousePrices.zip
2020-02-10
mysql-8.0.11-winx64.msi
2020-02-07
mysql-8.0.19-winx64.zip
2020-02-07
Matrix Studio Second Assessment.zip
2019-10-29
机器人写诗测试数据集 poemsTest.txt
2019-07-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人