- 博客(756)
- 资源 (138)
- 收藏
- 关注
原创 基于python的pdf版本的PPT转换为office PPT
pdf2pptx是一个基于Python的命令行工具,可以将PDF格式的演示文稿批量转换为Microsoft Office PowerPoint(.pptx)格式的演示文稿。该项目利用了Python的强大功能和多个第三方库,如PyMuPDF(又称fitz)和python-pptx,以实现高效、准确的转换。项目功能:批量转换:用户可以指定一个文件夹,pdf2pptx会自动查找该文件夹中的所有PDF文件,并将它们转换为PPTX格式的演示文稿。
2024-04-19 11:27:13 18
原创 基于python的pdf2word(可以批量转换)
pdf2word是一个基于Python的命令行工具,可以将PDF文件批量转换为Word文档。该项目利用了Python的强大功能和多个第三方库,如pdfminer和python-docx,以实现高效、准确的转换。项目功能:批量转换:用户可以指定一个文件夹,pdf2word会自动查找该文件夹中的所有PDF文件,并将它们转换为Word文档。保持格式:pdf2word会尽可能保留原文档的格式,包括字体、大小、颜色等。
2024-04-19 11:20:55 114
原创 python 表达式去除制定以外的字符和特殊符号其他都去掉
作用: 正则表达式 需要保留的数字、字母、以及部分特殊符号(\ / + - = :) 其他以外的都去掉。
2024-04-09 17:41:07 16
原创 [算法前沿]--022-使用 StarCoder 创建一个编程助手
BigCode 开发的 StarCoder,这是一个在一万亿的 token、80 多种编程语言上训练过的 16B 参数量的模型。训练数据多来自 GitHub 上的 issues、使用 Git 提交的代码、Jupyter Notebook 等等。得益于对企业友好的许可证、长度为 8192 的 token、借助 multi-query attention 的快速大批量推理,StarCoder 可以说是当前对代码相关的应用最合适的开源选择。
2024-04-07 22:56:38 127
原创 [AI in sec]-039 DNS隐蔽信道的检测-特征构建
DCC是指利用DNS数据包中的可定义字段秘密传递信息的通道。其中,“DNS 协议”是目前网络上使用的标准域名解析协议;“可定义字段”是DNS 数据包中的 QNAME 字段、RDATA 字段及RawUDP字段。利用DNS数据包可以构建2种信道:存储信道及时间信道。
2024-04-07 18:06:24 61
原创 加密流量分析资源汇总 Encrypted traffic analysis resource summary
This is a current list of resources related to the research and development of encrypted traffic analysis. We comb the field for relevant representative work and related resources, and pay more attention to typical studies and research teams.
2024-03-20 23:19:49 23
原创 Cuckoo沙箱环境使用介绍
监控系统调用,网络流量,文件操作并结合反调试和反虚拟化技术,以防止恶意软件逃逸(例如,恶意软件可能会尝试检测是否在虚拟机环境中运行,以避免被分析)。收集样本在运行过程中创建或者下载的文件,可能包含恶意代码、配置文件、日志文件等,可以分为写入磁盘和存储在内存中的缓冲区中的两者。自动下载相关的恶意文件或链接,然后在虚拟环境中运行并收集有关其行为的信息,最终生成有关该恶意文件的报告。注册表键值:恶意软件可能会修改或创建注册表键值,因此从提取的工件中可以获取到关于该恶意软件的更多信息。
2024-03-19 16:44:42 43
原创 在Arm 虚拟硬件(AVH)部署深度学习OCR算法
做AI的ARM硬件上部署对环境还是有很大的依赖的,特别对linux的基础命令有深入的了解以及对python 和c语言要熟悉,起码能很好的编译和调试代码.关于环境我要说一点,百度的AVH虚拟Arm硬件还是不错的环境,可以远程实现开发调试.其次对ARM的编译器的使用要有一定的经验,这个读一下官方文档.
2024-03-19 16:41:39 263
原创 [渗透教程]-025-Suricata多线程入侵检测系统
Suricata 是由 OISF(开发信息安全基金会)开发,它也是基于签名,但是集成了创新的技术。该引擎嵌入了一个 HTTP 规范化器和分析器(HTP 库),可提供非常先进的 HTTP 流处理,从而能够在 OSI 模型的第七层(应用层)上解析流量。Suircata 是一款支持 IDS 和 IPS 的多线程入侵检测系统,与传统 Snort 相比,Suircata 的多线程和模块化设计上使其在效率和性能上超过了原有 Snort,它将 CPU 密集型的深度包检测工作并行地分配给多个并发任务来完成。
2024-03-06 22:30:20 208
原创 [渗透教程]-024-Hashcat密码破解
Hashcat 自称是世界上最快的密码恢复工具。它在2015年之前拥有专有代码库,但现在作为免费软件发布。适用于 Linux,OS X 和 Windows 的版本可以使用基于 CPU 或基于 GPU 的变体。支持 hashcat 的散列算法有 Microsoft LM hash,MD4,MD5,SHA 系列,Unix 加密格式,MySQL 和 Cisco PIX 等。
2024-03-06 22:28:34 68
原创 [工具教程]-27- macbook的基本操作以及常见问题处理
这里我安装 php7.3,参考 stackoverflow 的回答 https://stackoverflow.com/questions/70417377/error-php7-3-has-been-disabled-because-it-is-a-versioned-formula。来自文章: https://sixcolors.com/post/2020/11/quick-tip-enable-touch-id-for-sudo/先查询有哪些 php 的版本,M1 目前只支持部分版本。
2024-03-06 16:33:43 256
原创 [渗透教程]-022-内网穿透的高性能的反向代理应用
frp 是一个专注于内网穿透的高性能的反向代理应用,支持 TCP、UDP、HTTP、HTTPS 等多种协议。可以将内网服务以安全、便捷的方式通过具有公网 IP 节点的中转暴露到公网。
2024-03-06 15:44:16 181
原创 [渗透教程]-200-网络安全基本概念
建立 CNVD 的主要目标即与国家政府部门、重要信息系统用户、运营商、主要安全厂商、软件厂商、科研机构、公共互联网用户等共同建立软件安全漏洞统一收集验证、预警发布及应急处置体系,切实提升我国在安全漏洞方面的整体研究水平和及时预防能力,进而提高我国信息系统及国产软件的安全性,带动国内相关安全产品的发展。安全策略(Security Policy):安全策略是指在某个安全区域内,所有与安全活动相关的一套规则,它声明哪些行为是能做的、被允许的,哪些行为是不能做的、被禁止的。
2024-03-01 18:05:01 468
原创 [渗透教程]-006-渗透测试-Metasploit
Metasploit是一个渗透测试平台,使您能够查找,利用和验证漏洞.是一个免费的可下载的,通过它可以很容易对计算机软件漏洞实施攻击.它本身附带数百个已知软件漏洞的专业级漏洞攻击工具.每个人都可以使用攻击工具来攻击那些未打过补丁的漏洞官方安装教程AUX:辅助模块Exploits:渗透攻击模块Post:后渗透攻击模块payloads:攻击载荷模块Encoders:编码器模块Nops:空指令模块。
2024-03-01 16:56:23 34
原创 [渗透教程]-005-信息收集-主动信息收集
直接与目标主机进行交互通信;无法避免留下访问痕迹采用低三方的电脑探测七层模型五层模型对应的网络设备对应的协议。
2024-03-01 16:55:18 22
原创 深度学习算法识别文件类型准确率98%支持市面上所有的文件
精确的文件类型检测是一个众所周知的难题,因为每种文件格式都有不同的结构,或者根本没有结构。这对于文本格式和编程语言来说尤其具有挑战性,因为它们的结构非常相似。迄今为止,libmagic 和其他大多数文件类型识别软件都依赖于手工制作的启发式方法和自定义规则来检测每种文件格式。算法使用一个定制的、高度优化的深度学习模型,该模型使用 Keras 设计和训练,仅重 1MB。在推理时,Magika 使用 Onnx 作为推理引擎,确保在几毫秒。
2024-02-27 11:12:09 111
原创 大语言模型微调经验
前言由于 ChatGPT 和 GPT4 兴起,如何让人人都用上这种大模型,是目前 AI 领域最活跃的事情。当下开源的 LLM(Large language model)非常多,可谓是百模大战。面对诸多开源本地模型,根据自己的需求,选择适合自己的基座模型和参数量很重要。选择完后需要对训练数据进行预处理,往往这一步就难住很多同学,无从下手,更别说 training。然后再对模型进行 finetuning 来更好满足自己的下游任务。那么对于如果要训练一个专家模型。预训练也是必不可缺的工作。
2024-02-22 13:36:57 44
原创 [精通linux]-302- linux 高级命令
学会基本的文件管理工具:ls 和 ls -l (了解 ls -l 中每一列代表的意义),less,head,tail 和 tail -f (甚至 less +F),ln 和 ln -s (了解硬链接与软链接的区别),chown,chmod,du (硬盘使用情况概述:du -hs *)。关于文件系统的管理,学习 df,mount,fdisk,mkfs,lsblk。$, 它用于指代上次键入的参数,而!熟悉 Bash 中的任务管理工具:&,ctrl-z,ctrl-c,jobs,fg,bg,kill 等。
2024-02-21 14:10:42 104
原创 [网络安全]-109 理解EDR、NDR、 TDR、 XDR和MDR之间的区别
单仪表盘方法提供了更快的实现价值的时间、更低的学习曲线和更快的响应时间,因为分析师不再需要在窗口之间切换。网络检测和响应 (NDR) 解决方案调查您的网络中已知和未知的威胁和可疑活动,持续分析来自网络的流量,创建正常行为模式。为了检测网络中的异常流量,NDR 解决方案主要使用非基于签名的工具 (机器学习或其他分析技术),不像传统软件依赖于被归类为恶意或非恶意的签名。典型的物理网络设备、虚拟设备或两者的组合。现代技术使用简单的签名匹配之外的方法检测广泛的威胁,以及一旦发现威胁就能够快速有效地做出响应的能力。
2024-02-20 15:00:00 442
原创 [算法前沿]--058- LangChain 构建 LLM 应用详细教程
LLM,即大型语言模型,是指经过大量文本数据训练的最先进的语言模型。它利用深度学习技术来理解和生成类似人类的文本,使其成为各种应用程序的强大工具,例如文本完成、语言翻译、情感分析等。LLMs最著名的例子之一是 OpenAI 的 GPT-3,它因其语言生成能力而受到广泛关注和赞誉。欢迎来到 LangChain,这是一个开拓性的平台,打开了通往语言模型 (LLM) 迷人领域的大门。通过 LangChain,你可以将LLMs无缝集成到你的项目中,利用其非凡的能力。
2024-02-08 17:00:00 113
原创 [算法前沿]--059-大语言模型Fine-tuning踩坑经验之谈
但这里 Lora 的配置其实是要注意一下,如果你是用 Lora 做预训练,lora 训练模块可以配上 q_proj,v_proj,k_proj,o_proj 如果是微调则只需要训练 q_proj,v_proj lora_rank 的设置也有讲究,初始设 lora_ran 为 8,训练存在遗忘时,可以将 lora_rank 改为 64(原因是与原模型数据领域相差较大的话,需要更大的秩,原论文有说明)。对于推理,在 GPU 资源不富裕的情况,如何最小化的利用内存,提升推理效率,也是可以讨论的内容。
2024-02-08 11:36:23 787
原创 [算法前沿]--061-生成式 AI 的发展方向,是 Chat 还是 Agent?
AI Agent是一种超越简单文本生成的人工智能系统。它使用大型语言模型(LLM)作为其核心计算引擎,使其能够进行对话、执行任务、推理并展现一定程度的自主性。简而言之,Agent是一个具有复杂推理能力、记忆和执行任务手段的系统。
2024-02-08 11:33:23 1142
原创 大语言模型微调数据集(2)
CCF-BDCI2021-面向黑灰产治理的恶意短信变体字还原--------------- https://share.weiyun.com/xHr6OkQw。SMP2020微博情绪分类技术评测--------------- https://share.weiyun.com/uFGEhrWp。SMP2019中文隐式情感分析评测--------------- https://share.weiyun.com/MgHL8QSI。ERNIE1.0提供了5个中文数据集,并在这些数据集上测试ERNIE的效果。
2024-02-06 17:48:53 784
原创 大语言模型训练数据集(1)
CLUECorpusSmall (BERT格式)---- https://share.weiyun.com/9SPPGUOK。CIFAR100_nolabel 包括50000张没有标注的图片,可以用作无监督的预训练。CLUECorpusSmall包含新闻、社区互动、维基百科、评论语料。原始数据和细节描述在这里。News Commentary v13包括平行语料。原始数据和细节描述在这里。
2024-02-06 17:45:49 853
原创 【程序人生】从一个程序员的视角对2024年的一些预测和分析
2023年已经过去,2024年已经到来,我们应该如何应对接下来的一年,有哪些技术将爆发,有哪些技术方向将得到广泛应用?哪些国际大事要发生?
2024-01-30 16:51:39 192
原创 大语言模型的技术-算法原理
带宽beta即模型的计算性能,单位为FLOP/s。令I_max=计算平台算力/计算平台带宽,当模型的计算强度I小于平台的理论计算强度I_max,模型的计算能力P即I。
2024-01-26 10:48:18 390
原创 大语言模型推理优化策略
带宽beta即模型的计算性能,单位为FLOP/s。令I_max=计算平台算力/计算平台带宽,当模型的计算强度I小于平台的理论计算强度I_max,模型的计算能力P即I。
2024-01-26 10:32:03 692
原创 大语言应用技术原理
大模型应用技术原理RAG向量数据库 对比选型标准开源vs.闭源vs. 源码可见客户端/SDK语言托管方式self-hosted/on-premiseredis,pgvector,milvusmanaged/cloud-nativezilliz,pineconeembeded+cloud-nativechroma,lanceDBself-hosted+cloud-nativevald,drant,weaviate,vspa,elasticsearch
2024-01-26 10:29:17 121
原创 什么是DNS隐蔽信道?如何防御?
DNS隐蔽信道是一种利用域名系统(Domain Name System,DNS)进行数据传输的技术,它可以在不引起用户和网络安全系统注意的情况下,通过DNS查询和响应传输信息。由于DNS协议的设计初衷是为了解析域名到IP地址的映射,它通常不被视为用于传输大量数据的协议。然而,攻击者可以滥用DNS协议的某些特性,创建隐蔽的信道,用于传输数据,从而绕过传统的网络监控和检测机制。
2024-01-21 23:30:04 125
Javaweb期末大作业_CPS校园门户网站 Resources .zip
2024-04-17
HIT校园卡消费信息查询系统.zip
2024-04-17
Java Servlet校园点评网站.zip
2024-04-17
EmpireCMS开发的适合校园局域网使用的资源资讯分享网站.zip
2024-04-17
Django二手校园交易信息网站.zip
2024-04-17
校园BBS论坛网站.zip
2024-04-17
校园招聘网站课程设计.zip
2024-04-17
郑州大学新闻通,获取各大校园网站新闻并展示.zip
2024-04-17
校园闲置物品交易网站管理系统.zip
2024-04-17
校园网站的主页内含效果.zip
2024-04-17
校园问答网站.zip
2024-04-17
校园网钓鱼网站.zip
2024-04-17
校园外卖的后台管理网站,前端使用了bootstrap框架.zip
2024-04-17
校园二手书籍交易网站.zip
2024-04-17
校园二手物品交易网站.zip
2024-04-17
校园二手商品交易网站.zip
2024-04-17
校园二手交易网站_SpringBoot+Maven.zip
2024-04-17
校园等局域网内视频分享、请愿、交流网站.zip
2024-04-17
校园二手交易网站,主要为在校大学生提供一个要交易二手物品的展示平台.zip
2024-04-17
基于vue-element-admin实现的校园失物招领网站.zip
2024-04-17
校园线上教学网站.zip
2024-04-17
校园二手交易网站.zip
2024-04-17
校园闲置租赁网站.zip
2024-04-17
spring,springmvc,hibernate,校园二手交易网站.zip
2024-04-17
vue+nodejs 自习帮-校园约自习网站.zip
2024-04-17
flex响应式布局的校园二手书交易静态网站.zip
2024-04-17
校园在线打印网站.zip
2024-04-17
校园新闻发布网站使用Springboot.zip
2024-04-17
校园社团招聘网站.zip
2024-04-17
校园快递互帮互取网站.zip
2024-04-17
校园互助网站.zip
2024-04-17
校园二手交易网站.zip
2024-04-17
校园二手交易网站微服务+negix网关.zip
2024-04-17
基于vue开发的校园失物招领网站.zip
2024-04-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人