自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(13)
  • 资源 (4)
  • 问答 (1)
  • 收藏
  • 关注

原创 [论文分享]LLM推理加速——FLASHDECODING++

当计算新的部分softmax结果时,采用同步softmax操作更新先前的部分softmax结果。为解决这些问题,研究团队提出了一种名为FlashDecoding++的更快的GPU实现方法,通过解决不同输入的最大值问题、优化flat GEMM操作和根据输入动态性和硬件配置进行启发式数据流优化,实现了对主流LMs的加速。未充分利用flat GEMM计算:在LLM推理中,矩阵执行GEMM操作的形状是扁平的,这导致未充分利用计算和超过50%的性能损失(在之前的设计中,如cuBLAS、CUTLASS等)。

2023-11-24 15:32:35 246 1

原创 基于昇腾平台的llm+pytorch推理环境搭建

当前用户下执行npu-smi info是否可以查看到gpu信息,如果不能,则表示驱动安装错误,需要在安装命令加上 --install-for-all。检查NPU是否正常在位可执行lspci | grep d802命令,如果服务器上有 N路NPU,回显N行含“d802”字段,则表示NPU正常在位。资源下载地址:https://www.hiascend.com/developer/download。通过执行npu-smi info命令查看。支持的PyTorch版本。支持的Adapter版本。

2023-11-23 18:06:01 1261 3

原创 成功编译TensorRT-LLM

运行步骤参考/root/autodl-tmp/files/TensorRT-LLM/examples/gpt目录下的readme文档。由于系统中的cudnn是deb安装的,所以去Nvidia下载deb安装,可以直接对旧版本进行覆盖。于是决定通过在公有云申请资源,通过配置TRT-LLM编译依赖环境的方式进行编译。启动已下载的docker镜像,查看编译TRT-LLM的主要依赖项版本。模型保存在/root/autodl-tmp/models/gpt/公有云选择AudoDL,理由简单易用,价格便宜。

2023-11-09 17:01:03 646 1

原创 大模型推理优化--TensorRT-LLM初体验

TensorRT-LLM可以视为TensorRT和FastTransformer的结合体,旨为大模型推理加速而生。

2023-10-20 15:16:27 2090 2

原创 Flash-Attention代码调用尝试

快速实现flash-attention调用

2023-10-10 16:48:36 2345 1

原创 vscode_cuda调试环境搭建

vscode搭建cuda调试环境

2023-06-29 17:20:26 1341 9

原创 ChatGLM-6B微调实践与问题汇总(fine-tune+p-tuning+知识遗忘解决尝试)

chatglm-6b,全量fine-tune和p-tuning复现。对于训练后丧失了原有的对话功能的现象进行初步尝试,并收获效果。

2023-06-06 11:51:45 6620 6

原创 trition模型注册和访问验证(易错点加粗)

trition服务启动后,关于模型注册和推理请求易错汇总

2023-03-15 12:00:30 576

原创 Unity 打包webGL与前端交互[]

unity程序发布为webgl包后,嵌入前端界面,实现和前端程序的交互

2023-02-23 11:57:02 1269

原创 pytorch转onnx报错: Failed to export an ONNX attribute ‘onnx::Gather’, since it’s not constant

python转onnx报错 Failed to export an ONNX attribute ‘onnx::Gather’, since it’s not constant, please try to make things (e.g., kernel size) static if possible

2023-02-10 15:07:49 695

原创 linux当我们copy软链接时,复制了什么?

copy软链接时,到底拷贝了什么

2022-12-02 15:59:03 1800

原创 TorchServe环境构建+模型更新+新模型注册

torchserve环境搭建和模型在线注册方式

2022-10-27 16:07:47 2172 4

原创 pytorch模型转tensorrt,pad报错,opset11

tensorrt unsupport opset11 padding

2022-10-11 14:30:43 1912 4

bert测试数据集GLUE("CoLA", "SST", "MRPC"等)

"CoLA", "SST", "MRPC", "QQP", "STS", "MNLI", "SNLI", "QNLI", "RTE", "WNLI", "diagnostic"

2021-06-30

kinect同时获取深度和彩色图片 并可以获取像素点

该程序完成了 显示并存储kinect 深度图和彩色图的功能,并且可以通过鼠标获取两图中像素点的位置。

2012-11-02

无线通信系统仿真——C 实用模型

无线通信系统仿真——C 实用模型 无线 通信 c语言 模型

2011-10-18

国外经典教材《无线通信原理与应用》

国外经典教材是无线通信课程的权威教材,面向那些已经熟悉诸如概率论、通信原理和基本电磁学等技术概念的学生和工程师。全书深入浅出地讨论了无线通信技术与系统设计方面的内容,包括无线网络涉及的所有基本问题,特别是3G系统和无线局域网的问题,并对无线网络技术新进展和全球主要的无线通信标准给出了论述。全书共分11章,集中讲述了蜂窝的概念、移动无线电传播、调制技术、多址技术以及无线系统与标准,结合理论对无线通信系统的各个方面做了精辟论述和统计分析。

2011-08-12

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除