Zain Lau-CSDN博客

原创 linux新M2固态挂载

深度学习一些huggingface的权重和数据集

2024-01-03 09:40:38 529

基于5G、VR技术以及未来的智能硬件发展，我提出足不出户便可游玩全球的的无人旅行概念，解决旅行长途奔波痛点，改变人们旅行方式。在河北武安开发无人旅行试点，于京娘湖、七步沟等景区设置观景机器人，机器人由仿人形五球轮滑动机器人以及无人机（非平地观景）两部分构成，硬件设施搭建完成后，由用户购买旅行装，主要是沉浸式头盔（后续可以加入新技术，同步真人与观景机器人动作），通过观景机器人实现千里之外就可以和景区游玩的人互动。无人旅行概念成熟之后，将中国景区概念带向全世界，颠覆外国人对中国认知，观景机器人内置翻译芯片，

2020-08-03 03:46:30 744

原创 Python实现淘宝直播自动点赞与抽奖

最近入了直播抽奖的坑，而且中了不少奖，薅羊毛事后一时爽，天天刷火葬场。于是想到用Python自动监控，直播福利是以抽奖为形式的，粉丝们在互动区疯狂发送关键字，主播随机截图，并给在截图中的粉丝送出福利。这个过程需要粉丝疯狂的点赞，以及实时盯着屏幕以防什么时候开始刷屏抽奖。如果全程亲自操作，依靠自己手动点击的话，不能解放双手，是非常拉底做事效率的。如果依靠自己盯着屏幕看，也是非常原始的做法。所以，如果能有一个自动点赞+自动窥屏的外挂将会让我们在薅羊毛的路上满载而归。鉴于之前已经有同学实现了自动挖掘抖音美女

2020-07-06 16:04:00 5723 6

原创编译器的前端技术

编译器的“前端”技术分为词法分析、语法分析和语义分析三个部分。而它主要涉及自动机和形式语言方面的基础的计算理论。词法分析是把程序分割成一个个 Token 的过程，可以通过构造有限自动机来实现。语法分析是把程序的结构识别出来，并形成一棵便于由计算机处理的抽象语法树。可以用递归下降的算法来实现。语义分析是消除语义模糊，生成一些属性信息，让计算机能够依据这些信息生成目标代码。附：网盘里10280G的资源拿出来晒晒太阳，涉及计算机前端、后端、算法、AI、平面设计、雅思、数据分析、挖掘、考研等等之前和

2020-05-19 23:46:46 999 2

原创心即理、知行合一、致良知 with python

无善无恶是心之体，有善有恶是意之动，知善知恶是良知，为善去恶是格物。

2024-03-20 14:59:31 225

原创昇腾千卡算力集群交付痛点及工具链思路

且算力场景因设备多，HW及客户的维护操作人员多，不同人员配置部署和变更调整后，其他人很难获知情况，经常需要人工校验所有设备的设备状态，软硬件版本一致性，性能，配置参数等，这些需要极大的工作量，如果只依赖于人工的命令执行和观测，是非常低效和无法保证一致性的。X1项目中现场开发了校验脚本，可以快速校验出线缆连接、信号质量、配置部署、产品状态等各方面的问题，才能快速完成线缆连接准确性和质量的整改，随时发现和纠正集群里的设备异常和配置错误，让大型集群长期处于最佳状态，保障后续模型训练能够长稳运行。

2024-03-20 09:41:16 674

原创蓉转京阶段小感

下午从京东方参观回来，想起许久未见的昊兄，想着给他发个消息。刚走进办公室，就看着微信一个黑的头像框，点开仔细一看，竟是昊兄，说下周来北京工作，这种鬼使神差的感觉仿佛把我带回初中时，那时所做所想真确如有神助。我本身并不主动，但总有一些奇妙的外界力量助推我心之所想。如与帅去北大，想昊时下七楼。世界真的很奇妙，很多冥冥之中的安排，犹如阳明心学中的心之感、神为发。古哲依旧是治愈我心的良药，无我、无他、无花无叶无世界。心态有起有落，趋于平和（阳明心学）阳明融入python更是一种大成。心实则万物可成，无悲欢之苦乐。

2024-03-18 14:53:41 172

原创基于昇腾910B搭建多节点K8s集群

自从 2013 年 Docker 诞生以来，容器一跃成为 IT 界最热门的话题。而 Kubernetes 趁着容器的东风，击败众多竞争对手，成为了“容器编排”领域的King。可以说，现在 Kubernetes 已经没有了实际意义上的竞争对手，它的地位就如同 Linux 一样，成为了事实上的云原生操作系统，是构建现代应用的基石。

2024-01-11 20:52:22 1563 1

原创 MindSpore Serving基于昇腾910B实现大模型部署

大模型时代，作为一个开发人员更多的是关注一个大模型如何训练好、如何调整模型参数、如何才能得到一个更高的模型精度。而作为一个整体项目，只有项目落地才能有其真正的价值。那么如何才能够使得大模型实现落地？如何才能使大模型项目中的文件以app的形式呈现给用户？MindSpore Serving就是为了实现将大模型部署到生产环境而产生的。MindSpore Serving是一个轻量级、高性能的服务模块，旨在帮助MindSpore开发者在生产环境中高效部署在线推理服务。

2024-01-10 01:38:37 1242

原创 MindSpore Serving与TGI框架の对比

MindSpore Serving是一款轻量级、高性能的服务工具，帮助用户在生产环境中高效部署在线推理服务。使用MindSpore完成模型训练>导出MindSpore模型，即可使用MindSpore Serving创建该模型的推理服务。MindSpore Serving包含以下功能：支持自定义关于模型的预处理和后处理，简化模型的发布和部署。支持batch功能，包含多个实例的请求会被拆分组合以满足模型batch size的需要。支持分布式模型推理功能。

2024-01-04 21:46:11 1054

原创基于TGI的大模型推理框架适配之昇腾部署

优势支持 continuous batching支持flash-attention 和 Paged Attention支持Safetensors 权重加载支持部署 GPTQ 模型服务（量化）Router和Server是最重要的组件若干个客户端同时请求Web Server的“/generate”服务后，服务端会将这些请求在“Buffer”组件处整合为Batch，并通过gRPC协议转发请求给GPU推理引擎进行计算生成。

2024-01-03 19:43:31 1230

原创 LangChain与昇腾

正是因为LangChain连接了开发者和复杂的LLM应用，因此，开发变得更为简单、高效。越来越多的开发者，不论是LLM领域的还是非LLM领域的，都选择使用LangChain。现代软件工程宗旨：将庞大复杂的系统划分为更小、更易于管理和使用的部分LangChain以**“组件”** 和 **“链”**作为2个关键概念，为LLM应用开发者提供了便利。

2024-01-03 19:16:00 1074

原创国产Euler（欧拉）系统安装docker

按“Esc”键，输入:wq!，按“Enter”保存并退出编辑。将解压后目录中的文件移动到“/usr/bin”下。配置docker.service文件。编辑docker.service文件。启动Docker服务进程。解压Docker安装包。

2023-12-04 16:51:27 265

原创深度学习名词总结

SPMD(Single Program, Multiple Data)是一种并行程序设计的模型,主要思想是使用同一个程序在多个处理器上并行执行,但每个处理器执行程序时处理不同的数据。SPMD模式下,同一个程序复制到不同处理器,通过进程/线程ID区分各自的数据。程序员主要编写串行代码,编译器和运行时系统负责生成并行执行代码。SPMD更适合于数据并行的应用,例如处理大规模矩阵、物理模拟等科学计算。MPI就是一种典型的SPMD模式的并行编程框架。

2023-11-14 08:22:43 368

原创 GPU编程

GPU编程既要考虑CPU硬件也要考虑GPU硬件。这种编程称为代码从CPU上开始执行，遇到需要大量并行化的部分，再到GPU上并行，然后将结果返还给CPU再进行其他可能的计算。

2023-11-14 01:27:14 296

原创昇腾搭建PyTorch环境（训练）

如果服务器上有 N路NPU，回显N行含“d801”字段，表示NPU正常在位。

2023-11-11 21:54:53 680

原创深度学习准召

准确率（Precision）和召回率（Recall）是两个用来评价一个模型的好坏的指标，它们有不同的意义：准确率（Precision）：准确率是在所有被模型判断为正例的样本中，有多少是真正的正例。换句话说，它测量了模型的精度，即模型做出的正的。大白话：准确率告诉我们，当模型说某个样本是正例时，有多大概率它真的是正例。高准确率表示模型很少会错误地把负例错分成正例，但它可能。召回率（Recall）：召回率是在所有真正的正例中，有多少被模型成功地找出来。它衡量了模型的查全率，即模型有多大概率。

2023-11-10 11:09:03 511

原创 Ubuntu部署docker及docker常用操作

然后注销并重新登录以应用更改。这将允许您以当前用户的身份运行docker命令，而不需要sudo权限。

2023-10-25 21:16:58 498

原创基于Ascend910+PyTorch1.11.0+CANN6.3.RC2的YoloV5训练推理一体化解决方案

coco训练集(放images下）：wget https://bj-aicc.obs.cn-north-309.mtgascendic.cn/dataset/coco2017/train2017.zip。coco测试验证集：wget https://bj-aicc.obs.cn-north-309.mtgascendic.cn/dataset/coco2017/coco.zip。本来想一次性写完的，奈何装CANN的驱动装了一个礼拜，各种内核版本不匹配，国产AI硬件任重道远…

2023-10-19 22:03:43 911

原创 Tensorflow TO NPU

【代码】Tensorflow TO NPU。

2023-09-27 21:37:29 195

原创算子开发入门系列（一）

1、确定输入输出（数据类型和维度）：明确算子功能，即要执行的操作2、创建算子的头文件和源文件：使用C的语法，头文件和源文件分别用于声明和定义算子函数3、在头文件中声明算子函数：头文件中使用extern关键字声明算子函数的原型，包括函数名、参数列表、返回值类型等4、在源文件中定义算子函数：源文件中实现算子函数的具体逻辑。根据算子的功能和输入输出要求，编写相应的代码完成算子计算过程5、编译和构建算子：使用Ascend C编译器将算子的源文件编译成可执行文件（可以根据需要把算子打包成库文件）

2023-09-25 11:36:38 313

原创 FastAPI部署中国最强通用语言大模型Baichuan2

【代码】FastAPI部署中国最强通用语言大模型Baichuan2。

2023-09-14 15:45:57 599 1

原创 Flask在线部署ChatGLM2大模型

大模型算法

2023-09-14 15:31:36 551 1

原创 Hadoop小结（下）

HDFS 集群是建立在 Hadoop 集群之上的，由于 HDFS 是 Hadoop 最主要的，所以 HDFS 集群的配置过程是 Hadoop 集群配置过程的代表。使用 Docker 可以更加方便地、高效地构建出一个集群环境。

2023-08-20 19:09:25 463

原创 Hadoop小结（上）

如果使用传统数据库来处理这些信息的话，那将会花费很长的时间和很大的处理空间来处理数据，这个量级对于任何单计算机来说都变得难以实现，主要难度在于组织大量的硬件并高速地集成为一个计算机，即使成功实现也会产生昂贵的维护成本。在以上的案例中，第一阶段的整理工作就是"映射"，把数据进行分类和整理，到这里为止，我们可以得到一个相比于源数据小很多的结果。第二阶段的工作往往由集群来完成，整理完数据之后，我们需要将这些数据进行总体的归纳，毕竟有可能多个节点的映射结果出现重叠分类。在首都，每个城市的统计结果将被。

2023-08-19 18:44:53 607

原创华为AI战略的CANN

—异构计算架构（CANN）是对标英伟达的CUDA + CuDNN的核心软件层，向上支持多种AI框架，向下服务AI处理器，发挥承上启下的关键作用，是提升昇腾AI处理器计算效率的关键平台主要包括有各种等。之所以叫异构软件，是因为承载计算的底层硬件包括和，自然就需要有一层软件来负责，最后自动分配到对应的硬件上（CPU或NPU，注：昇腾处理器一般也叫NPU），因此叫异构。

2023-08-15 11:01:16 3842

原创 LLM的Tokenizer

分词的目的是将连续的文本流转化为离散的语义单位，以便模型可以处理和理解。分词可以采用不同的方法，如基于空格或标点符号的简单分词，或者更复杂的基于统计和机器学习的分词算法（如Byte Pair Encoding、WordPiece等）。学习编码器：使用分词和词表构建的编码器模型，如BERT、GPT等，对预处理的文本数据进行训练。重要的是要确保数据的多样性和代表性，以便模型可以学习到广泛的语言结构和用法。大型语言模型的tokenizer是通过在大规模文本数据上进行训练和学习得到的。

2023-08-14 23:44:51 519

原创通用视觉大模型

预训练任务设计: 选择合适的预训练任务,让模型在大数据上进行自监督学习。Fine-tuning: 在下游任务数据集上,Freeze部分预训练参数,仅 Fine-tune 部分任务相关参数,从而快速让模型适应新任务。数据集准备: 首先需要收集大规模的文本图片数据作为预训练的训练集,数据量越大效果越好。选择合适的编码器,如BERT的Encoder。模型预训练: 在预训练数据上针对设定的预训练任务训练模型,取得最优的参数。模型部署: 选择合适的方式部署训练好的模型,进行文本生成、文本分类等生产应用。

2023-08-08 11:27:28 201

原创分布式训练的配置问题

实际操作时用的国产框架MindSpore，华为的分布式通信工具hccl（见附1）：首先，确保物理环境已配置device的网卡IP：其次，在裸机上下载下载hccl_tool脚本并解压用法：将生成的hccl_8p.json移动到执行脚本下（以ResNet为例）常见错误：进程rank_id和device_id配置错误不同进程配置了相同的rank_id和device_id,例如多个进程都配置了rank_id=2, device_id=6。分布式训练每个进程的rank_id和device_id必须唯一。重

2023-08-01 11:34:35 392

原创于大模型迁移中学习 Docker

现在在modelarts上用八卡昇腾910跑llama，不同于之前自己配环境，昇腾生态创新中心都是用的镜像，虽说打包起来不用自己配的那么麻烦，但一键启动之后各种找不到包、调用函数出错的问题搞得我头大，真的每跑一次大模型都要找一个相匹配的镜像才可以吗？最近在做大模型的昇腾迁移，国产化框架踩坑不少，基本一天的工作量相当于之前做纯视觉算法时一周踩过的坑数了。

2023-07-26 09:42:54 459

原创 NLP杂记

此外，该类还支持将数据集划分为训练集、验证集和测试集，以便在训练过程中使用不同的数据子集进行评估和调整；是华为云推出的一个自然语言处理工具库，提供了丰富的预训练模型和下游任务应用，涵盖了大模型训练、微调、评估、推理、部署的全流程开发套件。在自然语言处理任务中，因果语言模型(Causal Language Model)是一种常见模型类型，主要学习文本序列中的因果关系，即一个单词或短语对后续单词或短语的影响（常用于生成、摘要和分类等任务）来京一周余，初病将愈，终跑通llama及ViT，记于此——

2023-07-25 17:48:31 634

原创 C++小结（6）

实例。

2023-07-06 19:28:06 183

原创 C++小结（5）

定义一个类需要使用关键字 class，然后指定类的名称，并类的主体是包含在一对花括号中，主体包含类的成员变量和成员函数。定义一个类，本质上是定义一个数据类型的蓝图，它定义了类的对象包括了什么，以及可以在这个对象上执行哪些操作。

2023-07-06 10:25:35 86

原创 C++小结（4）

指针是一个变量，其值为另一个变量的地址，即，内存位置的直接地址。就像其他变量或常量一样，您必须在使用指针存储其他变量地址之前，对其进行声明。

2023-07-03 17:10:08 226

原创 C++小结（3）

arraySize 必须是一个大于零的整数常量，type 可以是任意有效的 C++ 数据类型。数组的声明并不是声明一个个单独的变量，比如 number0、number1、…大括号 { } 之间的值的数目不能大于我们在数组声明时在方括号 [ ] 中指定的元素数目。balance 是一个可用的数组，可以容纳 10 个类型为 double 的数字。最低的地址对应第一个元素，最高的地址对应最后一个元素。将创建一个数组，与前一个实例中所创建的数组完全相同。数据结构，它可以存储一个固定大小的相同类型元素的。

2023-06-29 18:59:39 116

原创 C++小结（2）

是标准库函数使用的命名空间，是 standard（标准）的缩写。，它声明了命名空间，后续如果有未指定命名空间的符号，那么默认使用，这样就可以使用等。假设你不使用预处理 using namespace std;,就要加上 std::cin 或者 std::cout。cin 用于从控制台获取用户输入，cout 用于将数据输出到控制台。cin 是输入流对象，cout 是输出流对象，它们分别可以用 >> 和 <<，是因为分别在其类中对相应进行了。

2023-06-28 10:09:35 62

原创 C++小结(1)

使用 #define 预处理器:int area;return 0;10int area;return 0;5int area;return 0;使用 const 关键字:int area;return 0;

2023-06-27 09:54:06 121

原创人脸识别项目答辩后的一些思考

最近天气愈发燥热，伴随着互联网整体大环境的下行，网络上的焦虑像病毒一样蔓延。沉下心，才能做好事————识别用了减小类内聚、增加类间距。

2023-06-26 20:20:17 89

原创人脸识别流程

QGraphicsView: 用于显示2D图形项（如矩形、椭圆和文本）的控件。QTreeView: 用于显示层次结构数据（如文件系统）的树形视图控件。QRadioButton: 用于在多个选项之间进行单选的单选按钮控件。QWebEngineView: 用于显示Web内容（如网页）的控件。QCheckBox: 用于选择一个或多个选项的复选框控件。QSlider: 用于通过滑块来选择一个值的滑动条控件。QSpinBox: 用于在一定范围内选择数字的控件。QLabel: 用于在界面上显示静态文本或。

2023-06-20 18:40:35 342

原创 C# 小结

2、重写(override):子类中为满足自己的需要来重复定义某个方法的不同实现，需要用 override 关键字，被重写的方法必须是虚方法，用的是 virtual 关键字。

2023-06-14 14:12:58 30

System3.0.exe

空空如也