自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小白菜的博客

一颗正在学习大数据挖掘的小白菜~~~~~

  • 博客(168)
  • 资源 (1)
  • 收藏
  • 关注

原创 linux新M2固态挂载

深度学习一些huggingface的权重和数据集

2024-01-03 09:40:38 529

原创 无人旅行概念——改变人类未来旅行方式

基于5G、VR技术以及未来的智能硬件发展,我提出足不出户便可游玩全球的的无人旅行概念,解决旅行长途奔波痛点,改变人们旅行方式。在河北武安开发无人旅行试点,于京娘湖、七步沟等景区设置观景机器人,机器人由仿人形五球轮滑动机器人以及无人机(非平地观景)两部分构成,硬件设施搭建完成后,由用户购买旅行装,主要是沉浸式头盔(后续可以加入新技术,同步真人与观景机器人动作),通过观景机器人实现千里之外就可以和景区游玩的人互动。无人旅行概念成熟之后,将中国景区概念带向全世界,颠覆外国人对中国认知,观景机器人内置翻译芯片,

2020-08-03 03:46:30 744

原创 Python实现淘宝直播自动点赞与抽奖

最近入了直播抽奖的坑,而且中了不少奖,薅羊毛事后一时爽,天天刷火葬场。于是想到用Python自动监控,直播福利是以抽奖为形式的,粉丝们在互动区疯狂发送关键字,主播随机截图,并给在截图中的粉丝送出福利。这个过程需要粉丝疯狂的点赞,以及实时盯着屏幕以防什么时候开始刷屏抽奖。如果全程亲自操作,依靠自己手动点击的话,不能解放双手,是非常拉底做事效率的。如果依靠自己盯着屏幕看,也是非常原始的做法。所以,如果能有一个自动点赞+自动窥屏的外挂将会让我们在薅羊毛的路上满载而归。鉴于之前已经有同学实现了自动挖掘抖音美女

2020-07-06 16:04:00 5723 6

原创 编译器的前端技术

编译器的“前端”技术分为词法分析、语法分析和语义分析三个部分。而它主要涉及自动机和形式语言方面的基础的计算理论。词法分析是把程序分割成一个个 Token 的过程,可以通过构造有限自动机来实现。语法分析是把程序的结构识别出来,并形成一棵便于由计算机处理的抽象语法树。可以用递归下降的算法来实现。语义分析是消除语义模糊,生成一些属性信息,让计算机能够依据这些信息生成目标代码。附:网盘里10280G的资源拿出来晒晒太阳,涉及计算机前端、后端、算法、AI、平面设计、雅思、数据分析、挖掘、考研等等之前和

2020-05-19 23:46:46 999 2

原创 心即理、知行合一、致良知 with python

无善无恶是心之体,有善有恶是意之动,知善知恶是良知,为善去恶是格物。

2024-03-20 14:59:31 225

原创 昇腾千卡算力集群交付痛点及工具链思路

且算力场景因设备多,HW及客户的维护操作人员多,不同人员配置部署和变更调整后,其他人很难获知情况,经常需要人工校验所有设备的设备状态,软硬件版本一致性,性能,配置参数等,这些需要极大的工作量,如果只依赖于人工的命令执行和观测,是非常低效和无法保证一致性的。X1项目中现场开发了校验脚本,可以快速校验出线缆连接、信号质量、配置部署、产品状态等各方面的问题,才能快速完成线缆连接准确性和质量的整改,随时发现和纠正集群里的设备异常和配置错误,让大型集群长期处于最佳状态,保障后续模型训练能够长稳运行。

2024-03-20 09:41:16 674

原创 蓉转京阶段小感

下午从京东方参观回来,想起许久未见的昊兄,想着给他发个消息。刚走进办公室,就看着微信一个黑的头像框,点开仔细一看,竟是昊兄,说下周来北京工作,这种鬼使神差的感觉仿佛把我带回初中时,那时所做所想真确如有神助。我本身并不主动,但总有一些奇妙的外界力量助推我心之所想。如与帅去北大,想昊时下七楼。世界真的很奇妙,很多冥冥之中的安排,犹如阳明心学中的心之感、神为发。古哲依旧是治愈我心的良药,无我、无他、无花无叶无世界。心态有起有落,趋于平和(阳明心学)阳明融入python更是一种大成。心实则万物可成,无悲欢之苦乐。

2024-03-18 14:53:41 172

原创 基于昇腾910B搭建多节点K8s集群

自从 2013 年 Docker 诞生以来,容器一跃成为 IT 界最热门的话题。而 Kubernetes 趁着容器的东风,击败众多竞争对手,成为了“容器编排”领域的King。可以说,现在 Kubernetes 已经没有了实际意义上的竞争对手,它的地位就如同 Linux 一样,成为了事实上的云原生操作系统,是构建现代应用的基石。

2024-01-11 20:52:22 1563 1

原创 MindSpore Serving基于昇腾910B实现大模型部署

大模型时代,作为一个开发人员更多的是关注一个大模型如何训练好、如何调整模型参数、如何才能得到一个更高的模型精度。而作为一个整体项目,只有项目落地才能有其真正的价值。那么如何才能够使得大模型实现落地?如何才能使大模型项目中的文件以app的形式呈现给用户?MindSpore Serving就是为了实现将大模型部署到生产环境而产生的。MindSpore Serving是一个轻量级、高性能的服务模块,旨在帮助MindSpore开发者在生产环境中高效部署在线推理服务。

2024-01-10 01:38:37 1242

原创 MindSpore Serving与TGI框架 の 对比

MindSpore Serving是一款轻量级、高性能的服务工具,帮助用户在生产环境中高效部署在线推理服务。使用MindSpore完成模型训练>导出MindSpore模型,即可使用MindSpore Serving创建该模型的推理服务。MindSpore Serving包含以下功能:支持自定义关于模型的预处理和后处理,简化模型的发布和部署。支持batch功能,包含多个实例的请求会被拆分组合以满足模型batch size的需要。支持分布式模型推理功能。

2024-01-04 21:46:11 1054

原创 基于TGI的大模型推理框架适配之昇腾部署

优势支持 continuous batching支持flash-attention 和 Paged Attention支持Safetensors 权重加载支持部署 GPTQ 模型服务(量化)Router和Server是最重要的组件若干个客户端同时请求Web Server的“/generate”服务后,服务端会将这些请求在“Buffer”组件处整合为Batch,并通过gRPC协议转发请求给GPU推理引擎进行计算生成。

2024-01-03 19:43:31 1230

原创 LangChain与昇腾

正是因为LangChain连接了开发者和复杂的LLM应用,因此,开发变得更为简单、高效。越来越多的开发者,不论是LLM领域的还是非LLM领域的,都选择使用LangChain。现代软件工程宗旨:将庞大复杂的系统划分为更小、更易于管理和使用的部分LangChain以**“组件”** 和 **“链”**作为2个关键概念,为LLM应用开发者提供了便利。

2024-01-03 19:16:00 1074

原创 国产Euler(欧拉)系统安装docker

按“Esc”键,输入:wq!,按“Enter”保存并退出编辑。将解压后目录中的文件移动到“/usr/bin”下。配置docker.service文件。编辑docker.service文件。启动Docker服务进程。解压Docker安装包。

2023-12-04 16:51:27 265

原创 深度学习名词总结

SPMD(Single Program, Multiple Data)是一种并行程序设计的模型,主要思想是使用同一个程序在多个处理器上并行执行,但每个处理器执行程序时处理不同的数据。SPMD模式下,同一个程序复制到不同处理器,通过进程/线程ID区分各自的数据。程序员主要编写串行代码,编译器和运行时系统负责生成并行执行代码。SPMD更适合于数据并行的应用,例如处理大规模矩阵、物理模拟等科学计算。MPI就是一种典型的SPMD模式的并行编程框架。

2023-11-14 08:22:43 368

原创 GPU编程

GPU编程既要考虑CPU硬件也要考虑GPU硬件。这种编程称为代码从CPU上开始执行,遇到需要大量并行化的部分,再到GPU上并行,然后将结果返还给CPU再进行其他可能的计算。

2023-11-14 01:27:14 296

原创 昇腾搭建PyTorch环境(训练)

如果服务器上有 N路NPU,回显N行含“d801”字段,表示NPU正常在位。

2023-11-11 21:54:53 680

原创 深度学习准召

准确率(Precision)和召回率(Recall)是两个用来评价一个模型的好坏的指标,它们有不同的意义:准确率(Precision):准确率是在所有被模型判断为正例的样本中,有多少是真正的正例。换句话说,它测量了模型的精度,即模型做出的正的。大白话:准确率告诉我们,当模型说某个样本是正例时,有多大概率它真的是正例。高准确率表示模型很少会错误地把负例错分成正例,但它可能。召回率(Recall):召回率是在所有真正的正例中,有多少被模型成功地找出来。它衡量了模型的查全率,即模型有多大概率。

2023-11-10 11:09:03 511

原创 Ubuntu部署docker及docker常用操作

然后注销并重新登录以应用更改。这将允许您以当前用户的身份运行docker命令,而不需要sudo权限。

2023-10-25 21:16:58 498

原创 基于Ascend910+PyTorch1.11.0+CANN6.3.RC2的YoloV5训练推理一体化解决方案

coco训练集(放images下):wget https://bj-aicc.obs.cn-north-309.mtgascendic.cn/dataset/coco2017/train2017.zip。coco测试验证集:wget https://bj-aicc.obs.cn-north-309.mtgascendic.cn/dataset/coco2017/coco.zip。本来想一次性写完的,奈何装CANN的驱动装了一个礼拜,各种内核版本不匹配,国产AI硬件任重道远…

2023-10-19 22:03:43 911

原创 Tensorflow TO NPU

【代码】Tensorflow TO NPU。

2023-09-27 21:37:29 195

原创 算子开发入门系列(一)

1、确定输入输出(数据类型和维度):明确算子功能,即要执行的操作2、创建算子的头文件和源文件:使用C的语法,头文件和源文件分别用于声明和定义算子函数3、在头文件中声明算子函数:头文件中使用extern关键字声明算子函数的原型,包括函数名、参数列表、返回值类型等4、在源文件中定义算子函数:源文件中实现算子函数的具体逻辑。根据算子的功能和输入输出要求,编写相应的代码完成算子计算过程5、编译和构建算子:使用Ascend C编译器将算子的源文件编译成可执行文件(可以根据需要把算子打包成库文件)

2023-09-25 11:36:38 313

原创 FastAPI部署中国最强通用语言大模型Baichuan2

【代码】FastAPI部署中国最强通用语言大模型Baichuan2。

2023-09-14 15:45:57 599 1

原创 Flask在线部署ChatGLM2大模型

大模型算法

2023-09-14 15:31:36 551 1

原创 Hadoop小结(下)

HDFS 集群是建立在 Hadoop 集群之上的,由于 HDFS 是 Hadoop 最主要的,所以 HDFS 集群的配置过程是 Hadoop 集群配置过程的代表。使用 Docker 可以更加方便地、高效地构建出一个集群环境。

2023-08-20 19:09:25 463

原创 Hadoop小结(上)

如果使用传统数据库来处理这些信息的话,那将会花费很长的时间和很大的处理空间来处理数据,这个量级对于任何单计算机来说都变得难以实现,主要难度在于组织大量的硬件并高速地集成为一个计算机,即使成功实现也会产生昂贵的维护成本。在以上的案例中,第一阶段的整理工作就是"映射",把数据进行分类和整理,到这里为止,我们可以得到一个相比于源数据小很多的结果。第二阶段的工作往往由集群来完成,整理完数据之后,我们需要将这些数据进行总体的归纳,毕竟有可能多个节点的映射结果出现重叠分类。在首都,每个城市的统计结果将被。

2023-08-19 18:44:53 607

原创 华为AI战略的CANN

—异构计算架构(CANN)是对标英伟达的CUDA + CuDNN的核心软件层,向上支持多种AI框架,向下服务AI处理器,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台主要包括有各种等。之所以叫异构软件,是因为承载计算的底层硬件包括和,自然就需要有一层软件来负责,最后自动分配到对应的硬件上(CPU或NPU,注:昇腾处理器一般也叫NPU),因此叫异构。

2023-08-15 11:01:16 3842

原创 LLM的Tokenizer

分词的目的是将连续的文本流转化为离散的语义单位,以便模型可以处理和理解。分词可以采用不同的方法,如基于空格或标点符号的简单分词,或者更复杂的基于统计和机器学习的分词算法(如Byte Pair Encoding、WordPiece等)。学习编码器:使用分词和词表构建的编码器模型,如BERT、GPT等,对预处理的文本数据进行训练。重要的是要确保数据的多样性和代表性,以便模型可以学习到广泛的语言结构和用法。大型语言模型的tokenizer是通过在大规模文本数据上进行训练和学习得到的。

2023-08-14 23:44:51 519

原创 通用视觉大模型

预训练任务设计: 选择合适的预训练任务,让模型在大数据上进行自监督学习。Fine-tuning: 在下游任务数据集上,Freeze部分预训练参数,仅 Fine-tune 部分任务相关参数,从而快速让模型适应新任务。数据集准备: 首先需要收集大规模的文本图片数据作为预训练的训练集,数据量越大效果越好。选择合适的编码器,如BERT的Encoder。模型预训练: 在预训练数据上针对设定的预训练任务训练模型,取得最优的参数。模型部署: 选择合适的方式部署训练好的模型,进行文本生成、文本分类等生产应用。

2023-08-08 11:27:28 201

原创 分布式训练的配置问题

实际操作时用的国产框架MindSpore,华为的分布式通信工具hccl(见附1):首先,确保物理环境已配置device的网卡IP:其次,在裸机上下载下载hccl_tool脚本并解压用法:将生成的hccl_8p.json移动到执行脚本下(以ResNet为例)常见错误:进程rank_id和device_id配置错误不同进程配置了相同的rank_id和device_id,例如多个进程都配置了rank_id=2, device_id=6。分布式训练每个进程的rank_id和device_id必须唯一。重

2023-08-01 11:34:35 392

原创 于大模型迁移中学习 Docker

现在在modelarts上用八卡昇腾910跑llama,不同于之前自己配环境,昇腾生态创新中心都是用的镜像,虽说打包起来不用自己配的那么麻烦,但一键启动之后各种找不到包、调用函数出错的问题搞得我头大,真的每跑一次大模型都要找一个相匹配的镜像才可以吗?最近在做大模型的昇腾迁移,国产化框架踩坑不少,基本一天的工作量相当于之前做纯视觉算法时一周踩过的坑数了。

2023-07-26 09:42:54 459

原创 NLP杂记

此外,该类还支持将数据集划分为训练集、验证集和测试集,以便在训练过程中使用不同的数据子集进行评估和调整;是华为云推出的一个自然语言处理工具库,提供了丰富的预训练模型和下游任务应用,涵盖了大模型训练、微调、评估、推理、部署的全流程开发套件。在自然语言处理任务中,因果语言模型(Causal Language Model)是一种常见模型类型,主要学习文本序列中的因果关系,即一个单词或短语对后续单词或短语的影响(常用于生成、摘要和分类等任务)来京一周余,初病将愈,终跑通llama及ViT,记于此——

2023-07-25 17:48:31 634

原创 C++小结(6)

实例。

2023-07-06 19:28:06 183

原创 C++小结(5)

定义一个类需要使用关键字 class,然后指定类的名称,并类的主体是包含在一对花括号中,主体包含类的成员变量和成员函数。定义一个类,本质上是定义一个数据类型的蓝图,它定义了类的对象包括了什么,以及可以在这个对象上执行哪些操作。

2023-07-06 10:25:35 86

原创 C++小结(4)

指针是一个变量,其值为另一个变量的地址,即,内存位置的直接地址。就像其他变量或常量一样,您必须在使用指针存储其他变量地址之前,对其进行声明。

2023-07-03 17:10:08 226

原创 C++小结(3)

arraySize 必须是一个大于零的整数常量,type 可以是任意有效的 C++ 数据类型。数组的声明并不是声明一个个单独的变量,比如 number0、number1、…大括号 { } 之间的值的数目不能大于我们在数组声明时在方括号 [ ] 中指定的元素数目。balance 是一个可用的数组,可以容纳 10 个类型为 double 的数字。最低的地址对应第一个元素,最高的地址对应最后一个元素。将创建一个数组,与前一个实例中所创建的数组完全相同。数据结构,它可以存储一个固定大小的相同类型元素的。

2023-06-29 18:59:39 116

原创 C++小结(2)

是标准库函数使用的命名空间,是 standard(标准)的缩写。,它声明了命名空间,后续如果有未指定命名空间的符号,那么默认使用,这样就可以使用等。假设你不使用预处理 using namespace std;,就要加上 std::cin 或者 std::cout。cin 用于从控制台获取用户输入,cout 用于将数据输出到控制台。cin 是输入流对象,cout 是输出流对象,它们分别可以用 >> 和 <<,是因为分别在其类中对相应进行了。

2023-06-28 10:09:35 62

原创 C++小结(1)

使用 #define 预处理器:int area;return 0;10int area;return 0;5int area;return 0;使用 const 关键字:int area;return 0;

2023-06-27 09:54:06 121

原创 人脸识别项目答辩后的一些思考

最近天气愈发燥热,伴随着互联网整体大环境的下行,网络上的焦虑像病毒一样蔓延。沉下心,才能做好事————识别用了减小类内聚、增加类间距。

2023-06-26 20:20:17 89

原创 人脸识别流程

QGraphicsView: 用于显示2D图形项(如矩形、椭圆和文本)的控件。QTreeView: 用于显示层次结构数据(如文件系统)的树形视图控件。QRadioButton: 用于在多个选项之间进行单选的单选按钮控件。QWebEngineView: 用于显示Web内容(如网页)的控件。QCheckBox: 用于选择一个或多个选项的复选框控件。QSlider: 用于通过滑块来选择一个值的滑动条控件。QSpinBox: 用于在一定范围内选择数字的控件。QLabel: 用于在界面上显示静态文本或。

2023-06-20 18:40:35 342

原创 C# 小结

2、重写(override):子类中为满足自己的需要来重复定义某个方法的不同实现,需要用 override 关键字,被重写的方法必须是虚方法,用的是 virtual 关键字。

2023-06-14 14:12:58 30

System3.0.exe

全国计算机三级题库,包括SQL,SQL Server,MySQL,Oracle等数据库软件,帮助大学本科在校生轻松取得全国计算机三级考试认证,得到计算机三级全国认证证书,取得学位证。

2020-05-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除