自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(104)
  • 资源 (6)
  • 收藏
  • 关注

原创 【大模型】一个基座模型部署多个lora

vllm推出了一个很棒的功能,可以分别加载base模型和lora层,并且可以加载多个lora层,通过指定lora层名字确定到底调用哪一个。这种特性是非常有价值的:同时加载N套微调参数,这样做不会影响大模型原有能力,通过选择微调层可以提供给用户不同的专项微调能力,而且可以实现权限管控,防止敏感信息泄露,此外更多新微调能力的接入也非常方便。这对GPU的消耗也太高了吧!一种很直接的思路是,将多个微调任务整合起来,一次性lora微调多个任务,这样就只需要部署一个微调模型了。

2024-04-16 11:31:33 151

原创 【大模型】部署lora微调后的LLM(以百川为例)

首先,大模型是补全模型,也就是说,我们输入一句话,模型接着这句话往下续写,补全后文。我们需要一个特殊的prompt,使得模型可以意识到,它续写的时候需要按照对话这种情境来续写。不同的模型有不同的prompt,真正的问题是需要包裹在prompt里面的。当我们需要使用其他加速框架部署大模型时,需要自己完成这一步:要么在传入问题时直接传prompt格式的问题,或者框架有模板接口可以按照自定义模板在后台自动化完成这种格式转化。如果想要多人同时使用大模型,那么需要使用专门的大模型推理加速框架,比如vllm,tgi。

2024-04-09 17:26:12 219

原创 【大模型】finetune 百川2

将基础模型的generation_config.json拷贝到checkpoint_path下,然后执行如下代码即可。格式如下,放在微调脚本data_path对应的路径下。单轮可自行修改conversations。模型为baichuan_chat_13B_v1。

2024-02-21 17:35:09 309

原创 AUC的理解

ROC反映了:判成正例的样本,是由Y轴比例的正例(分母为所有正例个数),和X轴比例的负例(分母为所有负例个数)混合而成的。如果点位于对角线上,说明判成正例的样本里头,是由真正例和真负例以同等比例凑成的,实际哪个多取决于类别内样本数。因为把所有都判成负例了,纵轴一定是0,横轴也是0。当阈值取0时,一定在(1,1)点上,因为把所有都判成正例了,纵轴一定是1,横轴也是1。在进行学习器的比较时,若一个学习器的ROC曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者;纵轴表示:把正例判成正例的比例。

2023-09-11 23:05:43 453

原创 【python】运行程序时传入参数

argv第一个值是python文件名本身,第二个参数开始才是在运行时指定的参数。在启动程序的时候,需要指定运行端口。

2023-05-29 10:27:54 214

原创 【python】@property, @xx.setter, __set__

后面不管是__init__还是其他方法,再对age进行赋值时,都会因为修改了age_filter而触发age_filter里的__set__。注意,这个类变量名age要和传入age_filter的key_name一致,否则__set__里的修改不生效。__set__里的逻辑是,如果value大于self.threshold,那么用value对adult类实例中的self.key_name赋值,否则,用self.default_value对adult类实例中的self.key_name赋值。

2023-04-10 21:16:55 205

原创 【python】把函数作为参数

如果A方法需要参数,那么,把参数和A一起传入B,调用的时候直接用A()来调用A方法内容。方法名A当做入参传递给方法B,

2023-04-09 23:08:47 189

原创 【python】鸭子类型与工厂模式

首先定义了一种类型duck,只要类中实现了无输入值无返回值的方法walk,quack的,就是类型duck。这种特质,是通过继承Protocol实现的。python中,除了继承,不同的类可以通过它们是否有相同的方法而判断是否属于一个大类。“如果这个动物走得像鸭子,叫得像鸭子,那么它就是鸭子。choose_duck方法中,对d字典进行了静态类型声明,声明key是str,value是duck类型。通过这个字典,实现了工厂。这要用到typing里的Protocal,用到静态类型声明(就是在每个变量后加“:类型”)

2023-04-09 22:16:50 95

原创 【python】实现单例

类变量是指所有类的实例化对象都会共享的变量(可以通过类名调用,也可以通过实例对象名调用), 实例变量指只作用于调用实例的变量(只能通过实例对象名调用)。比如下面的例子,age是类对象,所有的A类实例都共享这个age,name则是每个实例各自独有的。self.__dict__是一个字典,记录了这个类实例所有的变量:变量值,现在它被设置成共享的类变量,那么所有的A实例里,变量名,变量值,都一样,等价于只有一个实例。python 的类中有两种变量:类变量,实例变量。

2023-04-09 21:30:49 109

原创 【elasticsearch】以不同的分词器索引同一个标题

以不同的分词器索引同一个标题

2023-03-28 11:41:16 171 1

原创 【java】将LAC改造成Elasticsearch分词插件

将LAC改造成Elasticsearch分词插件

2023-03-03 20:42:20 619

原创 【ES】windows启动

es在windows启动时会遇到的一些坑

2023-02-06 10:58:45 2974

原创 【python】安装git下载下来的工程

python 安装github下载下来的工程

2023-01-30 21:24:35 783

原创 【python】头匹配,尾匹配

python 头尾匹配

2022-12-01 15:04:37 443

原创 【git】windows连github

windows连github

2022-11-21 20:12:53 193

原创 【python】defaultdict设置初始值

defaultdict自定义初始值

2022-11-17 15:56:11 560

原创 【python】超好用的路径读取库

python 路径处理库 pathlib的使用

2022-11-14 14:39:23 241

原创 【python】变量命名整理

python pep8命名规范

2022-10-22 12:34:03 649

原创 Axure入门

axure学习入门

2022-10-11 17:15:18 211

原创 【微服务】入门资源

微服务资料记录

2022-09-29 15:07:06 458

原创 【前端】HTML\CSS\JavaScript,python后台入门

HTML,hyper text markup language,功能是给网页划分结构。网页一共有几大块,这一块里面包着哪几小块,小块里又包着什么元素...并且为重点结构命名(class=xxx, id=xxx),方便调整重点结构的外观样式,增加重点结构的逻辑。CSS,casecade sheet style,功能是调整网页结构的外观,布局。通过标签名、class名、id名和HTML中的结构对应起来。JavaScript,功能是捕捉用户在网页上的行为,实现自定义的逻辑,最终在网页上产生变化。通过DOM中的ge

2022-07-11 21:33:13 438

原创 【c++ primer】day 4, 表达式, ~P133

1,*ptr++,后置递增运算符的优先级要高于解引用运算符。因此这条表达式的意思实际上是 *(ptr++)。2,if (val == true)。这条表达式实际的效果是,true的值自动转换成1(同理,false自动转换成0),只有当val等于1的时候,判断才为真。3,...

2022-05-09 15:04:16 255

原创 【c++ primer】day 3, string\vector\数组, ~P117

1,字符常量“X”被认为是一个string, 'X'被认为是一个char。string中的每一个对象都是char, 当需要修改其中的值时,注意赋值对象为‘x’,不能是“x”。2,string之间可以通过+连接,string也可以通过+把char追加到尾部。...

2022-05-07 11:14:54 851

原创 【中文乱码】vim编辑器打开文件发现中文是乱码

查看一下文件编码vim 在命令模式下 :set fileencoding如果当前vim文件不是utf8编码,把vim文件转码。如果显示是latin-1编码,有可能中文原始编码是gbk,使用以下命令将iconv -f gbk -t utf8 input_file -o output_file...

2022-03-24 17:41:46 950

原创 【python】向远方服务器请求结果

import jsonimport requestsdef call_botong_entity_small(query, k=5, url="http://gateway.botong.woa.com/ner"): query = str(query).replace(' ', '') json_data = { "text": query, "link_option": {"k": k}, } payload = json.dump.

2022-03-15 14:39:26 420

原创 工作中处理数据的一些小技巧

1,记录映射关系比如搜索query和docid最好不要用dict,因为可能存在多射的情况。用两个list,分别记录key值,value值。2,请求远方服务器结果,不要用bash连续curl,会导致请求失败(为啥?)用python的requests来搞。...

2022-03-15 11:04:13 996

原创 数据治理梳理

数据治理是为了提高运营效率,减少运营成本,属于运营模式的转变。借助IT技术,将封闭的各个系统贯通,改造公司流程和IT。IT系统和数据有历史包袱,需要构建新的数据平台对原有系统进行颠覆性改造:一方面实现业务数据的自动采集,另一方面把原有各个独立数据库中的数据按照一定的标准进行汇聚和连接,再进行业务价值驱动的数字化转型。数据实时可视,海量业务自动,算法支撑决策...

2022-02-27 14:37:26 237

原创 windows 10下高效工作

原则:放弃鼠标,用键盘完成所有操作场景一:从当前的窗口切换到浏览器,查询信息。操作:Alt +Tab 切换到特定窗口 / Ctrl+n 打开新窗口F6 定位到输入栏(Alt+空格+X 最大化当前窗口)Ctrl + w 关闭当前标签叶...

2022-02-22 10:47:46 818

原创 【pytorch】数据读取

构建batch的函数接口是torch.utils.data.DataLoader,通过这个接口,可以实现迭代式地给出一个一个batch数据,送入模型。DataLoader需要提供四个比较关键的参数:dataset,batch_size,drop_last,collate_fn。其中dataset可以是torch.utils.data.Dataset的子类,也可以是torch.utils.data.TensorDataset,等等。最常见的是torch.utils.data.Dataset的子类,可以自由

2022-02-10 23:38:37 891

原创 【python】读取大规模训练集

可以先遍历一遍训练集,记录下每行训练数据的开始位置;读取训练集时,临时打开文件,定位到开始位置,读一行。outList = ["早安", "希望世界和平", "快乐开心每一天"]with open("tmp.txt", "w", encoding="utf8") as fout: for line in outList: fout.write(line+"\n")with open("tmp.txt", "r", encoding="utf8") as fin:

2022-01-19 15:14:03 835

原创 【PYTHON】反射

反射:给定str,创造str为名的变量。python中可以通过类的self.__dict__.update({str:value})来实现,创建的变量为self.xxx(与str对应)class A(object): def __init__(self, d): self.__dict__.update(d) d = {"a":10, "b":20}a = A(d)print(a.a)print(a.b)运行结果:1020...

2022-01-17 17:35:49 448

原创 【python】zip与*

zip的作用是接受多个输入,将多个输入的内部元素按顺序对应组合起来。a = [i for i in range(5)] # [0, 1, 2, 3, 4]b = [i for i in range(5, 10)] # [5, 6, 7, 8, 9]c = [i for i in range(10, 15)] # [10, 11, 12, 13, 14]l = list(zip(a, b, c))print(l)#[(0, 5, 10), (1, 6, 11), (2, 7, 12), (3

2021-11-03 11:49:01 118

原创 二部图匹配-匈牙利算法-KM算法

int M, N; //M, N分别表示左、右侧集合的元素数量int Map[MAXM][MAXN]; //邻接矩阵存图int p[MAXN]; //记录当前右侧元素所对应的左侧元素bool vis[MAXN]; //记录右侧元素是否已被访问过bool match(int i){ for (int j = 1; j <= N; ++j) if (Map[i][j] && !vis[j]) //有边且未访.

2021-10-22 11:57:53 621

原创 接手串讲要点

现状部分(系统级、代码级的介绍):数据从哪里来;数据清洗策略是什么样的,为啥这么洗,有什么收益;数据存哪了;模块调用关系;模型结构;资源消耗情况;评测指标;现状为什么是这样的我打算改变哪些现状,怎么改: debug的流程...

2021-09-14 18:46:02 81

原创 EM算法总结

em算法可以当作机器学习从业者水平的试金石。看似复杂,但真正懂了之后无比简单。E步:设待求解得未知参数为x, x的当前值可以随机给定作为起点,记作x'。E步干的事情就是根据最大似然的思想,得出式子 V(x|x')。M步:式子V(x|x')最大化,将求解得到的x值作为下一轮的x'值,继续迭代。直至收敛到局部最优。对EM算法感兴趣的可以继续阅读机器翻译方向的ibm模型。基础理解可以参考米歇尔那本《机器学习》。...

2021-09-13 19:57:47 75

原创 分布式处理GBK中文

pyspark默认以utf8格式处理中文。当中文编码方式为gbk时,处理非常麻烦。使用hadoop streaming,会方便许多。假设有一份GBK编码的文件,用hadoop streaming处理如下:# mapper.pyimport sysimport refor line in sys.stdin: words = line.strip() words = re.sub(" ", "", words) words = words.decode("gbk

2021-09-10 17:24:40 98

原创 [python]unicode值与汉字互相转换

汉字转unicode值:a = "你"unicode_v = ord(a)print(unicode_v)# 20320# 汉字"你"对应的unicode值unicode值转汉字:v = 20320chr_k = chr(v)print(chr_k)# 你# unicode值20320对应的汉字是“你”

2021-08-31 14:58:58 274

原创 命名实体识别

bert+crf很有效。优化方法很重要,warm_up技巧训练出来的效果会优于SGD。句首字tagging标签容易被分错,可以预测后强制后处理,比如将SE替换成BE

2021-07-19 11:08:26 83

原创 有用的linux命令

dh -sh *当前文件夹下目录大小

2021-06-29 21:43:15 51

原创 【C++ primer】day2 复合类型 ~P47

复合类型是c++ primer中的第一个难点。也是区分程序员水平的第一道关卡。const 类型是read-only variable。所以在声明之后不能再赋值。这也意味着在声明时就必须赋值。 引用类型&是为对象创建的别名。所以在声明时一定要赋值。不然怎么知道是谁的别名?赋值内容需要时variable,单如果是const &,赋值内容可以是int,float这些常量值。声明之后,可以重新赋值:和其他的变量建立绑定关系,成为别的变量的别名;或者赋新值,连带原来绑定的变量值此时也发生变化。

2021-06-28 13:41:41 103

milvus离线安装包3

milvus离线安装所需的镜像包,按照https://milvus.io/docs/v2.1.x/install_offline-docker.md#Download-files-and-images操作得到,一共3个包。

2022-11-17

milvus离线安装包2

milvus离线安装所需的镜像包,按照https://milvus.io/docs/v2.1.x/install_offline-docker.md#Download-files-and-images操作得到,一共3个包。

2022-11-17

milvus离线安装包1

milvus离线安装所需的镜像包,按照https://milvus.io/docs/v2.1.x/install_offline-docker.md#Download-files-and-images操作得到,一共3个包。

2022-11-17

微软演示稿经典剪辑区块篇.ppt

微软演示稿经典剪辑区块篇.ppt

2021-06-10

异常漂亮的PPT模版.pot

异常漂亮的PPT模版.pot

2021-06-10

自制模版_表格_图形_结论

自制模版_表格_图形_结论

2021-06-10

20060616_罗兰贝格PPT图库@工具.ppt

20060616_罗兰贝格PPT图库@工具.ppt

2021-06-10

报告PPT模板写作版式说明20070226.ppt

报告PPT模板写作版式说明20070226.ppt

2021-06-09

麦肯锡_PPT图表模板.ppt

麦肯锡_PPT图表模板.ppt

2021-06-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除