stay_foolish12-CSDN博客

原创 app = Flask(name)相关说明

#!/usr/local/bin/python# coding=utf-8 from flask import Flaskapp = Flask(__name__) @app.route('/')def hello_world(): return 'Hello World!' if __name__ == '__main__': app.run(host='0.0.0.0',port=9000)'''第4行，引入Flask类，Flask类实现了一个WSGI应用第5行，

2020-08-07 13:57:16 4905 1

原创 PaddlePaddle预训练模型大合集

PaddlePaddle预训练模型大合集，还有官方使用说明书添加链接描述https://blog.csdn.net/paddlepaddle/article/details/93858863

2020-08-06 17:10:37 2035

原创 pip加速+百度镜像|清华镜像

针对pip install 安装包下载慢的问题，主要pip install直接安装是从国外拉取安装包。解决办法，加国内镜像，比如百度 https://mirror.baidu.com/pypi/simplepip install lac -i https://mirror.baidu.com/pypi/simple比如清华镜像：https://pypi.tuna.tsinghua.edu.cn/simplepip install numpy -i https://pypi.tuna

2020-07-21 11:21:23 11939 1

原创文本相似度、文本匹配、文本聚类

1 1在Keras的Embedding层中使用预训练的word2vec词向量：https://blog.csdn.net/u012052268/article/details/90238282本文的部分工作、代码、数据共享到gethub网站《使用多层级注意力机制和keras实现问题分类》：https://github.com/xqtbox/question-classification-with-multi-level-attention-mechanism-and-keras2 QA match/文

2020-07-20 15:21:09 1822

转载支持向量机通俗导论（理解SVM的三层境界）

支持向量机通俗导论（理解SVM的三层境界）作者：July 。致谢：pluskid、白石、JerryLead。说明：本文最初写于2012年6月，而后不断反反复复修改&优化，修改次数达上百次，最后修改...

2019-04-22 15:09:23 2411

转载统计学习方法总结

统计学习方法总结阅读目录(Content)0. 相关知识点0x1: 监督学习1. 模型假设空间2. 生成模型与判别模型的联系与区别 3. 学习策略4. 分类问题与回归问题5. 利用模型进行预测和分析0x2：模型评估与模型选择1. 训练误差与测试误差2. 过拟合与模型选择0x3：正则化与交叉验证 - 缓解过拟合的发生1. 正则化 - 结构风险最小化策略...

2019-04-14 11:13:07 2504

原创老子【道德经】全文翻译（全81章）

图片发自简书App　　老子道德经全文翻译（全81章）阅读：【老子·第一章】道可道，非常道。名可名，非常名[1]。无名天地之始；有名万物之母。故常无，欲以观其妙；常有，欲以观其徼。此两者，同出而异名，同谓之玄。玄之又玄，众妙之门。【注释】：[1]通常译为"可以说出来的道，就不是永恒不变的道"，强调道是不可言说的。但这样的翻译，等于一开始就剥夺了老子言说真道的可能...

2019-04-14 11:01:23 13225 1

转载剑指offer-python代码解释-习题解答-空白请点击阅读更多

2019-04-08 16:37:04 1415 1

原创 python报错：Python12下，运行代码报错：No module named ‘distutils‘

https://segmentfault.com/a/1190000044618510

2024-02-29 20:26:11 372

原创 sklearn中tfidf的计算与手工计算不同详解

u)\b\w\w+\b"，这是一个双字符以上的字符串，这样就导致了在原题目中"我"，“他”，“了”，“于"的丢失，这就是导致我们词汇数目不匹配的元凶！其实这是一个很搞的问题，sklearn中使用的是numpy库中的log函数，这个函数就是ln函数，在源码中所有的计算都是用的numpy.log()，这同样导致了我们的结果与程序完全不同。简介：TF，是Term Frequency的缩写，就是某个关键字出现的频率，即词库中的某个词在当前文章中出现的频率。那其他的idf定义是正确的吗？

2023-11-27 09:26:52 1649

转载吴恩达《ChatGPT Prompt Engineering for Developers》学习笔记

课程中给出了一个解数学题的案例，如果没有提示模型首先尝试解题，则模型会判断学生的解法是正确的，但是如果提示模型首先自己推导解题过程再进行判断，则其会得出学生的解法是错误的结论。为了实现一个聊天机器人，我们需要支持对于对话历史消息的自动收集，课程中基于 panel 包实现了一个点菜机器人，通过精心设置的 System Prompt 实现了自动化点菜与价格计算，具体的代码此处不作展开。编写 Prompt 是一个持续迭代的过程，通过对模型返回结果的分析，不断地修改 Prompt，我们可以最终得到较为满意的输出。

2023-11-20 16:09:06 364

原创 learning to rank 学习排名系统综述

这些输入的doc的表示形式是多个维度的特征向量，特征的设计也尤其重要，对网页系统检索而言，常用的有查询与文档匹配特征，其中细化了很多角度的匹配，比如紧密度匹配，语义匹配，精准匹配等等，还有通过将文档分为不同域后的各个域的匹配特征，关键词匹配特征，bm系列特征, 以及通过dnn学习得到的端到端的匹配特征。评价指标如 NDCG、MAP 等。通过排序模型的不断迭代，当一个用户输入一个query之后，排序系统会根据现有模型计算各个doc在当前特征下的得分，并根据得分进行排序返回给用户。

2023-11-16 13:38:54 300

原创网络嵌入综述

DeepWalk会根据每个Session中item的共现信息和出现的次序，构建一个全局的item有向图（图9（b））。从图9（c）中可以看出，因为随机游走对图结构的局部探索能力，我们可以得到一些原来并没有见过的item序列，例如：“ABE”序列。因此，后续的表示学习模型可以拥有更丰富的数据来学习每个节点的embedding。值得一提，随机游走不仅可以完成图结构到序列信息的转换，还可以并行地为每个节点生成序列信息，这为DeepWalk模型应用在大规模图结构上提供了可行性。

2023-11-15 15:46:50 177

原创 embedding的综述

1one-hot 变成地位稠密的向量，降维具体过程：one-hot变成低维连续的向量语义相近的词语，词语赌赢的向量位置也更近具体实例：问题：怎么得到embedding1 word2vec。

2023-11-14 16:21:53 118

原创 PDF电子发票内容提取

原文链接：PDF电子发票内容提取

2023-09-12 16:45:21 352

原创手把手打你实现：基于langchain+chatglm构建本地知识库的问答应用笔记

2023-08-31 10:46:37 181

原创大数据风控介绍

个推作为专业的数据智能服务商，拥有海量数据资源，在智慧金融领域也推出了相应的数据解决方案-个真，为金融客户提供智能反欺诈、多维信贷风险评估和高意愿用户智能筛选等全流程的数据服务，助力各金融机构全面提升风控能力。欺诈分模型指的是根据客户提供的数据信息在个推平台进行数据转换、特征匹配，并对其风险特征予以筛选，利用预设规则予以打分，最后得出相应的欺诈分。客户可通过提供样本数据，通过个推来完成建模，同时，在缺乏样本数据的情况下，个推依托自身积累的海量样本数据，可以构建出多种营销场景下的通用模型，供客户使用。

2023-08-24 10:57:54 919

原创调研：“以搜养搜”，关键词提炼

2023-08-10 14:23:57 100

原创如何微调医疗大模型llm：llama2学习笔记

三个微调方向：简单医疗问答临床问答影像学一般流程： 1 数据集准备 2 模型基座选择 3 微调 4 案例拆解。

2023-08-01 10:17:43 1191

原创垂直领域大模型的一些思考及开源模型汇总

垂直领域大模型的一些思考及开源模型汇总：https://zhuanlan.zhihu.com/p/642611747

2023-07-28 16:23:44 184

原创 3岁+孩子必看的20部神级纪录片

世界级*级纪录片，600人参与拍摄，历经3年，耗资4000万，遍及全球50多个国家和地区！央爸爸出品必属精品，这是中国纪录片团队第一次以自然纪录片的方式，全面系统的拍摄海洋的故事，全片共6集，每集60分钟，以中国近海为舞台，讲述海洋生物的故事，拍摄角度超绝，画质一级棒，是我和孩子看了都停不下来的纪录片。这是一个缩缩版的虫虫世界，每个故事的主角都是小昆虫，5分钟里没有一句对白和配音， 3D动画效果，以纪录片的方式阐述虫虫们的生态环境，演绎生动的幽默故事，喜欢探索自然和昆虫的孩子，千万不要错过！

2023-07-20 10:08:02 1095 1

原创手把手带你实现ChatGLM2-6B的P-Tuning微调

注意问题1：AttributeError: ‘Seq2SeqTrainer’ object has no attribute 'is_deepspeed_enabl。可能是版本太高，可以参考chatglm2的环境。

2023-07-19 17:03:29 1391

原创如何将图片转换为mnist格式的数据

对于经过修改的格式，也可以这样把图片画出来看看到底什么情况。读取图片，转灰度，resize到28。传入mnist模型中predict。

2023-07-13 16:25:32 466

原创 ChatGLM-6B+LangChain实战

重写_call方法：加载自己的模型，并限制只输出结果（chatglm原输出不是直接str，langchain中要求模型返回必须是str的结果：“”“LLM wrapper should take in a prompt and return a string.”“”）step1：自定义一个GLM继承LangChain中的langchain.llms.base.LLM，load自己的模型.step2：使用LangChain的mapreduce的方法，对文本分块，做摘要，输出结果.

2023-07-13 16:04:33 6395 3

原创 WebGLM综述以及相关工作

上周五在WAIC 上的论坛报告回放。先放两个供大家参考，另外的报告会陆续放在 B 站。另外还有一个贴近落地实践的 prompt 课程，近期会发在 B 站上。【报告】WebGLM: 检索增强的大规模预训练模型。大模型采用作为标签，大模型的结果90.2%是正确的。检索器：搜索引擎检索器，打分器无人工标注。提出一套用于评价带引用长文本问答的指标。【报告】ChatGLM 的路径探索。

2023-07-13 14:36:33 240

原创 chatglm 130B：两个主要的稳定训练方法

解决方案：Qk转置的时候先用单精度来算，softmax的时候再转成FP16。第二个：embeddding 层梯度存在。

2023-07-13 10:58:58 255

原创 85 页、610 篇参考文献！“最全”大语言模型综述来了

85 页、610 篇参考文献！“最全”大语言模型综述来了：下载链接：https://pan.baidu.com/s/1uoYG68SeYKd7T58M97PSqg?pwd=5i9w

2023-07-11 09:45:26 252

原创手把手带你window10安装ffmpeg视频转换工具

到这里，ffmpeg的配置就差不多了，调用命令行（windows+R输入cmd）输入“ffmpeg –version”，如果出现如下说明配置成功；复制此目录，将其添加到环境变量当中去；

2023-07-07 09:36:55 433

原创 ChatGLM2-6B中引入ptuning报错：AttributeError: ‘ChatGLMModel‘ object has no attribute ‘prefix_encoder‘

这个问题在网上找了很多相关的文章最后都是不匹配的解决方案，最终的解决方法是修改configuration_chatglm.py模块中pre_seq_len参数即可。原文链接：https://blog.csdn.net/Together_CZ/article/details/131340838。将这几个文件下载并替换。

2023-07-05 09:54:45 2218 3

原创手把收带你调用大模型+附上清华大学云盘：chatglm2位置

model目录下，放入你从下载的模型文件，比如，我这放的是chatglm2模型。修改的位置，model。

2023-07-03 16:41:08 615

原创 chatglm常用参数：Top-k, Top-p, Temperature

这种采样引入的随机性有助于在很多情况下生成的质量。top-k 参数设置为 3意味着选择前三个tokens。用于调整随机从生成模型中抽样的程度，因此每次点击“生成”时，相同的提示可能会产生不同的输出。温度为 0 将始终产生相同的输出。温度越高随机性越大！动态设置tokens候选列表的大小。将可能性之和不超过特定值的top tokens列入候选名单。Top p 通常设置为较高的值（如 0.75），目的是限制可能被采样的低概率 token 的长度。将如果 k 和 p 都启用，则 p 在 k 之后起作用。

2023-06-30 16:02:02 5547

原创手把手带你linux部署清华大学大模型最新版 chaglm2-6b

如果安装出现问题，可尝试手动分别安装torch1 # 1第一步安装虚拟环境并激活环境。

2023-06-28 15:09:39 4979 3

原创带你学习部署最新版清华第二版chatglm：ChatGLM2-6B+使用 CPU 本地安装部署运行 ChatGLM2-6B

3 chaglm2-6b本地部署ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本，在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上，ChatGLM2-6B 引入了如下新特性：更强大的性能：基于 ChatGLM 初代模型的开发经验，我们全面升级了 ChatGLM2-6B 的基座模型。

2023-06-28 10:05:55 7033 1

原创 python编译成exe和exe反编译成python

工具3：uncompyle，安装方法：cmd窗口输入：pip install uncompyle。1.将pyinstxtractor.py和exe存放至同一个文件夹；exe反编译成python的步骤。（若有侵权，麻烦告知，自行删除）

2023-06-07 09:53:49 348

原创 vscode 若依前后端手把手带你复现

3。

2023-05-11 15:34:00 308 1

原创 ruoyi-vue集成docker分布式部署，并配置https访问

ruoyi-vue集成docker分布式部署，并配置https访问

2023-05-11 14:12:19 260

原创收集22种开源Vue模板和主题框架「干货」

收集22种开源Vue模板和主题框架「干货」vue讨论

2023-05-11 13:46:24 1108

原创 SPSS岭回归报错问题第 8 列中的错误号 34+乱码问题

然后第二行X1，X2，X3的位置填写你的自变量的名字。运行的时候，打开文件——新建——语法，进入语法编辑器窗口，输入上边的代码，然后点运行——全部就可以了。结果会有一个系数表，这个表的第一列是K值，第二列是决定系数，第三列往后是你的自变量。其中k值会从0开始增大，同时决定系数也会慢慢变小，最终趋于稳定。（岭回归舍弃了一定的信息，从而改善了多重共线性）要从这张表里边选取合适的k值，使决定系数尽量大，同时尽量稳定。比如我的按在d盘下面，所以我就填d:\spss20.0，如果你的按在c盘，那就填C盘呗。

2023-04-28 17:03:01 911

转载 spss主成分综合得分_主成分分析SPSS操作与结果解释

所以这3个成分是可以基本反映原来的8个变量的，说明提取3个主成分便可以了。②点击“转换→计算变量”，打开计算变量主对话框，在“目标变量”中输入新变量名U1，在“数字表达式”中输入“A1/SQRT(3.677)”，点击确定；打开数据文件CJ.sav，点击“分析→描述统计→描述”，打开描述主对话框，将相关变量选进“变量”，勾选“将标准化的分另存为变量(Z)”，点击确定，见下图；点击“转换→计算变量”，打开“计算变量”主对话框，“目标变量”输入Y1，“数字表达式”输入上述表达式，点击确定，即可得出Y1。

2023-04-28 16:04:24 7091 2

原创天津恒安标准人寿面试经验

即第i+1个决策树是依赖于第i个决策树的基础上，基本原理对于分对的样本较小权重，分错的样本增加权重的思想。随机森林，是bagging的集成学习，随机体现在对样本进行随机抽取如从n个样本中选取每个样本进入决策树去学习。森林体现在有b个决策树，这些树之间是互不影响的是可以并行学习的，所以这样就导致不容易overfit，但是导致对于很难的样本就不是很容易区分。该算法其实是一个简单的弱分类算法提升过程，这个过程通过不断的训练，可以提高对数据的分类能力。说说你最了解的二分类模型吧，从简单到难？

2023-04-27 09:07:03 535 1

空空如也

空空如也