茫茫人海一粒沙-CSDN博客

原创 llama2 与 llama3比较

Llama 3 刚刚在4月18号推出，距 Llama 2 发布正好 9 个月。它已经可以在 Meta 网站上进行聊天，可以从 Huggingface 以 safetensors 或 GGUF 格式下载。

2024-04-21 22:26:57 339

原创 2022 E3 算法题第二题（Maximum Sum of Two Integers in Array）

创建IntegerPair类存放第一个数字和最后一个数字相同的整型数字对。借助Map来构造所有的IntegerPair. 最后求出最大的IntegerPair.

2024-04-21 12:03:08 750

原创 2021 E3 算法题第二题（Rename Photo Names）

思路创建一个Photo的对象，Photo对应的属性有photoName, extension, cityName, createDate还有新名字。然后把输入的字符串按换行符分割，分割后构造一个Photo的链表和Map，Map的key是城市名字，值是这个城市里所有的图片对象。然后对每个城市里的所有照片排序，然后再重命名照片的名字。最后把所有图片的新名字组成一个字符串输出。java代码实现

2024-04-20 21:33:47 839

原创 2022 E3 算法题第一题（Banana Count in A Given Letters）

思路构造一个BananaMap对象用于存放已经拥有的字母和还缺少的banana中的字母。然后遍历所有字母串来构造一个BananaMap的链表。最后计算出构造出来完整的banana的字母对。java代码实现

2024-04-20 16:47:59 333

原创 2021 E3 算法题第一题（Max Sentence Length）

.).

2024-04-20 15:17:32 645

原创 2023 E3 算法题第三题（Appointment Slots）

思路代码解法2思路代码

2024-04-14 16:56:13 681

原创 2023 E3 算法题第二题（Build Skyscrapers）

思路代码思路代码

2024-04-14 16:49:44 631

原创 2023 E3 算法题第一题（Difference Letter Count）

思路 1构建一个Map，Map的key是小写字母，Map的Value有三个值分别为0，1，2. 0 : 代表只有一个小写字母。1: 代表所有这个小写字母在大写字母之前。也就是正确的字母2: 至少一个大写字母在这个小写字母前面。也就是不正确的字母。写一个for 循环构建这个Map就可以了。代码 1

2024-04-14 16:06:54 285

原创具有温度系数（Temperature）的Softmax函数

softmax 函数是一种激活函数，通常用作神经网络最后一层的输出函数。该函数是两个以上变量的逻辑函数的推广。Softmax 将实数向量作为输入，并将其归一化为概率分布。softmax函数的输出是与输入具有相同维度的向量，每个元素的范围为0到1。并且所有元素的总和等于1。

2024-04-06 16:43:22 649

原创传统机器学习、深度学习和生成模型的主要缺点以及可能的改进方法

综合以上，通过合适的技术和方法改进，可以缓解传统机器学习、深度学习和生成模型的各种缺点，提高其在实际应用中的效果和可靠性。：结合不同模态的信息，如文本、图像等，提高生成模型生成样本的多样性和真实性。：生成模型生成的样本可能存在噪声、模糊或不真实的问题，影响模型的应用效果。：一些复杂的生成模型，如GANs，通常需要大量的计算资源和时间来训练。：深度学习模型通常是黑盒模型，缺乏解释性，难以理解模型的决策过程。：利用对抗训练等技术，提高生成模型抗拟合能力，生成更真实的样本。

2024-04-01 15:43:53 623

原创 Spring Cloud Gateway Server MVC

之前你如果要用spring cloud gateway ，就必须是webflux 的，也就是必须是异步响应式编程。不能和spring mvc 一起使用。现在spring cloud 新出了一个可以不用webflux的gateway。

2024-03-24 21:55:43 687

原创定时在windows上执行python脚本

现在，有两种方法来执行Python脚本。第一种方法要写批处理Bat文件，另一种则不需要。如果您不想写批处理文件，

2024-03-21 22:18:31 461

原创使用OpenRewrite自动做框架升级比如Spring Boot

OpenRewrite 用于大规模自动化源代码重构OpenRewrite 是一个源代码自动重构生态系统，使开发人员能够有效消除其存储库中的技术债务。它由一个自动重构引擎组成，该引擎运行预先打包的开源重构方案，用于常见框架迁移、安全修复和风格一致性任务，从而将您的编码工作从几小时或几天减少到几分钟。OpenRewrite Gradle 插件和 OpenRewrite Maven 插件等构建工具插件可帮助您一次在一个存储库上运行这些配方。

2024-03-19 22:13:37 1124

原创 JavaSE、JavaEE和Jakarta EE的历史、区别与联系

JavaSE、JavaEE和Jakarta EE是Java平台中的三个重要组成部分，它们各自承担着不同的角色，同时也有着密切的联系。在理解它们之间的历史、区别和联系之前，我们首先需要了解它们的基本概念。

2024-03-17 17:36:32 546

原创 SpringBoot中加载配置文件的优先级

这些属性是从Spring Cloud配置服务器获取的。它们会覆盖应用程序本地配置文件中定义的属性。对应于活动的Spring配置文件。当相应的配置文件处于活动状态时，这些属性将覆盖默认属性。如果一个属性在多个位置定义，则最后应用的属性会覆盖之前的属性。：这些属性在Spring Boot本身中定义，并且通常是不可变的。）中定义，并且从配置服务器中获取，则配置服务器中的值会覆盖本地值。：这些属性在特定于活动Spring配置文件的。类似地，如果一个属性同时在本地配置文件（：这些属性在应用程序的。

2024-03-10 21:19:48 491 1

原创 Flink hello world

Flink 的版本附带了许多示例作业。您可以快速将这些应用程序之一部署到正在运行的集群。利用java 代码运行第一个flink hello world.下载并且解压Flink。

2024-03-05 22:39:03 518

原创 MongoDB Helloworld For Window

4. 用java code 连接mongo. 做增删改查操作。在User collection上增加记录。在MongoDB ui 上可以查看数据。1. 下载MongoDB。2. 安装MongoDB。

2024-03-05 22:21:18 527

原创在Redhat 7 Linux上安装llama.cpp [ 错误stdatomic.h: No such file or directory]

安装 gcc 和gcc-c++ 之后，你运行Make 命令编译llama.cpp的时候，你会发现下面问题。错误信息，因为gcc 的版本是4.8。

2024-02-27 22:14:36 648

原创 SpaCy的使用例子总结

当使用Spacy进行自然语言处理时，常见的用例包括文本分词、命名实体识别、词性标注、句法分析等。

2024-02-15 21:56:50 467

原创手动下载spacy的en_core_web_sm模型

首先，用下面连接下载模型。我下载了 .tar.gz 格式。然后提取它并通过指定所需子文件夹的路径将其加载到代码中。为了确保路径正确，您应该进入包含 config.cfg 文件的文件夹。例子代码。

2024-02-14 17:35:00 781

原创训练深度学习模型的过程

深度学习的训练过程是指通过大量的数据来调整神经网络的参数，以使其能够对输入数据进行准确的预测或分类.

2024-02-14 16:36:16 996

原创机器学习的整个流程

机器学习的整个流程定义了数据科学团队执行以创建和交付机器学习模型的工作流。此外，机器学习流程还定义了团队如何协作合作，以创建最有用的预测模型。

2024-02-04 17:34:39 1247

原创自然语言处理中所有任务的概括

自然语言处理（Natural Language Processing，NLP）是人工智能领域中的一个重要分支，致力于让计算机能够理解、解释、处理人类语言。NLP的发展为我们提供了许多强大的工具和技术，使得计算机能够执行各种任务，从简单的文本处理到复杂的语义理解。在本文中，我们将探讨自然语言处理可以完成的多个任务，以及每个任务的实际例子。

2024-02-04 15:36:32 734

原创 Spring auto-configuration的使用

在构建Maven项目时，使用Spring Boot自动配置可以使项目更易于集成和使用。本文将向您展示如何创建一个Maven项目，并使用Spring Boot自动配置使其能够被其他组件方便地依赖。

2024-02-04 14:39:33 446

原创使用NLTK进行自然语言处理：英文和中文示例

Natural Language Toolkit（NLTK）是一个强大的自然语言处理工具包，提供了许多有用的功能，可用于处理英文和中文文本数据。本文将介绍一些基本的NLTK用法，并提供代码示例，展示如何在英文和中文文本中应用这些功能。

2024-02-03 12:03:58 1186

原创 nltk关键字抽取与轻量级搜索引擎（Whoosh, ElasticSearcher）

有时候你想用一句完整的话或一个文本在基于关键字的搜索引擎里搜索，但是如果把整个文本放进去搜索的话，效果不是很好，因为你的搜索引擎是基于关键字而不是sematic search。那怎么抽取关键字呢？

2024-01-29 22:13:53 985

原创 Python基础篇:列表生成式或列表推导式（List Comprehension）

列表推导式通过将表达式应用于可迭代对象中的每个项目，提供了一种紧凑且高效的方式来创建列表。在构建列表时，它比传统的 for 循环提供了更优雅的替代方法。

2023-12-24 17:37:13 120

原创 Python 基础篇：在Python中用if语句时被认为是false的数据

这些值在条件判断时会被视为假，如果用在条件语句中，会导致条件判断为假。

2023-12-24 17:00:35 117

原创 Python基础篇: Python中数据类型总结

Python有许多内置的数据类型，包括数字、字符串、列表、元组、集合、字典、布尔值、字节和字节数组。这些数据类型可以相互转换，并且可以用于执行各种操作，例如数学运算、字符串操作和集合操作。

2023-12-24 16:34:03 147

原创 Chromadb词向量数据库总结

Chroma 词向量数据库是一个用于自然语言处理（NLP）和机器学习的工具，它主要用于词嵌入（word embeddings）。词向量是将单词转换为向量表示的技术，可以捕获单词之间的语义和语法关系，使得计算机能够更好地理解和处理自然语言。将单词转换为向量表示后，可以计算单词之间的相似度，找到在语义上相关的单词，从而支持词义的推断和理解。使用词向量可以对单词进行聚类或分类，将具有相似含义的单词归为一类，从而帮助组织和理解词汇。

2023-12-16 18:20:18 1917 3

原创文本预处理(text preprocess)总结

在任何机器学习任务中，清理（cleaning ）或预处理（preprocessing）数据与模型构建同样重要，甚至更重要。当涉及文本等非结构化数据时，这个过程就更加重要。

2023-12-10 17:41:46 523 1

原创 LSTM seq2seq 模型之英语到法语翻译

cpu 上训练时间大概是一整天。

2023-11-30 14:06:10 549

原创（Transfer Learning）迁移学习在IMDB上训练情感分析模型

有些场景下，开始的时候数据量很小，如果我们用一个几千条数据训练一个全新的深度机器学习的文本分类模型，效果不会很好。这个时候你有两种选择，1.用传统的机器学习训练，2.利用迁移学习在一个预训练的模型上训练。本博客教你怎么用tensorflow Hub和keras 在少量的数据上训练一个文本分类模型。

2023-11-17 16:43:22 363

原创查询本地知识库之llama2+langchain

1. python package 包2. nltk的punkt手动安装安装nltk的punkt模块（因为下载速度很慢，所以这里我们手动下载）先在root目录下，建一个文件夹：/root/nltk_data/tokenizers到这个网址：http://www.nltk.org/nltk_data/，找到punkt的包。

2023-11-12 10:54:01 1488 3

原创在Windows或Mac上安装并运行LLAMA2

Meta已将llama2开源，任何人都可以通过在上申请并接受许可证、提供电子邮件地址来获取模型。Meta 将在电子邮件中发送下载链接。

2023-11-05 17:00:32 2602

原创基于知识库的chatbot或者FAQ

最近突然想做一个基于自己的知识库（knowlegebase）的chatbot或者FAQ的项目。未来如果可以在公司用chatgpt或者gpt3.5之后的模型的话，还可以利用gpt强大的语言理解力和搜索出来的用户问题的相关业务文档来回答用户在业务中的问题。

2023-10-31 20:46:22 293 3

原创利用CSRF或XSS攻击网站的例子

当用户访问这个网页并点击“See Cute Kittens”按钮时，他们实际上触发了一个对银行的转账请求，将1000000单位的资金从他们的账户转到攻击者控制的帐户 "HackerAccount"。这就是XSS攻击的一个简单示例，攻击者利用网站上的不安全评论功能，向用户注入恶意脚本，以获取用户的敏感信息。当用户在这个网站上登录后，他们的 Cookie 包含了身份验证信息，攻击者可以使用这些信息冒充用户，执行各种操作，如发布帖子、更改用户信息或执行其他恶意操作。用户的评论将显示在其个人资料页面上。

2023-10-22 14:10:18 621 3

原创边写代码边学习之mlflow

MLflow 是一个多功能、可扩展的开源平台，用于管理整个机器学习生命周期的工作流程和工件。它与许多流行的 ML 库内置集成，但可以与任何库、算法或部署工具一起使用。它被设计为可扩展的，因此您可以编写插件来支持新的工作流程、库和工具。：用于在运行机器学习代码时记录参数、代码版本、指标、模型环境依赖项和模型工件的 API。MLflow Tracking 有一个用于查看和比较运行及其结果的 UI。

2023-10-19 23:05:53 881

原创边写代码边学习之Pycaret

PyCaret 是一个用于简化 Python 机器学习工作流程的开源库。，使数据科学家和分析师更容易构建和部署机器学习模型。PyCaret 的一些关键特点和用途包括：1.：PyCaret 可以自动化机器学习中许多繁琐和耗时的任务，如数据预处理、特征选择、超参数调整、模型选择和评估。2.：它提供了一致性和有组织的工作流程，允许用户仅需几行代码执行常见的机器学习任务。3.：PyCaret 支持多种机器学习算法，帮助用户快速比较和选择最适合特定任务的模型。4.

2023-10-15 17:27:57 303

空空如也

深度机器学习的数据集为什么一定要2万以上的样本？

深度机器学习分类问题中，回归率怎么才能提高？