juhanishen-CSDN博客

原创沈工工作室开张了

先写一下课题，欢迎来函告诉我，哪些课题你愿意我先写，先介绍。 -用MongoDB的capped collection做队列服务。 -什么是Restful -spark和Mongo的简单实践 -VoltDB介绍 -NoSQL介绍 -Vault介绍 -Terraform介绍 -vagrant介绍 -具有时间序列的应用多种解法 -WebGL介绍 -人工智能算法和链接 -日志应用简介

2017-07-17 14:46:16 378

翻译大模型LLM large language model性能指标（二），SuperGlue

本文介绍了LLM，大模型性能指标 SuperGlue。Rouge，BLEU是简单的指标参数。而SuperGLUE是全面的，标准化的问答和基准测试。更全面反映LLM大模型的性能。

2024-02-29 18:29:01 130

原创 LLM （Large language model）的指标参数

本文详细介绍了LLM指标中Rouge和BLEU指标。Rouge是用来文本摘要和概括的，BLEU是给翻译场景中用的指标

2024-02-23 15:48:22 1280

原创 RAG （Retrieval Augmented Generation）简介

RAG简介。中小企业怎样在预算有限的情况下，利用LLM为自身业务场景服务。本文详细阐述了RAG的每一步骤。

2024-02-14 22:42:09 1268

转载使用GPT3.5,LangChain，Milvus和python构建一个本地知识库

向量数据库，langchain

2023-08-28 13:41:28 1255

转载使用GPT3.5,LangChain，FAISS和python构建一个本地知识库

本篇文章获得同事刘工的授权刊登。原文发表于2023年6月28日。

2023-07-22 15:48:34 3033

原创剖析GPT，背后的算法，文献，行业影响和中小企业落地建议

GPT 剖析，背后的算法，文献，行业冲击，中小企业怎样落地。

2023-03-25 15:39:42 4997

原创微服务必经之路，企业应用架构蓝图，有状态和无状态组件之分

微服务企业架构改造必经之路。有状态和无状态组件之分

2023-01-26 15:03:22 1073

原创日志的应用，由浅入深，经验分享（二）

日志高级应用的某些细节。比如在线针对性热修改，日志在线，离线模式，技术选型

2023-01-24 14:04:16 164

原创日志的应用，由浅入深，经验分享（一）

架构师所面临的日志问题，加以分类阐述。以及日志应用要注意的问题。

2023-01-19 15:46:28 706

原创 NLP 基础和初学者进阶

nlp基础和进阶，通过解释word2vec，将词汇变成向量，然后进行相似度计算。深入浅出的介绍NLP的知识和应用。

2022-11-09 18:29:58 507

原创核酸检测系统的潜在性能问题猜想

核酸检测系统性能问题思考，笔者给出影响性能的4个潜在因素。

2022-09-04 10:47:48 423

转载 Linux 常用命令

这张图是我从linkedin的一则消息中截屏下来的，觉得挺实用的，分享给大家。运维，开发都可以用。这个是很基本的Linux命令，netstat，top 都没有列出来。日后，再补点常用的Linux命令，先做为第一版。沈建军于2022年5月29日周日8:40分上海松江。CSDN...

2022-05-29 08:42:58 109

我一直是学计算机软件的，本科的毕业论文是纯软件，硕士的毕业论文也是纯软件。工作后，有的计算机知识都老化了，需要学新的技术，发现网上学都可以了。现在，留学很盛行，但留学在国外住宿，生活费，学费，都是不小的开支。只有有自学能力，我至少发现计算机偏软件行业的完全不用去留学，只要有VPN，英语阅读和书写能力，计算机知识完全可以通过网上自学取得。本人的机器学习，人工智能，3D，区块链知识都是从网上取得的，配合一些线上，线下的技术论坛，比如云原生meetup，亚马逊的技术论坛，。。。完完全全可以把计算机玩转，只要自己有

2022-05-09 14:01:39 1069

原创 2022年新冠疫情后上海的电子商务，数字化经济可能的新趋势

电子商务，数字经济在2022年上海疫情后的预测

2022-04-28 14:41:02 453

原创公益项目：一般人和聋哑人自然交流

公益项目，一般人和聋哑人的交流

2022-04-06 15:57:42 999 2

原创斐波那契数列（Fibonacci sequence）解决方法，面试60分和90分的区别

Fibonacci的解决方案，60分的方案和95分的方案对比，100分的可以作为回家作业，提示用python写。

2022-03-27 15:22:44 2151 4

原创 3D 重构的一些应用场景

3D 重构是利用2D 照片合成3D 图像。3D重构也是人工智能领域的一个分支。因为业界有很多应用，所以记下来，供大家参考。第一次遇到3D重构的课题是老东家在物流领域的业务场景。后来发现，3D重构的应用场景还真不少。3D重构一个重要指标是精准度，又跟摄像头的品质有关。今天讲的不是具体算法，而是罗列业务应用领域，让大家可以发挥想象，运用到其他类似的业务场景中去。也可以给我留言，我可以添加到这个博客中去，供大家一起参考。1. 医疗领域上海中山医院开肝肿瘤的时候，有时就会先进行3D成像，然后精准动刀。

2022-03-24 21:44:10 1821

原创循环神经网络 RNN & 在新奇检测中的运用 - Part 2

循环神经网络 RNN & 在新奇检测中的运用 - Part 2与卷积网络和多层感知机不同，循环神经网络（Recurrent Neural Network）为了更好地处理时序信息（Time Series）而设计的。它的特征在于利用状态变量来储存过去的信息，并和当前时间的输入一起共同决定输出。语言模型就是我们生活中最常见的时序信息。一句话里的每一个字都是按时间顺序出现的，之前说的话一定会决定当前说出口的单词。所以RNN被广泛用于语音识别、语言模型。文本型数据也是同理。但RNN不局限于语言和文字，只要

2022-03-18 21:20:59 2002

原创循环神经网络 RNN & 在新奇检测中的运用 - Part 1

循环神经网络 RNN & 在新奇检测中的运用 - Part 1本文为加拿大McGill大学本科，Waterloo大学硕士林羿在我部门实习时的博客。我放在这里和大家共享。已经征得林工同意。与卷积网络和多层感知机不同，循环神经网络（Recurrent Neural Network）为了更好地处理时序信息（Time Series）而设计的。它的特征在于利用状态变量来储存过去的信息，并和当前时间的输入一起共同决定输出。语言模型就是我们生活中最常见的时序信息。一句话里的每一个字都是按时间顺序出现的，之前

2022-03-18 21:18:01 651

原创用PyTorch搭建卷积神经网络

用PyTorch搭建卷积神经网络本篇文章是一篇基础向的PyTorch教程，适合有一定的机器学习，深度学习和神经网络理论基础，接触过卷积神经网络，缺没有用过PyTorch搭建神经网络的同学。本文会分成以下几个部分：基础卷积知识PyTorch基础教程用Pytorch搭建CNN优化CNN模型0. 基础图像卷积知识这部分参考MIT的卷积图像课程，讲的非常清楚。图像卷积是处理图像的一种方式。首先一个图像是用 M乘N 个像素来储存的，也是一个 M乘N 的矩阵。而卷积的过程就是将一个卷积核（convo

2022-03-13 17:48:47 19870 7

翻译 EDA（Explore Data Analysis）一步一步详解

EDAEDA 是 Explore Data Analysis 的缩写，是机器学习处理数据的第一步。它影响建模的质量或准确性。下面的这篇来之Analytics Vidhya的博客写得浅显易懂。所以，尽可能翻译或做笔记。A Comprehensive Guide to Data Exploration总览有关数据探索（EDA）的完整教程我们涵盖了数据探索的几个方面，包括缺失值估算，异常值去除和特征工程的技巧。介绍没有数据探索分析的捷径。 If you are in a state of

2022-02-15 15:38:49 8788 3

转载 Person 系数

Pearson 系数：本文来自于此CSDN链接皮尔森(pearson)相关系数: 在这三大相关系数中，spearman和kendall属于等级相关系数亦称为“秩相关系数”，是反映等级相关程度的统计分析指标。今天暂时用不到，所以现在只做pearson的相关研究。公式定义为：两个连续变量(X,Y)的pearson相关性系数(Px,y)等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX,σY)。系数的取值总是在-1.0到1.0之间，接近0的变量被成为无相关性，接近..

2022-02-15 15:33:13 2366

翻译机器学习全生命周期，一步一步，中长篇（三）总共三篇

We’ll follow the general machine learning workflow step-by-step 第三部分:Data cleaning and formatting Exploratory data analysis Feature engineering and selection Hide and filter Sensitive Feature Compare several machine learning models on a performance m

2022-02-08 11:36:07 248

翻译机器学习全生命周期，一步一步，中长篇（二）总共三篇

本文是英文原著翻译，并结合了其他文献的一个有益集成。中文在英文简述的后面。We’ll follow the general machine learning workflow step-by-step 第二部分:Data cleaning and formatting Exploratory data analysis Feature engineering and selection Hide and filter Sensitive Feature Compare several mac

2022-02-08 11:04:35 291

翻译机器学习全生命周期，一步一步，中长篇（一）总共三篇

本文是英文原著翻译，并结合了其他文献的一个有益集成。中文在英文简述的后面。We’ll follow the general machine learning workflow step-by-step:Data cleaning and formatting Exploratory data analysis Feature engineering and selection Hide and filter Sensitive Feature Compare several machine

2022-02-08 10:42:25 513

原创机器学习模型评价指标一览

机器学习模型评价指标一览在这篇文档里，我们会介绍一些常用的机器学习模型评价指标。这些指标会根据模型的目标而分成以下两类：回归模型的指标分类模型的指标一般来说，这两大类指标是没有重合的，我们要根据不同的模型来选择对应的一个或多个指标。有些指标是模型在学习过程中的优化对象（即损失函数），而有些其他只能用来评判模型的好坏。1.~分类模型的指标分类问题可以再细分为二分类问题（Binary Classification）以及多分类问题（Multi-category Classi...

2022-01-13 17:06:33 3118

原创数据库类型

数据库按照维度不同，有不同分法，我们今天来按照不同维度来对数据库进行归类。1. 数据量和事务型数据库SQL，关系型数据库，带有事务性，但处理的数据不能太庞大。比如 MySQL，Postgre, OracleNoSQL，大数据数据库，没有事务特性。比如 MongoDB，Couchbase， CassandraNewSQL, 大数据数据库，同时带有事务性。比如 VoltDB，2. 数据库按行分类数据是以行，一个record记录的，是行数据库。数据是按列存储的，是列数据库。...

2021-11-09 18:06:38 2562

转载 CQRS and Event Sourcing in Java

1. IntroductionIn this tutorial, we'll explore the basic concepts of Command Query Responsibility Segregation (CQRS) and Event Sourcing design patterns.While often cited as complementary patterns, we'll try to understand them separately and finally see

2021-08-16 15:49:50 229

转载 Domain-driven design essentials - Key Concepts (continued)

Domain-driven design essentials - Key Concepts (continued)PostedSep 5, 2020byIvan PenchevChapter 2The Domain Model - ContinuedFig. 05 DDD diagram for other Domain objectsWe are continuing our journey in the Domain model.AggregatesAs we ...

2021-08-06 15:04:57 166

转载 Domain-driven design essentials - Key Concepts

本篇是DDD的基础，从这个链接转载。DDD的方法非常好，就是根据业务场景解耦，形成相对对立封装的组建，用抽象的封装(interface)包容组建替换，代码和部署独立，使得代码可维护，可测试，容易不同形式的部署。DDD显然是软件开发的高境界。所以笔者转载一篇好文。Domain-driven design essentials - Key ConceptsPostedAug 26, 2020byIvan PenchevChapter 1IntroductionIn the las...

2021-08-06 14:17:04 196

原创 kubernetes 简单集群安装一master，一worker

网上有不少kubernetes的安装博客，之所以要花时间再写一篇，是因为不少博文都是旧的。时间来到2021年6月，不少博客是2019年的，所以比教旧。还有国内的安装方法和国外sha

2021-06-04 15:14:46 635

翻译 ARIMA 算法解析，一个通俗的解释

ARIMA算法是时序算法的经典算法。网上有很多博客，笔者认为都比较数学化，不是那么让初学者一读就能懂得，换句话说，不是很通俗。本篇博客是基于英文博客来组织的，不是直接翻译，但代码，原始数据都来自这篇英文博客，所以说是翻译而来的。1. 背景ARIMA 算法的本质就是把数据中带有趋势的(trend)的，带有季节性的(seasonal)的, 带有业务场景周期性(domain cycle)的规律先找出来，一层一层将有规律的信息从数据中抽出来，最后的数据就剩下没有规律的，或叫噪声，理想的时候是白噪声。本文的.

2021-05-27 15:01:17 18610 7

原创机器学习全生命周期

本系列博客是结合coursera的加州大学洛杉矶分校的机器学习的课程和Medium的系列文章整合而成。本系列是给机器学习的初级学者编写的机器学习全周期的步骤。机器学习分五个部分：本篇博客是系列的第一篇。1. 获得数据：这个阶段的目标是辨别和获得所有和业务场景/命题有关的数据，就是收集到所有需要的，有关的数据。在这个阶段中，1）我们要辨别数据源 2）采集数据 3）集成数据。2. 预备数据：这个阶段有两步。第一步是探索数据，第二步是预处理数据 ...

2021-05-13 13:35:17 988

翻译异常检测和贝叶斯理论 / outlier detection and Bayes theorem

我们知道单个异常检测的算法有时精准度不是那么高，但业务场景往往需要高的精准度。比如，当我们检测一个生产线下来的发动机是不良的，精准度是越高越好。现实就是单一的算法精准度不高，但业务场景需要判断精准度高。那怎么办呢？本文翻译自笔者的一个提问，来自于stats_stackexchange论坛的。会英语的读者可以直接看原文。1. 命题这个提问就是将多种异常检测算法组合起来，也就是说当A算法认定发动机是不良的，测试者还不做任何结论，然后用B算法再测，如果B算法也认定该发动机是不良的，那么测试者就引起重视了.

2021-04-30 14:32:43 969 1

原创 Ray: 一个SVM范例演示多线程（an example of SVM to demonstrate multi threading）

Ray 是 UC berkley 提出的分布式机器学习。sklearn 是运行在单机上的机器学习，虽然支持多线程，但分布式并不支持。Ray 也支持 tensorflow，pytorch 和其他机器学习包. 这篇博客是先同样证明ray也是首先支持多线程的，分布式的支持我们在以后会给出范例。其实，分布式才是ray的优势。我们这里主要是学习为主，先看多线程。主要看在一台机器上，多核是否都均匀负载。1. 代码我们先用SVM的代码来演示多线程，主要是为了看看Ray的运行机制和编程方法。# 1impo

2021-04-30 11:11:42 588 3

原创 Ray 学习笔记，Linux 安装 htop

Ray 是 UC berkley 提出的分布式机器学习。sklearn 是运行在单机上的机器学习，虽然支持多线程，但分布式并不支持。Ray 也支持 tensorflow，pytorch 和其他机器学习包。要分布式学习，当然少不了讲几核的cpu，负载是否能均匀分布，那就要用命令观察cpu核的负载分布情况。笔者先前用top命令，但top命令不是交互式的，用起来不方便。有了htop，就喜欢上htop了，因为htop可以交互式的排序，搜素，过滤等等。但使用htop前，需要安装一下。本博文就是简单介绍一下安装htop

2021-04-16 16:05:35 272

原创 Ray 学习笔记，建立最新学习环境（setup tutorial environment）

Ray 是 UC berkley 提出的分布式机器学习。sklearn 是运行在单机上的机器学习，虽然支持多线程，但分布式并不支持。Ray 也支持 tensorflow，pytorch 和其他机器学习包。本博客是帮助初学者建立学习环境，依据的博文是3个，1个是英文版的官方建立环境的材料https://github.com/anyscale/academy，2）是笔者在国内自己建立环境所遇到的问题及其解决方案的博客，3）安装和建立jupyter工具，这样初学者可以少走弯路。1. 前提条件笔者的ce.

2021-04-15 15:21:22 530 1

转载 Ray, 为建立集群作准备, ssh登入免密码输入

Ray 是 UC berkley 提出的分布式机器学习。sklearn 是运行在单机上的机器学习，虽然支持多线程，但分布式并不支持。Ray 也支持 tensorflow，pytorch 和其他机器学习包。本文是建立Ray 集群的先前步骤的博文，是在Linux下，怎样ssh登入免密码输入。本文主要命令来自upload的原文。建立Ray集群，那么ray的版本和python版本最好在head 和 worker 机器里一致。然后，各机器之间，ssh登入能互相免密码输入。本文会介绍head 到 worker之间的

2021-04-09 13:56:17 345

原创安装 Jupyter 开发工具

Jupyter 是python交互式编辑器，即执行一行代码，就立刻显示结果。非常直观，是机器学习的专业人士不可少的工具。本文档介绍 Jupyter的一步一步安装，从一台刚创建的虚拟机开始。1. 版本和环境本文档写于2021年4月2日，用的是centOS 8.1 版本。4核 8Gb内存。用的Anaconda安装包是 Anaconda3-2020.11-Linux-x86_64.sh，anaconda是python开发环境管理软件，可以从https://www.anaconda.com/下载个人版本

2021-04-02 14:24:24 1725

空空如也

空空如也