自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 资源 (13)
  • 收藏
  • 关注

原创 CasaOS: 一款基于 Docker 生态的开源云系统,打造属于你的智能家庭操作系统

CasaOS 不仅是一个强大的家庭自动化工具,更是一种全新的智能家居体验。它能够帮助用户轻松搭建起自己的家庭云环境,实现文件共享、媒体播放、智能家居控制等多种功能。无论是对于普通家庭用户还是技术爱好者,CasaOS都能为你带来全新的家庭云生活体验。

2024-03-29 18:52:59 1070

原创 Java:PDF图片抽取的两种方法

PDF中的图片分为两种,一种是传统意义上的图片,可以直接进行抽取;另一种是各种图形的组合,这种图片不能够直接进行抽取。

2024-03-01 17:01:15 629

原创 OpenCV从入门到精通

OpenCV是一个开源计算机视觉库,提供了丰富的图像处理和计算机规觉算法。它支持多种编程语言,包括Java本文将介绍如何在Java中使用OpenCV进行图像处理和计算机视觉任务。

2024-01-31 19:22:58 1066

原创 Spring boot:3.X + Security OAuth2 自定义登录页面、登出后跳转到登录页

本文描述了基于 Spring Oauth2 的 code 模式,实现登陆同时授权、自定义登录界面、登出页面的功能。在spring boot工程的application.yml配置文件中登录页面需要符合thymeleaf格式,不符合格式的不支持,在resources 目录下新建singleSign目录,在此目录下新建login.html(文件名不能乱命名,要跟下面的Controller、WebSecurity 相对应) 文件如下:4.登陆界面Controller5.WebSecurity 配置

2023-12-29 18:13:07 1668 1

原创 单点登录平台设计

指定客户端支持的grant_type,可选值包括authorization_code,urn:ietf:params:oauth:grant-type:device_code,refresh_token, urn:ietf:params:oauth:grant-type:jwt-bearer,client_credentials, 若支持多个grant_type用逗号(,)分隔,如: "authorization_code,refresh_token".认证支持的方式,多个由逗号分隔;

2023-11-30 14:07:04 179

原创 Java:视频按帧进行截图

主要介绍了Java获取视频时长,并按照时间或者帧进行截图,希望对大家的学习有所帮助!

2023-10-31 15:49:14 339

原创 用户画像浅析

用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。

2023-09-28 15:00:02 184

原创 Linux:Jupyterhub多用户远程登录安装、使用经验

一般安装都是参考官方最新版安装文档。

2023-08-31 15:33:11 2054 2

原创 开源中文分词Ansj的简单使用

​ANSJ是由孙健(ansjsun)开源的一个中文分词器,为ICTLAS的Java版本,也采用了Bigram + HMM分词模型:在Bigram分词的基础上,识别未登录词,以提高分词准确度。

2023-07-31 19:25:47 2732

原创 JAVA:POI设置EXCEL单元格格式

本文将介绍POI Excel for Java的格式设置基本用法,包括:单元格样式设置、值设置(文本、小数、百分比、货币、日期、科学计数法和中文大写等)。

2023-06-30 18:13:28 10586

原创 国内主流AI大模型盘点

今年年初,轰动科技圈的大事就是ChatGPT的面世,它的到来打响了AI智能时代的第一枪,同时展开了一场别开生面的智能科技革命。随着ChatGPT迅速走红,国内各大企业纷纷发力认知大模型领域。经过一段时间的酝酿,国内的AI领域也开启了“内卷”模式,各种大模型纷纷出现在大众眼前,包括科大讯飞、百度、阿里巴巴、360等企业,快速点燃国内科技圈的热情。

2023-05-31 15:33:25 5753

原创 Linux服务器Anaconda版本安装JupyterLab

在Linux服务器上安装JupyterLab并可在远程访问!

2023-04-23 15:46:32 1492 1

原创 HBase使用教程

HBase常用的查看数据方式有scan和get,get是一种特殊的scan,get是scan的startRow和endRow等于同一个值的特殊情况。HBase的RowKey 是按照B+树的形式存放的,所以查找一个具体的RowKey 速度是非常快的,所以查询数据的时候一般都会设置scan的startRow和endRow,这样可以缩小查找的范围,所以RowKey 的设计在HBase里面是极为重要的。

2023-03-31 19:08:25 1098

原创 ChatGPT到底是个啥?简析ChatGPT!

ChatGPT (Chat Generative Pre-trained Transformer ) 是由OpenAI开发的一个人工智能聊天机器人程序,于2022年11月推出。该程序使用基于GPT-3.5架构的大型语言模型,并通过大量文本数据的强化学习训练,可以生成高质量的文本对话。它的训练数据来自互联网上的大量文本,因此它能够回答各种各样的问题,以及生成各种类型的文本,例如说明、文章和对话。

2023-03-01 16:10:15 7243

原创 蒙特卡洛算法详解

蒙特卡洛方法也称为 计算机随机模拟方法,它源于世界著名的赌城——摩纳哥的Monte Carlo(蒙特卡洛)。它是基于对大量事件的统计结果来实现一些确定性问题的计算。其实质就是将问题转化为一个概率问题,并用计算机模拟产生一堆随机数,再对随机数进行统计工作。

2023-01-31 18:51:05 6553

原创 关键词的提取方法

为了方便用户快速了解文章的中心主题,会抽取文章的一些中心词来表达文章的中心思想。关键词抽取就是通过一定的方法抽取出能表达文章的中心主题的一系列方法。

2022-12-30 17:50:58 6599

原创 Linux服务器上Neo4j的安装、迁移

neo4j版本:neo4j-community-3.5.6。

2022-12-02 18:20:36 5167

原创 元数据简析:定义及管理

元数据是用来描述数据的数据。它可理解为比一般意义的数据范畴更加广泛的数据,不再仅仅表示数据的类型、名称、值等信息,它可以进一步提供数据的上下文描述信息,比如数据的所属域、取值范围、数据间的关系、业务规则,甚至是数据的来源。元数据可以帮助DW管理员和DW开发人员非常方便地找到他们所关心的数据。元数据相当于数据的DNA,它可以告诉你,有用的数据在哪里,能提供一份数据结构定义和元素的详细示意图,数据来龙去脉、关系,使应用开发过程更有效,提供数据的参照性、引用性、血缘分析、影响分析、变化分析……

2022-11-01 17:54:20 1102

原创 Java:使用Itext读取pdf文本

本文以Java示例展示使用Itext读取pdf文本的方法。

2022-09-30 18:27:48 5792 1

原创 Ffmpeg入门级教程(Java代码开发)

FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的音频/视频编解码库libavcodec,为了保证高可移植性和编解码质量,libavcodec里很多code都是从头开发的。FFmpeg在Linux平台下开发,但它同样也可以在其它操作系统环境中编译运行,包括Windows、Mac OS X等。......

2022-08-31 17:47:50 12642 3

原创 JAVA:代码实现zip压缩

主要介绍了Java实现把文件及文件夹压缩成zip。文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考价值,需要的朋友可以参考下。

2022-07-29 18:12:48 18095 3

原创 Java:Excel写入“合并单元格“

本文以Java示例展示Excel中的写入“合并单元格”的方法。

2022-06-30 20:05:43 2812

原创 Java csv文件的读取和写入,拒绝中文乱码

实际工作中,很多数据都存在csv文件中,使用 java语言开发的时候,有的时候需要读取文件,或者将csv文件导入到数据库中,commons-csv作为三方类库,简化了读取操作!

2022-06-03 23:29:40 4812

原创 Java读取Excel中的合并单元格

本文以Java示例展示读取Excel中的合并单元格的方法。1、Maven仓库下载导入在pom.xml中配置maven路径,指定依赖,如下:<dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <version>4.1.1</version></dependency>&lt.

2022-05-03 17:27:20 5734

原创 Java的PDF分页操作:分页读取、分页拆分

本文以Java示例展示读取PDF分页读取、分页拆分的方法。

2022-04-02 17:17:49 5319

原创 Java 读取PDF中表格的工具

目录1、方法1:Spire.PDF1.1 Maven仓库下载导入1.2 读取PDF中的表格1.2.1 代码1.2.2 表格内容​1.2.3 读取结果2、方法2:Tabula2.1 Maven仓库下载导入2.2 读取PDF中的表格2.2.1 代码2.2.2 表格内容2.2.3 抽取结果3、终极大杀器:pdfbox3.1 Maven仓库下载导入3.2 读取PDF中的表格3.2.1 代码3.2.2 表格内容3.2.3 抽取结果4、总结.

2022-02-28 19:18:42 9538 14

原创 深入浅出理解决策树算法

1.定义决策树(decision tree)是一种机器学习的方法。决策树的生成算法有ID3, C4.5等。决策树是一种树形结构,其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。总结来说:决策树模型核心是下面几部分:结点和有向边组成 结点有内部结点和叶结点俩种类型 内部结点表示一

2022-02-07 18:15:04 781

原创 RabbitMQ的Java调用实战

本文将介绍RabbitMQ的Java调用代码!

2021-12-31 15:40:55 606

原创 Linux CentOS 7+ 下RabbitMQ的安装与配置

1. 系统环境1.1.系统版本CentOS Linux release:7.9.2009 (Core)64位 RabbitMQ:3.9.8-1.el7 Erlang:23.2 JDK:1.8+1.2.关闭防火墙和Selinux Linux的防火墙是新手的噩梦,很多情况会出现能ping通,但是访问不了Web页面,所以开始就干掉它:systemctl stop firewalld.service2.依赖环境Erlang的下载和安装由于RabbitMQ依赖Erl...

2021-10-29 15:49:53 962

原创 浅析消息队列之RabbitMQ

市面上的消息队列产品有很多,比如RabbitMQ、Kafka、 ZeroMQ,以及阿里巴巴的RocketMQ等 ,这块知名的产品就有十几种,就我自己的使用经验和兴趣,本文只打算谈谈RabbitMQ ,在此之前先看下消息队列的相关概念。1.消息队列1.1.定义消息(Message)是指在应用间传送的数据。消息可以非常简单,比如只包含文本字符串,也可以更复杂,可能包含嵌入对象。消息队列(Message Queue,MQ)是一种应用间的通信方式,消息发送后可以立即返回,由消息系统来确保消息的可靠传

2021-10-28 17:39:40 1048

原创 深入浅出KNN算法及其Java实现

1.KNN算法可以说,KNN是最简单的分类算法之一,也是最常用的分类算法之一,KNN算法是有监督学习中的分类算法。1.1.算法简述KNN的全称是K Nearest Neighbors,意思是K个最近的邻居,从这个名字我们就能看出:K的取值肯定是至关重要的。KNN的原理就是当预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断x属于哪个类别。听起来有点绕,还是举例说明:图中绿色的点就是我们要预测的那个点,假设K=3。那么KNN算法就会找到与它距离最近的三个点(这里用圆圈

2021-09-30 18:59:19 1002 1

原创 ElasticSearch:Aggregation聚合查询的入门与进阶

目录桶(Buckets)指标(Metrics)将两者结合起来——聚合常见的聚合查询聚合查询的使用1、简单的词频统计2、数据按时间划分3、数据按某个字段进行聚合后,再按时间排序为了掌握聚合,要先了解两个主要概念:Buckets(桶):满足某个条件的文档集合。Metrics(指标):为某个桶中的文档计算得到的统计信息。就是这样!每个聚合只是简单地由一个或者多个桶,零个或者多个指标组合而成。可以将它粗略地转换为SQL:SELECT COUNT(field) F

2021-08-31 20:01:34 7302 4

原创 语义处理工具:语义版Jaccard相似度

目录1、原生态Jaccard1.1定义1.2引申-Jaccard距离1.3应用2、语义版Jaccard2.1诞生2.2公式2.3示例2.3.1分子(即:语义相似性部分)如何计算:2.3.2分母如何计算2.3.3阈值参数调节方法2.4结语在做自然语言处理的过程中,文本相似在有很重要的应用,我们经常会遇到需要找出相似语句的场景,这时候就需要把类似的句子归到一起,这里面就涉及到句子相似度计算的问题。本节介绍 基于Jaccard相似度来进行语义相似度计算。...

2021-07-30 19:19:27 2103

原创 关于杂质过滤的一点研究

1、问题描述通过爬虫采集的网上内容中包含大量的无用信息(杂质),需要通过计算机自动过滤这些无用杂质,保留真正有用的内容,过滤本身是一个类别判断即分类的过程。

2021-05-28 17:20:52 382 1

原创 标签打分规则

标签都是一些短文本,计算机无法直接使用,需将标签转化为计算机可识别的语言,对所有标签进行归一化计算,这就涉及到了标签的打分机制。一般,标签打分规则主要考虑因素如下:内容权重限定打分范围。标签内容本身的都有一个自带权重,用户浏览、搜索、收藏、下单、购买等不同行为对用户而言有着不同的重要性,该权重值一般由运营人员或业务来决定,并且取值要有一个固定区间,不能随意变化。 时间衰减因子。一般情况下,用户的某个行为对用户画像的影响会随着时间进行衰减,考虑采用牛顿冷却定律。例如:某个某用户5个月前浏览了某款珠宝

2021-04-30 18:40:55 1084 1

原创 java判断新闻发生地域

最近工作遇到一个问题,需要判断新闻发生的地域是否与上海有关。1、准备工作:首先,收集上海所有的行政区划(市、区、镇、街道、居委会、地标物(风景区、大学、公园等));其次,收集全国的行政区划(市、区、镇、街道);2、判断逻辑:新闻标题中出现“上海”二字的,肯定有“上海”有关,可直接判断为新闻发生地域与上海有关; 若标题中未出现上海,但出现了其他省市区的地名,可直接判断为新闻发生地域与上海无关; 如果标题无法判断,则进入下一步:利用文章正文进行判断,采用统计地名出现次数的方式; 统计文

2021-03-31 18:26:52 121

原创 Java:求两个字符串的所有公共子串

要求:求两个字符串的所有公共子串,如“abcdefgad”和“adefgwgewegad”的公共子串为“defg”、“ad”(子串必须是连续不重合的且长度大于1)求两个字符串的所有公共子串方法一:对于较短的那个字符串,假设其长度为n,依次找到它的长度为n, n-1, n-2....1的若干的子串; 若另外那个较长的字符串包含了较短字符串的某个子串,则找到了二者的最长公共子串; 将两个字符串都剔除掉最长公共子串,然后再寻找下一个最长公共子串; /** * 获取两个字符串中所有相

2021-02-26 16:14:47 4256 1

原创 短文本相似度:编辑距离算法及其应用

最近因为在做短文本字符串相似度比较的事情,重温了一下编辑距离算法及其应用。一、概念:编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。例如将kitten一字转成sitting:kitten(k→s) sitten(e→i) sittin(+g) sitting俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念。二、算法:问题

2021-01-30 11:26:22 487

原创 微信公众号官方API开发之配置服务器

最近进行微信官方API开发,需要知道用户的openid,以及需要扫码传参数,需要进行服务器配置。1、服务器配置微信公众号要开通开发者模式,然后在最左下角 开发->基本配置->服务器配置 里面进行配置,页面如下:AppID:是微信公众号的唯一标识,通过和AppSecret进行验证。URL:开发服务器的路径(你要接收微信官方返回信息的接口地址,用来接收微信服务器发送的数据,需外网)Token:自设定的token(可随意设置,后面进行URL接口联调验证时会用到,要保持一致.

2020-12-31 15:40:14 715

原创 Opencv读取图像报错error: (-215:Assertion failed),是路径原因

问题描述:复现一个实例时,一直出现了cv2.error error:… (-215:Assertion failed),开始怀疑是环境问题,然而排查下来和环境没有关系,这个是因为你在读取图像的路径的时候,路径写错了,修改就好了Exception in thread “main” CvException [org.opencv.core.CvException: cv::Exception: OpenCV(3.4.2) c:\build\3_4_winpack-bindings-win64-vc14-s

2020-12-10 17:12:16 7729 1

win10 64位安装ffmpeg的免安装ZIP包

最新版请到ffmpeg官网https://ffmpeg.org/download.html 直接下载安装包,本文件包是一个ZIP包,解压直接可用,亲测。解压完成后,别忘记配置环境变量。 FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的音频/视频编解码库libavcodec,为了保证高可移植性和编解码质量,libavcodec里很多code都是从头开发的。 FFmpeg在Linux平台下开发,但它同样也可以在其它操作系统环境中编译运行,包括Windows、Mac OS X等。这个项目最早由Fabrice Bellard发起,2004年至2015年间由Michael Niedermayer主要负责维护。许多FFmpeg的开发人员都来自MPlayer项目,而且当前FFmpeg也是放在MPlayer项目组的服务器上。项目的名称来自MPEG视频编码标准,前面的"FF"代表"Fast Forward"。FFmpeg编码库可以使用GPU加速。

2022-08-31

最全全国各省市区行政区划

全国各省市区行政区划,精确到村镇街道

2022-07-01

上海街道/镇行政区划-2021

上海街道/镇行政区划

2022-07-01

IT行业词库-nlp/自然语言处理

IT行业-计算机行业-互联网行业词库-nlp/自然语言处理

2022-02-15

法律行业词库-nlp/自然语言处理

行业词库-nlp/自然语言处理

2022-02-15

医药行业词库-nlp/自然语言处理

医药行业词库-nlp/自然语言处理

2022-02-15

旅游行业词库-nlp/自然语言处理

旅游行业词库-nlp/自然语言处理

2022-02-15

体育行业词库-nlp/自然语言处理

体育行业词库-nlp/自然语言处理

2022-02-15

奢侈品行业词库-nlp/自然语言处理

奢侈品行业词库-nlp/自然语言处理

2022-02-15

财经行业词库-nlp/自然语言处理

财经行业词库-nlp/自然语言处理

2022-02-15

服装行业词库-nlp/自然语言处理

服装行业词库-nlp/自然语言处理

2022-02-15

汽车行业词库-nlp/自然语言处理

汽车行业词库-nlp/自然语言处理

2022-02-15

美妆行业词库,NLP分词专用

NLP、自然语言处理

2022-02-15

新浪微博应用 测试粉丝质量 源代码

新浪微博应用 测试粉丝质量 源代码

2016-04-27

Design_and_Implementation_of_WordNet中文版说明书.pdf

Design_and_Implementation_of_WordNet中文版说明书.pdf

2015-07-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除