自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(268)
  • 资源 (2)
  • 收藏
  • 关注

原创 采用Seq2SeqTrainer实现文本摘要

这里采用了商城评论作为训练数据,采用csv构建训练数据集train.csv,示例如下:1,很差的一款鞋,不要买!鞋底太硬,没有中底,所以没有缓震或支撑。,质量问题同样方式构建test.csv数据集。

2024-03-19 11:29:48 385

原创 OSError: We couldn‘t connect to ‘https://huggingface.co‘ to load this file

想折腾bert的同学,应该也遇到这个问题。

2024-03-18 12:37:35 2015 2

原创 CpmTokenizer requires the SentencePiece library but it was not found in your environment.

读懂英文,问题归类,探究多一点点,理清部分脉络。

2024-03-15 11:58:29 948

原创 Huggingface中Transformer模型使用

2、如何培养模型的学习能力?自然语言处理就像我们读书一样,要训练它的阅读能力、学习能力、理解能力,给出的是一系列阅读材料,然后想办法让它理解语言,不仅仅是一个分类的专项技能,这里就涉及到注意力机制了。1、自然语言处理究竟要做一件什么事呢?自然语言处理最终解决的是分类问题,但是它不仅仅输出一个分类的预测结果,关键的在于构建一个聪明的模型,不光能学习不同数据集的问题,还能处理不同类别的问题。

2024-03-11 23:22:32 475

原创 ModuleNotFoundError: No module named ‘sklearn.cross_validation‘

1、搜索引擎做第一步搜索,大部分问题网上有答案2、查看官方文档API,越是个性化问题,越要看官方文档,其实都很全3、学好英语,越是往深里看技术,国外资源越强大。

2024-03-08 10:44:47 601

原创 python词嵌入

自然语言处理的突破在2023年震撼世界,chatgpt3出来,之后chatgpt4、Gemini、Claude3等出来,问答越来越智能,非常厉害,其中有个基础性的概念,计算机要如何理解语言,基础工作就在于将词向量化,关键的概念便是词嵌入(),之前我觉得这个词读的非常绕口,想为什么不直接叫词向量?其实形成词向量的方法有很多,包括词袋模型(Bag-of-Words model)也是一种方法,而词嵌入很厉害,可以让算法自动的理解一些类似的词,也就是自监督,通过词嵌入的概念就可以方便的构建NLP应用了!

2024-03-07 12:01:52 406

原创 python文本分析与贝叶斯算法

第二个概念是TF-IDF(用来做关键词提取),TF指词频(Term Frequency),IDF(Inverse Document Frequency)指“逆文档频率”,如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性正是我们所需要的关键词。文本分析中第一个概念是停用词,这种词有三个特点:(1)语料中大量出现;@#)、语气词(啊、一个、一下)等。这类词找出来之后就可以剔除。

2024-03-05 11:36:08 370 2

原创 pytorch初探

对于pycharn,设置和anaconda一样的环境,有个办法,用env/pytorch下面的python就可以保持环境的一致性。先准备安装Anaconda,环境用的3.7版本的。创建pytorch环境之后启用pytorch环境。这里也补充下安装gpu版本的pytorch,把版本号删了,随他下!下一步,安装pytorch。

2023-03-28 18:21:25 555

原创 Collecting package metadata (current_repodata.json): failed

看懂英文,对症下药。

2023-02-22 17:12:17 13800 9

原创 spark技术特点

spark技术要点分析,借鉴意义思考

2022-12-07 12:36:38 1199

原创 从日本动漫看项目管理

翻了下自己常看的电影、电视剧,发现动漫至少占了1/3,很神奇,从小看的火影忍者,到现在什么鬼灭之刃、一拳超人、进击的巨人,看了不少优秀的作品。那么为什么日本会有动漫,日本动漫为啥这么强?一、为什么日本会有动漫?日本最早的动画电影,是在外国文化的影响下发展起来的,也是从舶来品发展成为支柱产业。1914年,一部短篇动画电影从英国传入日本,从此,各个国家的动画作品也开始被陆续引进日本。实际上,早在1892年,法国艺术家雷纳德用五百张手绘稿创作了电影「可怜的比埃洛」,这是人类历史上最早的动画。讲述了

2022-03-20 14:36:43 899

原创 redis主从复制及哨兵机制

为了保证高可用,redis也有一套集群机制。1、主从复制操作复制的作用是把redis的数据库复制多个副本部署在不同的服务器上,如果其中一台服务器出现故障,也能快速迁移到其他服务器上提供服务。 复制功能可以实现当一台redis服务器的数据更新后,自动将新的数据同步到其他服务器上主从复制就是我们常见的master/slave模式, 主数据库可以进行读写操作,当写操作导致数据发生变化时会...

2022-03-06 11:30:28 219

原创 数据治理认证系列——DAMA之CDGP认证攻略

数字化方兴未艾,听了华为老师《华为数字化转型必修课》其实还有点懵,反倒是现场感受华为王强老师讲的数据治理,有点津津有味,华为自己也说过他们东学一点,西学一点,其中学的体系的东东就有DAMA,所以我我觉得这套体系也有其过人之处。有空也想写写其他数据治理的东东,把这个CDGP系列先给写完。...

2022-03-05 10:54:54 4180 4

原创 数据治理认证系列——CDGP介绍、报名事项

一、简介CDGP是“数据治理专家” (Certified Data Governance Professional简称CDGP)认证的考试,统计说通过率只有36%,有点偏低。报考条件限制学历和工作经验:二、考试题型CDGP总分100,60分及格,考三种题目,单选、多选和混答题,10道单选,15道多选,6道混答题。单选有点像CDGA的考题,有空再来分享CDGA的考试,多选要难一点,混答题考5道论述,1道设计题,要记一记,大部分内容都出自书上,就是那本厚厚的《DMBOK2》。大概这么分布:

2022-03-03 23:38:47 2835 1

原创 准备写DAMA数据治理

好啦,又要开始动笔啦,准备写一写DAMA这一套的东东

2022-02-28 00:03:29 337

原创 Redis为什么是单线程的?Redis性能为什么很快?

Redis采用了一种非常简单的做法,单线程来处理来自所有客户端的并发请求,Redis把任务封闭在一个线程中从而避免了线程安全问题;redis为什么是单线程?官方的解释是,CPU并不是Redis的瓶颈所在,Redis的瓶颈主要在机器的内存和网络的带宽。那么Redis能不能处理高并发请求呢?当然是可以的,至于怎么实现的,我们来具体了解一下。 【注意并发不等于并行,并发性I/O流,意味着能够让一个计...

2020-01-30 19:45:16 380

原创 redis的数据结构小结

目录1,string类型2,list类型3,hash类型dictEntrydicthtdict4,集合类型skiplist与平衡树、哈希表的比较redis可以存储五种数据结构:String(字符串)、List(列表)、Set(集合)、Hash(哈希)、Zset(有序集合)。del、type、rename等命令是通用的,另外,注意一点,这些结构都是一个key-数据...

2020-01-28 14:54:51 633

原创 java并发5——synchronized和volatile关键字

一,synchronized以虚拟的叫号系统为例采用并发程序叫号时会出现跳号、重号、超过最大值等现象。参照JMM模型,https://blog.csdn.net/qq_22059611/article/details/95211836可知由于工作空间数据对其他线程不可见、且叫好操作不为原子操作,所以会产生这类问题。为了解决这个问题,引入了锁的概念,在一个线程对共享数据进行操...

2019-12-03 16:51:50 184

原创 设计模式笔记24——职责链模式(responsibilitychain)

学校OA系统的采购审批项目: 需求是1) 采购员采购教学器材2) 如果金额 小于等于5000, 由教学主任审批 (0<=x<=5000)3) 如果金额 小于等于10000, 由院长审批 (5000<x<=10000)4) 如果金额 小于等于30000, 由副校长审批 (10000<x<=30000)5) 如果金额 超过30000以上,有校长审...

2019-11-29 17:52:34 297

原创 设计模式笔记23——策略模式(strategy)

编写鸭子项目,具体要求如下:1) 有各种鸭子(比如 野鸭、北京鸭、水鸭等, 鸭子有各种行为,比如 叫、飞行等)2) 显示鸭子的信息传统方案解:所有鸭子集成自 Duck传统的方式实现的问题分析和解决方案1) 其它鸭子,都继承了Duck类,所以fly让所有子类都会飞了,这是不正确的2) 上面说的1 的问题,其实是继承带来的问题: 对类的局部改动,尤其...

2019-11-29 17:41:42 258

原创 设计模式笔记22——状态模式(state)

APP抽奖活动问题请编写程序完成APP抽奖活动 具体要求如下:1) 假如每参加一次这个活动要扣除用户50积分,中奖概率是10%2) 奖品数量固定,抽完就不能抽奖3) 活动有四个状态: 可以抽奖、不能抽奖、发放奖品和奖品领完4) 活动的四个状态转换关系图基本介绍1) 状态模式(State Pattern):它主要用来解决对象在多种状态转换时,需要对外输出不同的...

2019-11-29 10:46:05 162

原创 设计模式笔记21——解释器模式(interpreter)

四则运算问题通过解释器模式来实现四则运算,如计算a+b-c的值,具体要求1) 先输入表达式的形式,比如 a+b+c-d+e, 要求表达式的字母不能重复2) 在分别输入a ,b, c, d, e 的值3) 最后求出结果:传统方案解决四则运算问题分析1) 编写一个方法,接收表达式的形式,然后根据用户输入的数值进行解析,得到结果2) 问题分析:如果加入新的运算符,...

2019-11-29 10:13:29 497

原创 设计模式笔记20——备忘录模式(memento)

游戏角色状态恢复问题游戏角色有攻击力和防御力,在大战Boss前保存自身的状态(攻击力和防御力), 当大战Boss后攻击力和防御力下降, 从备忘录对象恢复到大战前的状态传统的方式的问题分析1) 一个对象,就对应一个保存对象状态的对象, 这样当我们游戏的对象很多时,不利于管理,开销也很大.2) 传统的方式是简单地做备份, new出另外一个对象出来,再把需要备份的数据放到这个新对象...

2019-11-28 17:29:50 131

原创 设计模式笔记19——中介者模式(mediator)

智能家庭项目:1) 智能家庭包括各种设备,闹钟、咖啡机、电视机、窗帘 等2) 主人要看电视时,各个设备可以协同工作,自动完成看电视的准备工作,比如流程为:闹铃响起->咖啡机开始做咖啡->窗帘自动落下->电视机开始播放传统的方式的问题分析1) 当各电器对象有多种状态改变时,相互之间的调用关系会比较复杂2) 各个电器对象彼此联系,你中有我,我中有你,不...

2019-11-28 16:52:58 245

原创 设计模式笔记18——观察者模式(observer)

天气预报项目需求,具体要求如下:1) 气象站可以将每天测量到的温度,湿度,气压等等以公告的形式发布出去(比如发布到自己的网站或第三方)。2) 需要设计开放型API,便于其他第三方也能接入气象站获取数据。3) 提供温度、气压和湿度的接口4) 测量数据更新时,要能实时的通知给第三方天气预报设计方案1-普通方案WeatherData类通过对气象站项目的分析,我们可以初步...

2019-11-27 10:01:00 192

原创 设计模式笔记17——迭代器模式(iterator)

编写程序展示一个学校院系结构:需求是这样,要在一个页面中展示出学校的院系组成,一个学校有多个学院,一个学院有多个系。基本介绍1) 迭代器模式(Iterator Pattern)是常用的设计模式,属于行为型模式2) 如果我们的集合元素是用不同的方式实现的,有数组,还有java的集合类,或者还有其他方式,当客户端要遍历这些集合元素的时候就要使用多种遍历方式,而且还会暴露元素的内部结构...

2019-11-27 09:20:19 237

原创 设计模式笔记16——访问者模式(visitor)

完成测评系统需求1) 将观众分为男人和女人,对歌手进行测评,当看完某个歌手表演后,得到他们对该歌手不同的评价(评价 有不同的种类,比如 成功、失败 等)传统方式的问题分析1) 如果系统比较小,还是ok的,但是考虑系统增加越来越多新的功能时,对代码改动较大,违反了ocp原则, 不利于维护2) 扩展性不好,比如 增加了 新的人员类型,或者管理方法,都不好做3) 引出我们...

2019-11-26 10:25:29 178

原创 设计模式笔记15——命令模式(command)

智能生活项目需求1) 我们买了一套智能家电,有照明灯、风扇、冰箱、洗衣机,我们只要在手机上安装app就可以控制对这些家电工作。2) 这些智能家电来自不同的厂家,我们不想针对每一种家电都安装一个App,分别控制,我们希望只要一个app就可以控制全部智能家电。3) 要实现一个app控制所有智能家电的需要,则每个智能家电厂家都要提供一个统一的接口给app调用,这时 就可以考虑使用命令模式。4) ...

2019-11-26 09:52:14 329

原创 设计模式笔记14——模板方法(template)

豆浆制作问题编写制作豆浆的程序,说明如下:1) 制作豆浆的流程 选材--->添加配料--->浸泡--->放到豆浆机打碎2) 通过添加不同的配料,可以制作出不同口味的豆浆3) 选材、浸泡和放到豆浆机打碎这几个步骤对于制作每种口味的豆浆都是一样的4) 请使用 模板方法模式 完成 (说明:因为模板方法模式,比较简单,很容易就想到这个方案,因此就直接使用,不再使用传统...

2019-11-26 09:21:24 235

原创 设计模式笔记13——代理模式(proxy)

代理模式(Proxy)1) 代理模式:为一个对象提供一个替身,以控制对这个对象的访问。即通过代理对象访问目标对象.这样做的好处是:可以在目标对象实现的基础上,增强额外的功能操作,即扩展目标对象的功能。2) 被代理的对象可以是远程对象、创建开销大的对象或需要安全控制的对象3) 代理模式有不同的形式, 主要有三种 静态代理、动态代理 (JDK代理、接口代理)和 Cglib代理 (可以在内存...

2019-11-25 17:01:27 188

原创 设计模式笔记12——享元模式(Flyweight)

展示网站项目需求小型的外包项目,给客户A做一个产品展示网站,客户A的朋友感觉效果不错,也希望做这样的产品展示网站,但是要求都有些不同:1) 有客户要求以新闻的形式发布2) 有客户人要求以博客的形式发布3) 有客户希望以微信公众号的形式发布传统方案解决网站展现项目1) 直接复制粘贴一份,然后根据客户不同要求,进行定制修改2) 给每个网站租用一个空间3) 方案设计...

2019-11-25 16:31:13 161

原创 设计模式11——外观模式(facade)

外观模式基本介绍1) 外观模式(Facade),也叫“过程模式:外观模式为子系统中的一组接口提供一个一致的界面,此模式定义了一个高层接口,这个接口使得这一子系统更加容易使用2) 外观模式通过定义一个一致的接口,用以屏蔽内部子系统的细节,使得调用端只需跟这个接口发生调用,而无需关心这个子系统的内部细节外观模式的原理类图原理类图的说明(外观模式的角色)1) 外观类(Fac...

2019-11-25 10:43:02 186

原创 设计模式10——组合模式(composite)

看一个学校院系展示需求编写程序展示一个学校院系结构:需求是这样,要在一个页面中展示出学校的院系组成,一个学校有多个学院,一个学院有多个系。如图:传统解决方案——以继承实现层级关系1,传统方案解决学校院系展示存在的问题分析1) 将学院看做是学校的子类,系是学院的子类,这样实际上是站在组织大小来进行分层次的2) 实际上我们的要求是 :在一个页面中展示出学校的院系组...

2019-11-24 11:26:47 252

原创 设计模式9——装饰者模式(decorator)

星巴克咖啡订单项目(咖啡馆):1) 咖啡种类/单品咖啡:Espresso(意大利浓咖啡)、ShortBlack、LongBlack(美式咖啡)、Decaf(无因咖啡)2) 调料:Milk、Soy(豆浆)、Chocolate3) 要求在扩展新的咖啡种类时,具有良好的扩展性、改动方便、维护方便4) 使用OO的来计算不同种类咖啡的费用: 客户可以点单品咖啡,也可以单品咖啡+调料组合。...

2019-11-21 16:05:42 138

原创 设计模式8——桥接模式(bridge)

现在对不同手机类型的不同品牌实现操作编程(比如:开机、关机、上网,打电话等),如图:传统方案解决手机使用问题(类图):1,传统方案解决手机操作问题分析1) 扩展性问题(类爆炸),如果我们再增加手机的样式(旋转式),就需要增加各个品牌手机的类,同样如果我们增加一个手机品牌,也要在各个手机样式类下增加。2) 违反了单一职责原则,当我们增加手机样式时,要同时增加所有品牌的手机,这...

2019-11-21 11:08:33 343

原创 设计模式笔记7——适配器模式(adapter)

适配器模式就像转接口1,适配器模式基本介绍1) 适配器模式(Adapter Pattern)将某个类的接口转换成客户端期望的另一个接口表示,主的目的是兼容性,让原本因接口不匹配不能一起工作的两个类可以协同工作。其别名为包装器(Wrapper)2) 适配器模式属于结构型模式3) 主要分为三类:类适配器模式、对象适配器模式、接口适配器模式2,适配器模式工作原理1...

2019-11-19 08:59:25 172

原创 区块链原理分析——区块链数据结构

为了实现数据的不可篡改性,区块链引入了以区块为单位的链式结构。这一篇博客主要讲解区块链如何通过数据结构实现不可篡改性和可追溯性。 以比特币为例,区块头的结构如图所示: 区块链基于两种数据结构来保证数据的不可篡改性——Merkle树和区块链表。 (1)Merkle树。比特币采用了最简单的二叉Merkle树,树上的每个节点都是哈希值,每个叶子节点对应块内一笔交...

2019-11-18 17:05:36 2398 4

原创 设计模式6——建造者模式(builder)

1,盖房项目需求盖房项目需求1) 需要建房子:这一过程为打桩、砌墙、封顶2) 房子有各种各样的,比如普通房,高楼,别墅,各种房子的过程虽然一样,但是要求不要相同的.3) 请编写程序,完成需求.传统方式解决盖房需求public abstract class AbstractHouse { //打地基 public abstract void bui...

2019-11-18 10:30:14 604

原创 区块链原理分析——区块链体系架构

区块链平台虽然各有不同,但是整体架构上存在着许多共性,整体上可以划分为5个层次——网络层、共识层、数据层、智能合约层和应用层五个层次。如下图所示: 一、网络层 早在2001年,就有提出将P2P技术与数据库系统进行联合研究的想法,但是不能适应网络变化而查询到完整的结果集,因而不能适用企业级应用。而基于P2P的区块链则可实现数字资产交易类的金...

2019-11-16 12:50:29 2200

原创 设计模式5——原型模式(prototype)

1,克隆羊问题现在有一只羊tom,姓名为: tom, 年龄为:1,颜色为:白色,请编写程序创建和tom羊 属性完全相同的10只羊。1.1传统方式解决克隆羊问题对于Sheep.java:public class Sheep { private String name; private int age; private String color; publ...

2019-11-13 11:30:55 253

chrome插件vue_develtool

chrome下的vue调试插件,方便进行vue的调试,该文件是通过导入的方式下载,安装和使用方式参考博主的《vue学习笔记2》

2018-12-03

《梦断代码》

一本关于编程思想的好书,可以作为入门读物或者课外拓展,用高手的思想指导编程。

2014-10-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除