自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(594)
  • 资源 (12)
  • 收藏
  • 关注

原创 chatgpt概述性分享:大家是如何用chatgpt的?

prompt示例相关产品Glarity一款开源浏览器插件,主要功能是利用 ChatGPT为谷歌搜索、YouTube视频等网站内容生成摘要。Wiseone。

2023-04-21 17:50:25 835

原创 chatGPT成功之道-数据

在预训练阶段,OpenAI采用了两种方法优化Common Crawl数据集的质量,参考论文。

2023-04-17 16:25:25 2813

原创 Prompt工程探索

在开源大模型LLaMA等成熟后,目前业界焦点在于:如何才能让 LLM 按照我们的要求去做,也就是prompt工程,设计产生大量prompt训练语料用于微调大模型。

2023-04-14 16:43:52 538 1

原创 简历解析中实体抽取优化方法

在招聘场景中,无论是候选人还是招聘hr都会面临上传各种格式的简历问题,为了高效的管理和使用简历数据,通常会对上传的简历进行自动解析,得到结构化的简历数据。在简历解析中通常都会使用命名实体识别技术提取简历中的关键实体,包括姓名、学校名、公司名、专业、职位等。基于深度学习模型的命名实体识别技术通常需要很多高质量的标注数据,而针对简历数据进行高质量标注是比较复杂且费时的一个过程,所以基于模型的命名实体识别技术在实际使用过程中会存在一定的问题。

2023-04-14 13:13:05 382

原创 简历信息增强

简历信息增强目标是避免HR和面试官跳出系统查询信息,而是在系统中一键查看学校和公司的相关信息。

2023-04-14 12:16:06 107

原创 探索chatGPT在hr领域应用

一些候选人的面评内容过多,新的面试官很难有耐心一一阅读,可节省面试官时间可利用chatGPT优化简历解析效果结构化schema说明简历信息提取案例,注意起止时间有按制定格式输出,提取的信息完全正确节省面试官阅读简历时间。

2023-04-14 12:03:07 1664

原创 标注经验总结

数据标注相关经验总结

2023-04-14 11:55:51 208

原创 标注规范模板

注:用于新标注任务建规范文档参考。

2023-04-14 11:48:48 118

原创 ner模型性能实验

各种ner模型预测时间性能和效果各异,这里通过实验对比分析给出选用建议

2023-04-14 11:44:37 108

原创 基于序列标注模型的主动学习实验

通过实验对比分析了各种主动学习方法在序列标注中的表现,并得出结论

2023-04-14 11:16:34 148

原创 word2vec使用总结

1.算法概述  Word2Vec是一个可以将语言中的字词转换为向量表达(Vector Respresentations)的模型,Word2vec可以将字词转为连续值的向量表达,并且其中意义相近的词将被映射到向量空间中相近的位置。其主要依赖的假设是Distributional Hypothesis,即在相同语境中出现的词其语义也相近。Word2vec主要分为CBOW(Continuous...

2018-08-02 18:01:35 1534

原创 基于词典的实体识别

ner(命名实体识别)一般是词典和模型方式结合,词典负责已有词识别,模型负责未知词识别。在不需发现未知词的情况下基于词典的实体识别已足够基于字典的ner也有两种做法:字符串多模匹配 和 切词(词典加入自定义词库)字符串多模匹配多模匹配有两种基本算法:trie树 和 记录长度集合的最长匹配trie树匹配效率更高,但占用内存更多而记录长度集合的最长匹配,计算时间效率相比trie稍...

2018-08-02 10:35:26 9998 2

原创 知识图谱研讨会(武汉大学站)笔记

演讲的议题学术界和工业界各一半,参加研讨会的人很多,以武汉高校学生为主,也有不少工业界人士,名单里看到了不少华为的,也有个别京东/百度人士,大家对知识图谱的关注度都很高目前的应用主要集中在智能问答,其它应用场景较少。下面讲一下各个课题的重点领域知识图谱落地实践中问题与对策演讲者:肖仰华 复旦大学知识工场实验室 http://kw.fudan.edu.cn [email protected]...

2018-05-03 14:43:02 2298

原创 小米工作感言

在小米工作过两年(2014-2016),简单谈一下感受成长公司牛人较多(入职考核比较苛刻),有来自谷歌,微软,腾讯,阿里,百度的大牛,而且很多是工作多年的,跟他们一起工作,学到很多东西;公司业务很多,该做的事很多,而且大部分业务快速成长中,个人机会也就很多制度文化制度扁平,没那么多臃肿制度(反例:百度会议多流程多),普通员工跟雷军的级别差4-5级没有摆在门面上的考核标准,没有职称,没有级别,但是据...

2018-03-19 18:00:09 9020 1

原创 图谱推理规则提取调研

相关算法基于路径排序学习方法(PRA,Pathranking Algorithm)思想:该方法将每种不同的关系路径作为一维特征,通过在知识图谱中统计大量的关系路径构建关系分类的特征向量,建立关系分类器进行关系抽取,绕开规则提取步骤直接推理缺点:这种基于关系的同现统计的方法,面临严重的数据稀疏问题,都是从KG到KG,而KG的知识本身就不够完善,推出来的结果只能实验室用发发paper可以基于关联规则挖...

2018-03-07 16:07:43 3852

转载 Finite State Transducer(FST)in NLP

在自然语言处理中,经常会遇到一些针对某些内容法则做出修改的操作,比如说:如果c的后面紧接x的话,则把c变为b,FST则是基于这些规则上的mathematical操作,比如说把若干个规则整合成一个single pass或mega rule,这样做呢,就可以很有效的提高rule-based system的效率。首先,先来大概的了解一下有限状态机(FSM)有限状态机呢就是一个由一堆状态(当然

2018-01-08 14:56:43 3287

转载 Github 本周最有趣的 10 款「机器学习」开源项目

Face Recognition#世界上最简单的人脸识别库本项目号称世界上最简单的人脸识别库,可使用 Python 和命令行进行调用。该库使用 dlib 顶尖的深度学习人脸识别技术构建,在户外脸部检测数据库基准(Labeled Faces in the Wild benchmark)上的准确率高达 99.38%。项目链接https://git

2018-01-03 20:25:05 980

原创 基于Datalog的知识推理

应用场景知识补全:通过推理补充图谱中还未存在的关系(边)一致性检查:新录入的知识与已有知识的冲突检查PrologProlog语言是以一阶谓词逻辑为理论基础的逻辑程序设计语言,是人工智能程序设计语言族中应用最为广泛的的一种。Prolog的基本语句有三种:事实 规则 目标事实 用来说明一个问题中已知的对象和它们之间的关系,如 妻子(姚明,叶莉) 表示 姚明 的妻子是

2017-12-29 16:03:56 6711

转载 如何成为一名对话系统工程师

对话系统(对话机器人)本质上是通过机器学习和人工智能等技术让机器理解人的语言。它包含了诸多学科方法的融合使用,是人工智能领域的一个技术集中演练营。图1给出了对话系统开发中涉及到的主要技术。对话系统技能进阶之路图1给出的诸多对话系统相关技术,从哪些渠道可以了解到呢?下面逐步给出说明。图1 对话系统技能树数学矩阵计算主要研究单

2017-12-05 17:28:05 957

转载 基于神经网络的实体识别和关系抽取联合学习

引言本文关注的任务是从无结构的文本中抽取实体以及实体之间的关系(实体 1-关系-实体 2,三元组),这里的关系是我们预定义好的关系类型,例如下图:目前有两大类方法,一种是使用流水线的方法(Pipelined Method)进行抽取:输入一个句子,首先进行命名实体识别,然后对识别出来的实体进行两两组合,再进行关系分类,最后把存在实体关系的三元组

2017-12-04 13:47:28 1194

转载 阿里智能对话交互技术实践与创新

过去 20 多年,互联网及移动互联网将人类带到了一个全新的时代,如果用一个词来总结和概括这个时代的话,「连接」这个词再合适不过。这个时代主要建立了四种连接:第一,人和商品的连接;第二,人和人的连接;第三,人和信息的连接;第四,人和设备的连接。「连接」本身不是目的,它只是为「交互」建立了通道。在人机交互(Human-Computer Interaction)中,人通过输入设备给机器输入相关信

2017-12-04 11:28:26 1958

转载 从CNN视角看在自然语言处理上的应用

1. 前言卷积神经网络(Convolutional Neural Network)最早是应用在计算机视觉当中,而如今 CNN 也早已应用于自然语言处理(Natural Language Processing)的各种任务。本文主要以 CMU CS 11-747 (Neural Networks for NLP) [1] 课程中 Convolutional Networks for Text 这一章节...

2017-11-30 15:02:46 929

转载 一文读懂自然语言处理NLP

前言自然语言处理是文本挖掘的研究领域之一,是人工智能和语言学领域的分支学科。在此领域中探讨如何处理及运用自然语言。对于自然语言处理的发展历程,可以从哲学中的经验主义和理性主义说起。基于统计的自然语言处理是哲学中的经验主义,基于规则的自然语言处理是哲学中的理性主义。在哲学领域中经验主义与理性主义的斗争一直是此消彼长,这种矛盾与斗争也反映在具体科学上,如自然

2017-11-30 09:44:32 24275

转载 揭开知识库问答KB-QA的面纱3·信息抽取篇

本期我们将介绍 KB-QA 传统方法之一的信息抽取(Information Extraction),我们以一个该方法的经典代表作为例,为大家进一步揭开知识库问答的面纱。该方法来自约翰·霍普金斯大学 Yao X, Van Durme B. 的 Information Extraction over Structured Data: Question Answering with Freebase

2017-11-30 09:25:27 1282

转载 常见面试之机器学习算法思想简单梳理

前言:  找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。  纵观IT行业的招聘岗位,机器学习之类的岗位还是挺

2017-11-16 14:15:09 744

原创 redis优缺点总结

优点:1读写性能优异2支持数据持久化,支持AOF和RDB两种持久化方式3支持主从复制,主机会自动将数据同步到从机,可以进行读写分离。4数据结构丰富:除了支持string类型的value外还支持string、hash、set、sortedset、list等数据结构。   缺点:1Redis不具备自动容错和恢复功能,主机从机的宕机都会导致前端部分

2016-04-29 14:32:58 44026 2

转载 Redis关键点(自动bgrewriteaof)

Redis 2.4版本做了很多功能改进,尤其是aof这块变动较大。增加了自动的bgrewriteaof,开启两个后台线程来避免主线程fsync、rename、close等阻塞操作,另外修复了出现重复命令进入aof文件的bug,下面是基于2.4.1的源码aof这块的改进分析。旧的版本问题主要有:1 主线程aof的每次fsync(everysecond模式)在高并发下时常出现100ms

2016-04-29 14:17:03 2206

转载 hbase二级索引

二级索引与索引Join是多数业务系统要求存储引擎提供的基本特性,RDBMS早已支持,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。这篇文章会以HBase做为对象来讨论如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary index, ITHbase, Facebook方案和官方Coprocessor的介绍。理论目标在H

2016-04-26 17:50:43 1789

转载 准确率、精确率、召回率 F1

在信息检索、分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总。准确率、召回率、F1信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全率,准确率也叫查准率,概念公式:             召回率(Recall)      =

2016-04-25 16:59:33 2636

转载 58到家通用实时消息平台架构细节

一、解决什么问题 + 难点解决什么业务问题(1)端到云的实时上报需求:58速运司机端GPS实时上报(2)云到端的实时推送需求:58速运司机订单实时推送(3)端到端的聊天消息需求:用户、商户、客服之间的聊天沟通难点:(1)APP无线环境下消息可达性(2)通用性,平台实现尽量与业务解耦二、传统解决方案与潜在不足【端

2016-04-23 14:05:57 3307

转载 阿里P8分享:关于做事方式与做事态度

阿里P8分享:关于做事方式与做事态度贴图1:贴图2:贴图3:

2016-04-22 14:28:18 5189

原创 研发管理总结

我的研发管理之路已有两年,在此总结一下经验得失 1 团队文化我觉得团队建设一般由几个过程:茫然混乱,强制规则,自觉习惯,主动创造。茫然混乱阶段,靠工程师自我素质,道德束缚,靠个人英雄完成任务,走弯路,内耗,意外事件特多,品质因人因时不同等。强制规则阶段,须先有规则,流程,但流程不能深刻执行,现团队正往该阶段努力,需要的是遵守流程,强调的是纪律,团队。自觉习惯阶段,等到流

2016-04-20 17:14:55 5591 1

原创 codis评测

一. 压测环境1台3u8机器(PHP-C3)、1台lg 3u8机器(PHP-LG):运行PHP脚本,发起codis读写请求3台3u8机器(CODIS-C3):codis集群,运行1个proxy实例、2组redis(每组1主2从),proxy与redis混部 二. 压测方式1. 在PHP-C3、PHP-LG机器起多个PHP进程,以模拟并发请求;2. 每个PHP进程循环、同步发

2016-04-19 15:27:02 3134 1

转载 RabbitMq、ActiveMq、ZeroMq、kafka之间的比较

MQ框架非常之多,比较流行的有RabbitMq、ActiveMq、ZeroMq、kafka。这几种MQ到底应该选择哪个?要根据自己项目的业务场景和需求。下面我列出这些MQ之间的对比数据和资料。第一部分:RabbitMQ,ActiveMq,ZeroMq比较1、 TPS比较 一ZeroMq 最好,RabbitMq 次之, ActiveMq 最差。这个结论来自于以下这篇文

2016-04-19 14:39:27 2547

转载 保证分布式系统数据一致性的6种方案

问题的起源在电商等业务中,系统一般由多个独立的服务组成,如何解决分布式调用时候数据的一致性? 具体业务场景如下,比如一个业务操作,如果同时调用服务 A、B、C,需要满足要么同时成功;要么同时失败。A、B、C 可能是多个不同部门开发、部署在不同服务器上的远程服务。在分布式系统来说,如果不想牺牲一致性,CAP 理论告诉我们只能放弃可用性,这显然不能接

2016-04-19 10:57:19 15226

转载 Impala与Hive的比较

1. Impala架构       Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从

2016-04-18 17:31:02 1362

转载 深入分析Parquet列式存储格式

Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。列式存储列式存储和行式存储相比有哪些优势呢?可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使用更高效的压缩编

2016-04-18 16:58:07 1107

转载 VR、AR、MR、CR到底如何区分

VR的概念想必大家都比较清楚了,这里一带而过,重点讲述AR、MR和CR的区别。VRVitual Reality,虚拟现实,是利用计算设备模拟产生一个三维的虚拟世界,提供用户关于视觉、听觉等感官的模拟,有十足的「沉浸感」与「临场感」。俗话说就是,你看到的所有东西都是计算机生成的,都是假的。典型的输出设备就是Oculus Rift、HTC Vive等等。 AR

2016-04-18 11:20:50 2086

原创 大数据驱动的云客服

在互联网时代,除了用户数、营业额等,数据已经被认为是未来的核心资源。      大数据为云客服可以在以下几方面发挥作用: 1、近期:智能客服机器人客服机器人可分四代第一代:基于关键词精确匹配,简单有效。例如,在微信公众号平台回复一些关键字词,获取某篇文章或活动入口第二代:支持多个词模糊查询第三代:在关键词匹配的基础上引入了自然语言处理(NLP)技术,先数据清

2016-04-15 15:58:35 1327

转载 异常行为分析模型设计

本文针对异常访问现状及问题进行简要描述,在此基础上提出基于一元线性回归的最小二乘法异常访问分析模型,通过该模型解决了异常访问中时间与访问间相关性问题。异常访问是指网络行为偏离正常范围的访问情况。异常访问包含多种场景,如Web访问、数据库访问、操作系统访问、终端交互等。异常访问一直是网络信息安全中备受困扰的。困扰主要体现在以下几个方面,通过某一个模型满足所有场景,模型缺少明确使用条件

2016-04-14 13:46:43 6066 1

计算机基础精华

总结各种IT面试基础精华,对面试很有帮助

2014-06-04

LeetCode题解

通向米国IT求职的极佳面试必备算法题库,经过分类整理

2014-06-04

手写代码必备手册

分类整理了各种常用面试算法,对算法要求较高的面试极为有用

2014-06-04

hbase基础知识介绍

hbase基础知识介绍

2011-11-25

多种方法求2个数的最大公约数

介绍求最大公约数的方法:辗转相除法、二进制操作法等多种方法

2010-05-04

软件项目管理 人件中文第二版

《人件》第1版于 1987 年出版,专门讨论了软件开发和维护团队的管理问题,并向人们的传统认识提出了挑战。作者在书中推崇人本管理思想,正确指出知识型企业的核心是人,而不是技术,呼吁给予软件工作者充分的自由和信任。本书推出后,立即在西方引起了轰动,被誉为“几十年来对美国软件业影响最大的理念”。与《人月神话》一样,《人件》现已成为软件团队管理的经典之作。它和《人月神话》共同被誉为软件图书中“两朵最鲜艳的奇葩”。人们认为,《人月神话》关注“软件开发”本身,《人件》则关注软件开发中的“人”,因此,在成千上万的书架上,《人件》永远和《人月神话》并列在一起。1999 年 2 月,《人件》第2版出版,增补了8 章新内容。这些新内容拥有更加宽广的视角,对大中型组织中的团队如何运作进行了深入探讨。

2009-02-22

linux基本命令大全

由于操作和使用环境的陌生,如果要完全熟悉Linux的应用我们首先要解决的问题就是对Linux常用命令的熟练掌握。本书我们就来介绍Linux的常用基本命令

2009-01-08

编程高手箴言.chm

本书是作者十余年编程生涯中的技术和经验的总结。内容涵盖了从认识CPU、Windows运行机理、编程语言的运行机理,到代码的规范和风格、分析方法、调试方法和内核优化,内有作者对许多问题的认知过程和透彻的分析,以及优秀和精彩的编程经验。

2009-01-08

Oracle 9i10g编程艺术

oracle 9i10g编程艺术(中文版)TOM经典

2008-12-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除