11 shiter

尚未进行身份认证

我要认证

Generally speaking I am a hard working man!!!code is cheap,show me the talk!!!有容乃大,天道酬勤!!!

等级
TA的排名 738

《自然语言处理实战入门》 文本检索与信息抽取 ---- 信息抽取初探

文章目录基本介绍一、传统信息抽取关键词抽取关键句子抽取二、深度学习信息抽取总结基本介绍信息抽取 (Information Extraction) 是把文本中包含的信息进行结构化处理,变成表格一样的组织形式。信息抽取的主要任务是将各种各样的信息点从文档中抽取出来。然后以统一的形式集成在一起,方便后序的检索和比较。一、传统信息抽取关键词抽取关键句子抽取基于规则的方法基于文本链条基于图模型主题分析聚类方法二、深度学习信息抽取总结...

2020-08-26 23:52:02

手把手教你买基金----读书笔记

基金投资要诀:他强由他强,清风拂山岗;他横由他横,明月照大江;他自狠来他自恶,我自一口真气足。

2020-08-21 00:45:51

《自然语言处理实战入门》文本检索与信息抽取 ---- 关键词抽取

文章大纲章节目录参考文档章节目录《自然语言处理实战入门》 文本检索---- 初探常用的检索算法有根据余弦相似度进行检索,Jaccard系数,海灵格-巴塔恰亚距离和BM25相关性评分。(1)余弦(cosine)相似度,用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。适合word2vec模型向量化的数据。(2)Jaccard(杰卡德)相似性系数,主要用于计算符号度量或布尔值度量的样本间的相似度。若样本间的特

2020-08-14 13:12:11

PCA主成分分析(完结)

人有时候走着走着,放不下的东西太多,就会迷失自己。其实回归初心,换一个角度去看待问题,一切就变得豁然开朗了。PCA的思想是把过度关联在一起事务视为“噪声”,认为它们干扰试听,并占据不必要...

2020-08-13 12:40:41

《自然语言处理实战入门》第三章 :中文分词原理及相关组件简介 ---- 分词算法原理(HMM)

文章大概序列标注概率图模型隐马尔可夫模型(Hidden Markov Model,HMM)维特比算法参考文献序列标注作为序列标注算法系列文章的第一篇,我们首先看看什么是序列标注问题?“数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。在自然语言处理领域,语句便是序列,对其进行标注是最常见的任务之一,只要涉及对一个序列中的各个元素进行打标签的问题,都可以通过序列标注模型解决。比如,汉语分词标注【B,M,S,E】词性标注为,名词,动词 等命名实体识别标

2020-08-08 08:09:11

过去的日子我们这样娱乐过8.0

从前有一个程序员,在他上学的时候,不好好看书,在他毕业的时候也就只能成天写点hello world,后来他希望能做点大事,于是总是抬头仰望星空,别人以为他在祈求上苍赐予机会,但我想,可能...

2017-01-27 08:49:26

那是一次不俗的旅程

2013年8月的早些时候,我跟组长说我不干了,要去上学。组长当时的表情好像中了500万又被告知彩票过期了一样尴尬。公司公费旅游去张家界,不去还要扣工资,我于是只好辞职收拾好行囊踏上了这...

2017-07-10 00:00:00

PCA主成分分析(下)

美,是在高潮处陡然消逝,不落凡尘。数学中的美,是不是也是寻找那个导数为零的极值点?实际问题中,我们认为凸型函数是函数中是相对完美而且最容易求极值点的。哦……可惜数学实际上没那么多想象的浪...

2020-08-06 07:07:50

老王和他的IT界朋友们----交流渠道

既然 来了就都是我们的朋友,一路都在狂奔不止,感谢大家能花费宝贵的时间在这里驻足停留,老王会不遗余力的带给你美好。也许,我们会有停杯投箸不能食的时候,也有拔剑四顾心茫然的时候,干啥啥不顺,调啥啥不通,仿佛生活欺骗了你,此时此刻,彼时彼刻,脑海中只要浮现几个词:坚持,不忘初心。

2020-08-02 22:29:06

《自然语言处理实战入门》基础知识 ---- NLP开源工具包与云服务提供商

文章大纲NLTKGensimStanfordNLPSpacy参考文档在1.3小结我们已经简要介绍了一些知名中文NLP开源组件与服务提供商,目的是直观认识NLP的常用技术手段和应用场景进行概述知识导入。本小节针对NLP 常见处理流程中经常用到的开源包与云服务提供商进行介绍。图 自然语言处理一般建模流程大部分的中文nlp 开源包,我都在 中文分词原理及 相关章节有所罗列和介绍中文分词原理及相关组件简介 之 ---- 分词领域主要分词算法、组件、服务(上)中文分词原理及相关组件简介 之 ----

2020-07-20 00:39:09

PCA主成分分析(上)

人的悲欢并不相通,我只觉得他们吵闹——鲁迅写这篇文章之前,脑海里鬼使神差般的浮出这句话,于是决定把它加在开篇之前。不知道你记得不记得凌晨杂货店门前卸货的年轻人,或者傍晚地铁口赶着公交上车...

2020-07-16 09:59:04

《自然语言处理实战入门》基础知识 ----机器学习与深度学习组件

文章大纲numpywhat is numpyArray objectpandasWhat kind of data does pandas handle?参考本人文章sklearnmatplotlib常见问题TensorFlowkeraspytorchnumpyThe fundamental package for scientific computing with Python官网:https://numpy.org/文档指南github:https://github.com/numpy

2020-07-02 00:24:46

《自然语言处理实战入门》 深度学习组件TensorFlow2.0---- 初探

文章大纲简介TensorFlow 2.0 升级的主要内容升级的主要内容如何升级代码参考文档官方基础性材料TensorFlow 2.0 相关资料简介TensorFlow™ 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。它灵活的架构让你可以在多种平台上展开计算,例如台式计算机中的一个或多个CPU(或GPU),服务器,移动设备等等。TensorFlow

2020-06-26 01:16:12

《自然语言处理实战入门》 文本检索 ---- 初探

文章大纲文本搜索原理搜索引擎的选择Elastic SearchSolrES VS SolrElastic Search索引安装kibana 可视化文本搜索原理搜索引擎的选择Elastic SearchElasticsearch 是一个分布式的开源搜索和分析引擎,适用于所有类型的数据,包括文本、数字、地理空间、结构化和非结构化数据。Elasticsearch 在 Apache Lucene 的基础上开发而成,由 Elasticsearch N.V.(即现在的 Elastic)于 2010 年首次发

2020-06-19 09:46:37

大数据ETL实践探索(9)---- 使用pandas sqlalchemy进行多进程百万级数据入库postgresSQL

文章大纲基础性工作连接类sqlclchemy 基础操作类sqlalchemy 数据库shema 表 样例psycopg2 原生 apipgAdmin 导入pandas 数据清洗与to_sql方法录入数据数据清洗to_sql 数据录入使用 sqlalchemy 批量录入方法最近有个需求,需要将200W 左右的 excel 格式数据录入 postgreSQL 数据库。 我想了几种办法:使用psycopg2 原生 api使用pgAdmin 页面 建立好table 直接导入csv使用pandas to_

2020-06-15 01:43:35

如何快速部署静态页面?

文章大纲静态页面静态页面的几种方式1. linux 主机的 httpd 服务2. Nginx 反向代理自动化部署的几种方式朋友圈大神胡老师说过,都2020年了,写代码实现不是实现的唯一方式,天下武功唯快不破。如何快速构建,持续交付才是王道。比如经常有这样的场景,静态页面静态页面的几种方式gitlab github 都支持 项目文件展示为静态页面甚至,jupyter 也可以 作为静态页面直接分享出去1. linux 主机的 httpd 服务2. Nginx 反向代理自动化部署的几种方式ci

2020-06-01 00:11:52

《自然语言处理实战入门》NLP 可视化 ---- 文本内容可视化

文章大纲基于关键词的文本内容可视化标签云文档散(DocuBurst)文档卡片时序性的文本内容可视化主题河流(ThemeRiver)历史流(History Flow)文本弧(TextArc)文献指纹(Literature Fingerprinting)文本特征透镜(Feature Lens)文本内容的可视化是以文本内容作为信息对象的可视化。通常, 文本内容的表达包括关键词、短语、句子和主题,文档集合还包括层次性文本内容,时序性文本集合还包括时序性变化的文本内容。1.基于关键词的内容可视化2. 时序性文

2020-06-01 00:07:44

《黑客与画家:硅谷创业之父Paul Graham文集》----读书笔记

文章大纲保罗·格雷厄姆其人其事人物经历个人作品编辑译者序为什么书呆子不受欢迎黑客与画家不能说的话你是一个随大流的人吗真话异端邪说时空差异机制为什么这样做守口如瓶笑脸相迎?永远质疑良好的坏习惯另一条路设计与研究点评保罗·格雷厄姆其人其事人物经历保罗·格雷厄姆以Lisp方面的工作而知名,也是最早的Web应用Viaweb的创办者之一,后来以近5千万美元价格被雅虎收购,成为Yahoo! Store。他的著作包括On Lisp (1993),ANSI Common Lisp (1995) 和Hackers

2020-05-23 14:06:14

做项目一定用得到的NLP资源

原文链接:https://github.com/fighting41love/funNLP最近需要从文本中抽取结构化信息,用到了很多github上的包,遂整理了一下,后续会不断更新。涉及内容包括:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文...

2019-03-07 10:08:12

《周鸿祎自述:我的互联网方法论》---- 读书笔记

周鸿祎个人简介: 周鸿祎这个人比较有争议,如果不是他,中国互联网的免费文化可能还不会像今天这样,免费,共享等等概念满天飞。周教主的核心理念是说,如果使用软件的用户足够多,那么软件成本分摊到每位用户就是近似免费的,而软件完全可以通过赞助商,广告商的出资抵消这部分成本费用。所以对于软件产业来说,用户才是最重要的,有了用户就有了一切。下面,让我们来快速围观一下老周和他的互联网方法论。第一章 欢迎来到互联

2017-04-04 23:33:50

查看更多

CSDN身份
  • 论坛版主
  • 博客专家
勋章 我的勋章
  • 领英
    领英
    绑定领英第三方账户获取
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 技术圈认证(专家版)
    技术圈认证(专家版)
    博客专家完成年度认证,即可获得
  • 推荐红人
    推荐红人
    发布高质量Blink获得高赞和评论,进入推荐栏目即可获得
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 博客之星-入围
    博客之星-入围
    授予每年博客之星评选结果第21-200名的用户
  • 分享王者
    分享王者
    成功上传51个资源即可获取