10 shiter

尚未进行身份认证

我要认证

Generally speaking I am a hard working man

等级
TA的排名 738

《自然语言处理实战入门》 ---- NLP 可视化 之文本内容可视化

文章大纲基于关键词的文本内容可视化标签云文档散(DocuBurst)文档卡片时序性的文本内容可视化主题河流(ThemeRiver)历史流(History Flow)文本弧(TextArc)文献指纹(Literature Fingerprinting)文本特征透镜(Feature Lens)文本内容的可视化是以文本内容作为信息对象的可视化。通常, 文本内容的表达包括关键词、短语、句子和主题,文档集合还包括层次性文本内容,时序性文本集合还包括时序性变化的文本内容。1.基于关键词的内容可视化2. 时序性文

2020-06-01 00:07:44

《黑客与画家:硅谷创业之父Paul Graham文集》----读书笔记

文章大纲保罗·格雷厄姆其人其事人物经历个人作品编辑译者序为什么书呆子不受欢迎黑客与画家不能说的话你是一个随大流的人吗真话异端邪说时空差异机制为什么这样做守口如瓶笑脸相迎?永远质疑良好的坏习惯另一条路设计与研究点评保罗·格雷厄姆其人其事人物经历保罗·格雷厄姆以Lisp方面的工作而知名,也是最早的Web应用Viaweb的创办者之一,后来以近5千万美元价格被雅虎收购,成为Yahoo! Store。他的著作包括On Lisp (1993),ANSI Common Lisp (1995) 和Hackers

2020-05-23 14:06:14

做项目一定用得到的NLP资源

原文链接:https://github.com/fighting41love/funNLP最近需要从文本中抽取结构化信息,用到了很多github上的包,遂整理了一下,后续会不断更新。涉及内容包括:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文...

2019-03-07 10:08:12

《周鸿祎自述:我的互联网方法论》----摘抄

周鸿祎个人简介: 周鸿祎这个人比较有争议,如果不是他,中国互联网的免费文化可能还不会像今天这样,免费,共享等等概念满天飞。周教主的核心理念是说,如果使用软件的用户足够多,那么软件成本分摊到每位用户就是近似免费的,而软件完全可以通过赞助商,广告商的出资抵消这部分成本费用。所以对于软件产业来说,用户才是最重要的,有了用户就有了一切。下面,让我们来快速围观一下老周和他的互联网方法论。第一章 欢迎来到互联

2017-04-04 23:33:50

《自然语言处理实战入门》 第二章:NLP 前置技术----爬取本人CSDN博客

文章大纲1对象关系映射1.1 简介1.2 博客相关信息与对象映射2. 博客爬虫的编写2.1 爬虫爬取逻辑回顾2.2 爬取本人CSDN 博客 爬虫逻辑1对象关系映射1.1 简介ORM框架的作用就是把数据库表的一行记录与一个对象互相做自动转换。正确使用ORM的前提是了解关系数据库的原理。SQLAlchemy is the Python SQL toolkit and Object Rel...

2020-05-08 09:17:30

《自然语言处理实战入门》第二章: NLP前置技术----网络爬虫简介

我们平时做自然语言处理,机器学习,都是希望能够有丰富的训练数据集,这样才能获取质量上乘的模型。在大数据时代,处理数据已经不再是是问题了,spark,hadoop ,Elastic search提供了海量甚至巨量的分布式数据处理方法。问题是没有数据怎么办?在合理合法 的前提下自然语言处理 的语料和其他机器学习模型训练数据需要的图片等等各类数据,我们其实都是可以通过网络爬虫的方式进行积累的。文章大...

2020-05-07 09:46:00

《自然语言处理实战入门》---- 可视化初步

文章大概matplotlib 可视化相关设置matplotlib seaborn 绘图加载中文字体CentOS 安装中文字体查看matplotlib 字体目录查看系统可用的中英文字体matplotlib 设置中文字体seaborn设置中文字体其他解决 matplotlib 中文显示的思路matplotlib 可视化相关设置matplotlib seaborn 绘图加载中文字体如果系统,及...

2020-05-05 09:29:48

《自然语言处理实战入门》 ---- NLP 可视化 之 文本分析基础

文章大纲可视化,大数据最完美的呈现方式推荐一本书,《数据之美》一本书学会可视化设计。可视化,大数据最完美的呈现方式大数据若是一种无形的土壤,那可视化就是浇水、施肥,让其开出美丽之花的工具。大数据若是一种新型的石油,那可视化就是开发这种石油不可缺的设备大数据若是烹饪的食材,那可视化就是将这些食材做成美味佳肴的厨艺。可视化并不仅仅是一种工具,而更像是一种媒介,能最大化帮助我们挖掘数字背后...

2020-05-04 15:53:50

《AI进化论:解码人工智能商业场景与案例》----读书笔记

AI进化论:解码人工智能商业场景与案例作者:亿欧智库文章大纲业内人士力荐序第一章 跨越AI商业化“奇点”第二章 金融狂欢下的泡影第三章 积重难返?医疗AI的颠覆之路第四章 智慧安防:罪恶无处遁形第五章 自动驾驶:定义未来出行第七章 内容不再是人的专利第八章 AI赋能下的法律新格局第九章 AI进驻,教育革命即将到来业内人士力荐我们不再以旁观者的身份观看着变革的发生,每个人都有机会参与其中,...

2020-04-25 23:46:04

大数据ETL实践探索 ---- 使用python 进行 快速EDA综合可视化

文章大纲使用pandas 对数据进行处理非结构化数据可视化结构化数据可视化cubesuperset使用pandas 对数据进行处理非结构化数据可视化结构化数据可视化cubesupersetdocker 方式安装...

2020-04-14 01:28:19

《自然语言处理实战入门》---- 如何成为一名 NLP 工程师?

文章大纲名企需求实际需求总体情况知识体系提升计划核心能力提升题库资源优秀博文名企需求想要成为一名NLP 工程师,我们先要看看# 美团 NLP 方向优先任职资格:1、有Tensorflow、Caffe2、 Theano等深度学习框架与自然语言处理结合实际项目经验者优先;2、熟悉面向文本的CNN、RNN、LSTM、Sequence to sequence、GAN等模型者优先;3、了解A...

2020-04-01 00:01:40

《硅谷钢铁侠》---- 读书笔记

目录第一章 马斯克的世界:跨领域创造第二章 出生地非洲:冒险无极限的基因第三章 挺进加拿大:追寻太阳的人第四章 第一次创业:征服网络世界第五章 PayPal黑帮大佬:发动国际金融革命第六章 太空召唤:建立SpaceX创新大军第七章 全电动车:超酷超快的特斯拉第八章 痛苦、磨难与新生:现实版钢铁侠的商业版图第九章 腾飞:被颠覆的航空业第十章 电动车的复仇:毫不妥协换来最好的时机第十一章 埃隆·马斯克...

2020-03-22 13:59:28

作为项目经理或管理者能从孙子兵法中学到什么

文章大纲1. 何为项目经理?1.1 项目经理和产品经理的区别1.2 项目经历的前景2.智、信、仁、勇、严 与项目经理的工作智信仁勇严1. 何为项目经理?我一直觉的项目经理是个扯淡的活儿,拆分任务、跟踪进度,这不就是催别人干活么。上传下达做好沟通,偶尔帮忙看看技术问题,因为我们项目有个经验丰富的技术架构师,也不用太操心。最近偶尔看到1.1 项目经理和产品经理的区别项目经理要求技术背景,这是...

2020-03-17 15:22:06

机器视觉4——光的偏振

黑色,宇宙最初的颜色,为零。当有了光,就有了颜色,所有的颜色汇聚在一起,成白色。白色是集大成的颜色,好似一片混沌,清浊不分。而你的真色彩,可能是一道靓丽的彩虹。就像人的性格是复杂的,复杂...

2020-02-21 16:08:04

2016年简直一晃而过

2016年的生活有些忙碌,到年底一整年连续的日子成了离散的关键词。2015年这个时候,我还在学校深更半夜因为一个菜煎饼感动的痛哭流涕,一转眼2016年都要过完了。

2016-12-31 23:50:29

《自然语言处理实战入门》第三章 :中文分词原理及相关组件简介 ---- 分词算法原理

随着大规模语料库的建立,统计机器学习方法的研究和发展,基于统计的中文分词算法逐渐成为主流的分词算法。其主要思想是把每个词看做是由字组成,我们可以利用字与字相邻出现的频率来反应成词的可靠度,统计语料中相邻共现的各个字的组合频度。

2020-02-07 09:32:18

2016依然会给我惊喜,谢谢

七月份写过一篇日志,年终总结我们就从下半年开始吧。这半年来总的来说,档期很满,所有事情基本按照规划都步入正轨,这让我想起来2013年考研时候教毛中特的包松老师在课程快要结束的时候给我们讲到,你对考研成功有强烈的渴求么吗?强烈到像溺水时候渴求空气一样的强烈吗?我有时候想做一件事情非常强烈的想要把它做成,后来,因为这种渴求,我经常能把一些事情做成功。同学们,虽然这样讲有些唯...

2016-02-06 22:40:53

赵老师的留下来

VC调试(TC或BC用TD调试)时按Alt+8、Alt+6和Alt+5,打开汇编窗口、内存窗口和寄存器窗口看每句C对应的汇编、单步执行并观察相应内存和寄存器变化,这样过一遍不就啥都明白了吗。(Linux或Unix下可以在用GDB调试时,看每句C对应的汇编并单步执行观察相应内存和寄存器变化。)想要从本质上理解C指针,必须学习汇编以及C和汇编的对应关系。从汇编的角度理解和学习C语言的指针,原本...

2012-02-05 18:34:51

《自然语言处理实战入门》第三章 :中文分词原理及相关组件简介---- 汉语分词领域主要分词算法、组件、服务(下)

3.云厂商API百度语言处理基础技术依托海量检索数据,并且搜索引擎本身就是NLP 最终的结果产出,所以在NLP领域,百度无论是语料库丰富程度,技术先进性,以及服务多样性等都是遥遥领先其他厂家,基本上可以算作是中文NLP服务提供商的业界最佳实践。百度云语言处理技术:http://ai.baidu.com/tech/nlpPaddleNLP百度nlpc++ 版本 百度词法...

2020-01-25 01:07:22

《自然语言处理实战入门》 第二章:NLP 前置技术----正则表达式

文章大纲简介python 字符串操作python 正则表达式常用正则表达式正则表达式在线测试工具参考文献简介正则表达式是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。我们在大文本中匹配字符串时,有些情况用str自带的函数(比如find, in)可能可以完成,有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的字符串,所有和julyedu相关的句子),这个时候我们需要一个某种模式的工具...

2020-01-21 00:42:23

查看更多

CSDN身份
  • 论坛版主
  • 博客专家
勋章 我的勋章
  • 领英
    领英
    绑定领英第三方账户获取
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 技术圈认证(专家版)
    技术圈认证(专家版)
    博客专家完成年度认证,即可获得
  • 推荐红人
    推荐红人
    发布高质量Blink获得高赞和评论,进入推荐栏目即可获得
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 博客之星-入围
    博客之星-入围
    授予每年博客之星评选结果第21-200名的用户
  • 分享王者
    分享王者
    成功上传51个资源即可获取