11 shiter

尚未进行身份认证

我要认证

Generally speaking I am a hard working man!!!code is cheap,show me the talk!!!有容乃大,天道酬勤!!!

等级
TA的排名 760

老王和他的IT界朋友们----交流渠道

文章大纲微信公众号 老王和他的IT界朋友们 </div> <div class="clear"> </div>QQ群:593683975公众号:     老王和他的IT界朋友们欢迎投稿:  shiter@live.cnQQ交流群:  593683975QQ群提供技术交流,CSD

2020-08-02 22:29:06

《自然语言处理实战入门》基础知识 ---- NLP开源工具包与云服务提供商

文章大纲NLTKGensimStanfordNLPSpacy参考文档在1.3小结我们已经简要介绍了一些知名中文NLP开源组件与服务提供商,目的是直观认识NLP的常用技术手段和应用场景进行概述知识导入。本小节针对NLP 常见处理流程中经常用到的开源包与云服务提供商进行介绍。图 自然语言处理一般建模流程大部分的中文nlp 开源包,我都在 中文分词原理及 相关章节有所罗列和介绍中文分词原理及相关组件简介 之 ---- 分词领域主要分词算法、组件、服务(上)中文分词原理及相关组件简介 之 ----

2020-07-20 00:39:09

PCA主成分分析(上)

人的悲欢并不相通,我只觉得他们吵闹——鲁迅写这篇文章之前,脑海里鬼使神差般的浮出这句话,于是决定把它加在开篇之前。不知道你记得不记得凌晨杂货店门前卸货的年轻人,或者傍晚地铁口赶着公交上车...

2020-07-16 09:59:04

《自然语言处理实战入门》基础知识 ----机器学习与深度学习组件

文章大纲numpywhat is numpyArray objectpandasWhat kind of data does pandas handle?参考本人文章sklearnmatplotlib常见问题TensorFlowkeraspytorchnumpyThe fundamental package for scientific computing with Python官网:https://numpy.org/文档指南github:https://github.com/numpy

2020-07-02 00:24:46

《自然语言处理实战入门》 深度学习组件TensorFlow2.0---- 初探

文章大纲简介TensorFlow 2.0 升级的主要内容升级的主要内容如何升级代码参考文档官方基础性材料TensorFlow 2.0 相关资料简介TensorFlow™ 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。它灵活的架构让你可以在多种平台上展开计算,例如台式计算机中的一个或多个CPU(或GPU),服务器,移动设备等等。TensorFlow

2020-06-26 01:16:12

《自然语言处理实战入门》 文本检索---- 初探

文章大纲文本搜索原理搜索引擎的选择Elastic SearchSolrES VS SolrElastic Search索引安装kibana 可视化文本搜索原理搜索引擎的选择Elastic SearchElasticsearch 是一个分布式的开源搜索和分析引擎,适用于所有类型的数据,包括文本、数字、地理空间、结构化和非结构化数据。Elasticsearch 在 Apache Lucene 的基础上开发而成,由 Elasticsearch N.V.(即现在的 Elastic)于 2010 年首次发

2020-06-19 09:46:37

大数据ETL实践探索(9)---- 使用pandas sqlalchemy进行多进程百万级数据入库postgresSQL

文章大纲基础性工作连接类sqlclchemy 基础操作类sqlalchemy 数据库shema 表 样例psycopg2 原生 apipgAdmin 导入pandas 数据清洗与to_sql方法录入数据数据清洗to_sql 数据录入使用 sqlalchemy 批量录入方法最近有个需求,需要将200W 左右的 excel 格式数据录入 postgreSQL 数据库。 我想了几种办法:使用psycopg2 原生 api使用pgAdmin 页面 建立好table 直接导入csv使用pandas to_

2020-06-15 01:43:35

如何快速部署静态页面?

文章大纲静态页面静态页面的几种方式1. linux 主机的 httpd 服务2. Nginx 反向代理自动化部署的几种方式朋友圈大神胡老师说过,都2020年了,写代码实现不是实现的唯一方式,天下武功唯快不破。如何快速构建,持续交付才是王道。比如经常有这样的场景,静态页面静态页面的几种方式gitlab github 都支持 项目文件展示为静态页面甚至,jupyter 也可以 作为静态页面直接分享出去1. linux 主机的 httpd 服务2. Nginx 反向代理自动化部署的几种方式ci

2020-06-01 00:11:52

《自然语言处理实战入门》NLP 可视化 ---- 文本内容可视化

文章大纲基于关键词的文本内容可视化标签云文档散(DocuBurst)文档卡片时序性的文本内容可视化主题河流(ThemeRiver)历史流(History Flow)文本弧(TextArc)文献指纹(Literature Fingerprinting)文本特征透镜(Feature Lens)文本内容的可视化是以文本内容作为信息对象的可视化。通常, 文本内容的表达包括关键词、短语、句子和主题,文档集合还包括层次性文本内容,时序性文本集合还包括时序性变化的文本内容。1.基于关键词的内容可视化2. 时序性文

2020-06-01 00:07:44

《黑客与画家:硅谷创业之父Paul Graham文集》----读书笔记

文章大纲保罗·格雷厄姆其人其事人物经历个人作品编辑译者序为什么书呆子不受欢迎黑客与画家不能说的话你是一个随大流的人吗真话异端邪说时空差异机制为什么这样做守口如瓶笑脸相迎?永远质疑良好的坏习惯另一条路设计与研究点评保罗·格雷厄姆其人其事人物经历保罗·格雷厄姆以Lisp方面的工作而知名,也是最早的Web应用Viaweb的创办者之一,后来以近5千万美元价格被雅虎收购,成为Yahoo! Store。他的著作包括On Lisp (1993),ANSI Common Lisp (1995) 和Hackers

2020-05-23 14:06:14

做项目一定用得到的NLP资源

原文链接:https://github.com/fighting41love/funNLP最近需要从文本中抽取结构化信息,用到了很多github上的包,遂整理了一下,后续会不断更新。涉及内容包括:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文...

2019-03-07 10:08:12

《周鸿祎自述:我的互联网方法论》----摘抄

周鸿祎个人简介: 周鸿祎这个人比较有争议,如果不是他,中国互联网的免费文化可能还不会像今天这样,免费,共享等等概念满天飞。周教主的核心理念是说,如果使用软件的用户足够多,那么软件成本分摊到每位用户就是近似免费的,而软件完全可以通过赞助商,广告商的出资抵消这部分成本费用。所以对于软件产业来说,用户才是最重要的,有了用户就有了一切。下面,让我们来快速围观一下老周和他的互联网方法论。第一章 欢迎来到互联

2017-04-04 23:33:50

《自然语言处理实战入门》 第二章:NLP 前置技术----爬取本人CSDN博客

文章大纲1对象关系映射1.1 简介1.2 博客相关信息与对象映射2. 博客爬虫的编写2.1 爬虫爬取逻辑回顾2.2 爬取本人CSDN 博客 爬虫逻辑1对象关系映射1.1 简介ORM框架的作用就是把数据库表的一行记录与一个对象互相做自动转换。正确使用ORM的前提是了解关系数据库的原理。SQLAlchemy is the Python SQL toolkit and Object Rel...

2020-05-08 09:17:30

《自然语言处理实战入门》第二章: NLP前置技术----网络爬虫简介

我们平时做自然语言处理,机器学习,都是希望能够有丰富的训练数据集,这样才能获取质量上乘的模型。在大数据时代,处理数据已经不再是是问题了,spark,hadoop ,Elastic search提供了海量甚至巨量的分布式数据处理方法。问题是没有数据怎么办?在合理合法 的前提下自然语言处理 的语料和其他机器学习模型训练数据需要的图片等等各类数据,我们其实都是可以通过网络爬虫的方式进行积累的。文章大...

2020-05-07 09:46:00

《自然语言处理实战入门》NLP可视化---- python可视化初步 matplotlib 相关设置

文章大概matplotlib 可视化相关设置matplotlib seaborn 绘图加载中文字体CentOS 安装中文字体查看matplotlib 字体目录查看系统可用的中英文字体matplotlib 设置中文字体seaborn设置中文字体其他解决 matplotlib 中文显示的思路matplotlib 可视化相关设置matplotlib seaborn 绘图加载中文字体如果系统,及...

2020-05-05 09:29:48

《自然语言处理实战入门》NLP 可视化 ---- 文本分析基础

文章大纲可视化,大数据最完美的呈现方式推荐一本书,《数据之美》一本书学会可视化设计。可视化,大数据最完美的呈现方式大数据若是一种无形的土壤,那可视化就是浇水、施肥,让其开出美丽之花的工具。大数据若是一种新型的石油,那可视化就是开发这种石油不可缺的设备大数据若是烹饪的食材,那可视化就是将这些食材做成美味佳肴的厨艺。可视化并不仅仅是一种工具,而更像是一种媒介,能最大化帮助我们挖掘数字背后...

2020-05-04 15:53:50

《AI进化论:解码人工智能商业场景与案例》----读书笔记

AI进化论:解码人工智能商业场景与案例作者:亿欧智库文章大纲业内人士力荐序第一章 跨越AI商业化“奇点”第二章 金融狂欢下的泡影第三章 积重难返?医疗AI的颠覆之路第四章 智慧安防:罪恶无处遁形第五章 自动驾驶:定义未来出行第七章 内容不再是人的专利第八章 AI赋能下的法律新格局第九章 AI进驻,教育革命即将到来业内人士力荐我们不再以旁观者的身份观看着变革的发生,每个人都有机会参与其中,...

2020-04-25 23:46:04

大数据ETL实践探索 ---- 使用python 进行 快速EDA综合可视化

文章大纲使用pandas 对数据进行处理非结构化数据可视化结构化数据可视化cubesuperset使用pandas 对数据进行处理非结构化数据可视化结构化数据可视化cubesupersetdocker 方式安装...

2020-04-14 01:28:19

《自然语言处理实战入门》---- 如何成为一名 NLP 工程师?

文章大纲名企需求实际需求总体情况知识体系提升计划核心能力提升题库资源优秀博文名企需求想要成为一名NLP 工程师,我们先要看看# 美团 NLP 方向优先任职资格:1、有Tensorflow、Caffe2、 Theano等深度学习框架与自然语言处理结合实际项目经验者优先;2、熟悉面向文本的CNN、RNN、LSTM、Sequence to sequence、GAN等模型者优先;3、了解A...

2020-04-01 00:01:40

《硅谷钢铁侠》---- 读书笔记

目录第一章 马斯克的世界:跨领域创造第二章 出生地非洲:冒险无极限的基因第三章 挺进加拿大:追寻太阳的人第四章 第一次创业:征服网络世界第五章 PayPal黑帮大佬:发动国际金融革命第六章 太空召唤:建立SpaceX创新大军第七章 全电动车:超酷超快的特斯拉第八章 痛苦、磨难与新生:现实版钢铁侠的商业版图第九章 腾飞:被颠覆的航空业第十章 电动车的复仇:毫不妥协换来最好的时机第十一章 埃隆·马斯克...

2020-03-22 13:59:28

查看更多

CSDN身份
  • 论坛版主
  • 博客专家
勋章 我的勋章
  • 领英
    领英
    绑定领英第三方账户获取
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 技术圈认证(专家版)
    技术圈认证(专家版)
    博客专家完成年度认证,即可获得
  • 推荐红人
    推荐红人
    发布高质量Blink获得高赞和评论,进入推荐栏目即可获得
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 博客之星-入围
    博客之星-入围
    授予每年博客之星评选结果第21-200名的用户
  • 分享王者
    分享王者
    成功上传51个资源即可获取