2 张海玲

尚未进行身份认证

men proposes,god disposes.

等级
TA的排名 2w+

【python】文本处理——简单爬取网页、字符替换、文本分句

1.简单爬取网页这里以爬取易文言的《二十五史》为例,共有176篇。http://ewenyan.com/contents/more/esws.html代码如下:import requests #导入我们需要的库def GetName(url): #定义一个函数并且传入参数Url resp=requests.get(url);#//获取网页上的所有信息,以文本的模型返回 resp.en...

2019-11-30 21:44:38

简单语言模型——bigram neural network language model

bigram neural network language model计算:P(Wn∣Wn−1)P(W_n|W_{n-1})P(Wn​∣Wn−1​) 即P(W2∣W1)P(W_2|W_1)P(W2​∣W1​)词汇集: V=a,b,cV={a,b,c}V=a,b,c训练数据: {abc,acb,bca} ab,bc,ac,cb,bc,ca字符串转化成数字 ...

2019-10-24 20:57:08

gensim实现word2vec

word2vec模型假设给定一个长度为T的文本序列,设时间步t的词为w(t)。假设给定中心词的情况下背景词的生成相互独立,当背景窗口大小为m时,跳字模型的似然函数即给定任一中心词生成所有背景词的概率:∏t=1T∏−m≤j≤m,j≠0P(w(t+j)∣w(t))​\prod_{t=1}^{T} \prod_{-m \leq j \leq m, j \neq 0} P\left(w^{(t+j)}...

2019-10-24 20:47:43

阿里云centOS7搭建JupyterLab

centOS搭建JupyterLabJupyterLab:程序员的笔记本神器。它是一个交互式的开发环境,其用于应对包含着notebook、代码以及数据的工作场景。JupyterLab能帮助我们有效地组织输入输出,将我们探索数据的过程记录下来,后续稍加整理便可以生成一篇报告或者博客。Jupyter Notebook支持Markdown,也支持Python、R甚至Julia等语言,完全可以支持一个...

2019-10-15 09:28:21

阿里云centOS7安装Nginx及简单配置

centOS7安装Nginx及简单配置Nginx是一款轻量级的Web服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器,在BSD-like 协议下发行。其特点是占有内存少,并发能力强,事实上nginx的并发能力确实在同类型的网页服务器中表现较好,中国大陆使用nginx网站用户有:百度、京东、新浪、网易、腾讯、淘宝等。1.安装Nginx前的准备由于nginx的一些模块依赖一些li...

2019-10-15 09:20:28

阿里云centOS7安装Anaconda3

Centos7安装Anaconda3Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。Anaconda附带了一大批常用的数据科学包,不需要使用pip进行下载;自带的conda管理包和环境能减少在处理数据的过程中遇到的各种库和版本的问题。1.下载anaconda寻找所需版本下载,官网地址可能会比较慢,可以前往清华镜像源选...

2019-10-15 09:15:57

【python】解决由.join()造成的TypeError: sequence item 0: expected a bytes-like object, str found问题

出现的错误如下查看了我的代码部分,错误如下:text中为str不是字节,不能用字节连接。所以将b’'改成’'。如下所示:即可解决~举个小例子:把s=b"“;更改为s=”";...

2019-09-16 15:47:11

语言模型N-Gram之KenLM环境的搭建

语言模型N-Gram之KenLM环境的搭建1 在windows下在windows下搭建的kenlm只能运用训练好的模型,不能训练模型。查资料了解到,若想在windows训练kenlm模型,理论上可以在cygwin(仿真linux操作系统)进行。但是,我折腾了好久好久好久,还是存在一系列的问题,固执的金牛座被打败了,转战linuxcygwincygwin是一个windows软件,该软件就...

2019-08-18 09:41:42

kenlm语言模型介绍

语言模型计算P(w1,w2,…,wn)P\left(w_{1}, w_{2}, \dots, w_{n}\right)P(w1​,w2​,…,wn​)利用链式法则:P(A,B,C)=P(A)P(B∣A)P(C∣A,B)P(A, B, C)=P(A) P(B | A) P(C | A, B)P(A,B,C)=P(A)P(B∣A)P(C∣A,B)P(w1,w2,…,wn)=P(w1)P(w2∣w...

2019-08-17 13:23:26

【python】解决Anaconda下输入python出现Warning: This Python interpreter is in a conda environment...的问题

因为安装的是Anaconda中带的python版本,python处于conda环境中,在命令行输入python出现“Warning:ThisPythoninterpreterisinacondaenvironment。。。python需要激活。出现的警告如下图所示。首先我们要查看Anaconda的位置在cmd中输入condaenvlist,复制base后面的位置信息。(我...

2019-07-06 19:08:52

解决win10搜索框不能用的问题

按Win+R键调出运行,输入Powershell点击确定,如下图所示。在该窗口下输入Get-AppXPackage -Name Microsoft.Windows.Cortana | Foreach {Add-AppxPackage -DisableDevelopmentMode -Register “(((_.InstallLocation)\AppXManifest.xml”}回车...

2019-06-22 20:34:13

Java实现两个变量的互换(不借助第三个变量);加密应用

基本异或公式:A^B=B^A;(A^B)^A=A^(B^A)=B;(A^B)^A=A^(A^B)=B;1.通过位运算中的异或运算符(^)实现两个变量的互换。代码如下:class Switch { public static void main(String[] args) { int A=12,B=15; System.out.println("交换前:A:"+A...

2019-05-23 16:02:26

java主函数调用方法中的变量

在主函数中定义一个变量,然后在方法调用并处理该变量,最后再在主函数中调用处理后的变量。我们来看如下的一段代码:classDemo1{ //方法(f=f+1)publicstaticvoidadd(intf) { f=f+1; System.out.println("经过处理的值:"+f); }//主函数 publicstaticvoid...

2019-04-09 22:16:33

java定义文章的难度系数

本文定义文章的难度系数为:平均句长难度系数+常用字难度系数。思路:(1)统计文章中。!?的数量来确定句子数,句子数除以总字符数即为平均句长,即可得到一个测评标准(句长);(2)保存一个常用500字.txt文档库,用需要判定的文章逐字与常用500字.txt文档进行比较,得到文章的常用字数量,再除以总字符数即可得到另一个测评标准(常用字比例);(3)设置对应的难度系数。注:(本次任务测试了...

2019-02-24 20:31:23

java找出txt文本中最长/最短的句子,出现次数最多的句子,求平均句长,方差

找出文本中最长/最短的句子,出现次数最多的句子,求平均句长,方差。思路:(1)将文本按特定的方式进行切分(本文以。!?切分;(2)创建两个数组,数组1存放切分后每句话的长度,数组2存放切分后的每句话;(3)找最长句只需找到数组1中长度最长那一个,即可输出,最短同理;次数最多句子则需要遍历所有句子,找到相同的句子,对应的次数加1,最后输出次数最多那一个即可。(4)总字符长度除以总句子数即平...

2019-02-20 21:38:37

java对文章字符出现个数进行统计排序(TreeMap排序)

文章目录1.介绍Map2.TreeMap排序2.1根据TreeMap的key值来进行排序2.1.1根据key值的升序排序(默认)2.1.2根据key值的降序排序2.2根据TreeMap的Value值来进行排序2.2.1根据Value值的升序排序2.2.2根据Value值的降序排序3.实例:对《西游记》中的字符进行降序排序任务所涉及到的排序问题,由于需要对文本字符及文字字符出现的次数进行排序,相当...

2019-01-27 17:38:21

python中文分词之jieba分词的使用

文章目录1.特点2.安装说明安装示例下载:安装:测试:3.算法4.主要功能(1)分词(2)添加自定义词典载入词典调整词典(3)关键词提取一、基于 TF-IDF 算法的关键词抽取二、基于 TextRank 算法的关键词抽取小应用:查看《西游记》这本书的人物关系。(4)词性标注(5)Tokenize:返回词语在原文的起止位置(6)命令行分词中文分词的工具有很多种,例如HanLP、jieba分词、Fu...

2019-01-14 12:39:00

java实现小说阅读器(功能:查看全文、统计总行数/总页码数、查找指定行、指定页码、实现翻页)

本次任务主要是实现在DOS窗口下,可以查看小说全文、小说全文总行数、查找指定行、查找指定页码内容代码如下:结果如下:

2018-12-09 22:55:09

编码趣味小知识

一个关于记事本的BUG:记事本无法单独保存“联通”。(unicode编码的问题)新建.txt另存为保存,重新打开。新建一个文本文件时,记事本的编码默认是ANSI, 如果在ANSI的编码输入汉字,那么实际就是GB系列的编码方式,而“联通” 两个字的GB2312 编码与 UTF8 编码产生了编码冲撞。so~乱码了...

2018-11-22 21:31:23

java 认识命令行参数

命令行参数就是main方法里面的参数String[] args,它就是一个数组,args只是数据类型的一个名称,即一个数组的变量。这是程序的入口点。一个简单小程序了解java 命令行参数代码如下:class test{ public static void main(String[] args) { for(int i=0;i<args.length;i++) ...

2018-11-22 20:30:51

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。