4 vivian_ll

尚未进行身份认证

暂无相关描述

等级
博文 144
排名 1w+

python同时读取多个文件

同时读取两个相同行的文件spokenfile=open('xxx.txt','r',encoding='utf-8')writtenfile=open('xxx.txt','r',encoding='utf-8')forline1,line2inzip(spokenfile,writtenfile):s1=line1s2=line2Python...

2019-06-21 11:17:43

面试问题——动态规划(2):八皇后问题/n皇后问题

题目:在8×8的国际象棋上摆放八个皇后,使其不能相互攻击,即任意两个皇后不得处在同一行、同一列或者同一对角斜线上。下图中的每个黑色格子表示一个皇后,这就是一种符合条件的摆放方法。请求出总共有多少种摆法。(leetcode51、52)解法一:回溯法由于每次都是遍历下一行,所以两个皇后的行肯定不同;因此判断当前列是否已经占用,和判断对角线的位置。用三个数组来表示列、正反对角线的占用情况。一行行的...

2019-06-21 11:01:59

面试问题——动态规划(1):编辑距离及其回溯路径

一、求编辑距离(Leetcode72)编辑距离(EditDistance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。允许对字符串中的字符进行的的操作只有替换、插入、删除三种操作。编辑距离是自然语言处理中的重要的文本比较算法之一。也是从多个相似的字符串组中提取字符串的有利的武器。编辑距离算法,也称为LD算法。LD算法就是自然语言处理(NLP)里的“编辑距离”算法。俄国科学家...

2019-06-21 10:39:49

C# 快速入门

C#是一种面向对象的编程语言,由微软开发,是基于C和C++编程语言的。在任何C#程序中的第一条语句都是:usingSystem;using关键字用于在程序中包含命名空间。一个程序可以包含多个using语句。namespace声明。一个namespace里包含了一系列的类。注释同C++,单行//,多行/**/。关键字是C#编译器预定义的保留字。这些关键...

2019-06-19 18:14:09

pytorch安装及基本使用(win10+CPU+Python3.6)

pytorch这两年越来越流行,定义网络结构简单,而且还很直观灵活,数据加载快。一、安装登陆pytorch官网。选择合适的环境:运行安装命令:pip3installhttps://download.pytorch.org/whl/cpu/torch-1.1.0-cp36-cp36m-win_amd64.whlpip3installhttps://download.p...

2019-06-18 16:19:27

python删除list中多个相同的元素

法一:pop方法删除过程中还能返回被删除的值alist=['d','d',7,4,'d','d',2,1]foriinrange(len(alist)-1,-1,-1):#倒序循环,从最后一个元素循环到第一个元素。不能用正序循环,因为正序循环删除元素后后续的列表的长度和元素下标同时也跟着变了,len(alist)是动态的。ifalist[i]=='...

2019-06-14 20:06:24

python缺失值可视化和几种填充方法

常见的数据缺失填充方式分为很多种,比如删除法、均值法、回归法、KNN、MICE、EM等等。R语言包中在此方面比较全面,python稍差。python目前已有的两种常见的包,第一个是impyute,第二个是fancyimpute。比如fancyimpute中集成了很多方式,包括均值、众数、频数填充,KNN填充、MCMC填充等。一、直接填充data=pd.read_csv(path,enco...

2019-06-14 10:37:41

论文笔记:A Mostly Data-driven Approach to Inverse Text Normalization

这篇文章是苹果公司发表在语音识别顶会INTERSPEECH2017上的一篇文章。将逆文本化(ITN)转为标签问题的方法Siri使用标准的格式化方式来展示日期、时间、地址和金额等对象。这是由于在语音识别的核心组件的输出上应用了一个被称之为逆转文本标准化(ITN,InverseTextNormalization)的过程。可以通过下面这个案例来理解ITN所起的重要作用,如果没有ITN,S...

2019-05-31 14:58:19

基于word2vec的疾病和手术相关词语的相似度计算

项目需要预测是否患有骨质疏松,患者所做手术是其中的一维特征,因此需要得到骨质疏松或骨量减少和手术之间的关系,此处选择用word2vec得到词语之间的相似度。用gensim学习word2vecgensim是一个很好用的PythonNLP的包,不光可以用于使用word2vec,还有很多其他的API可以用。它封装了google的C语言版的word2vec。当然我们可以可以直接使用C语言版的word...

2019-05-27 16:41:38

FM分解机及其变种(FFM、DeepFM)原理详解

FM(分解机,FactorizationMachines)线性回归:y^(x)=w0+w1x1+w2x2+...+wnxn=w0+∑i=1nwixi\hat{y}(x)=w_0+w_1x_1+w_2x_2+...+w_nx_n=w_0+\sum^n_{i=1}w_ix_iy^​(x)=w0​+w1​x1​+w2​x2​+...+wn​xn​=w0​+i=1∑n​wi​xi​从方程可知:...

2019-05-20 17:37:05

机器学习中的数学原理——矩阵论

正定矩阵在线性代数里,正定矩阵(positivedefinitematrix)有时会简称为正定阵。定义:AAA是n阶方阵,如果对任何非零向量xxx,都有xTAx>0x^TAx>0xTAx>0,其中xTx^TxT表示xxx的转置,就称AAA正定矩阵。性质:正定矩阵的行列式恒为正;实对称矩阵AAA正定当且仅当AAA与单位矩阵合同;两个正定矩阵...

2019-05-20 11:29:52

python数据预处理——直方图和热力图绘制

一、绘制直方图首先读入数据defread_data():path='../data/forCodeF-2.csv'data=pd.read_csv(path,encoding='gbk')returndata然后调用matplotlib.pyplot.hist函数绘制各维特征的分布直方图。importmatplotlib.pyplotasp...

2019-05-17 16:47:49

使用sklearn对数据进行标准化/正则化

一、标准化/正则化1.0-1标准化也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:x∗=x−minmax−minx^*=\frac{x-min}{max-min}x∗=max−minx−min​其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。sklearn实现...

2019-05-17 15:38:47

使用中文维基百科训练word2vec模型

1.下载原始数据数据下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2首先把需要下载的东西都列出来一、下载内容1.语料:下载地址是https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xm...

2019-05-08 19:43:34

python图片去重

爬虫获取的图片经常会有不同名但相同或相似的情况,因此需要对图片进行去重。以下介绍两种方法。一、图片通过md5去重importmd5importosfromtimeimportclockasnowdefgetmd5(filename):file_txt=open(filename,'rb').read()m=md5.new(file_tx...

2019-05-07 10:20:13

基于医疗知识图谱的问答系统源码详解

项目还是找的中科院软件所刘焕勇老师在github上的开源项目,基于知识图谱的医药领域问答项目QABasedOnMedicaKnowledgeGraph。该项目立足医药领域,以垂直型医药网站为数据来源,以疾病为核心,构建起一个包含7类规模为4.4万的知识实体,11类规模约30万实体关系的知识图谱。项目地址:https://github.com/liuhuanyong/QASystemOnMedi...

2019-05-06 16:19:55

IOS静态分析工具oclint安装流程

1简介OCLint是一个强大的静态代码分析工具,可以用来提高代码质量,查找潜在的bug,主要针对c,c++和Objective-c的静态分析。功能非常强大,而且是出自国人之手。项目地址:http://oclint.org/。主要能检查到的代码缺陷:可能出现的bug,空的if/else/try/catch/finally的参数没有使用的变量或者参数复杂的代码逻辑,多个if/else的判...

2019-04-23 15:21:57

基于医疗知识图谱的问答实践中遇到的问题

问题1:ahocorasick安装失败原因:改名为pyahocorasick,pip安装依然失败。error:MicrosoftVisualC++14.0isrequired.Getitwith"MicrosoftVisualC++BuildTools":http://landinghub.visualstudio.com/visual-cpp-build-tool...

2019-04-22 17:19:34

Neo4j安装及简单使用

一、Neo4j和图数据库简介neo4j是基于Java语言编写图形数据库。图是一组节点和连接这些节点的关系。图形数据库也被称为图形数据库管理系统或GDBMS。Neo4j的是一种流行的图形数据库。其他的图形数据库是OracleNoSQL数据库,OrientDB,HypherGraphDB,GraphBase,InfiniteGraph,AllegroGraph。Neo4j图形数据库的主要构建...

2019-04-15 21:47:39

Seq2Seq和Attention机制详解

一、Seq2Seq简介seq2seq模型最早可追溯到2014年的两篇paper[1,2],主要用于机器翻译任务(MT)。seq2seq是一个Encoder–Decoder结构的网络,它的输入是一个序列,输出也是一个序列,Encoder中将一个可变长度的信号序列变为固定长度的向量表达,Decoder将这个固定长度的向量变成可变长度的目标的信号序列。由于encoder与decode...

2019-04-12 11:29:20
奖章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周上午根据用户上周的博文发布情况由系统自动颁发。