6 c.x.y.07.30

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 8w+

算法面试基本问题

一、Java1.一个Java程序可以认为是一系列对象的集合,而这些对象通过调用彼此的方法来协同工作。下面简要介绍下类、对象、方法和实例变量的概念。2.对象:对象是类的一个实例,有状态和行为。3.类:类是一个模板,它描述一类对象的行为和状态。4.方法:方法就是行为,一个类可以有很多方法。5.实例变量:每个对象都有独特的实例变量,对象的状态由这些实例变量的值决定。6.编写Java程序时,应注意以下几点:大小写敏感类名:每个单词的首字母应该大写方法名:所有的方法名都应该以小写字母开头。如果方法

2020-05-21 17:22:18

实习面试&正式秋招总结

一、华为实习面试及转正面试【岗位:机器学习算法岗】1.申请时间:2018年12月31日前,简历注册2.线上笔试时间:1月5日19:00-21:00,全程摄像,不能查阅任何资料,可以用本地IDE,线上平台为牛客网,语言不限。(1)需要注意的点是:需要写输入输出(Java输入用Scanner)(2)试题1:在一串数字中(不超过20位),找到1000以内的最大值。输入:23456789输出:789解题思路1:第一想法是输入一串数字,利用窗口值为3的滑动窗口,从第一个数字开始依次滑动,每次取3个数

2020-05-21 16:38:45

学术论文有关事项

一、论文阅读步骤1)搜索先找领域内的A类会议,再根据关键词搜索相关论文20篇2)初筛选20篇论文先根据页数(一般8页以上,少于8页的可忽略)筛选一遍先看论文的摘要,总结这篇论文通过xx方法研究xx问题,得到xx结果通过筛选后,留大概10篇左右3)粗读从头到尾看一遍文章,知道大致框架文献综述部分详细看,可以自己总结一下这个领域的已做过的相关内容对10篇文章进行大致排序,细读排名前三4)细读再次从头到尾读一遍文章,最终达到能够复现文章的实验文章创新点先不考虑二、中国计

2020-05-21 15:35:52

使用CRF++实现命名实体识别

【定义】CRF++是著名的条件随机场的开源工具,也是目前综合性能最佳的CRF工具,采用C++语言编写而成。其最重要的功能是采用了特征模板。这样就可以自动生成一系列的特征函数,而不用我们自己生成特征函数,我们要做的就是寻找特征,比如词性等。【安装】在Windows中CRF++不需要安装,下载解压CRF++0.58文件即可以使用【语料】需要注意字与标签之间的分隔符为制表符\tplayed...

2020-04-27 17:20:42

财务造假判断+面试+车牌识别

一、线上赛题题目:判断企业财务是否造假难点:类别不均衡,造假类远少于非造假类,大概比例为70:1主要步骤1.数据预处理一共36列,其中公司代码列作为索引,没有使用。fake列作为预测的标签列。还剩下34列。查看基本信息,发现投资收益利润比有两条缺失值,进行删除。2.对于数据分类不平衡的问题,通常可以通过欠采样、过采样或者加入惩罚函数的方法来解决。欠采样是指通过减少...

2019-06-23 20:14:01

【软件安装】visio2016

1.Visio 2016自定义安装与激活教程 附安装包https://jingyan.baidu.com/article/db55b609301ea84ba30a2fc1.html2.kms被windows defender阻拦时,进行临时关闭即可https://jingyan.baidu.com/article/c1a3101e639c6ade656deb17.html...

2020-01-12 13:53:54

【NER】conlleval使用,生成评价结果

1.下载perl window2.下载conlleval_rev.pl3.

2019-12-05 16:19:33

【知识图谱】neo4j安装---linux

1、下载社区版的neo4j,不要去官网下载,我的下载地址是: http://neo4j.com.cn/topic/5b003eae9662eee704f31cee2.无需安装,直接解压,然后进入它的bin目录,在终端敲:./neo4j start,点击终端弹出的最后的网址就可进入了(它的初始账户和密码都是neo4j)3.如果报错,java jdk不匹配,则需要重新安装oracle j...

2019-11-05 14:43:49

pyhton使用ta-lib进行技术指标分析

一、TA-LIB库安装1.直接使用 pip install Ta-Lib会报错2.手动安装(1)https://www.lfd.uci.edu/~gohlke/pythonlibs/ 在网址中下载对应python版本的ta-lib的whl文件,其中python版本可以在cmd中输入python查找(2)cmd中安装(3)验证是否安装成功三、股票数据采集1.雅虎财经网(1)上...

2019-10-17 09:57:45

异常值检测方法

一、异常值是指什么?请列举识别连续型变量异常值的方法?答:异常值是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。常用的检验法有(按优劣次序):(1)t检验法(2)格拉布斯检验法(3)峰度检验法(4)狄克逊检验法(5)偏度检验法...

2019-08-29 14:40:31

【NLP】NO5:文本聚类

一、主要步骤语料加载->分词->去停用词->抽取词向量模型特征->基于tf-idf和word2vec进行kmeans中文文本聚类import randomimport jiebaimport pandas as pdimport numpy as npfrom sklearn.feature_extraction.text import TfidfTransf...

2019-08-26 14:41:29

【NLP】NO4:文本分类

import pandas as pd#加载停用词,txt内容可以随项目进行改变stopwords = pd.read_csv('stopword.txt',index_col=False,quoting=3,sep='\t',names=['stopwords'],encoding='utf-8')stopwords = stopwords['stopwords'].values#加载...

2019-08-21 17:35:03

【NLP】NO3:文本可视化

常用可视化图:词云、分布图、Document Cards、树状图、网络图、力导向图、叠式图、Word Tree、地理热力图、ThemeRiver、SparkClouds、TextFlow、基于矩阵视图的情感分析可视化。一、词云分词、去停用词、统计词频、绘制词云#引入所需要的包import jiebaimport pandas as pdimport numpy as npfrom s...

2019-08-20 19:51:28

【NLP】NO2:中文关键词提取

一、基于TF-IDF提取关键词import jieba.analyse#withWeight表示是否需要返回关键词权重值#allowPOS表示指定的词性word = " ".join(jieba.analyse.extract_tags(word,topK=20,withWeight=False,allowPOS=(['n','v'])))二、基于TextRank提取关键词1.核心思...

2019-08-20 19:30:09

【NLP】NO1:自然语言处理的完整机器处理流程

二、中文自然处理的主要步骤(1)语料清洗1.人工去重、对齐、删除和标注2.基于规则提取内容、正则表达式匹配3.根据词性和命名实体提取(2)中文分词—难点在于歧义和新词1.基于字符串匹配的分词方法2.基于理解的分词方法3.基于统计的分词方法4.基于规则的分词方法(3) 词性标注1.定义词的词性, 如形容词、 动词等, 在情感分析、 知识推理中用, 在文本分类中不用2.基于统...

2019-08-20 16:19:30

IOPub data rate exceeded问题解决

1.anaconda prompt中输入jupyter notebook --NotebookApp.iopub_data_rate_limit=21474836472.其中2147483647可以任意修改

2019-08-09 12:00:48

服务器相关操作

1.下载anaconda3$ wget https://repo.continuum.io/archive/Anaconda3-4.2.0-Linux-x86_64.sh2.安装,上面的wget指令在哪个目录下运行anaconda包就会被下到该文件下$ bash Anaconda3-4.2.0-Linux-x86_64.sh3.远程连接jupyter(1)远程服务器上xshell,输...

2019-07-31 11:42:42

【NLP】词的表示方式及word embeddings代码

1.one-hot编码给每个词分配一个数字ID,如“爸爸”=1=[010],“妈妈”=2=[001]缺点(1)高维度,稀疏(2)词之间相互独立,无法表示词之间的语义2.分布式表示(1)基于矩阵的分布表示词的相似度转换为向量的空间距离Global Vector模型(2)基于聚类的分布表示(3)基于神经网络的分布表示----词向量/词嵌入word embedding词嵌入空...

2019-07-15 16:29:57

机器学习:集成算法

一、Bagging和Boosting1.Bagging:1)样本有放回选取2)样本权重相同3)所有分类器的权重相等4)并行2.Boosting:1)使用全部样本2)根据错误率不断调整样例的权值,错误率越大则权重越大3)每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重4)串行,因为后一个模型参数需要前一轮模型的结果。二、随机森林三、GBDT四、XGBoost...

2019-05-28 09:52:14

机器学习:最小二乘法、梯度下降法

一、最小二乘法二、梯度下降法三、牛顿法四、极大似然估计

2019-05-21 19:38:40

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 原力新人
    原力新人
    在《原力计划【第二季】》打卡挑战活动中,成功参与本活动并发布一篇原创文章的博主,即可获得此勋章。