自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(60)
  • 资源 (2)
  • 收藏
  • 关注

原创 TA-LIB 200多个技术指标含有及计算式

**Overlap Studies Functions重叠指标**BBANDS布林线指标统计原理,求出股价的标准差及其信赖区间,从而确定股价的波动范围及未来走势,利用波带显示股价的安全高低价位,因而也被称为布林带。BBANDS(close, timeperiod=5, nbdevup=2, nbdevdn=2, matype=0)DEMA双移动平均线两条...

2018-03-20 10:41:51 25479 4

原创 算法面试基本问题

一、Java1.一个Java程序可以认为是一系列对象的集合,而这些对象通过调用彼此的方法来协同工作。下面简要介绍下类、对象、方法和实例变量的概念。2.对象:对象是类的一个实例,有状态和行为。3.类:类是一个模板,它描述一类对象的行为和状态。4.方法:方法就是行为,一个类可以有很多方法。5.实例变量:每个对象都有独特的实例变量,对象的状态由这些实例变量的值决定。6.编写Java程序时,应注意以下几点:大小写敏感类名:每个单词的首字母应该大写方法名:所有的方法名都应该以小写字母开头。如果方法

2020-05-21 17:22:18 2746

原创 实习面试&正式秋招总结

一、华为实习面试及转正面试【岗位:机器学习算法岗】1.申请时间:2018年12月31日前,简历注册2.线上笔试时间:1月5日19:00-21:00,全程摄像,不能查阅任何资料,可以用本地IDE,线上平台为牛客网,语言不限。(1)需要注意的点是:需要写输入输出(Java输入用Scanner)(2)试题1:在一串数字中(不超过20位),找到1000以内的最大值。输入:23456789输出:789解题思路1:第一想法是输入一串数字,利用窗口值为3的滑动窗口,从第一个数字开始依次滑动,每次取3个数

2020-05-21 16:38:45 1054

原创 学术论文有关事项

一、论文阅读步骤1)搜索先找领域内的A类会议,再根据关键词搜索相关论文20篇2)初筛选20篇论文先根据页数(一般8页以上,少于8页的可忽略)筛选一遍先看论文的摘要,总结这篇论文通过xx方法研究xx问题,得到xx结果通过筛选后,留大概10篇左右3)粗读从头到尾看一遍文章,知道大致框架文献综述部分详细看,可以自己总结一下这个领域的已做过的相关内容对10篇文章进行大致排序,细读排名前三4)细读再次从头到尾读一遍文章,最终达到能够复现文章的实验文章创新点先不考虑二、中国计

2020-05-21 15:35:52 267

原创 使用CRF++实现命名实体识别

【定义】CRF++是著名的条件随机场的开源工具,也是目前综合性能最佳的CRF工具,采用C++语言编写而成。其最重要的功能是采用了特征模板。这样就可以自动生成一系列的特征函数,而不用我们自己生成特征函数,我们要做的就是寻找特征,比如词性等。【安装】在Windows中CRF++不需要安装,下载解压CRF++0.58文件即可以使用【语料】需要注意字与标签之间的分隔符为制表符\tplayed...

2020-04-27 17:20:42 762

原创 财务造假判断+面试+车牌识别

一、线上赛题题目:判断企业财务是否造假难点:类别不均衡,造假类远少于非造假类,大概比例为70:1主要步骤1.数据预处理一共36列,其中公司代码列作为索引,没有使用。fake列作为预测的标签列。还剩下34列。查看基本信息,发现投资收益利润比有两条缺失值,进行删除。2.对于数据分类不平衡的问题,通常可以通过欠采样、过采样或者加入惩罚函数的方法来解决。欠采样是指通过减少...

2020-04-22 13:39:04 477 1

原创 【NER】conlleval使用,生成评价结果

1.下载perl window2.下载conlleval_rev.pl3.

2019-12-05 16:19:33 1156 4

原创 【知识图谱】neo4j安装---linux

1、下载社区版的neo4j,不要去官网下载,我的下载地址是: http://neo4j.com.cn/topic/5b003eae9662eee704f31cee2.无需安装,直接解压,然后进入它的bin目录,在终端敲:./neo4j start,点击终端弹出的最后的网址就可进入了(它的初始账户和密码都是neo4j)3.如果报错,java jdk不匹配,则需要重新安装oracle j...

2019-11-05 15:02:11 170

原创 pyhton使用ta-lib进行技术指标分析

一、TA-LIB库安装1.直接使用 pip install Ta-Lib会报错2.手动安装(1)https://www.lfd.uci.edu/~gohlke/pythonlibs/ 在网址中下载对应python版本的ta-lib的whl文件,其中python版本可以在cmd中输入python查找(2)cmd中安装(3)验证是否安装成功三、股票数据采集1.雅虎财经网(1)上...

2019-10-17 10:39:13 356

原创 异常值检测方法

一、异常值是指什么?请列举识别连续型变量异常值的方法?答:异常值是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。常用的检验法有(按优劣次序):(1)t检验法(2)格拉布斯检验法(3)峰度检验法(4)狄克逊检验法(5)偏度检验法...

2019-08-29 14:40:31 1120

原创 【NLP】NO5:文本聚类

一、主要步骤语料加载->分词->去停用词->抽取词向量模型特征->基于tf-idf和word2vec进行kmeans中文文本聚类import randomimport jiebaimport pandas as pdimport numpy as npfrom sklearn.feature_extraction.text import TfidfTransf...

2019-08-26 14:41:29 376

原创 【NLP】NO4:文本分类

import pandas as pd#加载停用词,txt内容可以随项目进行改变stopwords = pd.read_csv('stopword.txt',index_col=False,quoting=3,sep='\t',names=['stopwords'],encoding='utf-8')stopwords = stopwords['stopwords'].values#加载...

2019-08-21 17:35:03 194

原创 【NLP】NO3:文本可视化

常用可视化图:词云、分布图、Document Cards、树状图、网络图、力导向图、叠式图、Word Tree、地理热力图、ThemeRiver、SparkClouds、TextFlow、基于矩阵视图的情感分析可视化。一、词云分词、去停用词、统计词频、绘制词云#引入所需要的包import jiebaimport pandas as pdimport numpy as npfrom s...

2019-08-20 19:51:28 398

原创 【NLP】NO2:中文关键词提取

一、基于TF-IDF提取关键词import jieba.analyse#withWeight表示是否需要返回关键词权重值#allowPOS表示指定的词性word = " ".join(jieba.analyse.extract_tags(word,topK=20,withWeight=False,allowPOS=(['n','v'])))二、基于TextRank提取关键词1.核心思...

2019-08-20 19:30:09 345

原创 【NLP】NO1:自然语言处理的完整机器处理流程

二、中文自然处理的主要步骤(1)语料清洗1.人工去重、对齐、删除和标注2.基于规则提取内容、正则表达式匹配3.根据词性和命名实体提取(2)中文分词—难点在于歧义和新词1.基于字符串匹配的分词方法2.基于理解的分词方法3.基于统计的分词方法4.基于规则的分词方法(3) 词性标注1.定义词的词性, 如形容词、 动词等, 在情感分析、 知识推理中用, 在文本分类中不用2.基于统...

2019-08-20 16:19:30 759 3

原创 IOPub data rate exceeded问题解决

1.anaconda prompt中输入jupyter notebook --NotebookApp.iopub_data_rate_limit=21474836472.其中2147483647可以任意修改

2019-08-09 12:00:48 8136

原创 服务器相关操作

1.下载anaconda3$ wget https://repo.continuum.io/archive/Anaconda3-4.2.0-Linux-x86_64.sh2.安装,上面的wget指令在哪个目录下运行anaconda包就会被下到该文件下$ bash Anaconda3-4.2.0-Linux-x86_64.sh3.远程连接jupyter(1)远程服务器上xshell,输...

2019-07-31 11:42:42 316

原创 【NLP】词的表示方式及word embeddings代码

1.one-hot编码给每个词分配一个数字ID,如“爸爸”=1=[010],“妈妈”=2=[001]缺点(1)高维度,稀疏(2)词之间相互独立,无法表示词之间的语义2.分布式表示(1)基于矩阵的分布表示词的相似度转换为向量的空间距离Global Vector模型(2)基于聚类的分布表示(3)基于神经网络的分布表示----词向量/词嵌入word embedding词嵌入空...

2019-07-15 16:29:57 492

原创 机器学习:集成算法

一、Bagging和Boosting1.Bagging:1)样本有放回选取2)样本权重相同3)所有分类器的权重相等4)并行2.Boosting:1)使用全部样本2)根据错误率不断调整样例的权值,错误率越大则权重越大3)每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重4)串行,因为后一个模型参数需要前一轮模型的结果。二、随机森林三、GBDT四、XGBoost...

2019-05-28 09:52:14 264

原创 机器学习:最小二乘法、梯度下降法

一、最小二乘法二、梯度下降法三、牛顿法四、极大似然估计

2019-05-21 19:38:40 309

原创 机器学习:损失函数、代价函数、目标函数

一、损失函数、代价函数和目标函数损失函数:单个样本误差代价函数:所有样本误差平均值目标函数:代价函数+正则项

2019-05-20 20:04:32 563

原创 机器学习:神经网络

一、sklearn代码# 定义多层感知机分类算法from sklearn.neural_network import MLPClassifier'''(1)hidden_layer_sizes: 元祖(2)activation:激活函数(3)solver :优化算法{‘lbfgs’, ‘sgd’, ‘adam’}(4)alpha:L2惩罚(正则化项)参数。'''model = M...

2019-05-18 11:21:50 161

原创 机器学习:K临近算法-KNN

一、sklearn代码from sklearn import neighbors'''(1)n_neighbors: 使用邻居的数目'''model = neighbors.KNeighborsClassifier(n_neighbors=5, n_jobs=1) # 分类model = neighbors.KNeighborsRegressor(n_neighbors=5, n_jo...

2019-05-18 11:19:59 189

原创 机器学习:支持向量机SVM

一、sklearn代码from sklearn.svm import SVC'''(1)C:误差项的惩罚参数C(2)gamma: 核相关系数'''model = SVC(C=1.0, kernel=’rbf’, gamma=’auto’)

2019-05-18 11:18:36 166

原创 机器学习:朴素贝叶斯

一、sklearn代码from sklearn import naive_bayes'''(1)alpha:平滑参数(2)fit_prior:是否要学习类的先验概率;false-使用统一的先验概率(3)class_prior: 是否指定类的先验概率;若指定则不能根据参数调整(4)binarize: 二值化的阈值,若为None,则假设输入由二进制向量组成'''model = naiv...

2019-05-18 11:12:26 159

原创 机器学习:逻辑回归、多分类问题

一、sklearn代码from sklearn.linear_model import LogisticRegression'''(1)penalty:使用指定正则化项(默认:l2)(2)dual: n_samples > n_features取False(默认)(3)C:正则化强度,值越小正则化强度越大(4)fit_intercept: 是否需要常量'''model = L...

2019-05-18 11:09:56 531

原创 机器学习:回归模型,正则化

一、sklearn代码from sklearn.linear_model import LinearRegression'''(1)fit_intercept:是否计算截距。False-模型没有截距(2)normalize: 当fit_intercept设置为False时,该参数将被忽略。如果为真,则回归前的回归系数X将通过减去平均值并除以l2-范数而归一化。(3)n_jobs:指定线...

2019-05-18 11:05:55 498

原创 机器学习:数据预处理

一、标准化均值为0,标准差为1from sklearn import preprocessingscaler = preprocessing.StandardScaler()scaler.fit_transform(X) 二、归一化对原始数据进行线性变换,变换到[0,1]区间(也可以是其他固定最小最大值的区间)from sklearn import preprocessings...

2019-05-18 10:59:29 447

原创 机器学习:决策树

一、主要步骤1.特征选择:ID3(信息增益)、C4.5(信息增益率)、CART(Gini系数)2.决策树生成:自顶向下,递归方法3.剪枝二、优缺点1.优点:速度快,解释性高2.缺点:缺失值敏感,容易过拟合三、属性选择:信息熵、信息增益、信息增益率1.信息熵:信息混乱程度2.信息增益:信息增益最大的特征来划分数据集(1)缺点:偏向取值较多的特征(原因:当特征的取值较多时,根据此...

2019-05-16 22:31:37 212

原创 机器学习:类不平衡问题求解

一、出现场景1.异常检测场景和罕见事件的分析2.客户流失场景3.发生频率低的事件二、解决方法1.过采样/上采样(应用更广泛)(1)方法:增加分类中少数类样本的数量来实现样本均衡最直接的方法是简单复制少数类样本形成多条记录,这种方法的缺点是如果样本特征少而可能导致过拟合的问题;经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本。from imbl...

2019-05-16 15:39:13 583

原创 机器学习:模型调参

一、网格调参from sklearn.model_selection import GridSearchCVparameters = [{'a1':['a','b'],'a2':['a','b']}]clf = GridSearchCV(model,param_distributions,scoring = ['accuracy','f1'],cv) #评分函数clf.fit(X_trai...

2019-05-14 15:11:45 611

原创 机器学习:模型评估指标

一、错误率和准确率from sklearn.metrics import accuracy_scoreprint('准确率',accuracy_score(y_true,y_pred,normalize=True))print('正确分类的数量',accuracy_score(y_true,y_pred,normalize=False))...

2019-05-13 21:02:39 537

原创 机器学习:数据集划分(包含交叉验证)

1.留出法from sklearn.model_selection import train_test_split#random_state不填或者为0时,每次都不同;其余值表示不同随机数X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.30,random_state=42)2.交叉验证法from...

2019-05-13 16:56:49 2528

原创 机器学习:如何判断和解决过拟合和欠拟合

1.利用学习曲线判断2.误差 = 偏差(精确率) + 方差(稳定性)3.下图中虚线为训练集,实线为测试集'''功能:判别过拟合和欠拟合学习曲线Learning Curve:评估样本量和指标的关系验证曲线validation Curve:评估参数和指标的关系'''import pandas as pdfrom sklearn.preprocessing import LabelE...

2019-05-13 16:22:46 5222

原创 《数据库》小结03

一、乐观锁和悲观锁1.乐观锁/乐观并发控制:操作时不上锁,适用于多读模式2.悲观锁:操作时上锁

2019-02-21 10:51:53 200

原创 《数据库》小结02

一、SQL题1.学生成绩表,把每科最高分前三名统计出来成绩表Score(student_no,subject_no,score)-分组排序函数:函数名() over(partition by 分组列 order by 排序列 desc) 重命名列rank() :并列时下一位空出所占的名次1,2,2,4。dense_rank():并列时下一位不空出所占的名次1,2,2,3。row_n...

2019-02-20 17:14:16 276

原创 python for data analysis

一、python基本语法运行python程序:$ python 程序名. py退出Python解释器返回终端,输入exit()或按Ctrl-D中断程序按Ctrl-C从同目录下引用另一个py程序,可以使用import+as重命名import 程序名 as 重命名res = 重命名.程序中函数名(函数参数) #调用函数is 、is not、==1)is和is not常用来判断一...

2019-02-06 10:05:33 571

原创 《计算机网络》小结01

一、计算机网络基本概念1.网络的特性共享性和互联性2.网络与互联网的区别1)网络是通过集线器等将主机相连2)互联网是通过路由器将网络相连3.ISP和IXP1)ISP互联网提供者:主干网/地区网/校园网2)IXP互联网交换点:允许两个网络直接相连并交换分组,不需要通过第三个网络来转发分组4.电路交换、报文交换、分组交换1)电路交换:建立连接-通话-释放连接,始终占用端到端的通信...

2019-01-16 15:42:23 205

原创 JAVA数据结构和算法---数组及排序算法

一、常用数据结构数组Array:无序查数组找慢,插入快;有序数组查找快,插入/删除慢;大小固定,存储单一元素栈Stack:先进后出队列Queue:先进先出链表Linked List:插入/删除快;查找慢树Tree :二叉树、红黑树、2-3-4树哈希表Hash堆Heap:对最大项数据存取快图Graph二、数组Array1.只能存储单一类型的数据1.数组声明、初始化、查询...

2019-01-14 17:10:28 222

原创 《数据库》小结01

一、数据库事务四大特性ACID- 1.原子性事务包含的所有操作要么全部成功,要么全部失败回滚- 2.一致性数据库从一个一致性状态变换到另一个一致性状态。例如用户A和用户B两者的钱加起来一共是5000,那么不管A和B之间如何转账,转几次账,事务结束后两个用户的钱相加起来应该还得是5000- 3.隔离性多个并发事务之间相互隔离- 4.持久性对数据库中的数据的改变是永久性,即便是在数据...

2019-01-03 16:46:44 123

中文命名实体识别语料(MSRA+人民日报+Boson)

适合作为命名实体识别的补充预料,包括微软亚研院MSRA:46365条语料、人民日报:23061条语料和Boson:2000条语料。都是标注过的,非常实用,适合新手作为刚开始的模型练习。

2019-11-11

java俄罗斯方块源码,可运行

java俄罗斯方块源码,可运行

2017-01-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除