自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (4)
  • 问答 (1)
  • 收藏
  • 关注

原创 情感分析badcase分析

训练数据集:有157637条, 主要由酒店评论数据10000条、财经(主要是股市类)评论数据、微博评论数据(社会类、闲聊)训练集数据存在重复:去重后有150875训练集分布:正面:负面:中性 占比为: 训练集使用word2vec+DBSCAN 后有5861个类,详细统计如下:类别 定义 样本数 簇个数 大簇...

2019-05-24 11:07:44 4449

转载 Kaggle如何入门?

送一篇非常好的文章,https://dnc1994.com/2016/04/rank-10-percent-in-first-kaggle-competition/首先简单介绍一些关于 Kaggle 比赛的知识:    1. 不同比赛有不同的任务,分类、回归、推荐、排序等。比赛开始后训练集和测试集就会开放下载。    2. 比赛通常持续 2 ~ 3 个月,每个队伍每天可以提交的次数

2017-04-23 16:06:24 2089

原创 互联网公司数据分析/挖掘面试机器学习面到的题目

1、LR原理及公式推导,有哪些优化方法,梯度下降,牛顿法以及各种变种,L1、L2范数的区别,优缺点。2、GBDT、XGBOOST原理异同,如何并行化等等(最好去xgboost官方看原始论文,讲得很清楚)随机森林原理及细节。3、如何解决数据不均衡问题。SVM原理及细节,SVM和树模型的异同以及优缺点和局限性。4、推荐系统,协同过滤原理,基于用户、物品等等。深度学习中的一些小问题,比如re

2017-04-23 15:32:21 982

转载 mysql对某个字段分组侯取topN的sql写法

问题:有表 如下,要求取出各班前两名(允许并列第二)Table1+----+------+------+-----+| id |SName |ClsNo |Score|+----+------+------+-----+|  1 |AAAA  |  C1  | 67  ||  2 |BBBB  |  C1  | 55  ||  3 |CCCC  |  C1  | 67 

2017-04-20 14:42:36 6336

fasttext.rar

新闻主题分类数据集,数据集的优点是训练和测试样本都很大,训练12万,测试集也有12万,标注效果好,标注准确率达到了95%。

2019-05-24

aida-yago2-dataset.zip

包含了较流行的实体链指数据集,aida-yago2, 以及coNLL2003数据集。

2019-05-24

text-segmentation-master.zip

This repository contains code and supplementary materials which are required to train and evaluate a model as described in the paper [Text Segmentation as a Supervised Learning Task]

2019-05-24

pspice仿真实验指导书

对于用pspice仿真电力电子有很详细的介绍

2009-07-11

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除