自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (3)
  • 收藏
  • 关注

原创 倍投能赚钱?用数据来说话!python来告诉你答案

总有人会说,倍投只要本金足够大,就能稳赚。怎么说呢,这话不假,但这个本金足够大到底是个什么概念呢?秉持着实践是检验真理的唯一标准,本文用数据来说话,告诉你,到底能不能赚!准备阶段首先我们要模拟一个类似的游戏,比如说丢硬币,这种输赢概率对半的游戏就很适合倍投,纳闷我们先来用python把这个游戏定义一下,比较简单:在这里插入代码片...

2020-04-28 18:08:45 3837 2

原创 天天基金爬虫+策略选基

基金是一种很好的理财方式,利用pyhton根据以往的跌幅情况进行基金选择,是一种很可靠的选择方式。本文以债券基金(稳定且风险较低)的爬虫和策略选择为例子,实现基金的选择。

2020-02-15 17:05:27 2274

原创 【tf-idf】文本转词向量后,词典中单词数量变少

利用tf-idf进行文本转词向量后,词典中单词数量变少

2022-10-10 17:47:25 336 1

原创 基于Kmeans的简单聚类分析

对文章数据进行kmeans聚类并简单分析

2022-07-06 14:07:00 1057 1

原创 tensorrt安装步骤

安装TensorRT需要安装pycuda,执行如下命令:pip install pycuda若出现以下结果,表示安装成功。正在上传…重新上传取消注意gcc版本,当前tensorrt需要gcc版本为5.0以上查看gcc版本 gcc -v, 若低于5.0则需要升级gcc,具体步骤见如下附件文档:正在上传…重新上传取消tar -zxvf centos.tar.gz然后将里边的lib绝对路径添加到环境变量中,命令如下(以当前用户)vi ~/.bashrc# tensorrt pathexport LD_LIBRA

2022-06-21 16:59:19 1491

原创 Docker离线安装及python算法部署详细教程

算法部署时,常出现测试通过生产上环境各种问题的情况,很影响效率。因此想采用docker的方式部署,市面上的安装都不是很顺利,因此本文总结各种安装方式,采用离线的方式安装,较为稳定且可行。1、Docker离线安装1.1下载docker安装包官方地址:Index of linux/static/stable/x86_64/docker-19.03.9.tgz1.2 解压缩tar -zxvf docker-19.03.9.tgzcp -p docker/* /usr/bin..

2022-05-30 09:44:28 989

原创 【Docker设置镜像源】failed to start daemon: invalid mirror: unsupported scheme “xxx“ in ‘xxx‘

场景: 当文件夹中包含多个json文件,该如何批量读取

2022-05-12 13:42:31 1720

原创 python爬虫(request+xpath的简单demo模板)

记录一个爬取足球赔率信息的一个脚本,方便平时抓取网站直接使用class getLeagueOdds(): def __init__(self, leagueUrl, seasonName, leagueId, header = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537

2022-03-07 10:46:49 695

原创 记一次不同Ner实体命名模型实际生产效果对比

1、数据准备训练数据:医疗影像经过OCR识别后,得到的纯文本数据,且已经过专业标准人员标注。测试数据:与训练数据同源,8:2的比例切分后得到。验证数据:经过本人逐条核验,共150条,非连续实体有50条,嵌套和普通实体有100条。2、模型准备2.1标注方法:bio ,模型:bert,框架:tensorflow基于BERT预训练的中文命名实体识别TensorFlow实现2.2标注方法:globalpointor(多头标注) ,模型:bert,框架:keras详细可参见:G

2022-01-11 17:02:32 590 3

原创 将pandas.dataframe快速导入到mysql数据库中(无需建表)

from sqlalchemy import create_engineimport pandas as pdconnect = create_engine('mysql+pymysql://root:[email protected]:3306/xxx?charset=utf8')df=pd.read_excel(r"文件地址", header=0) #读取数据 pd.io.sql.to_sql(frame=df,name='table_name',con=connect,if_.

2021-12-29 16:54:47 2464

原创 Nebula执行算法时出现“ERROR ScanVertexResultIterator: get storage client error”

问题表示无法连接上storage client。解决:在Nebula控制台执行show hosts;由于默认是127.0.0.1, storage client在连接nebula storage时,是通过metad服务拿到的storage地址的,所以spark-connector中拿到的storage地址就是127.0.0.1:9779, 这个地址就不对了。因此将默认地址修改为真实地址即可。...

2021-11-24 15:50:51 605 2

原创 图数据库-Nebula部署手册

Nebula 安装部署手册一、准备工作近期工作有关反欺诈,调研了一下相关图数据库,之前使用过Neo4j,但最近发现Nebula的表现貌似更为出色,因此记录一下部署的过程。以下安装使用nebula用户。1.1 安装目录nebula主程序、nebula-console安装在/opt目录nebula-studio安装在默认目录(/usr/local/nebula-graph-studio)nebula的数据文件安装在/mnt/data/nebula目录.

2021-11-17 16:00:15 2351

原创 智能外呼机器人的前世今生

嘟嘟嘟~~~“您好,请问是xx先生(女士)吗?您的保险即将到期哦,请问是否需要立即续保呢?”当电话那头传来一阵阵亲切的问候声,是否幻想着跟你交流的是一位温柔可人的客服小姐姐呢?当你还在浮想翩翩的时候,那可能就要大失所望咯。这温柔的声音可能来源自一位铁憨憨(智能交互机器人)。小伙伴们是不是很诧异,印象中的机器人声音机械且单调,怎么会和上面听到的声音一样呢。自然而然会心生疑问,到底什么是智能交互机器人?智能交互机器人的前世今生在智能外呼逐渐兴起以前,企业通常采用传统的人工外

2021-11-17 15:44:19 1975

原创 NLP中文本数据扩增的几种方法【一】单词替换

和图像数据增强不同,NLP中文本数据增强比较少见。图像的一些增强操作,如图像旋转、灰度处理等等都不会改变图像的语义,语义不变变换的存在使得增广成为计算机视觉研究中必不可少的工具。但在NLP中进行数据增强很容易就改变了文本的语义,这样就失去了增强的意义。接下来给大家介绍几种能够在不改变基础语言前提下,进行文本数据扩增的方法。同义词替换即采用同义词替换文本中的词,丰富程度取决于同义词的数量,且基本不会改变语义。词向量替换NLP中常见的embeding方式由bert、word2vec、tf-idf等.

2021-07-12 17:36:48 1547

原创 python实现将dataframe直接插入Elasticsearch数据库的方法

由于比较喜欢使用pandas包中的dataframe进行数据预处理,处理完后需要导入到数据库中,为避免重复转换数据格式,一下函数可直接完成导入。from elasticsearch import Elasticsearchdef connect_es(frame, index_, type_): try: es = Elasticsearch(host, http_auth=(user, password), port='9200') df_as_json

2020-11-19 16:08:23 969

原创 SNP基因数据质控调研

一、基因芯片质量控制简介基因芯片的质量控制是分析基因芯片的第一步。snp的质控是非常重要的,如果snp数据的质量不佳,那么计算的结果的有效性和准确性就无法保证。在进行snp芯片测序采集的过程中,难免出现测序、人工操作等其他方面造成的误差,而非该个体的真实情况,如果不对这些测序出现问题的个体进行筛选控制,必然会对后续操作造成影响,由此可见质控操作的重要性。由于选种、配种等各种业务的需求,为了使各项业务更加精准顺利的展开,我们需要对基因芯片上的snp数据进行质控,当满足一定的质量要求后,才能更准确的计算出各

2020-06-28 11:47:53 5366

原创 NBA数据爬虫+比分预测

1、NBA数据爬虫爬取的数据主要有,主队名称、客队名称、比赛日期、两队各节的分数。数据主要从http://www.stat-nba.com获取。def get_url_content(url): #获取比赛时间 res = requests.get(url) res.encoding = 'utf-8' soup = BeautifulSoup(res.con...

2020-03-02 17:28:09 999

转载 基于Keras的word2vec词向量训练和embeding

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2020-01-13 16:44:51 1583 2

原创 有关seq2seq、encoder与decoder、transformer易混淆处的理解

一、Seq2seqSeq2seq是应用层的概念,即由序列到序列(且输入序列可以为不同长度,即变长序列)。主流的Seq2Seq都是基于Encoder-Decoder来实现的,是一种应用场景而不是某个特定的技术或者模型。二、Encoder-DecoderEncoder-Decoder是网络架构层面的概念,最常用的地方是自编码器。主要用于机器翻译等领域,是seq2seq中的一种更细节一点的建模技...

2019-12-27 17:02:59 2335

原创 python作图中遇到中文乱码的解决方案

PYTHON作图中文出现乱码,有时候指定一下默认字体即可解决from pylab import mplmpl.rcParams['font.sans-serif'] = ['SimHei'] 若有命名中有’-‘符号,以下代码可解决’-'显示为方块的问题。mpl.rcParams['axes.unicode_minus'] = False...

2019-11-05 09:44:20 573 1

原创 乘用车细分市场销量预测--比赛baseline

import sysimport numpy as npimport pandas as pdimport os import gcfrom tqdm import tqdm, tqdm_notebookfrom sklearn.model_selection import StratifiedKFold, KFoldfrom sklearn.metrics import f1_sc...

2019-11-05 09:41:09 486

原创 互联网虚假新闻检测挑战赛-比赛记录

比赛地址:https://www.biendata.com/competition/falsenews/rules/任务描述虚假新闻文本检测:文本是新闻信息的主要载体,对新闻文本的研究有助于虚假新闻的有效识别。具体任务为:给定一个新闻事件的文本,判定该事件属于真实新闻还是虚假新闻。数据描述虚假新闻文本检测任务中,训练集共包含38,471条新闻,其中包含真实新闻19,186条,虚假新闻19...

2019-10-18 09:51:46 2149 8

原创 解决tensorflow.python.framework.errors_impl.InvalidArgumentError: 2 root error(s) found.报错问题

问题来源:在使用bert进行fine-tune训练模型时,maxlen设置为512时,会遇到该问题。问题原因由于bert的模型默认最大长度为512,而在对文本进行处理时,文本的开头和结尾会加入[cls]和[sep],因此如果我们设置512的最大文本长度,会导致超过默认bert设置的maxlen。解决方法:将maxlen的值调小,小于等于510即可。...

2019-10-14 16:49:14 15139

原创 LSTM时间序列预测结果呈现出一条直线的解决办法

一、前景介绍利用lstm做时间序列预测时,首先要将时间序列预处理一下,确定根据前timestep步预测后面的数据。假定给一个数据集{A,B,C,D->EB,C,D,E->FC,D,E,F->GD,E,F,G->H}这时timestep为4,即根据前四个的数据预测后一个数据的值。按此将数据集切分为训练集和测试集。时间序列预处理函数,生成train_x与t...

2019-10-09 14:50:34 18891 9

原创 将csv格式文件上传到Hive

一、首先在服务器上登录到Hive建立一个表(以titanic为例):进入hive,根据文档中的列,创建表,建表语句如下:create table titanic(passenger int, Survived int, Pclass int, N...

2019-07-24 15:35:58 1249

全国医院名称.xlsx

包含27w条名称,具体到乡镇

2021-04-07

篮球数据集20200101-20200723

数据集包含篮球所属联赛、时间、主客队名、得分、主客队平均得分与失分、投篮命中率、三分命中率、平均篮板、平均助攻、平均抢断、平均失误、主客队近五场总得分。可用于机器学习、深度学习预测比赛结果,比赛得分等信息,时间跨度为2020年1月1日至7月23日。

2020-07-23

广告知识图谱

知识图谱,是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是『实体-关系-实体』三元组,以及实体及其相关属性-值对,实体之间通过关系相互联结,构成网状的知识结构。

2018-10-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除