weixin_43351935-CSDN博客

原创 XLNet 预训练模型及命名实体识别

介绍在之前的实验中我们介绍和使用了 BERT 预训练模型和 GPT-2 预训练模型，分别进行了文本分类和文本生成实验。在本次实验中，我们将介绍 XLNet 预训练模型，并使用其进行命名实体识别实验。知识点 XLNetXLNet 在 BERT 和 GPT-2 上的改进XLNet 模型结构使用 XLNet 进行命名实体识别实验GLUEXLNet 在 BERT 和 GPT-2 上的改进BERT 的缺点可以说 XLNet 是 BERT 的增强版，但它与 BERT 又有许多不同之处。下面，我们将

2021-11-06 10:59:12 665

原创 BERT 预训练模型及文本分类

来源蓝桥购买的课程，试验记录BERT 预训练模型及文本分类介绍如果你关注自然语言处理技术的发展，那你一定听说过 BERT，它的诞生对自然语言处理领域具有着里程碑式的意义。本次试验将介绍 BERT 的模型结构，以及将其应用于文本分类实践。知识点语言模型和词向量BERT 结构详解BERT 文本分类BERT 全称为 Bidirectional Encoder Representations from Transformer，是谷歌在 2018 年 10 月发布的语言表示模型。BERT 通过维基百

2021-10-27 10:27:37 1580 3

原创 GPT-2之文本生成

BPE 算法原文中对 BPE 算法的实现：import reimport collectionsdef get_stats(vocab): pairs = collections.defaultdict(int) for word, freq in vocab.items(): symbols = word.split() for i in range(len(symbols)-1): pairs[symbols[i], sy

2021-10-22 15:04:55 1538

原创 ABA选品系列-第四期飞龙在天，利用ABA数据发现趋势，打造爆款

ABA数据化选品就是要通过ABA数据分析，挖掘出用户需求或产品趋势，找到那些处于增长趋势的产品，进行类目分析判断垄断和竞争程度等，找到适合自己的新产品，进行改进优化后布局。欢迎关注我们得公众号：韫知跨境。

2024-03-25 12:01:02 459

原创 ABA选品系列-第三期见龙在田，ABA数据化选品思路

品分析=预测未来市场走势？No！No！No!选品的目的：在合理、可控或者已知风险范围内找到更可能盈利的商品。选品的误区：像预测未来一样，认为通过选品分析，就可以避免风险或失败。而实际上，通过ABA数据分析进行选品，在市场调研阶段尽可能详细的挖掘和分析，做到产品尽可能符合市场预期和贴合用户需求，使用分析成本替代试错成本，从各方面提升成功的概率。这对于新卖家或者单品类投入较高的精品卖家来说尤为重要。选品的原则：通过调研分析，挖掘与自身实力高度匹配，可以获得合理利润的产品。

2024-03-25 11:55:07 759

原创通过爬虫反查IP地址

抓取的链接: https://site.ip138.com/71.112.190.213/加入你知道对方的网络IP。

2024-03-25 11:45:38 397

原创 ABA选品系列-第二期庖丁解牛，用户需求的挖掘及利用

说白点就是用户只有个大概的方向，具体也不知道自己想要什么，比如说快到小孩生日了，某用户需要买个礼物送给小孩，单也不知道买什么好，就通过亚马逊搜索“toys”，这就是很宽泛的需求，通过toys搜索出来的产品会很多，然后用户就会在其中去删选，看有没有合适的，通常情况下，宽泛需求对应的ABA关键词转化会比较低，但是流量会比较大。聚合分析中A列是关键词，代表中用户需求，B、C、D列代表该关键词前三的产品对应的点击，E列是前三点击之和，代表这用户需求的体量，也就是市场容量。欢迎关注我们得公众号：韫知跨境，私信获取。

2024-03-10 19:57:59 911

原创 ABA关键词选品，大卖成功打造亚马逊爆款的秘密武器

这个国外的平台就是Amazon。生活中选品，我们没有在美国的生活习惯（怎么掌握美国用户的需求，和我们在某宝，某东购物一样，都是通过关键词搜索，这些搜索的关键词就代表了用户的特定需求，对这些关键词数据库进行分析，从中掌握美国人的生活习惯，掌握相应的一些需求），确定市场的方向，选市场就是选词，搜索词和市场与产品之间的关系如图，通过找到跟自己战略竞争对手的头部品牌，获取产品规划路线，例如：想做3C产品，头部品牌JBL，可以通过ABA数据每周数据，得到该品牌的产品线，以及不同竞争档位的同类型的竞争对手。

2024-03-10 19:54:26 853

原创文本分词 nltk.tokenize

【代码】文本分词 nltk.tokenize。

2023-06-29 10:54:14 173

原创文本处理以及求相似度

文本处理的步奏

2023-01-30 15:10:10 300 1

原创 CountVectorizer和TfidfVectorizer对比

CountVectorizer与TfidfVectorizer，这两个类都是特征数值计算的常见方法。对于每一个训练文本，CountVectorizer只考虑每种词汇在该训练文本中出现的频率，而TfidfVectorizer除了考量某一词汇在当前训练文本中出现的频率之外，同时关注包含这个词汇的其它训练文本数目的倒数。相比之下，训练文本的数量越多，TfidfVectorizer这种特征量化方式就更有优势。sklearn: TfidfVectorizer 中文处理及一些使用参数。

2023-01-30 14:38:13 385

原创 Python 使用TF-IDF

总结了一些使用tf-idf 经验，对文本的向量化，之后可以使用k-means进行文本的分类，涉及到对停用词的去除，可向量的导出，并没有展示、

2023-01-13 15:08:17 1021 1

原创 Python 日期和字符串的相互转换

日期的统计方法参考： https://www.cnblogs.com/lemonbit/p/6896499.html。

2022-10-12 11:53:59 3457

原创 jupyter 删除指定的虚拟环境

Jupyter中删除虚拟环境步骤：D:\anaconda3\envs\pandas_notebook>jupyter kernelspec listAvailable kernels: pytorch_learn_nlp C:\Users\y'r\AppData\Roaming\jupyter\kernels\pytorch_learn_nlp python3 D:\anaconda3\share\jupyter\kernels\python3 pand

2022-04-22 10:14:25 3450

原创判断nan和lambda

判断 nan1、对整体的series或Dataframe判断是否未空，用isnull() eg: pd.isnull(df1) #df1是dataframe变量 2、math.isnan() 可以判断np.float64类型的空 3、pd.isna() 直接判断一列 4、对单独的某个值判断，可以用 np.isnan() eg: np.isnan(df1.ix[0,3]) #对df1的第0行第3列判断对数据处理star=all_data['星级'].apply(lambda x

2022-04-21 11:06:34 472

原创 Python 列表保存为txt文件

保存def save_txt(str_list:list,name): with open(name,'w',encoding='utf-8') as f: for i in str_list: f.write(i+'\n')读取行 with open('weeks','r',encoding='utf-8') as f: fe=f.readlines()读取全部with open('weeks','r',encoding='utf-

2022-04-18 10:44:54 3940

原创删除mongodb某个字段

来源代码命令：PS C:\Users\y'r> mongo -u jevy -p 112244MongoDB shell version v4.4.10connecting to: mongodb://127.0.0.1:27017/?compressors=disabled&gssapiServiceName=mongodbImplicit session: session { "id" : UUID("3804af0b-fe26-4af7-88b6-8d4d56581bd2")

2022-03-28 17:16:02 826

原创 mongorestore 导入数据

＃　导出数据库连接数据库：mongodb://jevy:112244@localhost:27017/?authSource=admin&readPreference=primary&appname=MongoDB%20Compass&ssl=false１.不带密码基础参数1.1.新建 dumpMongo 文件夹 1.2. 在mongodump 文件夹下启动cmd 批量导出 mongodump -h 192.168.0.151 -o D:\远程文件\＃　导入

2022-03-18 10:39:10 1337

原创 jupyter 使用虚拟环境

1 创建虚拟环境E:\python_env_use>virtualenv flask_project2. 激活虚拟环境并安装：ipykernel(flask_project) E:\python_env_use\flask_project\Scripts>pip install ipykernel -i https://pypi.douban.com/simple3.将 Virtualenv 加入IPykernelpython -m ipykernel install --u

2022-02-08 16:24:41 2490

原创 layui+flask前后端分离

目的：https://layui.itze.cn/demo/index.html 实现官网的数据table，对应的layui的资源已经下载好过程就不写了，后面直接放项目代码：数据来源：https://blog.csdn.net/yangjiabei_0301/article/details/78222174用flask作为后端：运行完整代码已经上传：传送门：https://github.com/jevy146/layui_flask_use...

2021-12-18 18:42:54 1624

原创 Python接入百度翻译-翻译大批量文档

现在有一份Excel表的大批量的评论内容数据将评论的英语翻译为汉语，对接百度翻译的apihttps://fanyi-api.baidu.com/doc/13 文档的接入服务import requestsimport randomimport jsonfrom hashlib import md5import xlwings as xwimport time# Set your own appid/appkey.appid = '输入你的'appkey = '输入你的'#

2021-11-04 10:20:43 519

转载英文文本关键词抽取——使用NLTK进行关键词抽取

"""__author__:shuangrui Guo__description__:"""import sysimport nltkimport jsonfrom tqdm import tqdm#多进程的包import multiprocessingimport argparseimport osimport reSUFFIX_NLTK = '__nltk.json'#清洗文本def clean_text(text): text = re.sub(r'[^\x00-

2021-11-02 16:07:30 969

原创 NLTK处理文本的三步走

from nltk import word_tokenize, pos_tagfrom nltk.corpus import wordnetfrom nltk.stem import WordNetLemmatizer # 用于词形还原# 获取单词的词性def get_wordnet_pos(tag): if tag.startswith('J'): return "j" elif tag.startswith('V'): return "v"

2021-11-02 14:44:45 182

原创 nltk实现对英文短文本的名词抽取

import nltkimport reimport csvfrom xlwt import *#nltk.download('punkt')#对句子进行词汇分割和正规化，有些情况如aren‘t需要分割为are和n’t；或者i‘m要分割为i和’m。#tokens_1=nltk.word_tokenize('what your')#print(tokens_1)import nltklowersetence='I would not doubt to see an upgrade to T

2021-11-02 14:35:25 1233 1

原创 pandas 遍历的方式增加列数据-亚马逊前台产品数据

读取原始数据1.读取第一行数据2.读取指定的行列3. 按照列名称读取4.遍历增加数据5.将亚马逊的大类产品数提取出来。数据结构为：提取大类名称和小类名称和对应的排名数据：def mongo_rank(asin,table): table_name=db[table] # 数据库链接 one_data =table_name.find_one({'asin':asin},{'_id':0,'ranks':1}) # 获取对应的数据 return on

2021-09-23 16:09:43 982

原创 anaconda3的使用

下载安装 https://www.anaconda.com/products/individual-d2.设置环境变量环境变量设置好了3.创建虚拟环境conda create -n pytorch_nlp python=3.6.54.创建的虚拟环境在这里5.激活使用 >conda activate pytorch_nlp8. 将虚拟环境导入到jupyter中，9. pip install -i https://pypi.douban.co..

2021-09-15 14:55:44 233

原创 pytorch的炼丹之路-环境配置

我的电脑是 windows10系统，在任务管理器中查看是否有GPU2.去官网按照对应的命令下载即可，https://pytorch.org/get-started/locally/CUDA（Compute Unified Device Architecture），是显卡厂商NVIDIA推出的运算平台我是这么选择的，这里有一个关于Windows（64bit）下安装pytorch-gpuhttps://www.huaweicloud.com/articles/7c2f84bc1bc86d.

2021-09-08 11:49:22 135

原创 mongodb导出数据

详细的可以参考链接： https://segmentfault.com/a/1190000006236494服务器ip：192.168.2.11本地主机：192.168.2.561.首先你需要下载 mongodb的 tools 文件包这两个都是数据导出的。批量导出和导入1.1.新建 dumpMongo 文件夹1.2. 在mongodump 文件夹下启动cmd批量导出全部的数据库mongodump -h 192.168.2.11 -o e:\dumpMongo#将指定的数据库导

2021-08-24 11:42:00 144

原创爬取亚马逊today‘s deals商品数据

1-爬取目标网站url=https://www.amazon.com/gp/goldbox/ref=gbps_ftr_s-5_884a_dls_MISD?gb_f_deals1=sortOrder:BY_SCORE,includedAccessTypes:GIVEAWAY_DEAL,dealStates:EXPIRED%252CSOLDOUT&pf_rd_p=5ab3fe28-c461-42eb-a0ee-746265f9884a&pf_rd_s=slot-5&pf_rd_t=70

2021-07-05 14:19:47 731

原创 pyecharts图在flask中的使用

我们常用的的echarts画图，使用｛｛　　｝｝　进行传递参数，，如果参数太多呢？就太多的变量了。这里我们可以直接用pyecahrts直接将图做好，然后直接传到前端去，，说来就来：这里面最麻烦的是画词云图，我将所有的代码已经打包好，上传到GitHub了 https://github.com/jevy146/pyecharts-flask 。ｐｙｅｃｈａｒｔｓ的图直接将示例中的代码封装到函数中即可，pyecahrts 用的1.0版本以上，(1.7.1) 链接：https://gallery.pyecha

2021-04-26 10:24:49 3248 4

现代统计学 基于计算机的 Python 方法

面对竞争-竞争战略.pdf

高效能人士的7个习惯.pdf

206 混凝土搅拌站成本管理体系.pdf

008 砂子技术参数确定方法.pdf

2021.1.29-站内搜索流量获取方法详解.pdf

空空如也

现代统计学基于计算机的 Python 方法