自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(98)
  • 资源 (5)
  • 收藏
  • 关注

原创 XLNet 预训练模型及命名实体识别

介绍在之前的实验中我们介绍和使用了 BERT 预训练模型和 GPT-2 预训练模型,分别进行了文本分类和文本生成实验。在本次实验中,我们将介绍 XLNet 预训练模型,并使用其进行命名实体识别实验。知识点 XLNetXLNet 在 BERT 和 GPT-2 上的改进XLNet 模型结构使用 XLNet 进行命名实体识别实验GLUEXLNet 在 BERT 和 GPT-2 上的改进BERT 的缺点可以说 XLNet 是 BERT 的增强版,但它与 BERT 又有许多不同之处。下面,我们将

2021-11-06 10:59:12 665

原创 BERT 预训练模型及文本分类

来源蓝桥 购买的课程,试验记录BERT 预训练模型及文本分类介绍如果你关注自然语言处理技术的发展,那你一定听说过 BERT,它的诞生对自然语言处理领域具有着里程碑式的意义。本次试验将介绍 BERT 的模型结构,以及将其应用于文本分类实践。知识点语言模型和词向量BERT 结构详解BERT 文本分类BERT 全称为 Bidirectional Encoder Representations from Transformer,是谷歌在 2018 年 10 月发布的语言表示模型。BERT 通过维基百

2021-10-27 10:27:37 1580 3

原创 GPT-2之文本生成

BPE 算法原文中对 BPE 算法的实现:import reimport collectionsdef get_stats(vocab): pairs = collections.defaultdict(int) for word, freq in vocab.items(): symbols = word.split() for i in range(len(symbols)-1): pairs[symbols[i], sy

2021-10-22 15:04:55 1538

原创 ABA选品系列-第四期 飞龙在天,利用ABA数据发现趋势,打造爆款

ABA数据化选品就是要通过ABA数据分析,挖掘出用户需求或产品趋势,找到那些处于增长趋势的产品,进行类目分析判断垄断和竞争程度等,找到适合自己的新产品,进行改进优化后布局。欢迎关注我们得公众号:韫知跨境。

2024-03-25 12:01:02 459

原创 ABA选品系列-第三期 见龙在田,ABA数据化选品思路

品分析=预测未来市场走势?No!No!No!选品的目的:在合理、可控或者已知风险范围内找到更可能盈利的商品。选品的误区:像预测未来一样,认为通过选品分析,就可以避免风险或失败。而实际上,通过ABA数据分析进行选品,在市场调研阶段尽可能详细的挖掘和分析,做到产品尽可能符合市场预期和贴合用户需求,使用分析成本替代试错成本,从各方面提升成功的概率。这对于新卖家或者单品类投入较高的精品卖家来说尤为重要。选品的原则:通过调研分析,挖掘与自身实力高度匹配,可以获得合理利润的产品。

2024-03-25 11:55:07 759

原创 通过爬虫反查IP地址

抓取的链接: https://site.ip138.com/71.112.190.213/加入你知道 对方的网络IP。

2024-03-25 11:45:38 397

原创 ABA选品系列-第二期 庖丁解牛,用户需求的挖掘及利用

说白点就是用户只有个大概的方向,具体也不知道自己想要什么,比如说快到小孩生日了,某用户需要买个礼物送给小孩,单也不知道买什么好,就通过亚马逊搜索“toys”,这就是很宽泛的需求,通过toys搜索出来的产品会很多,然后用户就会在其中去删选,看有没有合适的,通常情况下,宽泛需求对应的ABA关键词转化会比较低,但是流量会比较大。聚合分析中A列是关键词,代表中用户需求,B、C、D列代表该关键词前三的产品对应的点击,E列是前三点击之和,代表这用户需求的体量,也就是市场容量。欢迎关注我们得公众号:韫知跨境,私信获取。

2024-03-10 19:57:59 911

原创 ABA关键词选品,大卖成功打造亚马逊爆款的秘密武器

这个国外的平台就是Amazon。生活中选品,我们没有在美国的生活习惯(怎么掌握美国用户的需求,和我们在某宝,某东购物一样,都是通过关键词搜索,这些搜索的关键词就代表了用户的特定需求,对这些关键词数据库进行分析,从中掌握美国人的生活习惯,掌握相应的一些需求),确定市场的方向,选市场就是选词,搜索词和市场与产品之间的关系如图,通过找到跟自己战略竞争对手的头部品牌,获取产品规划路线,例如:想做3C产品,头部品牌JBL,可以通过ABA数据每周数据,得到该品牌的产品线,以及不同竞争档位的同类型的竞争对手。

2024-03-10 19:54:26 853

原创 文本分词 nltk.tokenize

【代码】文本分词 nltk.tokenize。

2023-06-29 10:54:14 173

原创 文本处理以及求相似度

文本处理的步奏

2023-01-30 15:10:10 300 1

原创 CountVectorizer和TfidfVectorizer对比

CountVectorizer与TfidfVectorizer,这两个类都是特征数值计算的常见方法。对于每一个训练文本,CountVectorizer只考虑每种词汇在该训练文本中出现的频率,而TfidfVectorizer除了考量某一词汇在当前训练文本中出现的频率之外,同时关注包含这个词汇的其它训练文本数目的倒数。相比之下,训练文本的数量越多,TfidfVectorizer这种特征量化方式就更有优势。sklearn: TfidfVectorizer 中文处理及一些使用参数。

2023-01-30 14:38:13 385

原创 Python 使用TF-IDF

总结了一些使用tf-idf 经验,对文本的向量化,之后可以使用k-means进行文本的分类,涉及到对停用词的去除,可向量的导出,并没有展示、

2023-01-13 15:08:17 1021 1

原创 Python 日期和字符串的相互转换

日期的 统计方法 参考: https://www.cnblogs.com/lemonbit/p/6896499.html。

2022-10-12 11:53:59 3457

原创 jupyter 删除指定的虚拟环境

Jupyter中删除虚拟环境步骤:D:\anaconda3\envs\pandas_notebook>jupyter kernelspec listAvailable kernels: pytorch_learn_nlp C:\Users\y'r\AppData\Roaming\jupyter\kernels\pytorch_learn_nlp python3 D:\anaconda3\share\jupyter\kernels\python3 pand

2022-04-22 10:14:25 3450

原创 判断nan和lambda

判断 nan1、对整体的series或Dataframe判断是否未空,用isnull() eg: pd.isnull(df1) #df1是dataframe变量 2、math.isnan() 可以判断np.float64类型的空 3、pd.isna() 直接判断一列 4、对单独的某个值判断,可以用 np.isnan() eg: np.isnan(df1.ix[0,3]) #对df1的第0行第3列判断对数据处理star=all_data['星级'].apply(lambda x

2022-04-21 11:06:34 472

原创 Python 列表保存为txt文件

保存def save_txt(str_list:list,name): with open(name,'w',encoding='utf-8') as f: for i in str_list: f.write(i+'\n')读取行 with open('weeks','r',encoding='utf-8') as f: fe=f.readlines()读取全部with open('weeks','r',encoding='utf-

2022-04-18 10:44:54 3940

原创 删除mongodb某个字段

来源代码命令:PS C:\Users\y'r> mongo -u jevy -p 112244MongoDB shell version v4.4.10connecting to: mongodb://127.0.0.1:27017/?compressors=disabled&gssapiServiceName=mongodbImplicit session: session { "id" : UUID("3804af0b-fe26-4af7-88b6-8d4d56581bd2")

2022-03-28 17:16:02 826

原创 mongorestore 导入数据

# 导出数据库连接数据库:mongodb://jevy:112244@localhost:27017/?authSource=admin&readPreference=primary&appname=MongoDB%20Compass&ssl=false1.不带密码基础参数1.1.新建 dumpMongo 文件夹 1.2. 在mongodump 文件夹下启动cmd 批量导出 mongodump -h 192.168.0.151 -o D:\远程文件\# 导入

2022-03-18 10:39:10 1337

原创 jupyter 使用 虚拟环境

1 创建虚拟环境E:\python_env_use>virtualenv flask_project2. 激活虚拟环境 并安装:ipykernel(flask_project) E:\python_env_use\flask_project\Scripts>pip install ipykernel -i https://pypi.douban.com/simple3.将 Virtualenv 加入IPykernelpython -m ipykernel install --u

2022-02-08 16:24:41 2490

原创 layui+flask前后端分离

目的:https://layui.itze.cn/demo/index.html 实现官网的数据table,对应的layui的资源已经下载好过程就不写了,后面直接放项目代码:数据来源:https://blog.csdn.net/yangjiabei_0301/article/details/78222174用flask作为后端:运行完整代码已经上传:传送门:https://github.com/jevy146/layui_flask_use...

2021-12-18 18:42:54 1624

原创 Python接入百度翻译-翻译大批量文档

现在有一份Excel表的大批量的评论内容数据将评论的英语翻译为汉语,对接百度翻译的apihttps://fanyi-api.baidu.com/doc/13 文档的接入服务import requestsimport randomimport jsonfrom hashlib import md5import xlwings as xwimport time# Set your own appid/appkey.appid = '输入你的'appkey = '输入你的'#

2021-11-04 10:20:43 519

转载 英文文本关键词抽取——使用NLTK进行关键词抽取

"""__author__:shuangrui Guo__description__:"""import sysimport nltkimport jsonfrom tqdm import tqdm#多进程的包import multiprocessingimport argparseimport osimport reSUFFIX_NLTK = '__nltk.json'#清洗文本def clean_text(text): text = re.sub(r'[^\x00-

2021-11-02 16:07:30 969

原创 NLTK处理文本的三步走

from nltk import word_tokenize, pos_tagfrom nltk.corpus import wordnetfrom nltk.stem import WordNetLemmatizer # 用于词形还原# 获取单词的词性def get_wordnet_pos(tag): if tag.startswith('J'): return "j" elif tag.startswith('V'): return "v"

2021-11-02 14:44:45 182

原创 nltk实现对英文短文本的名词抽取

import nltkimport reimport csvfrom xlwt import *#nltk.download('punkt')#对句子进行词汇分割和正规化,有些情况如aren‘t需要分割为are和n’t;或者i‘m要分割为i和’m。#tokens_1=nltk.word_tokenize('what your')#print(tokens_1)import nltklowersetence='I would not doubt to see an upgrade to T

2021-11-02 14:35:25 1233 1

原创 pandas 遍历的方式增加列数据-亚马逊前台产品数据

读取原始数据1.读取第一行数据2.读取指定的行列3. 按照列名称读取4.遍历增加数据5.将亚马逊的大类产品数提取出来。数据结构为:提取大类名称和小类名称和对应的排名数据:def mongo_rank(asin,table): table_name=db[table] # 数据库链接 one_data =table_name.find_one({'asin':asin},{'_id':0,'ranks':1}) # 获取对应的数据 return on

2021-09-23 16:09:43 982

原创 anaconda3的使用

下载安装 https://www.anaconda.com/products/individual-d2.设置环境变量环境变量设置好了3.创建虚拟环境conda create -n pytorch_nlp python=3.6.54.创建的虚拟环境在这里5.激活使用 >conda activate pytorch_nlp8. 将虚拟环境导入到jupyter中,9. pip install -i https://pypi.douban.co..

2021-09-15 14:55:44 233

原创 pytorch的炼丹之路-环境配置

我的电脑是 windows10系统,在任务管理器中 查看是否有GPU2.去官网 按照对应的命令下载即可,https://pytorch.org/get-started/locally/CUDA(Compute Unified Device Architecture),是显卡厂商NVIDIA推出的运算平台我是这么选择的,这里有一个关于Windows(64bit)下安装pytorch-gpuhttps://www.huaweicloud.com/articles/7c2f84bc1bc86d.

2021-09-08 11:49:22 135

原创 mongodb导出数据

详细的可以参考链接 : https://segmentfault.com/a/1190000006236494服务器ip:192.168.2.11本地主机:192.168.2.561.首先你需要下载 mongodb的 tools 文件包这两个都是数据导出的。批量导出和导入1.1.新建 dumpMongo 文件夹1.2. 在mongodump 文件夹下启动cmd批量导出 全部的数据库mongodump -h 192.168.2.11 -o e:\dumpMongo#将指定的数据库导

2021-08-24 11:42:00 144

原创 爬取亚马逊today‘s deals商品数据

1-爬取目标网站url=https://www.amazon.com/gp/goldbox/ref=gbps_ftr_s-5_884a_dls_MISD?gb_f_deals1=sortOrder:BY_SCORE,includedAccessTypes:GIVEAWAY_DEAL,dealStates:EXPIRED%252CSOLDOUT&pf_rd_p=5ab3fe28-c461-42eb-a0ee-746265f9884a&pf_rd_s=slot-5&pf_rd_t=70

2021-07-05 14:19:47 731

原创 pyecharts图在flask中的使用

我们常用的的echarts画图,使用{{  }} 进行传递参数,,如果参数太多呢?就太多的变量了。这里我们可以直接用pyecahrts直接将图做好,然后直接传到前端去,,说来就来:这里面最麻烦的是画词云图,我将所有的代码已经打包好,上传到GitHub了 https://github.com/jevy146/pyecharts-flask 。pyecharts的图直接将示例中的代码封装到函数中即可 ,pyecahrts 用的1.0版本以上,(1.7.1) 链接:https://gallery.pyecha

2021-04-26 10:24:49 3248 4

原创 亚马逊ABA数据关键词递归函数

一种通过bestseller一个ASIN进行反查关键词的方法,如图 是英国站2021-3-27后台 ABA数据,根据其中之一的ASIN进行反差客户搜索Search Term 关键词,由于一个关键词下有三个ASIN,大概逻辑思路为:1,通过一个ASIN反查的多个关键词,再通过得到的关键词 获取其他ASIN,2,通过获取的AISN再次反查关键词,以此类推,写一个递归函数,函数调用自己,这样理论上就获取了同类产品的所有Search Term 。二、函数实现效果将数据导入到pandas中。输入一

2021-04-06 14:47:48 1222 5

原创 以删除列表的元素的方式获取数剧

代码来源于网络搜索,num_list=[1,2,3,4,5,5,5,6]wor=[]for i in range(len(num_list)-1, -1, -1): if num_list[i] == 5 : # 删除 5 存放条件 print('++',i) wor.append(num_list.pop(i)) else: print(num_list)

2021-04-06 14:20:53 71

原创 xftp连接虚拟机的Ubuntu系统

查看ip地址 ifconfig -a2直接链接失败了参考链接配置好连接上了

2021-03-08 17:50:00 320

原创 Ubuntu设置全屏

书接上文,乌班图安装好了、在桌面有一个tools来源链接-最全链接地址在进行安装 tools 的时候这一步怎么搞不定,只能Google了 使用这个然后从新提示输入 yes 的全部输入 yes,提示输入no的全部输入no 其他设置路劲的全部都是回车enter,重启了一下,终于成功了。。全屏了...

2021-03-08 17:38:31 230

原创 Python爬虫解析路径技巧-抓取亚马逊top-reviewers

1.写爬虫最重要的一步就是解析需要抓取信息的xpath,我是比较习惯使用这个。大家可以安装一个xpath helper2. 第一步上代码,我用的是jupyter notebook 以便边看html代码,边测试。from selenium.webdriver import ChromeOptionsimport timefrom fake_useragent import UserAgentfrom selenium import webdriverfrom selenium.webdriver

2021-02-27 16:16:18 1020

原创 Ubuntu20再次安装

1.先将虚拟机VMware 还原原来的设置,恢复原来的设置2、查看网络适配器 还是只有一个,这里的win10 的网络适配器 在我的电脑——》管理 里面找3、再次安装一遍对照来一遍这里选一下硬件VM 设置网络的三种模式网络模式讲解...

2021-02-22 17:57:00 207

原创 安装使用Ubuntu20

1.按照2020最新版VMware安装Ubuntu20.04教程(巨细)亲测有效2. 在命令终端 输入 ip addr show ,ip地址为 192.168.80.1293. 此时用xftp是链接不上虚拟环境中的乌班图系统的参考链接 设置一下主机xshell和xftp与虚拟机Ubuntu之间的连接与配置用xftp远程连接ubuntu系统Ubuntu端设置:1.执行命令:sudo apt-get update2.sudo apt-get install vsftpd3.sudo s

2021-02-22 11:52:42 181

原创 windows10系统通过xftp链接虚 拟机 Ubuntu 20

https://www.codenong.com/cs105368491/ 文章来之。。查看 ssh3.输入用户名和密码

2020-10-29 14:39:45 212

原创 keras-深度学习01-安装

1.E:\ProgramData\Scripts>pip install -i https://pypi.douban.com/simple keras使用pip 安装。2. 此时,导入,你会发现无法使用,需要安装TensorFlow 2.2以上版本。3.一键安装(CPU版): pip install --upgrade --ignore-installed tensorflow(GPU版) pip install --upgrade --ignore-installed tensorfl

2020-07-01 16:32:57 122

原创 使用selenium抓取1688供应商

为了解决采购妹子一个个的翻,我将1688网上想找的产品撸了下来,这里以放一个词为代表。代码以及完整的数据结构已上传 https://github.com/jevy146/selenium_1688/# -*- coding: utf-8 -*-# @Time : 2020/6/18 9:31# @Author : 结尾!!# @FileName: D01-抓取首页信息.py# @Software: PyCharmfrom selenium.webdriver import Chrom

2020-06-18 11:46:32 1443 1

现代统计学 基于计算机的 Python 方法

学习统计学,使用Python实现

2024-03-30

面对竞争-竞争战略.pdf

战略是决定一个公司的方向,战略出错了,做再多工作都是白费。

2021-11-02

高效能人士的7个习惯.pdf

高效技能,提高效率

2021-11-02

206 混凝土搅拌站成本管理体系.pdf

混凝土搅拌站

2021-02-24

008 砂子技术参数确定方法.pdf

混凝土技术

2021-02-24

2021.1.29-站内搜索流量获取方法详解.pdf

亚马逊运营知识分享

2021-02-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除