自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据AI笔记

一只认真写博客的菜鸟

  • 博客(147)
  • 资源 (5)
  • 收藏
  • 关注

原创 各种聚类算法(原理+代码+对比分析)最全总结

序言还是要持续总结,持续积累。一、聚类的目标使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。二、聚类算法分类1.基于划分给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N。特点:计算量大。很适合发现中小规模的数据库中小规模的数据库中的球状簇。算法:K-MEANS算法、K-MEDOIDS算法、CLARANS算法2....

2020-01-07 13:29:13 144482 38

原创 基于bert的中文实体关系识别(实体关系抽取)项目开源

在清华大学开源的OpenNRE项目基础上实现中文实体关系识别github项目地址,点我文章目录一、中文关系抽取训练结果测试结果二、使用前准备三、注意事项一、中文关系抽取使用哈工大,BERT-wwm,中文bert,在20w中文人物关系数据上的准确率达到0.97训练结果=== Epoch 0 train ===100%|███████████████████████████████...

2019-12-11 17:23:33 13084 6

原创 Python 中文 文本分析 实战:jieba分词+自定义词典补充+停用词词库补充+词频统计

最近项目需要,实现文本的词频分析,折腾了几天才完成任务,有点成就感,最后整理总结一下这部分的内容,希望更多同僚受益。使用方法环境:Python3.6安装结巴:pip install jiaba下载停用词词典哈工大停用词词典构建补充词典userdict,后文详解运行文章最后面的完整代码先来认识jieba参考简介“结巴”中文分词:做最好的Python中...

2018-04-28 13:47:31 35446 18

原创 TensorFlow 技术框架解析 | 图文理解深度学习技术实现

最近项目需要,客户想上tensorflow,想把项目做的高大上一点,向我咨询tensorflow的相关问题和部署方案,我要假装自己很懂TF,之前一直在跟进tensorflow的技术进展,最近又做了很多功课,整理出以下内容,用这个ppt给客户讲解并加上TF的demo和tensorboard的可视化演示,客户十分满意,说这就是他们想看到的。先来认识一下TF的价值:TensorFlow...

2018-02-08 11:34:03 15220 2

原创 手把手教你制作 中英文 词云 | python demo

以前做词云的时候网上看的python做词云的坑都很多,耗了很多时间才高清楚wordcloud制作词云的精髓和脉络,整理如下。1.词云生成wordcloud包的基本用法class wordcloud.WordCloud(font_path=None, width=400, height=200, margin=2, ranks_only=None, prefer_hori...

2018-02-08 11:13:07 11016 5

原创 语音合成(TTS)& 声音生成(TTA)最新技术 - 2024- 附论文地址和代码地址

为了解决这个问题,我们提出了一种新颖的模型,通过纳入包括内容(时间戳)和风格(音高轮廓和能量轮廓)在内的附加条件作为文本的补充,增强现有预训练文本到音频模型的可控性。为了保持生成的多样性,我们采用了可训练的控制条件编码器,该编码器通过大型语言模型和可训练的 Fusion-Net 进行了增强,以编码和融合附加条件,同时保持预训练的文本到音频模型的权重冻结。在 AudioLDM 模型的基础上增加三种 Condition (时间、声调、能量)控制,引入了新的训练数据和评价指标,通过实验验证了方法的有效性。

2024-03-10 21:57:20 994

原创 【语音识别】- 几个主流模型 - 2024 - 附论文地址和源码地址

损失函数:同时使用CTC和AED的输出,可以提高识别率,但是由于AED本身是非流式的解码,在Wenet中,则没采用联合解码的方式,而是采用了先使用CTC解码,再用AED对CTC的Nbest结果进行Rescoring,这样即结合了两种模型的效果,又可以应用于流式场景。流式计算:标准的Fully self-attention会对依赖整个序列,不能进行流式计算,因此wenet采用了基于chunk的attention,将序列划分为多个固定大小的chunk,每个chunk内部的帧不会依赖于chunk右侧的帧。

2024-03-02 19:07:15 335

原创 【语音识别】- CTC损失计算的原理

文章目录1.符号定义与目标函数2.前向计算 αs(t)\alpha_s(t)αs​(t)1) 问题分析2) 动态规划解题3.后向计算 βs(t)\beta_s(t)βs​(t)4.正向传播5.反向传播CTC全称:Connectionist temporal classification, 主要用于处理序列标注问题中的输入与输出标签的对齐问题。文章来源:点我1.符号定义与目标函数AAA: 序列标注任务中的标签所在字母表集合为 AAAA′A'A′: 扩展的字母表集合。CTC的softmax 输

2024-02-28 15:57:35 175

原创 GPT 的基础 - T(Transformer)

我们看到Transformer模型是GPT的基础,这篇博客梳理了一下Transformer的知识点。GPT也是在BERT的基础上发展起来的,只是OpenAI和google、百度走了不同的路线。

2024-02-27 22:34:26 661

原创 FrugalGPT:来看看穷人怎么用省钱的方式使用ChatGPT

论文题目:《FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance》论文下载:https://arxiv.org/abs/2305.05176Hung-yi Lee 课件整理。

2024-02-27 19:10:41 913

原创 【生成式AI】ChatGPT 原理解析(3/3)- ChatGPT来带的研究问题

Hung-yi Lee 课件整理。

2024-02-26 22:45:56 323

原创 【生成式AI】ChatGPT 原理解析(2/3)- 预训练 Pre-train

预训练得到的模型我们叫自监督学习模型(Self-supervised Learning),也叫基石模型(foundation modle)。机器是怎么学习的ChatGPT里面的监督学习GPT-2GPT-3和GPT-3.5GPTChatGPT支持多语言ChatGPT里面的自监督学习

2024-02-26 21:32:51 1845

原创 【生成式AI】ChatGPT原理解析(1/3)- 对ChatGPT的常见误解

Hung-yi Lee 课件整理。ChatGPT的几个误解解释。

2024-02-26 19:09:51 749

原创 生成式 AI - Diffusion 模型的数学原理(5)

这个问题之前就有人提出来了,这篇文章发现如果取概率最大的句子和词汇,那么输出的结果会是不断重复的句子,机器就会不断地跳帧,讲重复的话,虽然做sampling机器会说一些奇怪的话,和跳帧比起来sample的结果更好,为什么呢?我们来看看人写的句子吧,橙色的线代表的是人写的句子,右边是人写的一篇文章,用我们的语言模型来计算人写的每一个单词的概率,发现人写出来的文章用字遣词并不是选概率最大的词汇。李教授找助教做实验验证了,如果像论文里一样加噪声会生成小女孩头像这样正常的图片,把噪声去掉就只会产生一张黄色的图片。

2024-02-25 23:29:03 917

原创 leetcode初级算法(python)- 字符串

1.反转字符串常规算法pythonic 算法2.整数反转数学法字符串法3.字符串中的第一个唯一字符pythonic算法哈希算法4.有效的字母异位词常规算法进阶算法5.最长公共前缀

2024-02-25 15:36:48 131

原创 leetcode初级算法(python)- 数组

1.从排序数组中删除重复项2.买卖股票最佳时机23.旋转数组运行颠倒列表法整体移动元素块法4.存在重复运行包含判断法排序比较判断法运行集合判断法5.只出现一次的数字6.两个数组的交集27.移动零8.两数之和9.旋转图像

2024-02-25 01:04:30 95

原创 leetcode经典题库(简单)

在leetcode上刷了几个和数组相关的简单题,记录在这里。1.两数之和2.反转链表3.合并两个有序列表4.合并两个有序链表5.删除有序数组中的重复项6.从数组中移除元素7. 搜索指定数值在数组中的插入位置8. 数组最后一位加一9. 合并两个有序数组

2024-02-20 21:37:45 286

原创 生成式 AI - Diffusion 模型的数学原理(4)

来自 论文《 Denoising Diffusion Probabilistic Model》(DDPM)论文链接: https://arxiv.org/abs/2006.11239Hung-yi Lee 课件整理。

2024-02-18 21:16:55 878

原创 生成式 AI - Diffusion 模型的数学原理(3)

来自 论文《 Denoising Diffusion Probabilistic Model》(DDPM)论文链接: https://arxiv.org/abs/2006.11239Hung-yi Lee 课件整理。

2024-02-18 17:15:12 907

原创 生成式 AI - Diffusion 模型的数学原理(2)

来自 论文《 Denoising Diffusion Probabilistic Model》(DDPM)论文链接: https://arxiv.org/abs/2006.11239Hung-yi Lee 课件整理。

2024-02-18 11:21:04 811

原创 生成式 AI - Diffusion 模型 (DDPM)原理解析(1)

简单地介绍diffusion model 的基本概念,diffusion model有很多不同的变形,现在比较成功的使用diffusion model实现的图像生成的系统,比如阿里、Google的系统基本上都是用差不多的方法来作为他们的diffusion model。

2024-02-17 22:12:09 1123

原创 关于管理方法的总结

参加工作到现在7年了,在公司带过团队,包括应届生、实习生、外驻、还有比我年长的,但是别人问起我管理方法的时候我不知道怎么回答,最近读了彼得·德鲁克的书有一些观点十分认同,用自己的语言表达出来:

2024-02-16 18:06:54 404

原创 牛津大学海外学习:14天的知识与文化之旅

而在牛津大学自然历史博物馆,我则有幸触摸到了那些之前只在教科书上见过的标本和化石,仿佛与古老的历史建立了一种神秘的联系。当地的人们非常友好,每次跑步时,我们都会互相打招呼、微笑,这让我深切体会到了牛津人的热情与友善。这些都给我留下了深刻的印象,让我对这片土地有了更多的了解。这次的海外学习经验,不仅让我在学术上有了长足的进步,更让我对于这片古老的土地有了更加深刻的了解。最难忘的是,在一次晚宴上,我与其他学员共同盛装出席,在牛津大学花园内欣赏那些有着400年历史的珍稀植物,仿佛进入了一个知识的天堂。

2023-10-10 22:03:37 836

原创 雅思学习看这些就够了

2.《雅思王听力》3、4、5章1倍速听写,并标记已掌握单词;11章单词熟悉一遍;《keith视频课》(B站免费,特别有亲和力的前雅思考官)Simon视频课听了一节,整体了解一下,买了配套书。1.《何琼听力》B站上找资源,6节课,看了一半;《Simon视频课》(B站免费,前雅思考官)《何琼雅思听力视频课》B站,大概是6节课。1.《雅思真经538考点词》熟悉了一遍;《刘洪波雅思第一课》视频课,一个多小时。《雅思哥app》练习(会员有特权)《雅思王听力》单词听写,特别有效。2.《雅思真经总纲》练习了一遍。

2023-10-10 21:31:46 203

原创 羽毛球中级提高班课后总结

2023.3.28第一课。

2023-05-21 00:24:39 636

原创 羽毛球学习经验总结

羽毛球 技巧

2023-02-02 19:20:17 465 1

原创 羽毛球混双基本站位和战术

羽毛球 混双

2023-02-02 19:15:28 639

原创 linux终端下载文件报错: Connection refused

下载数据报错:443: Connection refusedDNS被污染了,需要手动在host文件里面添加要访问网站的IP地址,以跳过DNS解析。

2022-12-08 14:54:23 1716

转载 报错 syntax error near unexpected token `(‘

问题的发现​写代码的肯定少不了和 shell 接触,今天执行一个 shell 脚本时发现报错了,报错内容如下:syntax error near unexpected token `('脚本内容排查了很多遍都没有找到原因,执行的方式为 sh xx.sh然后使用 source xx.sh 执行和 bash xx.sh执行都是 ok 的。知识的了解source 执行命令是直接执行命令,不创建子 shellsh 创建子 shell。子 shell 里面的变量父 shell 无法使用,对环境变量的修

2021-11-24 13:58:40 1601

原创 投资组合报告-马科维茨模型

数据模型与决策课程的一个作业,做的还不错,分享一下。

2021-11-18 23:15:14 991

原创 私募股权投资-沃尔玛案例分析

在人们眼中,美国沃尔玛零售连锁集团就像一个商业神话。1955年《财富》杂志开始评选500强时,它还根本不存在。如今,已经数次在美国《财富》杂志评出的全球500强企业中名列第二位。2001和2002年,沃尔玛集团领导人的财富终于超过了比尔·盖茨,荣登榜首。作为公司的创始人,山姆·沃尔顿,他不仅创立了沃尔玛,还成为了沃尔玛的精神支柱,他留下的沃尔玛哲学是每个商家都奉若珍宝的经营宝典。甚至他最大、最老的对手哈里·康宁汉也这样评价他:“山姆可称得上本世纪最伟大的企业家。他所建立起来的沃尔玛企业文化是一切成功的关键

2021-11-05 13:49:08 1200

原创 三大会计表报术语通俗理解

2021-10-13 20:24:06 232

原创 Couple Learning 模型代码开源 | DCASE | 声音事件监测 | 半监督

欢迎访问,点赞https://github.com/Toshiba-RDC/dcase20_task4

2021-10-11 16:57:18 720

原创 google 语音处理方向近期paper | 2021.8.8

@inproceedings{50574,title = {Less Is More: Investigating the Role of Label Context in RNN-T},author = {Rohit Prabhavalkar and Yanzhang (Ryan) He and David Johannes Rybach and Sean Campbell and Arun Narayanan and Trevor Deatrick Strohman and Tara N Saina

2021-08-08 18:52:55 551

转载 关于ISI、SCI、EI、IEEE、Elsevier、Springer的理解

1、关于会议组织者、出版商、科研工作者的关系会议组织者:可能是某个学校;也可能是某个组织;他们为学术/经济利益举办会议,从科研工作者处收文章,收注册费;然后将论文集扔给出版商;出版商:具备一定声望,比如Elsevier/IEEE/Springer,他们旗下有一些会议论文的项目,比如Elsevier的Procedia(新推出的),IEEE的Conference Program,Springer的Lecture Notes系列;这些会议项目的共同特点是:1.拿论文的版权;2.向会议组织者收取出版费用(

2021-07-28 14:50:07 1365

原创 整理 | 计算机听觉领域可以考虑发哪些期刊会议

主要基于同行评议,并参考CCF列表、SCI、EI、SSCI、C刊、中文核心等文章目录音频类可投稿期刊会议(领域关联度:最重要)(一)CCF列表(二)非CCF列表但同行认可人工智能类可投稿期刊会议(领域关联度:较重要)中文相关可投稿期刊会议(领域关联度:较重要)音频类可投稿期刊会议(领域关联度:最重要)(一)CCF列表IEEE/ACM Transactions on Audio, Speech, andLanguage Processing(TASLP,CCF-B类期刊,SCI)IEEE Inter

2021-07-26 16:09:03 618 1

原创 读书总结-自我修炼 | 推荐书单

《传习录》立志格物心即理知行合一事上磨练致良知《非暴力沟通》非暴力沟通四要素:1.观察2.感受3.需要4.请求《练好口才第一本书》微笑讲好话听了夸奖的话如何回应:微笑感谢自谦...

2021-07-03 22:17:47 346 1

转载 如何发表一篇计算机领域的顶会论文

文章目录背景什么是顶会期刊/会议简介写作经验分享投稿与修改阶段回复修改意见背景最近半个月,对之前发表的一篇顶会论文进行了修改,并重新提交了。这篇论文是一篇计算机领域的A会文章。本篇文章主要对计算机领域论文写作及发表过程中的相关经验做一个总结。希望可以对研究生小白们有点用。刚刚进入研究生阶段的同学,对论文的级别,例如:什么A类、B类、C类了,什么顶会了;期刊又分一堆类别,可能开始对这些概念都很混乱,也不知道那些好,哪些不好。下面先祭出CCF对期刊、会议的官方分类!又需要的小伙伴,可以直接在这个网页中找自

2021-06-18 14:32:59 4845 1

原创 deepspeech 笔记

为了回馈广大粉丝和订阅者,在以前的笔记中看到些或许对大家有用的信息,贴到这里,希望能对大家有帮助。文章目录几个模块几份数据几篇论文几张截图几个模块声学模型主要用来构建输入语音和输出声学单元之间的概率映射关系;语言模型用来描述不同字词之间的概率搭配关系,使得识别出的句子更像自然文本;解码器负责结合声学单元概率数值和语言模型在不同搭配上的打分进行筛选,最终得到最可能的识别结果几份数据1.希尔贝壳2018年6月开源1000小时中文普通话语音数据(学术申请):http://www.aishellt

2021-04-26 22:17:27 559

原创 Jupyter Notebook 远程访问配置

1.安装jupyterpip install jupyter -i http://pypi.douban.com/simple --trusted-host pypi.douban.com使用镜像会快很多安装成功后只能本地访问,不能跨服务器访问,所以需要配置ip2.生成默认配置文件jupyter notebook --generate-config将会在用户主目录下生成.jupyter文件夹,其中jupyter_notebook_config.py就是刚刚生成的配置文件3.生成秘钥输

2021-01-12 18:17:03 549

哈工大停用词词典

最全的停用词词典,根据网上现有全部资源,对所谓“哈工大停用词词库”、“四川大学机器学习智能实验室停用词库”、百度停用词表“等等各种停用词表,整理去重在提取中文词(而不是大量英文词和中文标点符号)出了一个比较全面的词表出来

2018-04-28

图计算、复杂网络、TigerGraph产品用例(TigerGraph 用例介绍 Rick Wu)

TigerGraph 用例介绍,行业案例分析。反欺诈、反洗钱、供应链等(TigerGraph 用例介绍 Rick Wu)

2018-03-07

区块链 分析报告

在互联网时代,在金融技术发展日新月异的时代,在金融边缘创新 不断向中心地带侵蚀并不断融入其中的新金融时代,在传统金融不断信 息化、网络化、数字化时代,金融已经远远突破了资金融通的传统内 涵,金融技术已经将金融信息与金融科技高度融合,技术成为驱动金融 发展的底层力量,成为一个大趋势。在互联网时代,驱动金融发展的金 融科技已经由移动互联网、大数据、云计算等应用层面,进一步转向了 区块链等底层技术创新。区块链已成为金融科技的底层技术。

2018-03-07

音频转化大师

实现音频格式的转换,例如可以设置音频格式,采样率等。

2018-03-01

软件需求分析-用例分析

在介始用例方法之前,我们首先来看一下传统的需求表述方式-"软件需求规约"(Software Requirement Specification)。传统的软件需求规约基本上采用的是功能分解的方式来描述系统功能,在这种表述方式中,系统功能被分解到各个系统功能模块中,我们通过描述细分的系统模块的功能来达到描述整个系统功能的目的。

2017-12-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除