每天科技网

业大赛收官方言听不懂,手把手教你用 Milvus 搭建方言翻译器!第四届

每天科技网 1

业赛收官方言听不懂,手把手教你用 Milvus 搭建方言翻译器!第四届

坐在上海的公交车上,以“培育创新动力 发展绿色经济”为主题,我有时会遇到这样的烦恼:稍一分神,参赛项目覆盖人工智能、节能环保、生态农业、生态工业、艺术科技等相关领域,没能听见普通话报站,共评选出一等奖2名、二等奖2名、三等奖10名、优秀奖11名,支棱起耳朵,以及最佳创新奖、最具商业价值奖、最具知识产权实力奖各1名。其中“智能化高效厨余垃圾处理机”表现亮眼,却听不懂沪语报站。为了解决这个问题,斩获了一等奖与最具商业价值奖两项奖。第四届绿色经济(广州)创新创业赛收官。通讯员 蔡广东知识经济发展促进会会长顾奇志表示,我决定——学沪语?No,绿色经济(广州)创新创业赛已连续举办四届, 作为一名数据工程师,希望通过赛联合更多单位,我索性搭建了一个方言翻译器,进一步引导和聚集、市场资源,帮助家轻松听懂地方方言,支持企业创新创业,再也不会错过公交车站。

在本次的项目中,搭建绿色经济领域的创新创业项目与金融、科技、法律等服务对接平台,我会手把手教你使用 Milvus 搭建方言翻译器。通过这个项目,你能收获:

熟悉开源数据集,在日常的模型训练中应用这些数据集

亲自动手搭建 Demo,真正解决实际生活场景中问题

学会使用 Milvus 后,还有更多的可以结合 Milvus 的应用场景等着你去发现

如果你是初次了解 Milvus 和 MagicHub 的小伙伴,我们为你准备了一个简短的介绍:

Milvus

Milvus 是基于 FAISS、Annoy、HNSW 等向量搜索库构建,核心是解决稠密向量相似度检索的问题。最近, Milvus 2.0 版本已经发布了,在向量检索库的基础上,Milvus 支持了数据分区分片、持久化、增量数据摄取、标量向量混合查询、Time Travel 等功能,同时幅优化了向量检索的性能。推荐用户使用 Kubernetes 署 Milvus ,以获得最佳的可用性和弹性。

MagicHub

MagicHub.com 是爱数智慧发布的一个开源社区。爱数智慧为从事语音识别、语音合成、自然语言理解等人工智能领域研发与应用研究的企业、科研机构提供数据服务。MagicHub 开源数据覆盖多个场景、行业、语种。自 2021 年 4 月 15 日正式发布以来,已经覆盖 3000+ 全球者,累计下载超过 15 万小时数据集。目前开源 50 多种用于人工智能训练/测试的数据集,包括方言和小语种。数据集种类包含 NLP、ASR、TTS 数据集和 LEX 发音词典等。MagicHub 帮助 AI 者快速找到适合自己模型的数据集,用开源数据加速创新。

  1. 数据准备

本项目中,我们选择了 MagicHub 社区中提供的上海话数据集(来源详见文末链接[1]),你也可以根据自己的需要使用其他方言的数据集。

上海话朗读音频数据集-日常用语

此数据集包含了 4.23 个小时的上海话朗读音频和转写文本,有 4,819 条由 10 名说话人提供的日常用语语料。

下载数据集,解压完成后可以看到这几个文件:WAV - 音频文件夹,README.txt - 数据集版权介绍文件,SPKINFO.txt - 每个音频的录音设备,性别,年龄,区域,录音频道的介绍文件,UTTRANSINFO.txt - 音频的文本内容,包含普通话和上海话。这里我们主要用到的是音频文本内容普通话分。这里将 UTTRANSINFO.txt 文件转成了 CSV 的形式,有利于我们后续数据处理。

  2. 音频检索

音频搜索项目中,首先,将音频文件用 Panns-Inference 模型转成特征向量存储到 Milvus 2.0,并返回对应的 ID;接着,在 MySQL 数据库中存储 ID 、音频文件的路径 ,以及文本内容对应关系;随后,在 Milvus 2.0 中检索得出与其相似的音频文件,并返回最相似的前 N 个结果;最后,根据返回的 ID 结果,在数据库中搜索到对应的音频文件和文本内容。

使用 Milvus 2.0 最新音频检索项目,只需要修改少量代码,就可以对上海话音频进行检索,返回上海话的音频和音频内容。

下面是音频检索项目中需要修改的代码,在 load.py 中读取 CSV 的数据

在 search.py 中需要修改以下的代码分:

在 mysql_helpers.py 文件中修改以下代码:

以及修改相关的接口,在 main.py 中修改以下代码:

  3. 测试运行

现在,修改完上述代码以后,参考 Github 中 Audio_similar_search 的 Readme 文档(来源详见文末链接[2])启动 FastAPI ,从 FastAPI 中验证代码是否成功运行,在浏览器中输入 localhost:8002/docs 可以看到如图所示 FastAPI 的页面, 在 Load API 中分别输入 Table 的名称,音频文件的路径,音频对应的文本的路径,然后点击 Excute 的按钮,图中显示数据插入成功。

然后,在 Search API 中输入对应的 Table 名称和需要检索的音频路径,点击 Excute 按钮进行检索。如下图所示,就可以看到相应的音频和其对应的文本内容了。

最后,感谢爱数智慧 MagicHub 提供的开源数据集,让我们更好地结合模型与 Milvus 进行多个领域的向量检索。

在这个音频检索项目中,我们也可以使用其他的方言数据集,将数据集经过 AI 模型转成特征向量,结合 Milvus 进行相似检索,就可以把任何你听不懂的方言翻译成普通话啦!

● ● ●

动手玩一把?

源码链接就在下方!

● ● ●

[1] 爱数智慧 MagicHub 开源社区:

https://magichub.com/cn/category/datasets/

[2] 音频检索:

https://github.com/milvus-io/bootc/tree/master/solutions/audio_similarity_search

作者|贾晶晶

Zilliz 数据工程师,毕业于西安交通学计算机系。加入Zilliz后,主要工作内容为数据预处理、AI模型署、Milvus 相关技术研究,以及帮助社区用户实现应用场景落地。资深动漫粉,对社区沟通超级有耐心,平时比较关注自然语言处理领域的研究。

点击播放 GIF 0.0M

Github@Milvus-io|CSDN@Zilliz Planet|Bilibili@Zilliz-Planet

Zilliz 以重新定义数据科学为愿景,致力于打造一家全球领先的开源技术创新公司,并通过开源和云原生解决方案为企业解锁非结构化数据的隐藏价值。

Zilliz 构建了 Milvus 向量数据库,以加快下一代数据平台的发展。Milvus 目前是 LF AI & Data 基金会的毕业项目,能够管理量非结构化数据集。我们的技术在新药发现、计算机视觉、推荐引擎、聊天机器人等方面具有广泛的应用。

macos怎么打开隐藏相册

ios14.2内存怎么看

怎么查看linux语言

在长城怎么拍照好看

手持摄像怎么操作手机

品骏的快递为什么顺丰送

邮政快递配色标准是什么

桂林网站优化电池设置

无锡seo网站优化方案

免责声明:文中图片均来源于网络,如有版权问题请联系我们进行删除!

标签:milvus 翻译器 开源 爱数智慧