TTS

共 6 篇网址
Fish Speech

Fish Speech

Fish Speech简介 Fish Speech 是 Fish Audio 开发的文本转语音 (TTS) 解决方案。它提供先进的 TTS 功能并支持多种语言,完美支持中英日语言的开源TTS模型,语音处理接近人类水平,模型使用约十五万小时三语数据训练,对中文支持非常的完美。Fish Speech特点:模型版本:当前稳定版本为 Fish Speech 1.1.2,正在更新至 1.2 版本 1。初始版本 Fish Speech V1 使用 15 万小时的英语、中文和日语音频数据进行训练。许可:代码库根据 BSD-3-Clause 许可证发布,而模型根据 CC-BY-NC-SA-4.0 许可证发布。在线演示:用户可以通过 Huggingface Spaces 和 Fish Audio 2 上提供的在线演示来尝试 Fish Speech。系统要求:对于推理,需要至少 4GB 内存的 GPU,而微调则需要 16GB 的 GPU 内存。该系统同时支持Linux和Windows。Windows 设置:非专业 Windows 用户可以通过提供的批处理脚本 ( install_env.bat ) 安装环境。可以选择使用镜像站点下载依赖项并启用模型编译的编译环境。致谢:Fish Speech 的发展受到多个项目的影响,包括 VITS2、Bert-VITS2、GPT VITS、MQTTS、GPT Fast 和 GPT-SoVITS。Fish Speech应用:语音助手:Fish Speech 可以集成到语音助手平台中,以多种语言提供听起来自然的响应,可以增强用户交互性和可访问性。有声读物旁白:高质量的语音合成使 Fish Speech 适合生成书面内容的有声读物版本。语言学习:鱼语音支持英语、中文和日语,可用于语言学习应用程序,通过生成目标语言的语音来帮助学生练习发音和听力技能。辅助工具:Fish Speech 可用于辅助工具中,通过将文本转换为语音来帮助视障用户。客户服务机器人:与客户服务机器人集成可以通过自然的语音实现与客户交互。内容创作:可以使用 Fish Speech 为视频、播客和其他多媒体内容生成画外音。Fish Speech由 fishaudio 开发,作为一个仅有亿级参数的模型,Fish Speech 的设计非常的轻量而且高效。它可以在个人设备上轻松运行和微调,很方便成为您的私人语音助手。github代码:https://github.com/fishaudio/fish-speechhuggingface:https://huggingface.co/fishaudio/fish-speech-1.2 相关资讯: 10款优秀的开源TTS语音模型推荐 Fish Speech 与 Google 的Tacotron或Amazon Polly等其他TTS模型相比如何?
300
ToucanTTS

ToucanTTS

ToucanTTS简介 ToucanTTS,一套用于最先进语音合成的工具包,由斯图加特大学自然语言处理研究所(IMS)开发的超全文本转语音(Text-to-Speech, TTS)模型。ToucanTTS覆盖超过7,000种语言的大型多语言模型。ToucanTTS不仅支持多语言,还具备多说话人语音合成功能,可以模拟不同说话人的节奏、重音和语调。它还提供了多种应用的交互演示,包括语音设计、风格克隆、多语言语音合成和人工编辑诗歌朗读,展示了其多功能性和强大性能。ToucanTTS功能:多语言支持:ToucanTTS 能够合成 7,000 多种语言的语音,使其成为可用的最多语言的 TTS 模型。这种广泛的语言支持迎合了广泛的国际受众。多说话人语音合成:ToucanTTS可能多人语音合成,用户能够模仿不同说话人的节奏、重音和语调。对于需要风格多样性和语音定制的应用程序来说,特别的有用呢。人机交互编辑:ToucanTTS可以让用户自定义合成语音来满足特定要求,对于文学研究和诗歌阅读作业特别有用的呐。架构:ToucanTTS 基于 FastSpeech 2 架构构建,并受到 PortaSpeech 的启发进行了改进。它包括一个基于归一化流的 PostNet 和一个经过连接主义时间分类 (CTC) 和频谱图重建训练的独立对齐器,可以实现高质量、听起来自然的语音合成 。发音表示:ToucanTTS 的一项独特功能是使用音素的发音表示作为输入。可以通过利用多语言数据提高了低资源语言语音合成的质量和可用性。交互式演示:ToucanTTS 为各种应用提供交互式演示,例如语音设计、风格克隆、多语言语音合成和人工编辑的诗歌朗读。这些演示展示了该工具包的多功能性和稳健性。训练和推理:该工具包提供了有关安装依赖项、配置存储、下载预训练模型和运行训练管道的全面说明。它支持从预训练模型进行微调和从头开始训练 。ToucanTTS特点:多语言和多说话者支持:通过大规模的多语言预训练模型,支持涵盖超过7,000种语言的多语言语音合成。实现多说话者语音合成,并克隆节奏、重音和语调等韵律跨说话者。人机协同编辑:允许对合成语音进行人机协同编辑,例如用于诗歌朗诵和文学研究。交互式演示:提供大规模多语言语音合成、跨说话者风格克隆、语音设计和人工编辑的诗歌朗诵的交互式演示架构和组件:主要基于FastSpeech 2架构,具有一些修改,例如受PortaSpeech启发的基于正规化流的PostNet。包括经CTC训练的自包含对齐器和各种应用的谱图重建。提供多语言模型、对齐器、嵌入函数、声码器和嵌入GAN的预训练模型。易用性:完全采用Python和PyTorch构建,旨在简单且适合初学者,同时功能强大。口腔表征:IMS Toucan系统将音素的口腔表征作为输入,使多语言数据可以惠及低资源语言。ToucanTTS应用:多语言应用程序的语音合成:ToucanTTS 支持 7,000 多种语言,非常有利于创建多语言应用程序,比如全球客户服务平台、教育工具和非母语人士的辅助功能 。语音设计和定制:多扬声器语音合成功能允许创建可用于各种应用的定制语音,例如虚拟助理、有声读物和个性化营销信息。人机交互编辑:此功能在文学研究和诗歌阅读作业中特别有用,因为在这些作业中需要精确控制语音输出以满足特定的文体要求。如何使用ToucanTTS?只需简单几步,即可开始使用ToucanTTS。1、从GitHub下载从GitHub下载代码。git clone https://github.com/2noise/ToucanTTS下载ToucanTTS2、安装依赖项在开始之前,请确保已安装所需的软件包。您将需要torch和ToucanTTS。如果尚未安装,可以使用pip安装:3、导入所需库为您的脚本导入必要的库。您将需要torch、ToucanTTS和IPython.display中的Audio。4、初始化ToucanTTS,创建ToucanTTS类的实例并加载预训练模型。5、准备文本,定义要转换为语音的文本。将<YOUR TEXT HERE>替换为您想要的文本。6、生成语音,使用infer方法从文本生成语音。设置use_decoder=True以启用解码器。7、播放音频使用IPython.display中的Audio类播放生成的音频。将采样率设置为24,000 Hz并启用自动播放。8、完成脚本ToucanTTS的GitHub链接:https://github.com/DigitalPhonetics/IMS-Toucan在线演示链接:https://huggingface.co/spaces/Flux9665/MassivelyMultilingualTTS数据集链接:https://huggingface.co/datasets/Flux9665/BibleMMS
260
ChatTTS-Forge

ChatTTS-Forge

ChatTTS-Forge简介 ChatTTS-Forge是一个围绕 TTS生成模型开发的项目,为用户提供灵活的TTS生成能力,支持多种音色、风格控制、长文本推理等功能,ChatTTS-Forge提供了各种API(应用程序编程接口),开发人员可以直接使用这些API轻松将文本转换为语音。ChatTTS-Forge 是一个围绕 TTS(文本转语音)生成模型开发的项目。为用户提供灵活的TTS生成能力,支持多种音色、风格控制、长文本推理等功能。ChatTTS-Forge提供了各种API(应用程序编程接口),开发人员可以直接使用这些API轻松将文本转换为语音。此外,它还提供了易于使用的网页界面(WebUI),允许用户直接在网页上输入文本并生成语音,无需编程。ChatTTS-Forge的主要特点:TTS生成:支持多种TTS模型推理,包括ChatTTS、CosyVoice、FishSpeech、GPT-SoVITS等,用户可以自由选择和切换语音。音调管理:内置多种音调,并且可以上传自定义音调。用户可以通过上传音频或文本来创建和使用自定义铃声。风格控制:提供多种风格控制选项,包括调整语音速度、音调、音量,以及添加语音增强(Enhancer)以提高输出质量。长文本处理:支持超长文本自动切分和推理,可以处理生成长文本音频内容。SSML支持:使用类似XML的SSML语法进行高级TTS合成控制,适合更详细的语音生成场景。ASR(自动语音识别) :集成Whisper模型,支持语音转文本功能。ChatTTS-Forge的技术和方法:API服务器:用Python编写的API服务器提供高效的TTS服务,支持多个并发请求和自定义配置。WebUI :基于Gradio的用户界面,用户可以通过简单的操作界面体验TTS功能。Docker 支持:提供 Docker 容器化部署选项,以简化本地和服务器上的部署过程。ChatTTS-Forge WebUI 的特点:TTS(文本到语音) :通过WebUI,用户可以使用各种不同的TTS模型输入文本并生成语音。音调切换:支持多种预设音调切换,用户可以选择不同的声音来生成语音。自定义语音上传:用户可以上传自己的语音文件,实时生成个性化语音。风格控制:您可以调整语音的风格,包括语速、音高、音量等参数,以生成满足特定需求的语音。长文本处理:支持处理很长的文本,自动将长文本分割成小段并按顺序生成语音,适合生成长音频内容。批量处理:用户可以设置批量大小,以提高长文本的推理速度。精炼器:这个工具 允许您微调文本以优化生成的语音,对于处理无限长度的文本特别有用。语音增强:集成增强模型以提高生成语音的质量并使其听起来更自然。生成历史:保存最近的3次生成结果,方便用户比较不同设置下的语音效果。多模型支持:WebUI支持多种TTS模型,包括ChatTTS、CosyVoice、FishSpeech、GPT-SoVITS等,用户可以根据自己的需求选择合适的模型。SSML支持:使用类似XML的SSML语法来控制语音合成过程,适合需要更复杂控制的场景。播客工具:帮助用户从博客脚本创建长格式、多字符的音频内容。字幕生成:从字幕文件创建 SSML 脚本以生成各种语音内容。GitHub:https://github.com/lenML/ChatTTS-Forge在线体验:https://huggingface.co/spaces/lenML/ChatTTS-Forge
240
TTS Online

TTS Online

TTS Online简介 TTS Online是一款免费的文本转语音工具,提供语音合成服务,支持多种语言,包括英语、法语、德语、西班牙语、阿拉伯语、中文、日语、韩语等,以及多种语音风格。您可以用它大声朗读文本和电子书,或下载音频文件用于商业用途(完全免费)。作为一款优秀的免费 TTS 工具,TTS Online可以轻松地将文本在线转换为语音。TTS Online优势:1. 内置160+声音可以直接点击试听,包括原神角色65种,星铁角色48种, lol角色36种等,还有热门标签里包括抖音、B站常用的微软音色。2. 完全免费使用,右边刷新出声音列表选择一种声音后点击生成即可。3. 接近真人发音,富有情感。适合各种场景。4. 标签进行了基本的声音分类,可以通过选择标签快速选取自己想要的声音。6. 右上角还可以体验最新的ai语音技术,有些需要翻墙,如只需要3秒的声音就可以复制当前音色并且可以跨语言。TTS Online还特别提供自动翻译功能,能够将中文文本自动转化为英文或日文语音,这一功能对于多语言内容创作者来说是一个巨大的福音。
220