Sora.FM

5个月前发布 12 0 0

Sora.FM简介 Sora.FM 是用于生成 Sora ai 视频的开源 Web 模板,使用 nextjs 创建。生成视频的接口暂时 Mock,等 Sora API 发布后可快速替换上线。 支持数据读写,可以把全网收集到的Sora视频更新到DB,先做一个 Sora Showcase 网站跑流量。开发者:idoubi艾逗笔,前腾讯高级工程...

收录时间:
2024-11-21 22:04:25
更新时间:
2025-04-15 13:39:31
Sora.FMSora.FM
Sora.FM
Sora.FM简介 Sora.FM 是用于生成 Sora ai 视频的开源 Web 模板,使用 nextjs 创建。生成视频的接口暂时 Mock,等 Sora API 发布后可快速替换上线。 支持数据读写,可以把全网收集到的Sora视频更新到DB,先做一个 Sora Showcase 网站跑流量。开发者:idoubi艾逗笔,前腾讯高级工程师,微信后台开发;现自由职业。之前开发的一个《AI Cover 红包封面生成器》受到很多人的欢迎。Github开源地址:https://github.com/all-in-aigc/sorafm类似的一个Sora生成器开源模板:SoraWebui

数据统计

数据评估

Sora.FM浏览人数已经达到12,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:Sora.FM的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找Sora.FM的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于Sora.FM特别声明

本站400AI工具导航提供的Sora.FM都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由400AI工具导航实际控制,在2024年11月21日 22:04收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,400AI工具导航不承担任何责任。

相关导航

GPT-SoVITS

GPT-SoVITS

GPT-SoVITS简介 GPT-SoVITS,一个声音克隆和文本到语音转换的开源 Python RAG框架,只需1分钟语音即可训练一个自己的TTS模型。完美克隆你的声音!GPT-SoVITS完美适配中文,应该是目前中文支持比较好的模型。github发布地址:https://github.com/RVC-Boss/GPT-SoVITSGPT-SoVITS主要特点:1、零样本TTS: 输入5 秒的声音样本即可体验即时的文本到语音转换。2、小样本 TTS: 只需 1 分钟的训练数据即可微调模型,以提高语音相似度和真实感。模仿出来的声音会更加接近原声,听起来更自然。跨语言支持: 使用与训练数据集不同的语言进行推理,目前支持英语、日语和中文。3、WebUI工具:集成工具包括语音伴奏分离、自动训练集分割、中文 ASR 和文本标注,帮助初学者创建训练数据集和 GPT/SoVITS 模型。4、适用于不同操作系统: 项目可以在不同的操作系统上安装和运行,包括 Windows。5、预训练模型: 项目提供了一些已经训练好的模型,你可以直接下载使用。如何使用GPT-SoVITS?如果您是 Windows 用户(使用 win>=10 进行测试),您可以直接通过预压缩进行安装。只需下载预压缩,解压并双击 go-webui.bat 即可启动 GPT-SoVITS-WebUI。GPT-SoVITS是一款强大的语音克隆和文本到语音转换工具,它可以实现零样本和少样本的语音克隆,以及跨语言的文本到语音转换。它具有数据量少、质量高、灵活性强、易用性高等优点,可以应用于多种场景。如果你对GPT-SoVITS感兴趣,具体详细步骤,可以去项目开源网址上查看,哔哩哔哩上也有相应的教程。
Personalized Restoration

Personalized Restoration

Personalized Restoration简介 Personalized Restoration,一个面部图像精准恢复和个性编辑技术,Personalized Restoration不仅能复原受损图像细节,同时能精准捕捉和重现个人独特的面部特征,确保恢复的图像既清晰自然,又忠实于原始面貌。同时它还支持换脸。Personalized Restoration通过先进的双轴调整方法——结合文本引导和模型调整——确保恢复的图像既忠实于原始面貌,又保持个人的独特身份。此外,Personalized Restoration还支持文本引导的编辑,允许用户通过简单的文本提示来改变恢复图像的特定细节。Personalized Restoration功能特色:利用参考图像个性化扩散先验在去噪框架中保留面部身份信息保留退化图像的视觉属性Personalized Restoration使用场景:针对某位明星的几张参考照片,个性化扩散模型进行人像图像复原使用不同个性化模型实现人脸互换效果结合文字提示实现个性化模型的文本导向编辑Personalized Restoration主要功能和作用:假设你有一张模糊的老照片,是你的外祖父在年轻时的样子。这张照片非常重要,但因为年代久远,这张照片非常模糊,颜色褪色,面部细节几乎无法辨认。你想恢复这张照片,使其看起来更清晰、更接近原始状态。传统的图像恢复技术可能会使照片变得更清晰,但可能会丢失你祖父独特的面部特征,如特定的微笑或眼睛的形状。这是因为传统技术通常依赖于一般性的图像模型,这些模型并不专门针对你祖父的独特外观。Personalized Restoration调整过程:1、文本引导的调整阶段:假设你还有一些外祖父其他时期的清晰照片。这些照片和一些描述性文本(如“年轻时的外祖父,戴着眼镜,有着特别的笑容”)被用来微调生成模型G。这个微调过程让模型能够了解和学习你外祖父的独特面部特征,比如他的眼睛形状、微笑的方式等。2、模型基础的调整阶段:接下来,引导网络E在固定了微调过的生成模型G的基础上进行调整。这一步骤的目的是让引导网络在恢复模糊照片时,能够同时考虑到个性化特征(比如外祖父的笑容)和图像的其他方面(如颜色和清晰度)。最终结果是:恢复后的照片不仅变得清晰,颜色和细节也都得到了改善。更重要的是,这张照片忠实地反映了你外祖父的独特面部特征,让人一看就能认出是他。通过这种双轴调整方法,这个系统能够在保留个人独特特征的同时,恢复出自然且高质量的图像,使得老照片得以新生,且更具个人记忆的价值。同时它还支持面部交换功能,可以将个人特征应用于其他图像,打造出全新的视觉体验。例如,你可以将某人的面部特征转移到另一个人的照片上。此外,它还支持文本引导的编辑,允许用户使用提示修饰符(如“微笑”和“蓝眼睛”)可以启用 与修复一起进行相关编辑。
AutoStudio

AutoStudio

AutoStudio简介 AutoStudio,一个多轮对话过程中无论用户在对话中添加或修改什么内容,都能保持图像生成一致性,可以直接产出情节完整的漫画内容的工具。AutoStudio 通过使用四个智能体来分别处理图像生成的各个环节。无论用户在每轮对话中添加或修改什么内容,用户可以生成多样化的图像序列,系统都能确保生成的图像在主题和风格上保持一致。可以用于创建故事或漫画。比如,用户可以逐步生成一个连贯的故事情节,每一帧图像都符合故事的发展。在连续生成的图像中,保证同一个人物在不同场景中的外貌和姿态一致,甚至能能够精确控制每个元素在图像中的位置和大小,生成布局合理的图像。实时交互和编辑:用户还可以在多轮对话中动态地编辑图像。用户可以在生成过程中随时提供新的指令或修改已有指令,系统能够实时响应并生成更新后的图像。例如,用户可以先生成一个场景,然后在后续对话中添加或修改场景中的元素,AutoStudio 会根据新的指令更新图像。AutoStudio功能特征:多轮对话能力:AutoStudio的核心优势在于其卓越的多轮对话能力,无论用户在对话中添加或修改什么内容,系统都能确保生成的图像在主题和风格上保持一致。实时交互和编辑:用户可以在对话过程中动态地编辑图像,系统能够实时响应并生成更新后的图像。多轮对话生成:用户可以逐步构建图像序列,用于创建故事或漫画,每一帧图像都符合故事的发展。主题和风格一致性:AutoStudio通过先进的算法,确保即使在多轮对话中,生成的图像也能在主题和风格上保持一致。智能体协同工作:四个智能体分别负责不同的图像生成任务,确保生成过程的高效和精准。动态指令响应:用户在生成过程中可以随时提供新的指令或修改已有指令,AutoStudio能够实时更新图像。应用:漫画创作:用户可以先生成一个场景,然后在后续对话中根据需要添加或修改场景中的元素。故事板构建:用户可以逐步生成一个连贯的故事情节,每一帧图像都与故事发展相匹配。视觉艺术创作:无论是绘制漫画、构建故事板还是创造视觉艺术,AutoStudio都能助您一臂之力。个性化内容生成:用户可以根据自己的需求,通过连续的对话和指令,创作出一个分镜完整、情节丰富的漫画作品。AutoStudio模型架构
Wiseflow

Wiseflow

Wiseflow简介 Wiseflow,一款敏捷的信息挖掘开源免费工具,它可以从网站、微信公众号、社交平台等各种信息源中按设定的关注点提炼讯息,自动做标签归类并上传数据库,你可以轻松将它整合到任意 Agent 项目中作为动态知识库。项目可完全本地部署,硬件基本无要求。Wiseflow功能特色原生 LLM 应用:我们精心选择了最适合的 7B~9B 开源模型,最大化降低使用成本,且利于数据敏感用户随时完全切换至本地部署。轻量化设计:不用任何向量模型,系统开销很小,无需 GPU,适合任何硬件环境。智能信息提取和分类:从各种信息源中自动提取信息,并根据用户关注点进行标签化和分类管理。WiseFlow尤其擅长从微信公众号文章中提取信息:为此我们配置了mp article专属解析器!可以被整合至任意Agent项目:可以作为任意 Agent 项目的动态知识库,无需了解wiseflow的代码,只需要与数据库进行读取操作即可!流行的 Pocketbase 数据库:数据库和界面使用 PocketBase,除了 Web 界面外,目前已有 Go/Javascript/Python 等语言的SDK。我们缺的其实不是信息,我们需要的是从海量信息中过滤噪音,从而让有价值的信息显露出来!看看Wiseflow是如何帮您节省时间,过滤无关信息,并整理关注要点的吧!
DreaMoving

DreaMoving

DreaMoving简介 DreaMoving,一种基于扩散的可控视频生成框架,用于生成高质量的定制人类舞蹈视频。具体来说,给定目标身份和姿势序列,DreaMoving 可以生成目标身份在姿势序列驱动下在任何地方跳舞的视频。为此,我们提出了一个用于运动控制的视频控制网络和一个用于身份保留的内容指南。所提出的模型易于使用,并且可以适应大多数风格化的扩散模型以生成不同的结果。DreaMoving项目地址:https://dreamoving.github.io/dreamovingDreaMoving 概述:Video ControlNet 是在每个 U-Net 块之后注入运动块的图像 ControlNet。Video ControlNet 将控制序列(姿态或深度)处理为额外的时间残差。Denoising U-Net 是一种衍生的 Stable-Diffusion U-Net,带有用于视频生成的运动块。内容导览器将输入文本提示和外观表达式(如人脸(布料是可选的))传输到内容嵌入中,以便交叉注意。结果:DreaMoving 可以生成高质量和高保真度的视频,给定指导序列和简单的内容描述,例如文本和参考图像作为输入。具体来说,DreaMoving 通过人脸参考图像、通过姿势序列进行精确运动操作以及由指定文本提示提示的全面视频外观控制来展示身份控制的熟练程度。
APISR

APISR

APISR简介 APISR是一个专注于动漫图像超分辨率的项目,旨在恢复和增强来自现实世界场景的低质量、低分辨率动漫图像和视频源。APISR支持多种上采样因子权重,如2x、4x等,以提高图像和视频的质量。APISR不仅支持动漫图像的超分辨率,还支持动漫视频,通过提升视频中每一帧的清晰度和质量,整个视频的视觉效果也会相应提升。并且用户可以实时与系统交互,根据自定义需求生成图像,强调了其灵感来源于动漫制作,目的是为了提升超高清图像的增强效果。APISR在线演示:huggingface.co/spaces/HikariDawn/APISRComfyUI-APISR:github.com/ZHO-ZHO-ZHO/ComfyUI-APISRAPISR技术特点:动漫图像和视频的超分辨率处理:APISR是一个专门针对动漫图像和视频的超分辨率工具,旨在通过先进的算法提升图像质量和分辨率。支持多倍放大:APISR提供了灵活的放大选项,支持2倍、4倍等不同级别的放大,以满足用户对高清动漫图像的需求。实时在线转换:利用APISR技术,用户可以通过在线平台快捷上传需要处理的动漫图片或视频,无需等待长时间处理,实现快速高清化。处理真实世界退化图像:特别设计算法来处理现实世界中遇到的各种图像退化问题,如模糊、噪声、压缩伪影等,有效改善动漫图像在实际应用场景中的表现。APISR的应用场景:APISR的应用场景主要集中在动漫爱好者对于高清放大动漫图片和视频的需求上,主要是针对动漫图像和视频的恢复和增强。它能够处理低质量、低分辨率的动漫图像和视频,通过超分辨率增强技术显著提高其分辨率和图像质量,旨在为用户提供更加清晰、高质量的视觉体验。APISR作为一个利用人工智能技术,特别是超分辨率技术,来改善和提升动漫图像及视频质量的工具或软件,通过模拟动漫制作过程中的视觉效果,对现实世界的低质量动漫图像和视频进行处理,以达到更高的视觉效果。
ChatTTS-Forge

ChatTTS-Forge

ChatTTS-Forge简介 ChatTTS-Forge是一个围绕 TTS生成模型开发的项目,为用户提供灵活的TTS生成能力,支持多种音色、风格控制、长文本推理等功能,ChatTTS-Forge提供了各种API(应用程序编程接口),开发人员可以直接使用这些API轻松将文本转换为语音。ChatTTS-Forge 是一个围绕 TTS(文本转语音)生成模型开发的项目。为用户提供灵活的TTS生成能力,支持多种音色、风格控制、长文本推理等功能。ChatTTS-Forge提供了各种API(应用程序编程接口),开发人员可以直接使用这些API轻松将文本转换为语音。此外,它还提供了易于使用的网页界面(WebUI),允许用户直接在网页上输入文本并生成语音,无需编程。ChatTTS-Forge的主要特点:TTS生成:支持多种TTS模型推理,包括ChatTTS、CosyVoice、FishSpeech、GPT-SoVITS等,用户可以自由选择和切换语音。音调管理:内置多种音调,并且可以上传自定义音调。用户可以通过上传音频或文本来创建和使用自定义铃声。风格控制:提供多种风格控制选项,包括调整语音速度、音调、音量,以及添加语音增强(Enhancer)以提高输出质量。长文本处理:支持超长文本自动切分和推理,可以处理生成长文本音频内容。SSML支持:使用类似XML的SSML语法进行高级TTS合成控制,适合更详细的语音生成场景。ASR(自动语音识别) :集成Whisper模型,支持语音转文本功能。ChatTTS-Forge的技术和方法:API服务器:用Python编写的API服务器提供高效的TTS服务,支持多个并发请求和自定义配置。WebUI :基于Gradio的用户界面,用户可以通过简单的操作界面体验TTS功能。Docker 支持:提供 Docker 容器化部署选项,以简化本地和服务器上的部署过程。ChatTTS-Forge WebUI 的特点:TTS(文本到语音) :通过WebUI,用户可以使用各种不同的TTS模型输入文本并生成语音。音调切换:支持多种预设音调切换,用户可以选择不同的声音来生成语音。自定义语音上传:用户可以上传自己的语音文件,实时生成个性化语音。风格控制:您可以调整语音的风格,包括语速、音高、音量等参数,以生成满足特定需求的语音。长文本处理:支持处理很长的文本,自动将长文本分割成小段并按顺序生成语音,适合生成长音频内容。批量处理:用户可以设置批量大小,以提高长文本的推理速度。精炼器:这个工具 允许您微调文本以优化生成的语音,对于处理无限长度的文本特别有用。语音增强:集成增强模型以提高生成语音的质量并使其听起来更自然。生成历史:保存最近的3次生成结果,方便用户比较不同设置下的语音效果。多模型支持:WebUI支持多种TTS模型,包括ChatTTS、CosyVoice、FishSpeech、GPT-SoVITS等,用户可以根据自己的需求选择合适的模型。SSML支持:使用类似XML的SSML语法来控制语音合成过程,适合需要更复杂控制的场景。播客工具:帮助用户从博客脚本创建长格式、多字符的音频内容。字幕生成:从字幕文件创建 SSML 脚本以生成各种语音内容。GitHub:https://github.com/lenML/ChatTTS-Forge在线体验:https://huggingface.co/spaces/lenML/ChatTTS-Forge
Unique3D

Unique3D

Unique3D简介 Unique3D 在 30 秒内从单视图野生图像生成高保真、多样化纹理网格,当然运行速度取决于你的硬件资源情况。Unique3D主要功能:高保真度生成:Unique3D 实现了最先进的生成保真度,可生成细致复杂的纹理和复杂的几何形状。这是通过多视图扩散模型来实现的,该模型生成正交多视图图像和相应的法线贴图。效率:框架效率高,能够在30秒内生成高保真3D网格。这种效率归功于快速前馈模型和称为 ISOMER 的即时网格重建算法的集成。一致性:Unique3D 通过使用多级升级流程逐步提高生成图像的分辨率,确保生成视图的一致性。 ISOMER 算法将颜色和几何先验集成到网格结果中,解决了先前方法中发现的不一致问题。通用性:该框架表现出很强的通用性,在各种不同风格的野生2D图像上表现良好。大量实验证明了这一点,这些实验表明 Unique3D 在保真度、几何细节和分辨率方面优于现有方法。多级升级策略:Unique3D采用多级升级策略来逐步增强生成图像的分辨率。这涉及微调多视图感知 ControlNet 并使用超分辨率模型来实现高分辨率输出。法线贴图预测:为了捕捉丰富的表面细节,Unique3D 使用法线扩散模型来预测与多视图彩色图像相对应的法线贴图。这提高了几何细节的准确性,尤其是边缘处。ExplicitTarget 优化:为了解决多视图不一致问题并细化几何细节,Unique3D 引入了 ExplicitTarget 优化。该方法为每个顶点分配唯一的优化目标,比传统方法更稳健地指导优化方向。Unique3D特征:在 30 秒内生成高保真纹理网格。5 天内仅使用 8 个 RTX4090 GPU 进行训练。利用多视图扩散模型和法线扩散模型来生成多视图图像和法线贴图。采用多级升级流程来提高分辨率。使用 ISOMER 进行即时且一致的网格重建。Unique3D由清华大学和AVAR Inc.的研究团队共同开发。Unique3D官网入口:Unique3D 在线使用:https://huggingface.co/spaces/Wuvin/Unique3DUnique3D 项目地址:https://wukailu.github.io/Unique3D/Unique3D Github:https://github.com/AiuniAI/Unique3D