Ai开源项目

共 127 篇网址
OOTDiffusion

OOTDiffusion

OOTDiffusion简介 OOTDiffusion:一个高度可控的虚拟服装试穿开源工具,可以根据不同性别和体型自动调整,和模特非常贴合。也可以根据自己的需求和偏好调整试穿效果,OOTDiffusion支持半身模型和全身模型两种模式。OOTDiffusionGitHub:https://github.com/levihsu/OOTDiffusionOOTDiffusion核心功能:OOTDiffusion基于潜在扩散模型技术,实现了高质量的服装图像生成和融合,确保试穿效果自然且逼真。OOTDiffusion支持两种模型虚拟试穿,一个是半身模型,专为上半身的服装试穿设计,适合T恤、衬衫等上身服装。另外一个是全身模型,支持全身的服装试穿,包括上身、下身和连衣裙等服装类型,用户可以根据需求选择适合的模型进行试穿。OOTDiffusion支持参数调整,你可以通过调整模型路径、服装路径、缩放比例和采样次数等参数来精细控制试穿的细节和效果,以满足不同的试穿需求。通过精心设计的算法,OOTDiffusion能够将选定的服装自然且逼真地融合到用户提供的模型图像中,无论是纹理、光影还是服装的自然摆动都能精确呈现。不过,试玩一下后,发现用OOTDiffusion自己的DEMO图片效果非常好,换了自已上传的素材,效果差很多,说明对人像位置体型,以及服装款式的要求还是比较高的。OOTDiffusion如何用?选择好性别、体型和右边的服装,然后点下面的RUN按钮,稍等十几秒就可以生成了。
140
SoraWebui

SoraWebui

SoraWebui简介 SoraWebui 是一个开源 Web 平台,使用户能够使用 Openai 的 Sora 模型从文本生成视频。SoraWebui简化了视频创建过程,支持在Vercel上进行一键部署,让开发者能够方便地进行使用和测试。使用 SoraWebui,任何人都可以通过简单地输入文本来创建视频,使其成为视频制作和 AI 技术专业人士和爱好者的可访问工具。如何使用 SoraWebui?1、对于普通用户:要使用 SoraWebui,只需访问网站并按照提供的说明进行操作。您通常会找到一个用户友好的界面,您可以在其中输入要创建的视频的文本描述。提交您的描述后,SoraWebui 将使用 OpenAI Sora 模型为您生成视频。视频准备好后,您可以直接在网站上观看并下载供您使用或分享。2、对于网站所有者或开发人员:作为网站所有者或开发人员,您可以按照项目文档中提供的部署说明在自己的平台上部署 SoraWebui。部署后,您可以自定义界面以匹配您网站的品牌,并将其无缝集成到您现有的平台中。您可能还想探索 SoraWebui 提供的其他特性和功能,例如用于自动视频生成的 API 集成或用于控制对服务访问的用户管理工具。总体而言,SoraWebui 提供了一个强大的工具,用于增强您网站的功能并为用户提供独特的视频创作体验。据悉,尽管目前尚无Sora API可用,但开源项目SoraWebui已通过模拟DALL-E3的API接口字段实现。这使得开发者能够提前深入探索该项目,掌握其实现机制和功能亮点,大家如果自己要开发,也可以先基于 FakeSoraAPI ,把整个业务流程走通,等到 Sora 官方 API 上线之后就可以第一时间做一些小改动,就能够让自己的产品可以使用,为Sora未来上线做好充分的开发准备。
230
Sora.FM

Sora.FM

Sora.FM简介 Sora.FM 是用于生成 Sora ai 视频的开源 Web 模板,使用 nextjs 创建。生成视频的接口暂时 Mock,等 Sora API 发布后可快速替换上线。 支持数据读写,可以把全网收集到的Sora视频更新到DB,先做一个 Sora Showcase 网站跑流量。开发者:idoubi艾逗笔,前腾讯高级工程师,微信后台开发;现自由职业。之前开发的一个《AI Cover 红包封面生成器》受到很多人的欢迎。Github开源地址:https://github.com/all-in-aigc/sorafm类似的一个Sora生成器开源模板:SoraWebui
120
Open WebUI

Open WebUI

Open WebUI简介 Open WebUI,为大模型提供用户友好界面,支持 Ollama 并兼容 Openai API。特色有直观聊天界面、响应式设计。支持代码高亮、Markdown、LaTeX、RAG 集成、网页浏览、预设提示、RLHF 注释、模型管理、多模型和多模态、历史记录管理、语音输入、高级参数调整等。Open WebUI功能特征:直观的界面:我们的聊天界面从 ChatGPT 中汲取灵感,确保用户友好的体验。响应式设计:在桌面和移动设备上享受无缝体验。快速响应:享受快速响应的性能。轻松设置:使用 Docker 或 Kubernetes(kubectl、kustomize 或 helm)无缝安装,获得轻松的体验。代码语法高亮:使用我们的语法高亮功能增强代码可读性。完整的 Markdown 和 LaTeX 支持:通过全面的 Markdown 和 LaTeX 功能提升您的 LLM 体验,以丰富交互。本地 RAG 集成:通过开创性的检索增强生成 (RAG) 支持深入了解聊天交互的未来。此功能将文档交互无缝集成到您的聊天体验中。您可以将文档直接加载到聊天中或将文件添加到文档库中,使用提示符中的命令轻松访问它们。在 alpha 阶段,当我们积极改进和增强此功能以确保最佳性能和可靠性时,可能会偶尔出现问题。#网页浏览功能:使用命令后跟 URL 将网站无缝集成到您的聊天体验中。此功能允许您将 Web 内容直接合并到您的对话中,从而增强互动的丰富性和深度。#提示预设支持:使用聊天输入中的命令立即访问预设提示。毫不费力地加载预定义的对话启动器并加快您的交互速度。通过Open WebUI社区集成轻松导入提示。/RLHF 注释:通过竖起大拇指和竖起大拇指对消息进行评分来增强您的消息,从而促进创建用于人类反馈强化学习 (RLHF) 的数据集。利用您的消息来训练或微调模型,同时确保本地保存数据的机密性。对话标记:轻松分类和定位特定聊天,以便快速参考和简化数据收集。下载/删除模型:直接从 Web UI 轻松下载或删除模型。文件模型创建:通过直接从 Web UI 上传 GGUF 文件,轻松创建 Ollama 模型。简化流程,可选择从您的机器上传或从 Hugging Face 下载 GGUF 文件。多模式支持:在不同的聊天模式之间无缝切换,实现多样化的互动。多模态支持:与支持多模态交互的模型无缝交互,包括图像(例如 LLava)。模型文件生成器:通过 Web UI 轻松创建 Ollama 模型文件。创建和添加角色/代理,自定义聊天元素,并通过Open WebUI社区集成轻松导入模型文件。多模型对话:毫不费力地同时与各种模型互动,利用它们的独特优势获得最佳响应。通过并行利用一组不同的模型来增强您的体验。协作聊天:通过无缝编排群组对话,利用多个模型的集体智慧。使用该命令指定模型,从而在聊天界面中启用动态和多样化的对话。让自己沉浸在编织在聊天环境中的集体智慧中。@OpenAI API 集成:毫不费力地集成与 OpenAI 兼容的 API,以便与 Ollama 模型进行多功能对话。自定义 API 基本 URL 以链接到 LMStudio、Mistral、OpenRouter 等。再生历史访问:轻松重新访问和探索您的整个再生历史。聊天记录:轻松访问和管理您的对话记录。导入/导出聊天记录:无缝地将您的聊天数据移入和移出平台。语音输入支持:通过语音交互与您的模型互动;享受直接与模特交谈的便利。此外,探索在静音 3秒后自动发送语音输入的选项,以获得简化的体验。使用高级参数进行微调控制:通过调整温度等参数和定义系统提示来获得更深层次的控制,以根据您的特定偏好和需求定制对话。外部 Ollama 服务器连接:通过配置环境变量,无缝链接到托管在不同地址上的外部 Ollama 服务器。基于角色的访问控制 (RBAC):使用受限权限确保安全访问;只有经过授权的个人才能访问您的 Ollama,并且为管理员保留独家模型创建/提取权限。后端反向代理支持:通过Open WebUI后端和Ollama之间的直接通信来增强安全性。此关键功能消除了通过 LAN 公开 Ollama 的需要。从 Web UI 向“/ollama/api”路由发出的请求从后端无缝重定向到 Ollama,从而增强了整体系统的安全性。持续更新:我们致力于通过定期更新和新功能来改进 Open WebUI。
110
Beeble AI

Beeble AI

Beeble AI简介 Beeble ai和纽约大学一起发布的论文,支持一非常低的成本让人物同虚拟环境的光照相融合,效果看起来非常好。使用 Beeble AI 的 SwitchLight 体验 AI Relighting 的强大功能。毫不费力地改变图像和视频中的照明,实现超逼真的效果。使用 Beeble AI 的创新技术,通过逼真的灯光效果增强您的创作。什么是 Beeble Al?Beeble A!是一个尖端的虚拟制片平台,利用人工智能的力量使用户能够实现逼真的图像合成。它采用复杂的 AI模型来重新照亮图像,提供三种主要方法来实现这一目标:HDRI:Beeble 利用高动态范围图像 (HDRI) 重新照亮图像,捕捉场景中的全范围光线。人像:通过使用人像图像,Beeble 将照明从一个场景转移到另一个场景,提供无缝的照明调整。自定义:Beeble 还允许用户使用自定义照明设置来重新照亮图像,从而提供最大的灵活性。Beeble A的特点:逼真的重新照明:Beeble 的 A模型提供了令人惊叹的逼真图像重新照明,使生成的图像看起来就像是在新的照明条件下捕获的一样。通用用例:Beeble 适用于广泛的应用,包括虚拟制片、图像合成和 VFX工作,为专业人士提供充足的创作机会。用户友好的界面:Beeble 的平台易于使用,使用户能够毫不费力地上传他们的图像,选择所需的照明条件,并生成逼真的重新照明图像。BeebleAl的应用:虚拟制片:Beeble 使用户能够创建逼真的虚拟制片,提供看似在真实世界地点拍摄的场景。图像合成:借助 Beeble 的图像合成功能,用户可以无缝地合并来自不同场景的元素,从而产生迷人的视觉合成。视觉特效工作:Beeble帮助视觉特效艺术家生成超逼真的特效,为他们的创作增添了额外的真实性。如何使用Beeble Ai?1、上传图片:首先将您希望重新点亮的图片上传到 Beeble 的平台。2、照明选择:从可用选项(HDRI、纵向或自定义照明)中选择所需的照明条件。3、点击“重新点亮”:通过单击“重新点亮"按钮启动 Ai重新点亮过程。4、逼真的效果:见证您的图像在逼真的照明下被转换,产生令人信服和专业的最终结果。Beeble AI由位于韩国首尔的人工智能研究人员专门团队开发,拥有丰富的人工智能研究经验以及在顶级人工智能会议上发表文章的经验,Beeble AI 旨在通过提供基于人工智能的创新解决方案来释放人类的创造潜力 。
70
Magi

Magi

Magi简介 Magi模型,可以自动将漫画转录成文字并自动生成剧本,还可以通过识别漫画页面上的面板、文字块和角色,重新排序和关联,输出连贯的对话内容,准确地为每幅漫画生成文本记录,从而保证输出文本的逻辑性,使整个流程更加高效。Magi模型由牛津大学工程科学系的视觉几何组开发。Magi适用于那些需要将漫画图片自动化生成文本的研究人员、开发者或者漫画爱好者。它为这些用户提供了方便快捷的工具,从而帮助他们轻松进行数字化漫画内容及索引。Magi GitHub源码:https://github.com/ragavsachdeva/magiMagi论文:https://arxiv.org/abs/2401.10224Magi模型主要功能:面板检测:精确识别漫画页面上的各个面板,即画家绘制的独立矩形画框,这是理解漫画页面布局和内容的第一步。文本检测:在每个面板内部定位文字区域,提取包含重要对话或叙述的文本块,这是理解面板内容的基础。角色检测:检测每个面板内出现的角色,获取其在图像中的边界框、姿态、表情等视觉信息,这对后续分析至关重要。角色识别:基于检测结果,识别每个角色的身份信息,如名字、称呼等,这可以帮助跟踪故事中的人物。角色聚类:根据面部特征、服装特征等信息,将同一角色的不同姿态图片聚类到一起,从而区分页面上的不同角色。语音分配:判断文本块属于页面上哪个角色的对话,将语音正确分配给对应的角色,这对生成精确的剧本必不可少。阅读排序:根据面板位置、阅读顺序,将分散的文本块重新排序和连接,输出连贯的对话内容,从而保证输出文本的逻辑性。Magi如何使用?1、上传漫画图片2、系统自动识别并提取漫画图片相关信息生成文本3、用户根据需要对文本进行编辑和修改通过Magi的这些功能,Magi能够自动将漫画页面转化为详细的文字剧本,解决漫画页面的自动理解和剧本生成问题,包含角色对话和相应的动作或情境描述,这使得漫画内容的数字化处理变得轻松快捷,使读者能够通过阅读文本来完整地体验漫画故事。
120
ComflowySpace

ComflowySpace

ComflowySpace简介 我们认为开源 ai 图像、视频生成工具值得有更好的交互体验设计,而不是 WebUI 和 ComfyUI 那样原生的样子。很多人不愿意学习或者参与到 AI 生成这个浪潮中,最关键的原因是工具门槛太高。而这正是 Comflowy 要解决的问题,为此我们开发了一款更易用 & 更有用的 AI 图像、视频生成工具 - ComflowySpace。ComflowySpace 的目标是让 ComfyUI & Stable Diffusion 成为普通人都能使用的产品,从下载安装到插件管理、工作流模板、流程编辑,每一个步骤都有良好的设计。Comflowyspace功能:安装更便捷安装 ComfyUI 操作繁琐之余,还常常会遇到各种奇奇怪怪的问题,最后导致安装失败。为了解决这个难题,ComflowySpace 提供了一键安装功能,让你可以在几分钟内完成安装。使用更高效ComflowySpace 提供了一个 workflow 管理功能,你可以在此查看你的所有历史 workflow。有了它,你不再需要手动导出保存 workflow。另外,我们还提供了多 tab 功能,让你可以同时打开和运行多个 workflow,提升多任务操作效率。搭建更简单在 ComflowySpace 中,你可以利用各种模板来搭建 workflow,从而使得搭建 workflow 更加简单和便捷。体验更友好我们优化了非常多的细节体验,让你的使用更加顺畅。同时,ComflowySpace 还和我们的教程打通,降低你的学习门槛。
130
LangChain

LangChain

LangChain简介 LangChain是一个用于构建基于大型语言模型(LLMs)的应用程序的开源框架。 LLMs 是根据大量数据预先训练的大型深度学习模型,可以生成对用户查询的响应,例如回答问题或根据基于文本的提示创建图像。LangChain 提供工具和抽象来提高模型生成信息的定制性、准确性和相关性。它通过将语言模型连接到上下文源并根据提供的上下文进行推理,简化了创建生成式人工智能应用程序接口的过程,并简化了人工智能应用程序的开发。LangChain由几个部分组成,包括LangChain Libraries、LangChain Templates和LangServe,它们共同为各种任务提供了一系列易于部署的参考架构。 LangChain 还包含允许 LLMs 无需重新训练即可访问新数据集的组件,从而提高 AI 开发人员的效率。LangChain功能特征:核心功能:LangChain 允许用户将不同的组件链接在一起,围绕 LLMs 创建高级用例。这些组件可能包括提示模板、LLMs 和使用 LLMs 决定应采取哪些操作的代理。应用程序开发:在LangChain中开发应用程序的过程通常包括定义应用程序、使用提示构建功能以及自定义功能以满足特定用例要求。安装:要开始使用LangChain,您可以使用pip或conda来安装它。此外,LangChain 可能需要与模型提供者、数据存储和 API 集成,这些可以设置为环境的一部分。灵活性和可扩展性:LangChain非常灵活,可用于构建从聊天机器人到问答系统的各种应用程序。它还提供了满足不同应用需求的可扩展性。开源免费:LangChain是开源的,完全免费使用。它可以从 GitHub 下载并安装在计算机上。此外,它还可以作为 Docker 镜像提供,以便在云平台上轻松部署。LangChain案例:Wolfram Alpha:提供强大的计算和数据可视化功能,实现复杂的数学功能。Google 搜索:提供对 Google 搜索的访问,为应用程序和代理提供实时信息。OpenWeatherMap:获取天气信息。维基百科:提供对维基百科文章信息的高效访问。LangChain 由 Harrison Chase 于 2022 年 10 月推出,迅速崛起:截至 2023 年 6 月,它是 Github 上增长最快的开源项目。 1 与下个月 OpenAI 的 ChatGPT 的重大发布同时发生,LangChain 在生成式 AI 广泛流行后,在让生成式 AI 更容易被爱好者使用方面发挥了重要作用。总的来说,LangChain 提供了一个通用框架,用于构建由语言模型功能支持的应用程序,提供灵活性、可扩展性和一系列组件来围绕 LLMs 创建高级用例。
90
Animagine XL 3.1

Animagine XL 3.1

Animagine XL 3.1简介 Animagine XL 3.1,一个开源的文本生成图像动漫模型,通过整合新的数据集,Animagine XL 3.1扩展了对广泛动漫作品和风格的理解,从经典作品到最新发布的动漫,覆盖了从古老到现代的各种艺术风格。Animagine XL 3.1在线体验:https://huggingface.co/spaces/cagliostrolab/animagine-xl-3.1Animagine XL 3.1特点:通过整合新的数据集,Animagine XL 3.1扩展了对广泛动漫作品和风格的理解,从经典作品到最新发布的动漫,覆盖了从古老到现代的各种艺术风格。解决曝光过度问题,提高了生成图像的质量。新增美学标签,更新了质量和年份标签,支持生成特定美感和时代风格的图像。采用标签排序,优化了生成结果的准确性。优化算法和训练过程,使用了2x A100 80GB GPU进行了约350小时的训练,针对性地提升了图像的细节和色彩表现。数据丰富度:该模型预训练使用了一个包含870000张有序且标注的图像的数据集。这些图像覆盖了广泛的动漫角色、风格和主题,从而为模型提供了一个深厚的知识基础。Animagine XL 3.1使用有多种方法可以开始使用此模型:Animagine XL 3.1 在 SeaArt 和 Huggingface 中提前发布。Animagine XL 3.1 已在 Huggingface Spaces 上上线,由 Zero Nvidia A100 GPU 提供支持。Animagine XL 3.1 也将于稍后在其他平台上发布。Animaine XL 3.1许可Animaine XL 3.1基于Animagine XL 3.0,属于Fair AI Public License 1.0-SD许可证,与Stable Diffusion模型的许可证兼容。关键点:修改共享:如果您修改 Animagine XL 3.1,则必须共享您的更改和原始许可证。源代码可访问性:如果您的修改版本可以通过网络访问,请为其他人提供获取源代码的方式(例如下载链接)。这也适用于派生模型。分发条款:任何分发都必须遵循本许可证或具有类似规则的其他许可证。合规性:不合规行为必须在 30 天内解决,以避免许可证终止,强调透明度和遵守开源价值观。
80
迅排设计

迅排设计

迅排设计简介 迅排设计Poster-Design,一款漂亮易用且功能强大的创意图片编辑器,对标稿定设计、创客贴、Canva 等商业产品。迅排设计适用于海报生成、电商分享图、文章长图、视频/公众号封面等多种场景,无需下载软件即可轻松实现云端编辑、迅速完成图文排版。迅排设计Github仓库地址:https://github.com/palxiao/poster-design迅排设计Poster-Design特点:丝滑的页面操作体验,丰富的交互细节,基础功能完善采用服务端生成图片,能确保多端出图统一性,支持各种 CSS 特性简易 ai 抠图工具,上传图片一键去除背景技术栈:Vue3 、Vite5 、Vuex 、ElementPlus,开发体验畅快图片生成:Puppeteer、Express迅排设计Poster-Design支持功能:导入 PSD 文件解析成模板、在线导出图片下载。元素拖拽、组合、缩放、层级调整、对齐等操作。图片素材插入、替换、裁剪,图片容器等功能。SVG 素材颜色、透明度编辑,文字花字组合。画布自定义尺寸、滚轮缩放、自适应画布吸附对齐、辅助引导线、标尺功能。键盘快捷键、右键菜单快捷操作,复制删除等常用操作。风格二维码编辑,支持单色、渐变、自定义 logo 等。图层操作,支持拖拽变更层级。颜色调色板,原生级取色器颜色吸管(Chrome)。迅排设计完全免费,可在保留 MIT 开源许可证 的前提下使用。迅排设计自正式开源以来,受到了各界的广泛关注,其Github仓库在短短一个月内就获得了大量的关注。这表明迅排设计不仅在功能上满足了用户的需求,而且在社区支持和开源文化方面也展现出了良好的发展势头。迅排设计通过其强大的功能、易用的设计以及良好的社区支持,成为了市场上一款值得关注的在线图片编辑器和海报设计工具。
120
StreamMultiDiffusion

StreamMultiDiffusion

StreamMultiDiffusion简介 StreamMultiDiffusion,一个使用区域文本提示来实时生成图像的项目,主要用于图像生成和编辑应用。它基于扩散模型在文本到图像合成中的成功,旨在通过减少推理时间和提高生成图像的质量来提高扩散模型的可用性。该方法专注于基于紧密和粗糙区域的生成,以及文本到全景的生成,并且它可以与用户提供的精确分割掩模一起使用,过程涉及基于优化任务的新生成过程,该优化任务将多个扩散路径绑定在一起以进行受控图像生成。也就是你可以通过在多个特定区域内分别输入不同的文本提示来指导ai画图,一个提示负责一个区域,精准控制而且这个过程是交互式的,实时完成,你能立马看到生成效果,非常炸裂。StreamMultiDiffusion主要特性和应用:实时交互式生成:StreamMultiDiffusion 通过基于区域的语义控制实现实时交互式生成,使其适用于各种最终用户应用程序的图像生成和编辑。基于区域的语义控制:该方法可以使用紧密、准确的分割掩模和粗糙掩模,为具有不同图像编辑专业知识水平的用户提供灵活性。文本到全景生成:StreamMultiDiffusion 可用于文本到全景生成,生成具有无缝过渡的高质量全景图像。图像质量优化任务:该方法涉及一个优化任务,将不一致的方向融合到全局去噪步骤中,从而产生高质量的无缝图像。语义调色板:引入了一种新的绘画范式,用户不仅可以绘制颜色,还可以绘制具有特定语义的内容,例如“蓝天”、“绿草”等,从而在创作过程中加入更丰富的意义层次。图像修复和编辑:提供了实时图像修复和编辑功能,用户可以在任何上传的照片或艺术作品上进行绘画,自由修改和美化现有图像。这些优势使 StreamMultiDiffusion 成为适用于各种最终用户应用程序的多功能且强大的工具,在实时图像生成和编辑方面提供可用性和质量。StreamMultiDiffusion实施与整合StreamMultiDiffusion 集成到扩散器中,可以使用特定流程运行。它还为其方法提供了Gradio UI,允许用户通过用户友好的界面与生成过程进行交互。此外,该方法通过网络演示提供空间控制,为用户提供进一步的灵活性和定制选项。StreamMultiDiffusion限制和建议值得注意的是,StreamMultiDiffusion 最适合生成 2048 x 512 的全景景观图像。此外,该方法还针对切片大小和重叠提供了具体建议,以优化速度和图像质量。例如,在 MultiDiffusion 3 的情况下,建议选择 64 - 160 之间的图块大小值和 32 或 48 之间的重叠值。StreamMultiDiffusion作为一款用于实时交互式图像生成和编辑的强大工具,提供基于区域的语义控制、文本到全景生成和空间控制等功能,同时还提供最佳使用建议。
140
APISR

APISR

APISR简介 APISR是一个专注于动漫图像超分辨率的项目,旨在恢复和增强来自现实世界场景的低质量、低分辨率动漫图像和视频源。APISR支持多种上采样因子权重,如2x、4x等,以提高图像和视频的质量。APISR不仅支持动漫图像的超分辨率,还支持动漫视频,通过提升视频中每一帧的清晰度和质量,整个视频的视觉效果也会相应提升。并且用户可以实时与系统交互,根据自定义需求生成图像,强调了其灵感来源于动漫制作,目的是为了提升超高清图像的增强效果。APISR在线演示:huggingface.co/spaces/HikariDawn/APISRComfyUI-APISR:github.com/ZHO-ZHO-ZHO/ComfyUI-APISRAPISR技术特点:动漫图像和视频的超分辨率处理:APISR是一个专门针对动漫图像和视频的超分辨率工具,旨在通过先进的算法提升图像质量和分辨率。支持多倍放大:APISR提供了灵活的放大选项,支持2倍、4倍等不同级别的放大,以满足用户对高清动漫图像的需求。实时在线转换:利用APISR技术,用户可以通过在线平台快捷上传需要处理的动漫图片或视频,无需等待长时间处理,实现快速高清化。处理真实世界退化图像:特别设计算法来处理现实世界中遇到的各种图像退化问题,如模糊、噪声、压缩伪影等,有效改善动漫图像在实际应用场景中的表现。APISR的应用场景:APISR的应用场景主要集中在动漫爱好者对于高清放大动漫图片和视频的需求上,主要是针对动漫图像和视频的恢复和增强。它能够处理低质量、低分辨率的动漫图像和视频,通过超分辨率增强技术显著提高其分辨率和图像质量,旨在为用户提供更加清晰、高质量的视觉体验。APISR作为一个利用人工智能技术,特别是超分辨率技术,来改善和提升动漫图像及视频质量的工具或软件,通过模拟动漫制作过程中的视觉效果,对现实世界的低质量动漫图像和视频进行处理,以达到更高的视觉效果。
100
AniPortrait

AniPortrait

AniPortrait简介 AniPortrait是一款由腾讯研究人员开发的音频驱动的肖像动画合成框架,它能够根据音频和静态人脸图片生成逼真的动态视频。AniPortrait的应用场景包括为视频配音或创作逼真的人脸动画、制作创意表情包或独特的动态头像以及为艺术家和创作者提供面部再现和动画生成的工具。AniPortrait功能特征:AniPortrait图片生成视频的功能特征主要包括以下几点:音频驱动的肖像动画合成:AniPortrait是一款能够根据音频和静态人脸图片生成逼真动态视频的工具,它通过提取音频中的3D面部表情来实现这一功能。用户友好性:使用AniPortrait非常简单,用户只需提供音频和人脸图片,即可生成符合特定要求的人脸动画。此外,用户还可以根据需要调整模型和权重配置,以实现个性化的动画效果。三维数据转换:AniPortrait会从音频中提取出三维的中间数据,并将这些数据转换成一连串的二维面部轮廓标记,为后续的人脸动画生成打下基础。高品质动画生成:该工具基于音频和一张参考人脸照片来生成高品质的动画,包括两个主要步骤:首先是从音频中提取三维中间数据,然后进行后续处理。AniPortrait应用场景:AniPortrait图片生成视频的应用场景主要包括以下几个方面:虚拟现实(VR):AniPortrait可以为VR角色提供逼真的面部动画,增强用户的沉浸感。这意味着在虚拟现实环境中,用户可以通过更加自然和真实的面部表情来与虚拟角色互动,从而提升体验的真实性和互动性。视频游戏:在视频游戏中,AniPortrait的应用可以使得游戏角色的面部表情更加丰富和真实,提高游戏的吸引力和玩家的沉浸感。通过生成逼真的动态视频,可以使游戏角色的表情和反应更加自然,增加游戏的趣味性和互动性。音频驱动的动画合成:AniPortrait支持音频驱动的动画合成,这意味着它可以根据音频内容自动生成相应的面部动画,适用于需要根据特定音频内容生成相应表情或动作的场景。这种应用可以广泛应用于视频制作、电影特效等领域,使得角色的表情和动作更加符合音频内容,提高作品的表现力。高质量动画生成:AniPortrait能够生成高质量的动画,这使得它非常适合于需要高清晰度和细节表现的场合,如电影制作、广告视频等。通过高质量的动画生成,可以确保角色的表情和动作既逼真又细腻,满足专业级别的制作需求。与其他AI工具相比,如阿里推出的EMO,AniPortrait同样能够通过输入一张参考图片和语音音频,创造出生动的视频,展现出丰富的面部表情和多变的头部动作。然而,值得注意的是,AniPortrait比EMO更早开源,这表明腾讯在这一领域的技术创新和开放态度。总的来说,AniPortrait图片生成视频的技术主要依赖于音频和静态人脸图片的输入,通过先进的AI算法处理这些数据,生成逼真且与音频内容匹配的动态视频。这项技术不仅适用于社交媒体、艺术创作等领域,也展现了AI在图像处理和动画生成方面的强大能力。
100
IDM-VTON

IDM-VTON

IDM-VTON简介 IDM-VTON是一种先进的虚拟试穿技术,它通过结合视觉编码器和UNet模型来生成高质量的虚拟试穿图像,并且可以通过定制来进一步提高图像的一致性和真实性。IDM-VTON技术特点:高度真实感: 生成的试衣图像细节精细,提供接近现实的试衣体验。复杂背景处理: 在户外或背景复杂的场景中,准确展示衣物试穿效果,保持图像高质量。一致性保持: 在不同人物模型上展示同一件服装时,保持服装细节的一致性。纹理与图案精确再现: 特别擅长捕捉服装的纹理和图案,包括微小装饰。IDM-VTON应用场景:时尚零售: 提供便捷的试衣方式,增强用户体验。个性化服装设计: 为设计师提供新的展示和销售手段。在线试衣间: 为消费者提供虚拟试衣体验。增强现实(AR)试衣体验: 结合AR技术,提供沉浸式试衣体验。IDM-VTON技术优势:用户便利: 用户无需亲自试穿即可预览服装效果。零售商成本节约: 节省实体试衣间的成本,提供多样化试衣体验。设计师反馈: 设计师可以通过虚拟试衣快速获取反馈,优化设计。DM-VTON的定制过程是怎样的?IDM-VTON的定制过程涉及到对模型的微调,以适应特定的服装图像和人物图像。以下是定制IDM-VTON的一般步骤:1、数据准备:收集或准备一个包含服装图像和人物图像的数据集。这些图像应该具有高质量,并且服装图像应该包含复杂的图案和细节。确保数据集中的图像遵循特定的格式和结构,以便于模型的训练和推理。2、模型训练:使用IDM-VTON的训练代码,根据数据集进行模型训练。这通常涉及到设置训练参数,如学习率、批量大小、训练周期等。在训练过程中,模型会学习如何将服装图像映射到人物图像上,同时保持服装的细节和复杂图案。3、模型微调:根据需要,对模型进行微调。这可能包括调整模型的结构、超参数或者训练策略,以提高特定服装图像的生成质量。微调过程中,可以使用特定的服装图像和人物图像对来优化模型的性能。4、评估和优化:使用评估指标(如FID、SSIM、PSNR等)来衡量模型生成的图像质量。根据评估结果,进一步调整模型参数或训练策略,以提高模型的性能。5、部署和应用:将训练好的模型部署到实际应用中,如虚拟试穿系统。在实际应用中,用户可以上传自己的服装图像和人物图像,模型将生成虚拟试穿的图像。6、持续迭代:根据用户反馈和实际应用中的表现,持续迭代和优化模型。可能需要定期收集新的数据集,以适应新的服装样式和趋势。IDM-VTON项目信息项目地址: https://idm-vton.github.io/试玩地址: https://top.aibase.com/tool/idm-vton
90
HiDiffusion

HiDiffusion

HiDiffusion简介 HiDiffusion大幅提升扩散模型的图像生成质速度提升6倍,由字节跳动的研究团队开发,HiDiffusion无需训练,只需要一行代码就可以提高 SD 生成图像的清晰度和生成速度。支持将图像生成的分辨率提高至4096×4096,同时将图像生成速度提升1.5至6倍。还能在高分辨率图像生成中将推理时间减少 40%-60%,支持所有 SD 模型同时也支持 SD 模型的下游模型,比如Playground。HiDiffusion功能特征:支持的模型: HiDiffusion 支持多种稳定扩散模型,包括 Stable Diffusion XL、Stable Diffusion XL Turbo、Stable Diffusion v2 和 Stable Diffusion v1。此外,它还支持基于这些模型的下游扩散模型,如 Ghibli-Diffusion 和 Playground 等。支持的任务: HiDiffusion 支持多种任务,包括文本到图像的生成、ControlNet 控制网络任务和Inpainting 图像修复。易于使用: 通过Huggface Diffusers库,使用 HiDiffusion 生成图像极为简单,只需添加一行代码即可。通过广泛的实验验证,HiDiffusion不仅解决了对象重复和高计算负荷的问题,还在生成高分辨率图像的任务上达到了前所未有的效果。HiDiffusion测试地址:https://huggingface.co/spaces/multimodalart/HiDiffusion
80
Perplexica

Perplexica

Perplexica简介 Perplexica是一个开源的ai驱动搜索引擎,它提供了多种搜索模式,为用户提供更精准、更智能的搜索体验。这个搜索引擎受到Perplexity AI的启发,能够根据用户的需求调整搜索算法,以获得更相关的搜索结果。同时,Perplexica使用了先进的机器学习算法来优化其搜索功能。Perplexica支持本地部署的大型语言模型,如Llama3和Mixtral,并提供多种搜索模式,包括Copilot模式、普通模式和焦点模式,后者针对特定类型的问题提供精确答案。同时,Perplexica使用SearxNG作为元搜索引擎,确保获取最新信息,并支持图像和视频搜索。未来计划包括引入更多焦点模式、完善Copilot模式等。Perplexica功能特征:使用本地大型语言模型(LLMs)如Llama3和Mixtral。两种主要模式:Copilot模式(开发中)和普通模式。六种专注模式,包括全模式、写作助手模式、学术搜索模式、YouTube搜索模式、Wolfram Alpha搜索模式和Reddit搜索模式,根据用户需求调整搜索算法,以获得更相关的搜索结果。始终使用SearxNG获取最新信息,无需每日数据更新。支持图像和视频搜索。使用先进的机器学习算法,如相似性搜索和嵌入技术,来精细化搜索结果。确保隐私保护,使用SearxNG作为当前性保障,避免每日数据更新的开销。计划中的功能包括完成Copilot模式、添加设置页面、支持本地LLMs、添加发现和历史保存功能、引入各种专注模式。Perplexica利用先进的机器学习算法优化搜索结果,并注重隐私保护。这个开源项目致力于成为全面、高效的搜索解决方案,满足用户对各种类型信息的需求,同时保护用户隐私并提供最新的搜索结果。
190
XHS-Downloader

XHS-Downloader

XHS-Downloader简介 XHS-Downloader,小红书链接提取/作品采集工具:提取账号发布、收藏、点赞作品链接;提取搜索结果作品链接、用户链接;采集小红书作品信息;提取小红书作品下载地址;下载小红书无水印作品文件!XHS-Downloader程序功能:采集小红书作品信息提取小红书作品下载地址下载小红书无水印作品文件自动跳过已下载的作品文件作品文件完整性处理机制自定义图文作品文件下载格式持久化储存作品信息至文件作品文件储存至单独文件夹后台监听剪贴板下载作品记录已下载作品 ID支持命令行下载作品文件从浏览器读取 Cookie自定义文件名称格式支持 API 调用功能XHS-Downloader脚本功能:下载小红书无水印作品文件提取发现页面作品链接提取账号发布作品链接提取账号收藏作品链接提取账号点赞作品链接提取搜索结果作品链接提取搜索结果用户链接XHS-Downloader使用方法:如果仅需下载无水印作品文件,建议选择 程序运行;如果有其他需求,建议选择 源码运行!建议自行设置 cookie 参数,若不设置该参数,程序功能可能无法正常使用!
200
StoryDiffusion

StoryDiffusion

StoryDiffusion简介 StoryDiffusion 是一款由南开大学HVision团队开发的人工智能工具,主要功能包括生成连贯的图像和视频故事,以及漫画生成创作。StoryDiffusion利用一致性自注意力(Consistent Self-Attention)技术,能够在无需训练的情况下生成主题一致的图像,这些图像可以用于讲述故事或作为后续内容生成的输入。StoryDiffusion 能够保持角色的一致性,生成多图漫画和长视频,这对于需要连贯叙事的广告、电影等领域尤为重要。StoryDiffusion主要功能特征:角色连贯性保持:StoryDiffusion能够通过一致性自注意力机制生成主题一致的图像和视频,确保在多图漫画和长视频中角色风格和服装的一致性,从而实现连贯的故事叙述。多场景应用:该工具不仅适用于漫画生成,还可以应用于图像转视频等多种场景。用户可以通过提供一系列条件图像,利用Image-to-Video模型生成视频,这对于广告、电影等领域提供了新的创意方式和制作手段。教育材料设计:教育工作者可以使用StoryDiffusion来设计教育视频或互动故事,这些内容有助于提高学习者的参与度和兴趣。长范围图像生成功能:特别适合制作连贯的广告故事,增强品牌形象。这种功能使得StoryDiffusion在广告和品牌推广方面具有显著优势。即插即用无需训练:研究团队将一致性自注意力插入到现有图像生成模型的U-Net架构中,并重用原有的自注意力权重,以保持无需训练和即插即用的特性。高效能与稳健性:StoryDiffusion在保持角色特性的同时,还能够很好地符合提示描述,显示出其稳健性。这表明该方法在定量指标上取得了最佳性能。StoryDiffusion通过一致性自注意力机制,不仅能够生成连贯的图像和视频,还能应用于多种实际场景,如教育、广告和娱乐等,同时具备高效能和稳健性。GitHub 项目:相关项目已经在 GitHub 上获得了 1k 的 Star 量,GitHub 地址为:https://github.com/HVision-NKU/StoryDiffusion。论文和演示:有关 StoryDiffusion 的更多技术细节和实验结果可以在论文《StoryDiffusion: Consistent Self-Attention for long-range image and video generation》中找到,论文地址为:https://arxiv.org/pdf/2405.01434v1
140
Stirling-PDF

Stirling-PDF

Stirling-PDF简介 Stirling-PDF,一个基于Web强大的开源PDF操作工具。它使您能够对 PDF 文件执行各种操作,包括拆分、合并、转换、重组、添加图像、旋转、压缩等。Stirling-PDF非常注意安全,所有文件和 PDF 要么仅存在于客户端,要么仅在任务执行期间驻留在服务器内存中,要么仅临时驻留在文件中以执行任务。当完成任务后,用户上传的任何文件都将会从服务器中删除。Stirling-PDF特征:深色模式支持。自定义下载选项(例如,请参阅此处)并行文件处理和下载用于与外部脚本集成的 API可选的登录和身份验证支持(请参阅此处的文档)PDF 功能Stirling-PDF页面操作查看和修改 PDF - 通过自定义查看、排序和搜索查看多页 PDF。加上页面编辑功能,如注释、绘制和添加文本和图像。(将 PDF.js 与 Joxit 和 Liberation.Liberation 字体一起使用)用于合并/拆分/旋转/移动 PDF 及其页面的完整交互式 GUI。将多个 PDF 合并到一个生成的文件中。将 PDF 拆分为指定页码的多个文件,或将所有页面提取为单个文件。将 PDF 页面重新组织为不同的顺序。以 90 度的增量旋转 PDF。删除页面。多页布局(将 PDF 格式化为多页页面)。按设置百分比缩放页面内容大小调整对比度。裁剪 PDF。自动拆分 PDF(使用物理扫描的页面分隔符)。提取页面。将 PDF 转换为单个页面。转换操作将 PDF 与图像相互转换。将任何通用文件转换为 PDF(使用 LibreOffice)。将 PDF 转换为 Word/Powerpoint/其他(使用 LibreOffice)。将 HTML 转换为 PDF。URL 到 PDF。Markdown 转换为 PDF。安全与权限添加和删除密码。更改/设置 PDF 权限。添加水印。对 PDF 进行认证/签名。清理 PDF。自动编辑文本。其他操作添加/生成/写入签名。修复 PDF。检测并删除空白页。比较 2 个 PDF 并显示文本差异。将图像添加到 PDF。压缩 PDF 以减小其文件大小(使用 OCRMyPDF)。从 PDF 中提取图像。从扫描中提取图像。添加页码。通过检测PDF标题文本自动重命名文件。PDF 上的 OCR(使用 OCRMyPDF)。PDF/A 转换(使用 OCRMyPDF)。编辑元数据。拼合 PDF。获取 PDF 上的所有信息以查看或导出为 JSON。Stirling PDF 有 3 个不同的版本,完整版、精简版和超精简版。根据您使用的功能和空间大小来选择。
20
RTranslator

RTranslator

RTranslator简介 RTranslator 是一款(几乎)开源、免费、离线的 Android 实时翻译应用程序。连接到拥有该应用程序的人,连接蓝牙耳机,将手机放入口袋中,然后您就可以像对方说您的语言一样进行对话。RTranslator对话模式对话模式是RTranslator的主要功能。在此模式下,您可以与使用此应用程序的另一部手机连接。如果用户接受您的连接请求:当您说话时,您的手机(或蓝牙耳机,如果已连接)将捕获音频。捕获的音频将转换为文本并发送到对话者的手机上。对话者的手机会将收到的文本翻译成他的语言。对话者的手机会将翻译后的文本转换为音频,并从扬声器中再现它(或者通过对话者的蓝牙耳机,如果连接到他的手机)。所有这一切都是双向的。每个用户可以拥有多部已连接的电话,以便您可以翻译两个以上的人之间以及任意组合的对话。RTranslator对讲机模式如果对话模式适用于与某人进行长时间对话,那么该模式则专为快速对话而设计,例如在街上询问信息或与店员交谈。该模式只能翻译两个人之间的对话,不适用于蓝牙耳机,而且必须轮流说话。这不是真正的同声翻译,但它只能在一部手机上使用。在此模式下,智能手机麦克风将同时以两种语言收听(可在对讲机模式的同一屏幕中选择)。该应用程序将检测对话者使用哪种语言,将音频翻译成另一种语言,将文本转换为音频,然后从手机扬声器中再现。 TTS 结束后,它将自动恢复收听。RTranslator文本翻译模式这种模式只是一个经典的文本翻译器,但总是有用的。一般模式RTranslator 使用 Meta 的 NLLB 进行翻译,使用 Openai 的 Whisper 进行语音识别,两者都是(几乎)开源且最先进的 AI,具有出色的质量并直接在手机上运行,确保绝对隐私,甚至可以在离线状态下使用 RTranslator。质量损失。此外,RTranslator 甚至可以在后台运行、手机处于待机状态或使用其他应用程序时(仅当您使用对话或 WalkieTalkie 模式时)。然而,有些手机会限制后台的电量,因此在这种情况下,最好避免它并在屏幕打开的情况下保持应用程序打开。RTranslator支持的语言阿拉伯语、保加利亚语、加泰罗尼亚语、中文、捷克语、丹麦语、德语、希腊语、英语、西班牙语、芬兰语、法语、克罗地亚语、意大利语、日语、韩语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、瑞典语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语。
90
Diffutoon

Diffutoon

Diffutoon简介 Diffutoon 是一项突破性的卡通着色进步,植根于扩散模型,可将逼真的视频无缝地转变为动漫视觉风格。该方法将卡通着色挑战分解为四个可辨别的方面:风格化、一致性增强、结构指导和着色。其主要卡通着色管道由植根于动漫风格扩散原理的多模块去噪模型推动,拥有令人印象深刻的渲染详细、高分辨率和长时间视频的能力。编辑分支的合并有助于根据提供的提示进行内容操作。通过闪存注意力的战略集成巧妙地缓解了 GPU 内存限制,从而实现高达 1536 x 1536 的分辨率。Diffutoon 能够以动漫风格渲染出细致、高分辨率、以及延长时间的视频。它还可以通过额外的分支编辑内容。Diffutoon 的有效性通过数值指标和人类评估进行评估。值得注意的是,Diffutoon 在我们的实验中超越了开源和闭源基线方法。Diffutoon 的主要功能:将真实感视频转换成各种动漫风格根据用户提示编辑视频内容,例如改变颜色或添加特效。详细保留了光照、头发和姿势等细节,同时保持了与动画风格密切相关的视觉效果。保持视频内容的一致性,避免闪烁和失真。能够生成高分辨率、长时间的视频。Diffutoon 的主要特点:高分辨率输出:Diffutoon 可以处理超高分辨率的视频,使其适合专业级动画和视频项目。一致性增强:它确保跨帧的风格化一致,这对于保持动画序列的视觉连贯性至关重要。可编辑内容:该方法允许根据提示进行内容编辑,为创作过程提供灵活性。结构指导和着色:Diffutoon 结合了结构指导和着色,以增强风格化输出的视觉吸引力和准确性。Diffutoon应用:动画制作:Diffutoon 可用于动画创作,将真人镜头或其他类型的视频转换为动画风格的动画。视频编辑:它能够根据提示编辑视频内容,这使其成为希望将动漫美学融入其项目的视频编辑者的强大工具。创意项目:艺术家和创作者可以使用 Diffutoon 在其视频内容中尝试不同的风格和效果。论文:https://arxiv.org/pdf/2401.16224Github:https://github.com/modelscope/DiffSynth-Studio项目:https://ecnu-cilab.github.io/DiffutoonProjectPage/
110
懒人客服

懒人客服

懒人客服简介 懒人客服是一个基于 LLM 大语言模型的知识库的集成客服系统,提供开箱即用的智能客服解决方案,支持微信、企业微信、千牛、哔哩哔哩、抖音企业号、抖音、抖店、微博聊天、小红书专业号运营、小红书、知乎等平台接入,支持文本、语音和图片,通过插件访问操作系统和互联网等外部资源,支持基于自有知识库定制企业ai应用。懒人客服主要功能:多平台支持:当前支持微信、企业微信、千牛、哔哩哔哩、抖音企业号、抖音、抖店、微博聊天、小红书专业号运营、小红书、知乎等平台,未来将不断扩展支持更多社交媒体平台。预设回复内容:允许用户设置自定义回复,以应对常见问题,提高回复效率.接入ChatGPT接口,根据客户的咨询内容智能生成回复,适用于处理复杂或者个性化的客户咨询。发送图片和二进制文件:支持发送图片等二进制文件,满足多样化的客户服务需求.知识库: 通过上传知识库文件自定义专属机器人,可作为数字分身、智能客服、私域助手使用。各个平台独立的插件系统,支持插件访问操作系统和互联网等外部资源,支持基于自有知识库定制企业 AI 应用。GitHub: https://github.com/cs-lazy-tools/ChatGPT-On-CSGitee: https://gitee.com/alsritter/ChatGPT-On-CS (国内用户推荐)注:懒人客服只是一个用于对接外部平台的客服工具,不提供任何平台的账号,需要自行准备。并且知识库功能也需要自行准备,该项目目前只支持的 OpenAI 的 API 接口(或代理)接入
110
Omnivore

Omnivore

Omnivore简介 Omnivore是一个开源的“稍后阅读”应用,它允许用户保存、标记和分享文章,还支持PDF文件和邮件添加文章。Omnivore提供了跨平台应用和浏览器扩展,方便用户在不同设备上使用。用户可以离线访问已保存的内容,并通过Logseq和Obsidian插件将Omnivore集成到他们的工作流程中。项目完全开源,用户可以自由扩展和部署。Omnivore主要功能:保存文章和PDF:使用Omnivore的移动应用和浏览器扩展保存文章和PDF文件,稍后在无干扰的阅读器中阅读。集中管理RSS订阅和新闻简报:将新闻简报直接发送到Omnivore库中,避免分散在多个邮箱中的干扰。组织阅读列表:使用标签、过滤器、规则和全文搜索来组织和管理阅读列表,构建适合自己的系统。添加高亮和笔记:在阅读时高亮显示关键部分并添加笔记,这些标注会永久保存在文章中,随时访问。与知识管理系统同步:Omnivore与Logseq、Obsidian和Notion等个人知识管理系统同步,将所有保存的阅读内容、高亮和笔记整合到一个地方。文本转语音:在iOS应用中使用文本转语音功能,通过逼真的ai语音朗读保存的文章,减轻眼睛疲劳。Omnivore全部功能:标记和笔记:用户可以在文章中高亮显示重要内容并添加笔记,方便以后参考。全文搜索:支持对保存的文章进行全文搜索,快速找到需要的信息。分享功能:用户可以轻松地分享他们保存和标记的内容。键盘导航:全键盘导航,提升使用体验。自动保存进度:在长文章中自动保存阅读位置,方便下次继续阅读。邮件添加文章:通过电子邮件添加新闻简报文章(支持Substack)。PDF支持:支持保存和阅读PDF文件。跨平台应用:提供基于Node.js和TypeScript的Web应用,原生iOS和Android应用,进步型Web应用(PWA)以及浏览器扩展(Chrome、Safari、Firefox和Edge)。标签功能:支持对文章进行标签分类。离线支持:即使在没有网络连接时也能访问已保存的内容。文本转语音:iOS平台上支持将文章转换为语音播放。插件支持:支持Logseq和Obsidian插件,方便用户在这些平台上使用Omnivore的功能。Omnivore支持的平台和扩展:iOSmacOSAndroid(预览版)Chrome扩展Firefox扩展Safari扩展Edge扩展Omnivore技术栈:后端和前端主要使用TypeScript。前端使用Next.js,并托管在Vercel上。数据获取使用SWR,组件样式使用Stitches,页面可读性提升使用Mozilla Readability。iOS应用使用Swift GraphQL生成GraphQL查询,Android应用使用Apollo GraphQL。Docker支持:提供了Docker Compose配置,便于本地开发和自托管部署。部署指南:提供详细的本地开发和自托管部署指南,包括Postgres数据库、API服务和内容抓取微服务的配置。GitHub:https://github.com/omnivore-app/omnivore在线体验:https://omnivore.app/
40
DUIX

DUIX

DUIX简介 硅基智能开源了DUIX,DUIX是2D 真人级、aiGC 实时渲染数字人模型!DUIX(Dialogue User Interface System)是硅基智能打造的AI数字人智能交互平台。通过将数字人交互能力开源,开发者可自行接入多方大模型、语音识别(ASR)、语音合成(TTS)能力,实现数字人实时交互,并在Android和iOS多终端一键部署,让每个开发者可轻松创建智能化、个性化的数字人Agent,并应用到各行各业。开发者可自行接入多方大模型、语音识别(ASR)、语音合成(TTS)能力实现数字人实时交互可在Android和iOS多终端一键部署,DUIX还提供了 14 个数字人模板支持低成本快速部署在 iOS、安卓或者大屏上,在平板、车载系统上也能流畅运行支持 50 帧/秒的流畅画面,视频生成效率超过 1:0.5、满足直播等一些对实时性要求很高的场景能精准的模拟动作、说话的唇形、微表情DUIX适用场景:部署成本低: 无需客户提供技术团队进行配合,支持低成本快速部署在多种终端及大屏。网络依赖小: 适合地铁、银行、政务等多种场景的虚拟助理自助服务。功能多样化: 可根据客户需求满足视频、媒体、客服、金融、广电等多个行业的多样化需求。DUIX核心功能:部署成本低: 无需客户提供技术团队进行配合,支持低成本快速部署在多种终端及大屏。网络依赖小: 适合地铁、银行、政务等多种场景的虚拟助理自助服务。功能多样化: 可根据客户需求满足视频、媒体、客服、金融、广电等多个行业的多样化需求。实时视频交流:用户可以与数字人进行实时对话。个性化定制:用户可以根据个人兴趣,选择自己喜欢的外观和声音,打造独特的交互体验。多角色扮演:数字人可以成为你的伴侣、爱人或“百科全书”,满足需求。情感联系:通过互动,用户与数字人建立情感纽带,享受陪伴的乐趣。时刻:数字人的“时刻”展示了他们的虚拟生活,用户可以更深入地了解他们的个性和兴趣。DUIX常见问题:1.可以支持数字人定制吗?是基于照片还是视频?答:可以支持数字人定制,我们是基于视频进行数字人定制。您可以定制专属的数字人用于SDK中。但定制的数字人属于付费服务,您可以联系客服邮箱。2.如何定制形象?答:定制硅基数字人需要拍摄一段 3-5 分钟的真人出镜口播视频,具体出镜姿势、口播内容,可以根据最终的真实使用场景来确定。比如用来制作法律咨询相关视频,即可选择正装出镜,口播法律相关内容,这样整体情景比较一致。3.定制形象如何收费?答:我们提供与SDK开源接口配套的数字人定制,定制价格为9800元/套,包括形象+声音,若有更多定制需求,可以联系客服邮箱。4.数字人形象怎么更新?答:目前开源的主要提供公共模特,有需求可以定制5.形象克隆有API接口么?答:训练服务目前只支持部署在我们的内部服务器进行调用6.播报的wav文件,支持流式数据吗?答:流式驱动正在做改造优化,暂时还不支持;7.播报开始结束有没有相关回调方法?答:播报开始结束的回调方法详见sdk文档8.数字人动作有没有相关api控制?答:数字人动作API,暂时还不支持DUIX商业案例展示:https://apps.apple.com/us/app/duix-your-ai-companion/id6451088879
100
Wiseflow

Wiseflow

Wiseflow简介 Wiseflow,一款敏捷的信息挖掘开源免费工具,它可以从网站、微信公众号、社交平台等各种信息源中按设定的关注点提炼讯息,自动做标签归类并上传数据库,你可以轻松将它整合到任意 Agent 项目中作为动态知识库。项目可完全本地部署,硬件基本无要求。Wiseflow功能特色原生 LLM 应用:我们精心选择了最适合的 7B~9B 开源模型,最大化降低使用成本,且利于数据敏感用户随时完全切换至本地部署。轻量化设计:不用任何向量模型,系统开销很小,无需 GPU,适合任何硬件环境。智能信息提取和分类:从各种信息源中自动提取信息,并根据用户关注点进行标签化和分类管理。WiseFlow尤其擅长从微信公众号文章中提取信息:为此我们配置了mp article专属解析器!可以被整合至任意Agent项目:可以作为任意 Agent 项目的动态知识库,无需了解wiseflow的代码,只需要与数据库进行读取操作即可!流行的 Pocketbase 数据库:数据库和界面使用 PocketBase,除了 Web 界面外,目前已有 Go/Javascript/Python 等语言的SDK。我们缺的其实不是信息,我们需要的是从海量信息中过滤噪音,从而让有价值的信息显露出来!看看Wiseflow是如何帮您节省时间,过滤无关信息,并整理关注要点的吧!
210
Meilisearch

Meilisearch

Meilisearch简介 Meilisearch ,快如闪电的搜索引擎,可轻松融入您的应用程序、网站和工作流程,Meilisearch 可帮助您快速打造令人愉悦的搜索体验,提供开箱即用的功能来加快您的工作流程。Meilisearch 特点混合搜索:结合语义搜索和全文搜索的优点以获得最相关的结果键入即搜索:在 50 毫秒内查找并显示结果,提供直观的体验拼写错误容忍度:即使查询包含拼写错误和拼写错误,也能获得相关匹配过滤和分面搜索:通过自定义过滤器增强用户的搜索体验,并用几行代码构建分面搜索界面排序:根据价格、日期或用户需要的几乎任何其他内容对结果进行排序同义词支持:配置同义词以在搜索结果中包含更多相关内容地理搜索:根据地理数据过滤和排序文档广泛的语言支持:搜索任何语言的数据集,优化支持中文、日语、希伯来语和使用拉丁字母的语言安全管理:使用允许细粒度权限处理的 API 密钥控制哪些用户可以访问哪些数据多租户:为任意数量的应用程序租户提供个性化搜索结果高度可定制:根据您的特定需求定制美丽搜索或使用我们开箱即用且无忧的预设RESTful API:将Meilisearch与我们的插件和SDK集成到您的技术堆栈中易于安装、部署和维护Meilisearch 应用:电影 — 一款可帮助您使用混合搜索找到观看电影的流媒体平台的应用程序。电子商务 - 使用析取方面、范围和评级过滤以及分页的电子商务网站。歌曲 — 搜索 4700 万首歌曲。SaaS — 在此多租户 CRM 应用程序中搜索联系人、交易和公司。Meilisearch 是由 Meili 创建的搜索引擎,Meili 是一家总部位于法国、团队成员遍布世界各地的软件开发公司,Meilisearch 现在是、也将永远是开源的!
150
AutoStudio

AutoStudio

AutoStudio简介 AutoStudio,一个多轮对话过程中无论用户在对话中添加或修改什么内容,都能保持图像生成一致性,可以直接产出情节完整的漫画内容的工具。AutoStudio 通过使用四个智能体来分别处理图像生成的各个环节。无论用户在每轮对话中添加或修改什么内容,用户可以生成多样化的图像序列,系统都能确保生成的图像在主题和风格上保持一致。可以用于创建故事或漫画。比如,用户可以逐步生成一个连贯的故事情节,每一帧图像都符合故事的发展。在连续生成的图像中,保证同一个人物在不同场景中的外貌和姿态一致,甚至能能够精确控制每个元素在图像中的位置和大小,生成布局合理的图像。实时交互和编辑:用户还可以在多轮对话中动态地编辑图像。用户可以在生成过程中随时提供新的指令或修改已有指令,系统能够实时响应并生成更新后的图像。例如,用户可以先生成一个场景,然后在后续对话中添加或修改场景中的元素,AutoStudio 会根据新的指令更新图像。AutoStudio功能特征:多轮对话能力:AutoStudio的核心优势在于其卓越的多轮对话能力,无论用户在对话中添加或修改什么内容,系统都能确保生成的图像在主题和风格上保持一致。实时交互和编辑:用户可以在对话过程中动态地编辑图像,系统能够实时响应并生成更新后的图像。多轮对话生成:用户可以逐步构建图像序列,用于创建故事或漫画,每一帧图像都符合故事的发展。主题和风格一致性:AutoStudio通过先进的算法,确保即使在多轮对话中,生成的图像也能在主题和风格上保持一致。智能体协同工作:四个智能体分别负责不同的图像生成任务,确保生成过程的高效和精准。动态指令响应:用户在生成过程中可以随时提供新的指令或修改已有指令,AutoStudio能够实时更新图像。应用:漫画创作:用户可以先生成一个场景,然后在后续对话中根据需要添加或修改场景中的元素。故事板构建:用户可以逐步生成一个连贯的故事情节,每一帧图像都与故事发展相匹配。视觉艺术创作:无论是绘制漫画、构建故事板还是创造视觉艺术,AutoStudio都能助您一臂之力。个性化内容生成:用户可以根据自己的需求,通过连续的对话和指令,创作出一个分镜完整、情节丰富的漫画作品。AutoStudio模型架构
110
Farfalle

Farfalle

Farfalle简介 Farfalle.dev 是一个开源 ai 驱动的答案AI搜索引擎,定位为 Perplexity 的自托管替代品。它允许用户运行本地大型语言模型 (LLMs),例如 llama3、gemma、mistral 和 phi3,或通过 LiteLLM 使用自定义 LLMs。此外,它还支持 Groq/Llama3 和 OpenAI 的 GPT-4 和 GPT-3.5-turbo 2 4 等云模型。Farfalle主要特征:搜索提供商:Farfalle 与多个搜索提供商集成,包括 Tavily、Searxng、Serper 和 Bing 2。本地和云模型:用户可以使用本地模型(llama3、mistral、gemma、phi3)或云模型(OpenAI/gpt4-o、OpenAI/gpt3.5-turbo、Groq/Llama3)回答问题2。自定义LLMs:通过LiteLLM,Farfalle支持自定义LLMs,增强其灵活性2。技术堆栈:前端使用 Next.js 构建,后端使用 FastAPI 构建。它还使用 Redis 进行速率限制,使用 Logfire 进行日志记录 2。部署选项:Farfalle 可以使用 Docker 或在 Render 和 Vercel 2 4 等平台上部署。Farfalle入门:要在本地开始使用 Farfalle:先决条件:如果运行本地模型,请确保安装了 Docker 和 Ollama。API 密钥:获取 Tavily、Serper、OpenAI、Bing 和 Groq 等可选服务的 API 密钥。运行命令:dockerrun\-p8000:8000-p3000:3000-p8080:8080\--add-host=host.docker.internal:host-gateway\ghcr.io/rashadphz/farfalle:main访问 http://localhost:3000 访问应用程序 .Farfalle源代码可在 GitHub上获取。https://github.com/rashadphz/farfalle
40
ClotheDreamer

ClotheDreamer

ClotheDreamer简介 ClotheDreamer,一个虚拟试穿项目,可以从文本生成可穿戴3D服装,ClotheDreamer是上海大学、上海交通大学、复旦大学和腾讯优图实验室出的。ClotheDreamer功能特征:支持自定义服装模板,实现多样化、个性化3D服装生成生成的服装可以适应不同身材,并支持自动拟合ClotheDreamer,一种用于文本引导服装生成的新型系统,它使用 3D 高斯曲面 (3D GS) 对不同的服装几何形状进行建模。ClotheDreamer 允许用户从文本描述生成 3D 服装模型,从而实现更直观、更具表现力的服装设计。ClotheDreamer利用大型语言模型和 3D 高斯曲面的强大功能来生成详细、高质量的服装网格,以捕捉复杂的形状和褶皱。ClotheDreamer 这个工具允许你通过文字描述来创建衣服的3D模型。您无需使用复杂的 3D 建模软件自己设计衣服,只需输入描述,系统就会为您生成 3D 服装模型。ClotheDreamer 的关键创新是使用 3D 高斯曲面 (3D GS) 来表示服装的形状。高斯曲面是一种描述 3D 形状的数学方法,可以捕捉复杂的细节,如衣服上的褶皱和悬垂。通过将这种 3D 建模技术与强大的语言模型相结合,ClotheDreamer 可以将您的文本描述转换为高度逼真的 3D 服装模型。这使得设计衣服的过程更加直观和容易获得,因为您不需要专门的 3D 建模技能。您可以简单地描述您心目中的服装,ClotheDreamer 将以 3D 形式将其变为现实。这对于时装设计师、3D 艺术家或任何想要创建定制服装设计的人都很有用。ClotheDreamer技术说明ClotheDreamer 使用 GaussianDreamer: Fast Generation from Text to 3D 架构,根据文本描述生成 3D 服装模型。它利用预先训练的语言模型对输入文本进行编码,然后用于调节表示服装几何形状的 3D 高斯曲面的生成。ClotheDreamer在大型 3D 服装模型数据集及其相应的文本描述上进行训练。在推理过程中,使用语言模型对输入文本进行编码,此表示用于预测将形成最终服装网格的 3D 高斯曲面的参数。通过使用 3D 高斯曲面,ClotheDreamer 能够捕捉复杂的服装几何形状,包括褶皱、窗帘和其他复杂的细节。这使得系统能够生成高度逼真和多样化的服装模型,这些模型与输入的文本描述非常匹配。作者还提出了对基本 ClotheDreamer 模型的扩展,包括 LAGA:通过文本生成和自定义分层 3D 头像和着装代码:从文本生成服装的自回归缝纫,这进一步扩展了系统的服装生成和定制功能。ClotheDreamer局限性分析ClotheDreamer 系统代表了文本到 3D 生成领域的一个令人印象深刻的进步,展示了大型语言模型和 3D 高斯曲面在直观服装设计方面的潜力。将自然语言描述转换为高质量 3D 服装模型的能力可能会对时尚、3D 艺术和其他领域产生重大影响。然而,本文确实承认了当前方法的一些局限性。该系统在相对较小的 3D 服装模型数据集上进行训练,这可能会限制其推广到更多样化或非常规服装风格的能力。此外,3D 高斯曲面表示虽然可以有效地捕获复杂的几何图形,但可能并非适用于所有类型的服装特征,例如尖锐的折痕或高度不对称的形状。进一步的研究可以探索扩展数据集、改进 3D 表示以及增强系统处理更广泛的服装类型和款式的能力的方法。正如相关工作中所暗示的那样,将 ClotheDreamer 与其他 3D 建模工具或头像生成系统集成,也可以解锁该技术的新应用和用例。总的来说,ClotheDreamer代表了在寻求使3D服装设计更易于访问和直观方面迈出的令人兴奋的一步。随着文本到3D生成领域的不断发展,像 ClotheDreamer 这样的系统可能会成为设计师、艺术家和任何想要在数字领域将他们的服装创意变为现实的人越来越有价值的工具。
120
MimicMotion

MimicMotion

MimicMotion简介 腾讯和上交大出的,MimicMotion可以生成任意长度、具有任何动作指导的高质量视频生成框架,可以生成细节丰富、逼真的人类动作视频,可以生成任意长度的视频内容,可以对视频内容进行精确控制,包括动作、姿势和视频风格等。类似阿里的通义舞王,但效果看起来比阿里通义舞王好很多,MimicMotion支持面部特征和唇形同步,不止可以搞跳舞视频,也可以做数字人。近年来,生成式人工智能在图像生成领域取得了重大进展,催生了多种应用。然而,视频生成在可控性、视频长度、细节丰富度等各方面仍面临相当大的挑战,阻碍了该技术的应用和普及。在这项工作中,我们提出了一种可控视频生成框架,称为 MimicMotion,它可以在任何运动指导下生成任意长度的高质量视频。与以前的方法相比,我们的方法有几个亮点。首先,通过置信感知姿势指导,可以实现时间平滑性,从而可以通过大规模训练数据增强模型的连贯流畅。其次,基于姿态置信度的区域损失放大显着减轻了图像的失真,能够显著减少生成图像中的扭曲和变形。最后,为了生成流畅的长视频,提出了一种渐进式潜在融合策略。通过这种方式,能够在可接受的计算资源消耗下,实现任意长度视频的生成。通过大量的实验和用户研究,MimicMotion 在多个方面比阿里的通义舞王的方法有了明显的改进。MimicMotion代码:https://github.com/Tencent/MimicMotionMimicMotion ComfyUI版本:https://github.com/aiFSH/ComfyUI-MimicMotion
170