Ai开源项目

共 127 篇网址

Ai工具箱资源素材创作工具媒体运营行业圈子网址大全常用网站名站在线 AI图像处理设计工具创意文案业内资讯 H5参考运营工具配音工具排版工具 PPT模板热榜指数网址加工配色参考新媒体工具团队协同数据洞察营销大学效率工具音频素材图库素材 Ai内容检测 Ai工具 Ai语言翻译字体工具视频工具创意短片 CG资源内容分发工具创意设计 logo设计 Ai音频工具营销工具 Ai设计工具 Ai视频工具 seo工具 Ai办公工具创意工具数据图表投屏录屏求职招聘设计参考 Ai数字人媒体变现辅助插件 PPT工具 Ai对话聊天样机素材 Ai编程工具在线文档综合导航 GIF动图 Ai大模型开发者工具活动策划 3DVR全景直播工具视频下载器设计素材 Ai电商工具常用Ai工具热门工具 Ai提示词字幕资源解说文案变声工具 Ai论文工具文件传输网盘工具休闲娱乐 icon图标方案模板 Ai法律工具其它Ai工具音乐发行音频工具浏览器集锦 Ai教育学习下载工具远程控制 PDF处理表单工具设计规范办公商务电商运营工具小说文学漫画资源音频处理音频下载社群运营浏览器插件设计插件软件工具开源工具综合其他

Ai写作对话 Ai绘画生成 Ai视频生成 Ai语音工具 Ai图片处理 Ai搜索问答 Ai办公效率 Ai编程建站 Ai平台模型 Ai开源项目 Ai学习资源 GPTs应用 Ai提示指令

排序

发布更新浏览点赞随机

CustomNet

CustomNet简介 CustomNet旨在更好地将指定物品的图片融合到新生成的图片中，并确保原物品的样式和纹理细节得以还原。这项技术给商品图融合带来了一线生机。在文本到图像的生成过程中，将自定义对象纳入图像生成是一个极具吸引力的功能。然而，现有的基于优化和基于编码器的方法都存在一些缺陷，如优化耗时长、标识保存不足以及复制粘贴效应普遍存在等。为了克服这些局限性，我们引入了 CustomNet，这是一种新颖的对象定制方法，它将三维新颖视图合成功能明确纳入对象定制流程。这种整合有助于调整空间位置关系和视角，在有效保留对象特征的同时产生多样化的输出。此外，我们还引入了微妙的设计，通过文本描述或特定的用户自定义图像实现位置控制和灵活的背景控制，克服了现有三维新颖视图合成方法的局限性。我们还进一步利用数据集构建管道，更好地处理现实世界中的物体和复杂背景。有了这些设计，我们的方法无需进行测试时间优化就能实现零镜头对象定制，同时提供对位置、视点和背景的控制。因此，我们的自定义网络可确保增强的身份保护，并生成多样、和谐的输出。CustomNet 能够在一个统一的框架内同时控制视角、位置和背景，从而在有效保留物体特征和纹理细节的同时，实现和谐的定制图像生成。背景生成可以通过文本描述（"生成 "分支）或提供特定的用户自定义图像（"合成 "分支）来控制。

1920

Ai开源项目 # CustomNet

CodeFormer

CodeFormer简介 CodeFormer，超强的ai 视频去码、图片修复，人脸修复神器，它的功能包括人脸清晰化修复、人脸色彩化和人脸去马赛克，可以应用于各种场景。由南洋理工大学 S-Lab 开发。它通过网络架构实现了人脸的变换，包括色彩化、清晰化、去马赛克修复等功能。官方给出的测试对比图显示其修复效果非常出色。测试该工具非常简单，只需下载源码并安装 Pytorch 框架即可。通过命令行输入不同的参数，可以进行人脸清晰化修复、人脸色彩化和人脸去马赛克操作。然而，人脸去马赛克算法只支持白色遮挡，其他颜色则不支持，这可能是该工具的一个缺点。Github 4.8k Stars! | CodeFormer: 地表最强AI马赛克去除神器! (附实战教程) 相关资讯：如何使用CodeFormer修复老旧照片和去除马赛克？

300

Ai开源项目 # AI换脸 # CodeFormer

DiffusionGPT

DiffusionGPT简介 DiffusionGPT，字节跳动开发的由LLM驱动文本生成图像多合一系统，专门设计用于为不同的输入提示生成高质量的图像。其主要目标是解析输入提示并确定产生最优结果的生成模型，该模型具有高泛化、高效用和方便的特点。DiffusionGPT的牛P之处在于它集成了多种领域的专家图像生成模型。然后使用LLM来对接这些图像生成模型，让LLM来处理和理解各种文本提示。最后根据理解的信息选择最合适的图像模型来生成图像。这样就和GPT 4一样，通过聊天画图...DiffusionGPT主要特点：1、多样化文本提示处理：DiffusionGPT 能够理解和处理各种类型的文本提示，包括具体的指令、抽象的灵感、复杂的假设等。2、集成多个领域专家模型：系统集成了多种领域的图像扩散模型，每个模型在其特定领域具有专业的图像生成能力。这类模型专注于特定领域的图像生成，比如自然景观、人物肖像、艺术作品等。这意味着系统不仅能够生成普通的图像，还能够处理更特定、更复杂的图像生成任务，比如特定风格或类型的图像。模仿特定艺术家的风格、漫画风格或摄影技术。3、大语言模型驱动：DiffusionGPT 使用大语言模型（LLM）来解析和理解用户输入的文本提示。这个过程类似于其他基于 LLM 的系统（如 GPT-4）处理文本的方式，但特别应用于理解用于图像生成的指令和描述。4、智能选择合适的图像模型：基于对文本提示的理解，DiffusionGPT 能够智能地选择最合适的图像生成模型来生成图像。这不仅包括选择正确的模型，还涉及调整生成参数以最好地满足用户的需求。5、输出高质量图像：通过精准地匹配文本提示与最佳生成模型，DiffusionGPT 能生成高质量、与用户需求高度吻合的图像。6、用户反馈与优势数据库：结合用户反馈和优势数据库，系统能够根据用户偏好调整模型选择，提升图像生成的相关性和质量。例如：在系统的早期使用中，用户可能提供对生成图像的反馈，比如“这张图片的颜色太暗了”。DiffusionGPT 利用这些反馈来调整其模型选择，使得未来的图像生成更符合用户的偏好。DiffusionGPT主要工作原理：1、输入解析：用户提供文本提示，如描述、指令或灵感。大型语言模型（LLM）负责解析这些文本提示，理解其含义和需求。2、思维树（Tree-of-Thought）构建：根据不同的图像生成任务，系统构建了一个“思维树”，这是一种组织不同图像生成模型的结构。思维树基于先验知识和人类反馈，涵盖了多种领域的专家级模型。3、模型选择：根据 LLM 解析的结果，系统通过思维树来确定最适合当前文本提示的图像生成模型。在选择过程中，可能还会考虑用户的偏好和历史反馈，这些信息存储在优势数据库中。4、图像生成：一旦选定了合适的模型，该模型就会被用来生成图像。生成的图像将与输入的文本提示紧密相关，并反映出用户的意图和偏好。5、结果输出：最终生成的图像会呈现给用户。这些图像可以是多样化的，包括但不限于具体描述的场景、概念艺术作品或符合特定风格的图像。6、用户反馈优化过程：用户对生成图像的反馈被用来丰富优势数据库，进而帮助系统更好地理解用户偏好，优化后续的模型选择和图像生成。DiffusionGPT 在生成人类和场景等类别的图像时展现了高度的真实性和细节。与基准模型（如 SD1.5）相比，DiffusionGPT 生成的图像在视觉保真度、捕捉细节方面有明显提升。DiffusionGPT 在图像奖励和美学评分方面的表现优于传统的稳定扩散模型。在进行图像生成质量的量化评估时，DiffusionGPT 展示了较高的评分，说明其生成的图像在质量和美学上更受青睐。

280

Ai开源项目 # Diffusion # DiffusionGPT # GPT

MedisGo

MedisGo简介 MedisGo，一款视频在线提取工具，视频解析下载工具，支持流媒体下载、视频下载、 m3u8下载、B站视频下载。MedisGo特点MedisGo支持m3u8视频在线提取工具流媒体下载m3u8下载。无需抓包：使用软件自带浏览器可以轻松嗅探网页中的视频资源，通过嗅探到的资源列表选择自己想要下载的资源，简单快速。移动播放：可以轻松无缝的在 PC 和移动设备之前切换，下载完成后即可使用手机观看视频。批量下载：支持同时下载多个视频和直播资源，高速带宽不闲置。MedisGo使用方法第1步：在软件的【素材提取】选项中输入网址第2步：随后在下载列表选项就可看到下载链接，如果没有，可以在素材提取中按一下刷新按钮。MedisGo基础设置选择文件夹：视频下载的路径下载器主题：支持浅色和深色模式在新窗口中打开浏览器：开启了之后浏览器页面会独立出一个窗口。下载完成提示：开启之后下载完成会出现系统提示MedisGo项目在Github已经获得1.6K的stars和201K的下载量，是一款十分火爆的视频解析下载工具。运行MedisGo代码需要 node 和 pnpm，node 需要在官网下载安装，pnpm 可以通过npm i -g pnpm安装。

250

Ai开源项目 # MedisGo # 视频下载

DragGAN

DragGAN简介近日，来自 Google 的研究人员与 Max Planck 信息学研究所和麻省理工学院 CSaiL 一起，发布了一个名为 DragGAN 的图像编辑工具。这是一个非常直观的图像编辑工具，用户只需要控制图像中的像素点和方向，就可以让图像变形。通过DragGAN，任何人都可以通过精确控制像素的位置来变形图像，从而操纵不同类别的姿势、形状、表情和布局。DragGANHugging Face地址:https://huggingface.co/papers/2305.10973DragGAN官方示例网址:https://vcai.mpi-inf.mpg.de/projects/DragGAN/DragGANgithub网址:https://github.com/XingangPan/DragGAN DragGAN在producthunt网址：https://www.producthunt.com/posts/draggan

240

Ai开源项目 # AI作画 # ai换脸软件 # ai换脸软件ai画头像AI作画ai绘画

Kolors Virtual Try-On

Kolors Virtual Try-On简介 Kolors Virtual Try-On是一个由快手可图团队开发的ai试衣技术，通过可图AI试衣，用户上传自已的照片，就可以在几秒钟内看到自己穿上不同衣服的效果。可图AI试衣在可图基座模型基础上，引入衣服SKU保持网络，实现服饰细节特征的提取与表征。目的在于让用户可以即时看到服装在自己身上的效果，轻松搭配出不同风格，使买家能够更高效地做出购买决策，同时降低卖家的退货成本。Kolors Virtual Try-On可图AI试衣技术特点：保持衣服款式细节：支持多种衣服类型款式，包括上装、长裙等，同时保留衣服图案、文字花纹等细节，实现商品SKU服饰同款保持效果。自然的人物试穿效果：可图AI试衣能生成贴合人物的自然试穿效果，就像本人穿衣服拍照一样，支持室内人物、室外街拍多种场景，实现从平铺衣服到穿衣上身，生成效果符合物理客观规律。全流程素材生成能力：可图大模型支持跨越不同年龄、性别、种族人物模特及背景生成，支持海内外电商模特素材生成需求，以及从模特素材图到模特短视频的全流程生成。Kolors Virtual Try-On可图AI试衣应用场景：买家试衣：帮助买家在购买前看到衣服的实际效果，提高购买决策的效率。电商素材生成：为卖家提供快速更新服饰图片、短视频等电商素材的能力，缩短新品上架迭代更新时间。变装特效：在短视频内容创作中，提供“变装”特效，创作出有趣、有用的日常穿搭内容分享。Kolors Virtual Try-On可图AI试衣技术原理：Kolors Virtual Try-On技术通过引入衣服SKU保持网络，实现服饰细节特征的提取与表征。同时，利用人物pose姿势、Mask掩码图像作为条件特征，实现人物姿势保持的换衣效果。此外，还复用了可图背景修复技术，采用高质量人物衣服pair对大数据训练，提升试穿效果。Kolors Virtual Try-On可图AI试衣的主要目标是帮助用户尝试不同的服装风格，而无需实体购物的麻烦。目的是通过减少与尺寸和颜色不匹配相关的问题来增强在线购物体验。Kolors Virtual Try-On可图AI试衣体验方式：可图AI试衣免费体验：https://huggingface.co/spaces/Kwai-Kolors/Kolors-Virtual-Try-OnGithub可图开源项目：https://github.com/Kwai-Kolors/KolorsHuggingFace可图模型：https://huggingface.co/Kwai-Kolors/Kolors可灵AI平台：https://klingai.kuaishou.com/text-to-image/new

240

Ai开源项目 # AI试衣 # KolorsVirtualTry-On # 可图AI试衣

ChatTTS-Forge

ChatTTS-Forge简介 ChatTTS-Forge是一个围绕 TTS生成模型开发的项目，为用户提供灵活的TTS生成能力，支持多种音色、风格控制、长文本推理等功能，ChatTTS-Forge提供了各种API（应用程序编程接口），开发人员可以直接使用这些API轻松将文本转换为语音。ChatTTS-Forge 是一个围绕 TTS（文本转语音）生成模型开发的项目。为用户提供灵活的TTS生成能力，支持多种音色、风格控制、长文本推理等功能。ChatTTS-Forge提供了各种API（应用程序编程接口），开发人员可以直接使用这些API轻松将文本转换为语音。此外，它还提供了易于使用的网页界面（WebUI），允许用户直接在网页上输入文本并生成语音，无需编程。ChatTTS-Forge的主要特点：TTS生成：支持多种TTS模型推理，包括ChatTTS、CosyVoice、FishSpeech、GPT-SoVITS等，用户可以自由选择和切换语音。音调管理：内置多种音调，并且可以上传自定义音调。用户可以通过上传音频或文本来创建和使用自定义铃声。风格控制：提供多种风格控制选项，包括调整语音速度、音调、音量，以及添加语音增强（Enhancer）以提高输出质量。长文本处理：支持超长文本自动切分和推理，可以处理生成长文本音频内容。SSML支持：使用类似XML的SSML语法进行高级TTS合成控制，适合更详细的语音生成场景。ASR（自动语音识别）：集成Whisper模型，支持语音转文本功能。ChatTTS-Forge的技术和方法：API服务器：用Python编写的API服务器提供高效的TTS服务，支持多个并发请求和自定义配置。WebUI ：基于Gradio的用户界面，用户可以通过简单的操作界面体验TTS功能。Docker 支持：提供 Docker 容器化部署选项，以简化本地和服务器上的部署过程。ChatTTS-Forge WebUI 的特点:TTS（文本到语音）：通过WebUI，用户可以使用各种不同的TTS模型输入文本并生成语音。音调切换：支持多种预设音调切换，用户可以选择不同的声音来生成语音。自定义语音上传：用户可以上传自己的语音文件，实时生成个性化语音。风格控制：您可以调整语音的风格，包括语速、音高、音量等参数，以生成满足特定需求的语音。长文本处理：支持处理很长的文本，自动将长文本分割成小段并按顺序生成语音，适合生成长音频内容。批量处理：用户可以设置批量大小，以提高长文本的推理速度。精炼器：这个工具允许您微调文本以优化生成的语音，对于处理无限长度的文本特别有用。语音增强：集成增强模型以提高生成语音的质量并使其听起来更自然。生成历史：保存最近的3次生成结果，方便用户比较不同设置下的语音效果。多模型支持：WebUI支持多种TTS模型，包括ChatTTS、CosyVoice、FishSpeech、GPT-SoVITS等，用户可以根据自己的需求选择合适的模型。SSML支持：使用类似XML的SSML语法来控制语音合成过程，适合需要更复杂控制的场景。播客工具：帮助用户从博客脚本创建长格式、多字符的音频内容。字幕生成：从字幕文件创建 SSML 脚本以生成各种语音内容。GitHub：https://github.com/lenML/ChatTTS-Forge在线体验：https://huggingface.co/spaces/lenML/ChatTTS-Forge

240

Ai开源项目 # ChatTTS # ChatTTS-Forge # TTS

AIdea

AIdea简介 aidea是一款开源的AI聚合工具，它将主流的大语言模型和绘图模型集成到一个APP中，为用户提供了丰富的AI应用体验。AIdea 不仅支持GPT 以及国产大语言模型通义千问、文心一言等，支持 Stable Diffusion 文生图、图生图、 SDXL1.0、超分辨率、图片上色的全能型 APP，满足不同用户的需求。AIdea 的代码完全开源，客户端使用 Flutter 开发，支持 Android、iOS、桌面和 Web 多端部署使用。用户可以通过 APP 或不同平台的客户端，体验 AIdea 的全部功能。AIdea集成了主流大语言模型以及绘图模型的 APP，采用 Flutter 开发，代码完全开源，支持以下功能：支持 GPT-3.5/4 问答聊天;支持国产模型：通义千问，文心一言;支持文生图、图生图、超分辨率、黑白图片上色等功能，集成 Stable Diffusion 模型，支持 SDXL 1.0.AIdea开源代码：客户端：https://github.com/mylxsw/aidea服务端：https://github.com/mylxsw/aidea-server

230

Ai开源项目 # AIdea # ai工具集

DeepFaceLive

DeepFaceLive简介 DeepFaceLive 是一款免费开源的实时直播视频ai换脸工具软件，它使用深度学习算法创建逼真的换脸视频。它是一种深度伪造技术，可以将一个人的脸部超级放置在另一个人的身体上的视频中。从而实现非常逼真的面部合成效果。由于其高度逼真的效果，DeepFaceLive 在影视、游戏、虚拟现实等领域具有广泛的应用前景。使用 DeepFaceLive 非常简单，只需要准备好两个人的面部照片，然后使用 DeepFaceLive 的软件进行面部合成即可。在合成过程中DeepFaceLive 会利用深度学习算法来分析面部表情和动作，并将其合成到目标脸部上，从而实现高度逼真的效果除了在影视、游戏、虚拟现实等领域应用外，DeepFaceLive 还可以用于医学领域，比如用于仿真手术和医学教育等方面。此外DeepFaceLive 还可以用于人脸识别技术的研究和开发，从而提高人脸识别技术的准确性和鲁棒性。虽然DeepFaceLive可以用于无害的娱乐，但也引发了人们对其潜在滥用的担忧，例如传播虚假信息或制作虚假色情作品。重要的是要意识到与深度伪造技术相关的潜在风险，并负责任地使用它。DeepFaceLive Github项目地址：https://github.com/iperov/DeepFaceLiveDeepFaceLive中文交流论坛：https://dfldata.cc/DeepFaceLive下载地址：https://mega.nz/folder/m10iELBK#Y0H6BflF9C4k_clYofC7yADeepFaceLive 系统要求：任何支持 DirectX12 的显卡（推荐 RTX 2070+ / Radeon RX 5700 XT+ ）现代的支持 AVX 指令的 CPU4GB RAM，32GB+ 交换文件Windows 10

230

Ai开源项目 # AI换脸 # deepfacelive # FaceL

SoraWebui

SoraWebui简介 SoraWebui 是一个开源 Web 平台，使用户能够使用 Openai 的 Sora 模型从文本生成视频。SoraWebui简化了视频创建过程，支持在Vercel上进行一键部署，让开发者能够方便地进行使用和测试。使用 SoraWebui，任何人都可以通过简单地输入文本来创建视频，使其成为视频制作和 AI 技术专业人士和爱好者的可访问工具。如何使用 SoraWebui?1、对于普通用户：要使用 SoraWebui，只需访问网站并按照提供的说明进行操作。您通常会找到一个用户友好的界面，您可以在其中输入要创建的视频的文本描述。提交您的描述后，SoraWebui 将使用 OpenAI Sora 模型为您生成视频。视频准备好后，您可以直接在网站上观看并下载供您使用或分享。2、对于网站所有者或开发人员：作为网站所有者或开发人员，您可以按照项目文档中提供的部署说明在自己的平台上部署 SoraWebui。部署后，您可以自定义界面以匹配您网站的品牌，并将其无缝集成到您现有的平台中。您可能还想探索 SoraWebui 提供的其他特性和功能，例如用于自动视频生成的 API 集成或用于控制对服务访问的用户管理工具。总体而言，SoraWebui 提供了一个强大的工具，用于增强您网站的功能并为用户提供独特的视频创作体验。据悉，尽管目前尚无Sora API可用，但开源项目SoraWebui已通过模拟DALL-E3的API接口字段实现。这使得开发者能够提前深入探索该项目，掌握其实现机制和功能亮点，大家如果自己要开发，也可以先基于 FakeSoraAPI ，把整个业务流程走通，等到 Sora 官方 API 上线之后就可以第一时间做一些小改动，就能够让自己的产品可以使用，为Sora未来上线做好充分的开发准备。

230

Ai开源项目 # OpenAISora # SoraWebui

MotionAgent一站式视频生成工具

MotionAgent一站式视频生成工具简介 MotionAgent是一个能将用户创造的剧本生成视频的深度学习模型工具。用户通过我们提供的工具组合，进行剧本创作、剧照生成、图片/视频生成、背景音乐谱写等工作。其中，通义千问 -7B 模型可以帮助生成高质量的剧本内容，文本生成图片模型可以生成剧照，而核心模型 I2VGen-XL 可以将剧照转化为视频，最后音乐生成模型可以生成想要的音乐。通过 MotionAgent，用户可以将自己的创意轻松变成现实。MotionAgent功能特性1、剧本生成（Script Generation）用户指定故事主题和背景，即可生成剧本，剧本生成模型基于LLM（如Qwen-7B-Chat），MotionAgent可生成多种风格的剧本2、剧照生成（Movie still Generation）通过输入一幕剧本，MotionAgent即可生成对应的剧照场景图片3、视频生成（Video Generation）图生视频，支持高分辨率视频生成4、音乐生成（Music Generation）MotionAgent可自定义风格的背景音乐

220

Ai开源项目 # ai开源 # ai系统 # MotionAgent

Wiseflow

Wiseflow简介 Wiseflow，一款敏捷的信息挖掘开源免费工具，它可以从网站、微信公众号、社交平台等各种信息源中按设定的关注点提炼讯息，自动做标签归类并上传数据库，你可以轻松将它整合到任意 Agent 项目中作为动态知识库。项目可完全本地部署，硬件基本无要求。Wiseflow功能特色原生 LLM 应用：我们精心选择了最适合的 7B~9B 开源模型，最大化降低使用成本，且利于数据敏感用户随时完全切换至本地部署。轻量化设计：不用任何向量模型，系统开销很小，无需 GPU，适合任何硬件环境。智能信息提取和分类：从各种信息源中自动提取信息，并根据用户关注点进行标签化和分类管理。WiseFlow尤其擅长从微信公众号文章中提取信息：为此我们配置了mp article专属解析器！可以被整合至任意Agent项目：可以作为任意 Agent 项目的动态知识库，无需了解wiseflow的代码，只需要与数据库进行读取操作即可！流行的 Pocketbase 数据库：数据库和界面使用 PocketBase，除了 Web 界面外，目前已有 Go/Javascript/Python 等语言的SDK。我们缺的其实不是信息，我们需要的是从海量信息中过滤噪音，从而让有价值的信息显露出来！看看Wiseflow是如何帮您节省时间，过滤无关信息，并整理关注要点的吧！

210

Ai开源项目 # Flow # Wise # Wiseflow

PDF-Guru

PDF-Guru简介 PDF Guru是一个通用型PDF文件处理工具，包含PDF合并、拆分、旋转、水印、加密、转换等20多项常用功能，完全开源，个人免费使用，界面简洁，简单易用。虽然目前网上关于PDF处理的工具有很多，但是都有一些缺点：专业的PDF编辑软件对于高级一点的功能（添加水印、页面编辑等）需要收费或限制功能在线PDF工具类网站需要上传PDF到服务器处理再下载，有泄露隐私风险各大编程语言的PDF处理库虽然可以免费实现一些高级功能，但是需要一定的编程经验，使用没有图形界面程序方便部分小众工具虽然可以满足部分特殊需求，但是功能较为单一由于PDF处理是一个很常见的需求，为了绕开上述这些限制，提高工作效率，诞生了此项目。PDF Guru优势：完全本地化：无需联网，不必担心隐私泄露功能丰富：支持包括PDF批量合并、拆分、添加水印、加密/解密、提取、OCR识别在内的20余项功能跨平台：支持在Windows、Mac、Linux设备上使用开源免费界面美观简洁，使用简单插件化：根据需要选择是否安装额外组件，减小安装包体积PDF Guru具体功能：PDF插入/替换插入：支持插入空白页和插入其他文件两种选项。替换：用目标PDF的指定页码范围来替换源PDF中指定的页码范围(此处的页码范围只支持1或1-3两种方式)PDF合并将多个PDF文件合并为一个整体PDF文件，支持自定义排序方式。PDF拆分将大的PDF文件拆分为若干个小的文件，支持多种拆分方式，如均匀分块、自定义范围、按目录级别拆分等。PDF旋转将PDF指定页面范围进行旋转。PDF删除删除PDF中的指定页面。PDF重排对PDF的页面顺序进行重排列。PDF裁剪对PDF页面进行裁剪。PDF缩放对PDF页面进行缩放。PDF分割将PDF页面拆分成若干个子页面，支持网格均匀分割和自定义分割方式。PDF组合将多个PDF页面合并为单个页面。页眉页脚设置PDF的页眉页脚。页码设置为PDF文件添加页码，内置了多种页码样式，也支持自定义页码样式。文档背景为PDF文档设置背景，支持使用颜色和图片作为背景。PDF水印为PDF文档添加水印，也提供了多种方式去除PDF文档水印(仅为提升阅读体验使用，切勿滥用侵权)添加水印：支持文本、图片、PDF文档三种形式的水印添加，其中文本水印支持字体、字号、颜色、不透明度等多种属性控制，支持设置多行水印等。去除水印：支持多种水印去除方式，可根据实际情况选择合适的方式(不保证绝对有效)。视频教程: https://www.bilibili.com/video/BV1Qz4y1E7vq/PDF加密/解密给PDF文档设置密码，包括打开密码和权限密码。也支持对PDF文档进行解密并恢复权限。PDF书签支持提取PDF书签、写入PDF书签，甚至使用ocr技术自动识别PDF书签(需要额外安装paddleocr环境)视频教程：https://www.bilibili.com/video/BV1Wx4y1o7P6/PDF提取提取PDF文档中的页面、文本、图片等PDF压缩对PDF文档进行压缩减小体积。PDF转换提供PDF与其他格式之间的转换。部分转换需要pandoc(需要额外安装)的支持。OCR识别对PDF页面进行OCR识别，也支持对图片的OCR识别。双层PDF制作相关资讯： 10款优秀的人工智能解析阅读PDF工具推荐

210

Ai开源项目 # PDF # PDF-Guru

XHS-Downloader

XHS-Downloader简介 XHS-Downloader，小红书链接提取/作品采集工具：提取账号发布、收藏、点赞作品链接；提取搜索结果作品链接、用户链接；采集小红书作品信息；提取小红书作品下载地址；下载小红书无水印作品文件！XHS-Downloader程序功能：采集小红书作品信息提取小红书作品下载地址下载小红书无水印作品文件自动跳过已下载的作品文件作品文件完整性处理机制自定义图文作品文件下载格式持久化储存作品信息至文件作品文件储存至单独文件夹后台监听剪贴板下载作品记录已下载作品 ID支持命令行下载作品文件从浏览器读取 Cookie自定义文件名称格式支持 API 调用功能XHS-Downloader脚本功能：下载小红书无水印作品文件提取发现页面作品链接提取账号发布作品链接提取账号收藏作品链接提取账号点赞作品链接提取搜索结果作品链接提取搜索结果用户链接XHS-Downloader使用方法：如果仅需下载无水印作品文件，建议选择程序运行；如果有其他需求，建议选择源码运行！建议自行设置 cookie 参数，若不设置该参数，程序功能可能无法正常使用！

200

Ai开源项目 # XHS-Downloader # 小红书

PDFMathTranslate

PDFMathTranslate简介 PDFMathTranslate 是一款开源的只要为翻译科技论文等PDF文件而设计的PDF文档翻译工具。它能够完整保留原文的排版，包括公式和图表，支持双语对照并保持原有目录结构。PDFMathTranslate支持多种翻译服务，如Google、DeepL、Ollama和Openai。PDFMathTranslate主要功能：保留原排版：PDFMathTranslate能够完整保留PDF文档中的公式、图表和目录结构，确保翻译后的文档与原文版式一致。双语对照：支持生成双语对照文档，方便用户对照原文和译文。兼容多种翻译服务：支持Google、DeepL、Ollama和OpenAI等翻译引擎，用户可根据自已的偏好来选择。命令行操作：通过简单的命令行指令，就能实现文档的快速翻译处理。部分文档翻译：支持用户选择特定页面或章节进行翻译，灵活性很高。多线程翻译：利用MathTranslate等工具进行多线程翻译，从而提高翻译效率。PDFMathTranslate的安装步骤：安装Python和pip：确保您的计算机上已安装Python 3和pip。如果尚未安装，可以从Python官方网站下载并安装。升级MathTranslate：打开命令行工具，运行以下命令以安装或升级MathTranslate：pip install --upgrade mathtranslate准备或生成TeX文件：您可以使用任何文本编辑器创建一个TeX文件，或者从其他项目中获取现有的TeX文件。使用MathTranslate进行翻译：在命令行中，您可以使用MathTranslate命令来翻译您的TeX文件。具体的命令格式和选项可以参考MathTranslate的文档。用户群体：学者、研究人员、学生以及任何需要阅读和理解非母语科技文献的用户。包含数学公式、图表和精细排版的文件（需要精确翻译数学和科学内容）。PDFMathTranslate 作为一款专为科技论文和含有复杂格式文档设计的开源翻译工具。解决了学术和专业领域中PDF文档翻译的痛点，特别是那些包含数学公式、图表和精细排版的文件。

200

Ai开源项目 # Math # PDF # PDFMathTranslate

Perplexica

Perplexica简介 Perplexica是一个开源的ai驱动搜索引擎，它提供了多种搜索模式，为用户提供更精准、更智能的搜索体验。这个搜索引擎受到Perplexity AI的启发，能够根据用户的需求调整搜索算法，以获得更相关的搜索结果。同时，Perplexica使用了先进的机器学习算法来优化其搜索功能。Perplexica支持本地部署的大型语言模型，如Llama3和Mixtral，并提供多种搜索模式，包括Copilot模式、普通模式和焦点模式，后者针对特定类型的问题提供精确答案。同时，Perplexica使用SearxNG作为元搜索引擎，确保获取最新信息，并支持图像和视频搜索。未来计划包括引入更多焦点模式、完善Copilot模式等。Perplexica功能特征：使用本地大型语言模型（LLMs）如Llama3和Mixtral。两种主要模式：Copilot模式（开发中）和普通模式。六种专注模式，包括全模式、写作助手模式、学术搜索模式、YouTube搜索模式、Wolfram Alpha搜索模式和Reddit搜索模式，根据用户需求调整搜索算法，以获得更相关的搜索结果。始终使用SearxNG获取最新信息，无需每日数据更新。支持图像和视频搜索。使用先进的机器学习算法，如相似性搜索和嵌入技术，来精细化搜索结果。确保隐私保护，使用SearxNG作为当前性保障，避免每日数据更新的开销。计划中的功能包括完成Copilot模式、添加设置页面、支持本地LLMs、添加发现和历史保存功能、引入各种专注模式。Perplexica利用先进的机器学习算法优化搜索结果，并注重隐私保护。这个开源项目致力于成为全面、高效的搜索解决方案，满足用户对各种类型信息的需求，同时保护用户隐私并提供最新的搜索结果。

190

Ai开源项目 # AI搜索 # Perplexica

AI Anime Generator

AI Anime Generator简介 ai Anime Generator，AI二次元动漫图片生成器，利用 AI Anime Generator，你可以通过简单的界面和高效工具轻松进行动漫创作。AI Anime Generator适合所有年龄段的用户，无论你是孩子还是成人，设计都使你能够快速生成高质量的动漫图像。AI Anime Generator支持快速角色设计、场景创建和视觉制作，确保即使是初学者也能迅速入门并享受创作过程。AI Anime Generator功能特征：AI技术轻松创作有了人工智能漫画生成器，创作动画变得前所未有的简单。这一革命性的工具利用先进的人工智能来消除对传统绘图技能的需求。用户只需输入角色描述、情节想法和设置，然后观看人工智能将这些概念转化为充满活力的动漫场景。无论您是经验丰富的动画师还是讲故事的新手，AI Anime Generator 都能帮助每个人在动漫世界中将想象力变为现实。多样的艺术风格：AI Anime Generator 提供多种艺术风格，以满足每个创作者的愿景。从日本漫画的清晰线条和夸张特征，到卡通动画色彩缤纷、富有表现力的色调，AI Anime Generator确保每个故事都能找到完美的视觉表达。创作者可以在风格之间无缝切换或混合元素，以创造独特的美感，增强他们的叙事并吸引观众。正确的风格：选择正确的艺术风格对于动漫创作至关重要。日本漫画风格的特点是情感丰富的人物和动态的动作序列，非常适合充满冒险和情感的故事。相比之下，卡通动画风格强调幽默和奇思妙想，非常适合轻松愉快的叙事。 AI 漫画生成器的多功能性使创作者能够尝试不同的风格，直到找到最能与故事主题和人物产生共鸣的风格。灵活的布局：动画中有效的故事讲述不仅仅依赖于视觉风格；还依赖于视觉风格。它还取决于深思熟虑的布局和面板排列。 AI Anime Generator 提供一系列灵活的布局选项，允许创作者尝试面板尺寸、构图和节奏。无论是制作激烈的动作序列还是亲密的角色互动，创作者都可以利用这些工具来增强漫画的叙事流程和情感影响。打造叙事结构：操纵面板布局的能力对于在动画中制作引人入胜的叙事结构至关重要。例如，使用较大的面板进行戏剧性的展示或使用分开的面板进行同时动作可以增强紧张感和参与度。 AI Anime Generator 使创作者能够快速迭代这些布局，对其进行完善，直到它们完美地配合故事的节奏并增强观众对叙事世界的沉浸感。通过细节增强叙事深度：在动画中，讲故事不仅限于视觉效果，还包括引人入胜的对话和描述性文本，以丰富观众的体验。 AI Anime Generator 允许创作者通过描述性字幕和对话框将迷人的细节无缝集成到他们的场景中。这些元素不仅提供了背景和情感深度，还推动了情节的发展，确保每一帧都对整个故事情节做出有意义的贡献。通过对话增加情感深度：对话是动漫讲故事的有力工具，可以传达角色个性、关系和冲突。 AI Anime Generator 支持创作者制作能够引起观众共鸣的真实对话，从真诚的对话到诙谐的玩笑。通过微调对话的表达和语气，创作者可以唤起所需的情感反应，并丰富观众与角色及其旅程的联系。持续细化和优化：创意是一个迭代的过程，AI动漫生成器有助于漫画场景的不断细化和优化。创作者可以轻松生成场景的多个版本，尝试不同的构图并调整细节，直到达到所需的视觉和叙事效果。该平台直观的编辑工具使创作者能够发展他们的想法并将他们的动漫创作打磨至完美。迭代更新：AI Anime Generator 的迭代方法允许创作者根据反馈和创意见解完善他们的动漫场景。无论是调整角色设计、调整灯光和阴影，还是修改面板布局，创作者都可以灵活地进行迭代，直到每个元素都符合他们的艺术愿景。这种迭代的细化过程确保每个动漫场景不断发展和改进，最终提供精美且有凝聚力的视觉叙事。如何使用AiAnimeGenerator？选择动漫风格：从一系列动漫风格中进行选择来定义动漫作品的视觉美感。选项可能包括传统漫画、赤壁漫画、现实漫画等。选择动漫场景模板：从预先设计的场景模板中进行选择，这些模板可以设置动漫场景的构图和氛围。这些模板提供了一个结构化框架来组织您的叙述和视觉效果。输入故事情节：输入您的动漫故事情节，包括对话、描述和叙事元素。人工智能将使用此文本输入来生成相应的动漫场景和艺术作品。点击“生成”：AI分析您输入的故事情节并自动生成动漫场景和艺术作品。几分钟之内，就会生成您的动画故事，不需手动绘图或动画技能。AiAnimeGenerator常见问题通过我们详细的常见问题解答，了解 AI动漫生成器的完整功能，它引导您轻松创建、定制和增强您的动漫叙事。1、即使我不会画画，也可以使用 AI Anime Generator 创作动漫吗？是的，绝对是！ AI动漫生成器专为绘画技能有限的用户而设计。您可以通过描述角色、故事情节和设置来创建动漫场景。不需要任何艺术能力。2、AI Anime Generator提供哪些动漫艺术风格？AI Anime Generator提供多种动漫艺术风格，包括传统动漫、赤壁、写实漫画等。您可以选择最适合您的叙述和偏好的风格。3、我可以自定义动漫场景的布局和构图吗？是的，你可以。AI Anime Generator提供了自定义动漫场景布局和排列的选项。您可以尝试不同的构图，以增强动画的讲故事效果。4、是否可以在我的动画场景中包含对话和字幕？AI Anime Generator允许您将对话、字幕和描述性文本输入到动漫场景中。5、如果我想在生成动画场景后对其进行细化或调整该怎么办？AI Anime Generator可以灵活地完善和优化您的动漫场景。您可以轻松更新和调整元素，以更好地符合您的创意愿景。6、AI Anime Generator适合经验丰富的创作者和初学者吗？是的，AI Anime Generator可以满足广泛的用户需求。经验丰富的创作者可以简化他们的工作流程并探索新的想法，而初学者可以在不需要高级艺术技能的情况下深入动漫创作。7、我可以分享或发布我用AI Anime Generator创建的动漫场景吗？AI Anime Generator允许您分享和发布您的动漫场景。您可以在线展示您的创作，与朋友分享，甚至在社交媒体平台上发布。8、AI Anime Generator如何工作？AI Anime Generator 使用先进的算法来分析文本输入，例如角色描述、对话和设置。然后它根据这些输入生成相应的动漫场景和艺术作品。9、AI Anime Generator需要特殊软件或下载吗？不需要，AI Anime Generator 通常通过浏览器访问。用户不需要下载软件。

190

Ai开源项目 # AIAnimeGenerator # Anime # 动漫

Notebook Copilot

Notebook Copilot简介有了 Notebook CoPilot，开发笔记本的过程变得更加容易。这个简单的工具可以毫不费力地根据您的输入生成代码和 Markdown 单元格，从而显着简化您的工作流程。与语法错误作斗争或花费数小时搜索正确代码片段的日子已经一去不复返了。Notebook CoPilot 智能地分析您的需求，并提供快速的建议和解决方案，因此您可以专注于工作的核心方面。Notebook Copilot 是生产力和效率的缩影。它了解您的意图并提供准确和精确的支持，确保您的笔记本电脑具有最高的专业水准。从自动代码生成到与 Markdown 单元的无缝集成，Notebook CoPilot 简化了复杂性，使您能够轻松交付高质量的工作。将 Notebook Co-Pilot 视为您在 Jupyter 笔记本世界中值得信赖的副驾驶。它引导您了解这个强大环境的复杂性，增强您的编码体验并提高您的工作效率。让 Notebook Copilot 成为您的 ai 伴侣，让您踏上创建非凡笔记本的旅程，展示您的专业知识和创造力。Notebook Copilot优点：Notebook CoPilot 使用高级 GPT 示例进行准确高效的代码生成。在 Jupyter Notebook 和其他流行平台中无缝访问，提高您的工作效率。了解笔记本的完整上下文，确保生成一致且相关的代码。灵活地使用您自己的 OpenAI 密钥来生成个性化代码并获得最佳结果。每个人都可以从 Notebook CoPilot 中受益。这是我们对编码社区的贡献，旨在使编码变得可访问、高效和有趣。Notebook Copilot缺点：虽然 Notebook Copilot 提供了强大的支持，但掌握其功能仍然需要一个学习过程。Notebook CoPilot 自动生成代码和 Markdown 单元格的能力可能是一把双刃剑。虽然 Notebook CoPilot 专为 Jupyter Notebook 设计，但它在与某些 Notebook 版本或扩展的兼容性方面可能存在限制。虽然 Notebook Copilot 提供智能建议和自动化，但它可能与用户的个人编码风格或偏好不完全一致。

180

Ai开源项目 # copilot # NotebookCopilot

VideoDoodles

VideoDoodles简介 VideoDoodles是一款能在视频中轻松任意插入手绘动画并与视频内容无缝融合的ai工具，它将视频内容与手绘动画相结合，制作出独特的视频剪辑。通过VideoDoodles你可以在视频中添加手绘涂擦动画，比如你可以画个搞笑的小人或者别的手绘元素插入到视频中，让视频更吸引人。这些动画不仅能跟随视频中的物体移动，还能自动调整大小和角度。VideoDoodles主要挑战在于确保手绘动画能完美集成到捕获的场景中，当它们相对于相机和场景中的其他对象移动时进行适当的跟踪、透视变形和遮挡。VideoDoodles引入了一种新颖的 UI 和跟踪算法，以解锁通过深度和运动数据（通过现有计算机视觉方法获得）增强的视频的新版本功能。根据通过任意数量的位置和方向关键帧表达的用户意图，VideoDoodles的算法可以通过正确的遮挡、透视变换在视频的任何帧渲染场景感知画布，并使画布跟随移动对象。使得插入的绘画能够自然地融入视频场景，实现追踪、透视变形和遮挡等复杂视觉效果。VideoDoodles 的主要功能：场景感知画布：VideoDoodles让用户可以将平面画布放置在从视频重建的 3D 场景中。这些画布以 3D 方式进行跟踪，然后手绘动画在相对于相机和场景中的其他对象移动时保持正确的透视和遮挡。自定义跟踪算法：VideoDoodles可将画布锚定到视频中的静态或动态对象。这确保画布移动和旋转以跟随这些对象的位置和方向，使动画显示为捕获场景的一部分。用户界面易用：VideoDoodles提供 2D 图像空间 UI，用户可以通过关键帧控制画布的位置和方向。系统通过跟踪视频1中移动对象的运动来插入这些关键帧。深度和运动数据集成：VideoDoodles 利用通过现有计算机视觉方法获得的深度和运动数据来增强动画的真实感。这种集成允许通过正确的遮挡和透视变换准确渲染场景感知画布。VideoDoodles 的应用：娱乐：通过添加与现实世界镜头交互的动画元素来创建有视觉吸引力的视频内容。教育：通过说明性动画增强教育视频，有助于更有效地解释复杂的概念。增强讲故事能力：VideoDoodles 可用于在真人镜头中添加异想天开或说明性元素，从而增强叙事和视觉吸引力。创意广告：品牌可以使用 VideoDoodles 来创建独特的广告，通过将现实世界的镜头与动画元素相结合来让广告更有吸引力。VideoDoodles 通过实现手绘动画与视频内容片段的无缝融合，从而轻松地生成独特有趣的交互式视频视觉内容，从而增强讲故事、教育、营销、社交媒体内容创作的用户体验。

180

Ai开源项目 # Video # VideoDoodles

FaceChain

FaceChain简介妙鸭相机虽然好用，但它是一个需要付费的应用。现在，一个名为 FaceChain 的开源项目可以用 AI 模型打造人物写真。项目上线一周，已经狂揽 2.5k star，今天还上了Github趋势排行榜第一名。FaceChain是一个可以用来打造个人数字形象的深度学习模型工具。用户仅需要提供最低一张照片即可获得独属于自己的个人形象数字替身。FaceChain支持在gradio的界面中使用模型训练和推理能力，也支持资深开发者使用python脚本进行训练推理；同时，我们也欢迎开发者对本Repo进行继续开发和贡献。 FaceChain的模型由ModelScope开源模型社区提供支持。

170

Ai开源项目 # AI写真 # ai开源 # FaceChain

VideoDrafter

VideoDrafter简介 VideoDrafter，一个高质量视频生成的开放式扩散模型，相比之前的生成视频模型，VideoDrafter最大的特点是能在主体不变的基础上，一次性生成多个场景的视频。项目地址：https://videodrafter.github.io论文地址：https://arxiv.org/abs/2401.01256VideoCrafter由腾讯ai实验室和香港科技大学主导，同时也有来自中国科学院、香港中文大学和香港城市大学的研究人员参与。是一款全新的视频生成模型，可以进行创建和编辑套件，采用了扩散模型，能够从文本描述生成照片和视频。即使没有视频编辑或动画经验的人也可以轻松制作专业品质的视频。VideoDrafter目前包括Text2Video和Image2Video模型。Text2Video模型用于生成通用的文本到视频的转换，Image2Video模型用于生成通用的图像到视频的转换。商用的Text2Video模型可以生成高质量的视频，但是不开源。VideoDrafter功能：VideoCrafter 是一个创新的开源视频创作和编辑套件。它使用扩散模型和机器学习从文本描述中生成逼真的视频。该工具用户友好，适合初学者，提供专业品质的结果。VideoCrafter 的操作涉及将文本转换为视觉序列并将它们拼接在一起。它的多功能性允许创建各种视频类型，从教育内容到宣传材料。分步指南使 VideoCrafter 入门变得容易。该工具是免费使用的，所有创作者都可以使用。VideoDrafter使用步骤：1、创建视频的书面大纲。2、根据自己的喜好设置视频相关参数，包括分辨率和帧速率。3、使用“生成”按钮。4、输入一些文字，VideoCrafter将为您生成视频。5、生成的视频可以在集成编辑器的帮助下进行修改。6、在进行调整后，可以将视频保存为多种格式，包括MP4、MOV和AVI。VideoCrafter的用户友好性使其即使对于从未使用过视频或动画软件的人也可以轻松使用。与商业制作的电影媲美，VideoCrafter的输出质量非常高。无论您想制作解释性视频还是短片，VideoCrafter都能胜任。更重要的是，VideoCrafter是一个免费的开源项目。

170

Ai开源项目 # Drafter # Video # VideoDrafter

ChatGPT-Plus

ChatGPT-Plus简介 ChatGPT-PLUS 基于 ai 大语言模型 API 实现的 AI 助手全套开源解决方案，自带运营管理后台，开箱即用。集成了 ChatGPT, Azure, ChatGLM,讯飞星火，文心一言等多个平台的大语言模型。支持 MJ AI 绘画，Stable Diffusion AI 绘画，微博热搜等插件工具。采用 Go + Vue3 + element-plus 实现。ChatGPT-PLUS主要功能：完整的开源系统，前端应用和后台管理系统皆可开箱即用。基于 Websocket 实现，完美的打字机体验。内置了各种预训练好的角色应用，比如小红书写手，英语翻译大师，苏格拉底，孔子，乔布斯，周报助手等。轻松满足你的各种聊天和应用需求。支持 OPenAI，Azure，文心一言，讯飞星火，清华 ChatGLM等多个大语言模型。支持 Midjourney / Stable Diffusion AI 绘画集成，开箱即用。支持使用个人微信二维码作为充值收费的支付渠道，无需企业支付通道。已集成支付宝支付功能，微信支付，支持多种会员套餐和点卡购买功能。集成插件 API 功能，可结合大语言模型的 function 功能开发各种强大的插件，已内置实现了微博热搜，今日头条，今日早报和 AI 绘画函数插件。ChatGPT-Plus功能截图：ChatGPT-PLUS全套完整的开源系统，前端应用和后台管理系统皆可开箱即用，基于 MIT 开源协议，集成支付系统，可以直接商用变现。

170

Ai开源项目 # CHATGPT # ChatGPT-Plus

Chatbot UI

Chatbot UI简介 Chatbot UI，一个开源的聊天机器人Web UI框架，提供 Openai 的 ChatGPT UI 的改进版本。该工具提供了一个简单的用户界面，具有新对话、新聊天、导入数据、导出数据、设置和插件键等功能。Chatbot UI支持接入OpenAI、Azure OpenAI、Anthropic、Google、Mistral和Perplexity等模型，同时支持Ollama上的本地模型接入。Chatbot UI功能特征：聊天功能，包括图像和文件功能。使用OpenAI嵌入或本地嵌入。详细的聊天设置。用于快速选择的聊天设置预设创建。使用/命令的提示。使用@命令的文件。使用@命令的文件集合（集合）。助手（比如角色/GPTs，工具正在开发中）。所有功能的导入/导出。分享功能。认证系统。带有个人档案背景的个人资料。带有自定义指令的工作区。本地运行或部署托管。集成的图像/文件存储。Chatbot UI旨在与 OpenAI 的 API 一起使用，允许用户输入他们的 API 密钥并快速轻松地连接。需要注意的是，Chatbot UI 不隶属于 OpenAI，只是其 ChatGPT UI 的克隆。Chatbot UI仅用作与 OpenAI 的 API 进行通信的一种方式，如果不使用 API 密钥，它将无法运行。还建议用户在侧边栏左下角设置他们的 OpenAI API 密钥，以便与该工具无缝集成，并可以通过 OpenAI 的网站获取密钥。此外，Chatbot UI还提供“新提示”功能，允许用户输入新数据。总体而言，对于那些正在寻找通过有效且用户友好的界面使用 OpenAI API 的方法的人来说，聊天机器人 UI 是一个有用的工具。

170

Ai开源项目 # bot # chat # ChatbotUI

SupIR

SupIR简介 SupIR是一个通过增加模型规模来提升图像修复能力的技术，SupIR能够根据文本提示进行智能修复，提高图像修复的质量和智能程度。SupIR是一种突破性的图像恢复方法，它利用了生成先验和模型放大的力量。利用多模态技术和先进的生成先验，SUPIR标志着智能和逼真的图像恢复的重大进步。作为 SUPIR 中的关键催化剂，模型缩放极大地增强了其功能，并展示了图像恢复的新潜力。SupIR的主要功能：图像修复和文本引导的修复，利用了模型放大、多模态技术和结果表明，SUPIR在各种图像修复任务和复杂处理场景中都有出色的表现，特别是在处理真实世界复杂场景中的能力令人印象深刻。SupIR还进行了用户定制和交互行为，用户可以通过简单的文本指令控制图像修复过程，为图像修复提供了新的交互维度。SupIR应用场景：景观图像修复通过图像修复让大自然栩栩如生，突出风景照片中的自然之美。人脸图像修复展现真实的表情 -- 增强每一个细节，使人像栩栩如生。动物图像修复绒毛和活力：在动物图像修复中将皮毛和魅力带入生活。建筑图像处理用现代技术振兴建筑遗产。游戏图像增强以惊人的清晰度和细节体验重制版游戏世界。电影重生与经典还原以原始的细节体验电影的黄金时代。复古照片修复重新发现过去 - 以生动的清晰和细节将历史带入生活。SupIR技术的应用将极大提升图像修复的效率和质量，为图像处理领域带来了新的突破和可能性。

170

Ai开源项目 # SupIR

MimicMotion

MimicMotion简介腾讯和上交大出的，MimicMotion可以生成任意长度、具有任何动作指导的高质量视频生成框架，可以生成细节丰富、逼真的人类动作视频，可以生成任意长度的视频内容，可以对视频内容进行精确控制，包括动作、姿势和视频风格等。类似阿里的通义舞王，但效果看起来比阿里通义舞王好很多，MimicMotion支持面部特征和唇形同步，不止可以搞跳舞视频，也可以做数字人。近年来，生成式人工智能在图像生成领域取得了重大进展，催生了多种应用。然而，视频生成在可控性、视频长度、细节丰富度等各方面仍面临相当大的挑战，阻碍了该技术的应用和普及。在这项工作中，我们提出了一种可控视频生成框架，称为 MimicMotion，它可以在任何运动指导下生成任意长度的高质量视频。与以前的方法相比，我们的方法有几个亮点。首先，通过置信感知姿势指导，可以实现时间平滑性，从而可以通过大规模训练数据增强模型的连贯流畅。其次，基于姿态置信度的区域损失放大显着减轻了图像的失真，能够显著减少生成图像中的扭曲和变形。最后，为了生成流畅的长视频，提出了一种渐进式潜在融合策略。通过这种方式，能够在可接受的计算资源消耗下，实现任意长度视频的生成。通过大量的实验和用户研究，MimicMotion 在多个方面比阿里的通义舞王的方法有了明显的改进。MimicMotion代码：https://github.com/Tencent/MimicMotionMimicMotion ComfyUI版本：https://github.com/aiFSH/ComfyUI-MimicMotion

170

Ai开源项目 # Mimi # MimicMotion # Motion

码多多ChatWork知识库系统

码多多ChatWork知识库系统简介码多多ChatWork知识库系统PHP源码版，基于前后端分离架构以及Vue3、uni-app、 ThinkPHP6.x、PostgreSQL、pgvector技术栈开发，包含PC端，H5端。ChatWork⽀持问答式和⽂档式知识库，能够导⼊txt、doc、 docx、pdf、md等多种格式⽂档。导⼊数据完成向量化训练后，⽤户提问即可进⾏向量化搜索，并且结合⼤语⾔模型进⾏ai回答，可以提升AI回答的专业性和实⽤性。码多多ChatWork知识库系统⽀持对外发布聊天⽹⻚窗⼝、iframe代码、js代码以及API接⼝，拥有强⼤的第三⽅对接能⼒。适⽤于企业智能客服、企业智能⽂档、专家顾问助理等多种企业级商⽤场景，具有较⼤的商业使⽤价值。

160

Ai开源项目 # AIGC系统 # 码多多 # 码多多ChatWork知识库系统

DeepFaceLab

DeepFaceLab简介 DeepFaceLab是一种利用深度学习识别来交换图片和视频中的人脸的工具。这种技术在特定的场合下可以做出非常逼真自然的换脸视频。而 DeepFaceLab 是众多软件中，安装最简单，使用最方便，更新最快的一款软件。DeepFaceLab原版需要一定的英文基础，对于国内用户不是很友好。DeepFaceLab中文网独家推出本地化软件适配，为大家提供“懒人专用” DeepFaceLab 软件下载包！具体内容包含:1.DeepFaceLab官方英文原版2.DeepFaceLab中文汉化版3.DeepFaceLab图形界面汉化版deepfacelab中文网-提供deepfacelab中文汉化下载教程DeepFaceLab功能特性安装方便，环境依赖几乎为零，下载打包 app 解压即可运行（最大优势）添加了很多新的模型新架构，易于模型实验人脸图片使用 JPG 保存，节省空间提高效率CPU 模式，第 8 代 Intel 核心能够在 2 天内完成 H64 模型的训练。全新的预览窗口，便于观察。并行提取并行转换所有阶段都可以使用 DEBUG 选项支持 MTCNN，DLIBCNN，S3FD 等多种提取器支持手动提取，更精确的脸部区域，更好的结果。

160

Ai开源项目 # AI换脸 # DeepFaceLab

MindSearch

MindSearch简介 MindSearch 是一个开源的 ai 搜索引擎框架，具有与 Perplexity.ai Pro 相同的性能。您可以轻松部署它来构建您自己的搜索引擎，可以使用闭源 LLM（如 GPT、Claude）或开源 LLM（如 InternLM2.5-7b-chat）。MindSearch特性：任何想知道的问题：MindSearch通过搜索解决你在生活中遇到的各种问题深度知识探索：MindSearch通过数百网页的浏览，提供更广泛、深层次的答案透明的解决方案路径：MindSearch 提供了思考路径、搜索关键词等完整的内容，提高回复的可信度和可用性。多种用户界面：为用户提供各种接口，包括React、Gradio、Streamlit 和本地调试。根据需要选择任意类型。动态图构建过程：MindSearch将用户查询分解为图中的子问题节点，并根据 WebSearcher 的搜索结果逐步扩展图。MindSearch 有什么新功能？具有大型语言模型的最强大的答案引擎之一（LLM ）。询问您想知道的一切：MindSearch旨在解决您生活中的任何问题并利用网络知识深入的知识发现：MindSearch浏览数百个网页来回答您的问题，提供更深更广的知识库答案详细解决路径：MindSearch 公开所有详细信息，允许用户检查他们想要的所有内容。这极大地提高了最终响应的可信度以及可用性多代理LLM框架：多个之间的无缝集成LLM代理，可在1分钟内实现300+网页浏览全部开源：每一段代码都是开源的，拥抱一种对新想法和贡献持开放态度的文化。部署您自己的答案引擎！优化UI体验：为用户提供各种接口，包括React、Streamlit、Terminal。根据您的需要选择任何类型与其他人工智能搜索引擎相比，基于 ChatGPT-Web、Perplexity.ai (Pro) 和 MindSearch 生成的响应的深度、广度和真实性来比较，更符合人类的偏好。相关资讯： 10款开源AI搜索引擎项目合集

160

Ai开源项目 # Mind # MindSearch # Search

EZ-Work

EZ-Work简介 EZ-Work 是一款开源 ai 文档翻译助手，旨在帮助用户使用 OpenAI 等大型语言模型 API 快速且经济高效地翻译文档。支持txt、word、csv、excel、pdf、ppt等多种文档格式的翻译，适用于各种需要文档翻译的场景。支持txt、word、csv、excel、pdf、ppt文档AI翻译支持扫描pdf翻译支持兼容OpenAI格式的任何端点API（中转API）支持批量操作支持多线程支持Docker部署EZ-Work的主要特点：多格式文档翻译：EZ-Work支持多种常见文档格式的翻译，包括txt、word、csv、excel、pdf和ppt，甚至支持扫描的pdf文件的翻译，可以满足用户对不同格式文档的翻译需求。兼容OpenAI API：EZ-Work兼容OpenAI格式的任何端点API，并支持中转API。用户可以灵活选择翻译服务商，充分利用大语言模型的翻译能力。批量操作和多线程支持：支持多文档翻译任务的批量处理和多线程操作，大大提高翻译效率，适合处理大规模文档的翻译需求。Docker部署：EZ-Work提供Docker部署模式，让用户可以轻松地在不同操作系统和环境上部署和运行翻译服务，简化安装和配置过程。用户前台和管理后台：EZ-Work提供了简单易用的用户前端界面和管理后端，用户可以通过该界面直观地进行文档翻译操作和管理。适合没有技术背景的用户。高效率、低成本：EZ-Work通过调用大语言模型API，提供高效、低成本的文档翻译解决方案，适合有快速翻译需求的个人和企业。EZ-Work使用方法：EZ-Work兼容OpenAI API请求格式进行文档翻译，请输入接口地址，默认为https://api.openai.com （支持中转接口），再输入API Key，即可开始使用。在线版无需注册即可体验，暂不提供会员注册服务。如果您需要完整的功能和更快的性能，请按照下方提示自行部署。

160

Ai开源项目 # EZ-Work # 翻译

Linly-Dubbing

Linly-Dubbing简介 Linly-Dubbing是一款开源的多语言ai配音和视频翻译工具。Linly-Dubbing可以自动将视频翻译成其他语言并生成字幕、克隆视频中说话者的声音并自动配音、进行口型同步。Linly-Dubbing主要特征：自动下载视频：支持从YouTube等网站下载视频多语言支持：支持中文和多种语言的配音和字幕翻译。AI语音识别：准确的语音识别、语音文本转换和说话人识别。LLM翻译：结合领先的大型语言模型（如GPT），可以快速准确地翻译，保证翻译的专业性和自然性。语音克隆：通过语音克隆技术，生成与原视频配音高度相似的声音，保持情感和语气的一致性。口型同步：通过保持口型同步，配音可以与视频画面高度一致，提高视频的真实性和互动性。灵活的上传和翻译：用户可以上传视频并选择翻译语言和标准，以确保个性化和灵活性。Linly-Dubbing技术细节语音识别WhisperX ：OpenAI Whisper语音识别系统的扩展，可以将语音内容转录为文本，与视频帧精确对齐，生成带时间戳的字幕文件，并支持多说话人识别。FunASR ：一款综合语音识别工具包，提供语音识别、语音活动检测、标点符号恢复等功能，特别针对中文语音进行了优化。语音合成集成了Edge TTS、XTTS、CosyVoice等多种先进的语音合成工具。Edge TTS ：微软提供的高质量文本到语音转换服务，支持多种语言和语音风格，生成自然流畅的语音输出。XTTS ：Coqui 提供的先进的深度学习文本转语音工具包，专注于语音克隆和多语言语音合成，可以通过短音频片段实现语音克隆并生成逼真的语音输出。CosyVoice ：阿里巴巴同义实验室开发的多语言语音理解与合成模型，支持多种语言的高质量语音合成和跨语言语音克隆。字幕翻译使用OpenAI API和Qwen模型进行多语言字幕翻译。OpenAI API ：使用OpenAI的GPT-4和GPT-3.5-turbo进行高质量的字幕翻译。这些模型以其自然语言理解和文本生成能力而闻名，适用于对话生成和文本分析。Qwen ：开源的本地化大规模语言模型，支持多语言翻译，可以经济高效地处理多种语言的文本。谷歌翻译：集成谷歌翻译作为翻译功能的补充，提供广泛的语言支持和良好的翻译质量。声音分离使用 Demucs 和 UVR5 技术将人声与伴奏分开。|Demucs ：Facebook 研究团队开发的声音分离模型，可以分离混合音频中的不同声源，包括乐器、人声和背景声音。广泛应用于音乐制作和影视后期制作。UVR5（Ultimate Vocal Remover）：一款高效的人声伴奏分离工具，可以提取接近原始立体声的伴奏，性能优于其他类似工具如RX9、RipX和SpectraLayers 9。口型同步借鉴Linly-Talker，我们专注于数字人唇同步技术，结合计算机视觉和语音识别技术，将虚拟角色的唇同步与配音精确匹配，达到高度自然的同步效果。该技术适用于动画人物、虚拟主播、教育视频中的旁白等多种场景。视频处理Linly-Dubbing提供添加字幕、插入背景音乐、调节音量和播放速度等功能，用户可以自定义视频内容，使其更具吸引力和个性化。yt-dlp 的集成： yt-dlp 是一个功能强大的开源命令行工具，设计用于从 YouTube 和其他网站下载视频和音频。该工具具有广泛的参数选项，允许用户根据自己的需要微调下载行为。无论是选择特定格式、分辨率，还是提取音频，yt-dlp 都提供了灵活的解决方案。

160

Ai开源项目 # Dubbing # Linly-Dubbing