Ai开源项目

共 127 篇网址
FreeAskInternet

FreeAskInternet

FreeAskInternet简介 FreeAskInternet 是一个完全免费、私有且本地运行的搜索聚合器,并使用 LLM 生成答案,无需 GPU。用户可以提出问题,系统将使用searxng进行多引擎搜索,并将搜索结果合并到ChatGPT3.5 LLM中,并根据搜索结果生成答案。所有进程都在本地运行,不需要 GPU 或 Openai 或 Google API 密钥。FreeAskInternet特征:完全免费(不需要任何API密钥)完全本地化(无需GPU,任何计算机都可以运行)完全私有(所有内容都在本地运行,使用自定义 llm)无需 LLM 硬件即可运行(无需 GPU!)使用免费的 ChatGPT3.5 / Qwen / Kimi / ShipuAI(GLM) API(无需 API 密钥!感谢 OpenAI)自定义 LLM(ollama,llama.cpp) 支持,是的,我们喜欢 ollama!使用 Docker Compose 快速轻松地部署Web 和移动友好界面,专为 Web 搜索增强的 AI聊天而设计,允许从任何设备轻松访问。FreeAskInternet怎么运行的?1、系统在FreeAskInternet UI界面(本地运行)中获取用户输入的问题,并调用searxng(本地运行)在多个搜索引擎上进行搜索。2、抓取搜索结果链接内容并传递给ChatGPT3.5/Kimi/Qwen/ZhipuAI/ollama(使用自定义llm),要求LLM以此内容为参考回答用户问题。3、将答案传输到聊天 UI。4、我们支持自定义 LLM 设置,因此理论上无限的 llm 支持。
140
PDF-Guru

PDF-Guru

PDF-Guru简介 PDF Guru是一个通用型PDF文件处理工具,包含PDF合并、拆分、旋转、水印、加密、转换等20多项常用功能,完全开源,个人免费使用,界面简洁,简单易用。虽然目前网上关于PDF处理的工具有很多,但是都有一些缺点:专业的PDF编辑软件对于高级一点的功能(添加水印、页面编辑等)需要收费或限制功能在线PDF工具类网站需要上传PDF到服务器处理再下载,有泄露隐私风险各大编程语言的PDF处理库虽然可以免费实现一些高级功能,但是需要一定的编程经验,使用没有图形界面程序方便部分小众工具虽然可以满足部分特殊需求,但是功能较为单一由于PDF处理是一个很常见的需求,为了绕开上述这些限制,提高工作效率,诞生了此项目。PDF Guru优势:完全本地化:无需联网,不必担心隐私泄露功能丰富:支持包括PDF批量合并、拆分、添加水印、加密/解密、提取、OCR识别在内的20余项功能跨平台:支持在Windows、Mac、Linux设备上使用开源免费界面美观简洁,使用简单插件化:根据需要选择是否安装额外组件,减小安装包体积PDF Guru具体功能:PDF插入/替换插入:支持插入空白页和插入其他文件两种选项。替换:用目标PDF的指定页码范围来替换源PDF中指定的页码范围(此处的页码范围只支持1或1-3两种方式)PDF合并将多个PDF文件合并为一个整体PDF文件,支持自定义排序方式。PDF拆分将大的PDF文件拆分为若干个小的文件,支持多种拆分方式,如均匀分块、自定义范围、按目录级别拆分等。PDF旋转将PDF指定页面范围进行旋转。PDF删除删除PDF中的指定页面。PDF重排对PDF的页面顺序进行重排列。PDF裁剪对PDF页面进行裁剪。PDF缩放对PDF页面进行缩放。PDF分割将PDF页面拆分成若干个子页面,支持网格均匀分割和自定义分割方式。PDF组合将多个PDF页面合并为单个页面。页眉页脚设置PDF的页眉页脚。页码设置为PDF文件添加页码,内置了多种页码样式,也支持自定义页码样式。文档背景为PDF文档设置背景,支持使用颜色和图片作为背景。PDF水印为PDF文档添加水印,也提供了多种方式去除PDF文档水印(仅为提升阅读体验使用,切勿滥用侵权)添加水印:支持文本、图片、PDF文档三种形式的水印添加,其中文本水印支持字体、字号、颜色、不透明度等多种属性控制,支持设置多行水印等。去除水印:支持多种水印去除方式,可根据实际情况选择合适的方式(不保证绝对有效)。视频教程: https://www.bilibili.com/video/BV1Qz4y1E7vq/PDF加密/解密给PDF文档设置密码,包括打开密码和权限密码。也支持对PDF文档进行解密并恢复权限。PDF书签支持提取PDF书签、写入PDF书签,甚至使用ocr技术自动识别PDF书签(需要额外安装paddleocr环境)视频教程:https://www.bilibili.com/video/BV1Wx4y1o7P6/PDF提取提取PDF文档中的页面、文本、图片等PDF压缩对PDF文档进行压缩减小体积。PDF转换提供PDF与其他格式之间的转换。部分转换需要pandoc(需要额外安装)的支持。OCR识别对PDF页面进行OCR识别,也支持对图片的OCR识别。双层PDF制作 相关资讯: 10款优秀的人工智能解析阅读PDF工具推荐
210
LivePortrait

LivePortrait

LivePortrait简介 LivePortrait,利用AI技术将静态照片转换为视频,展现逼真的面部表情和动作。LivePortrait开源项目来自中国快手科技和复旦大学,使用经过特殊训练的模型,可以将视频或网络摄像头中的动画转换为动画,并将动作转换为图像或照片。LivePortrait 利用基于隐式关键点的框架从单个源图像创建逼真的视频动画。这种方法平衡了计算效率和可控性,使其成为各种应用的实用工具。LivePortrait的Comfyui版本:https://github.com/shadowcz007/comfyui-liveportraitLivePortrait功能征:将静态照片转换为动画视频;生成逼真的面部表情和动作;支持不同风格的动画生成;允许用户上传视频并同步面部动作。提供个性化视频沟通工具,提升沟通效果;LivePortrait 如何生成 AI 内容LivePortrait 的动画过程涉及两个阶段的训练流程:第一阶段:基础模型训练在第一阶段,从头开始训练基础模型。此阶段涉及优化外观提取器(F)、运动提取器(M)、变形模块(W)和解码器(G)。这些组件协同工作,分别从源图像和驾驶视频中提取和合成外观和运动。第二阶段:拼接和重定向模块培训在第二阶段,之前训练的组件被冻结,重点转移到优化拼接和重定向模块。这些模块通过对眼睛和嘴唇等特定面部特征提供更精细的控制来提高动画质量,从而实现更详细和更具表现力的动画。LivePortrait 的主要特点效率和速度:LivePortrait 实现了惊人的生成速度,在使用 PyTorch 的 RTX 4090 GPU 上达到每帧 12.8 毫秒。这种效率使其适合实时应用。高品质动画:通过将训练数据扩展至约6900万个高质量帧并采用混合图像视频训练策略,LivePortrait确保了卓越的动画质量和泛化能力。先进的可控性:拼接和重定向模块可以精确控制面部特征,从而实现详细的动画。用户可以控制眼睛和嘴唇运动的程度,增强生成视频的真实感。多功能性:LivePortrait支持写实、油画、雕塑、3D渲染等多种风格。这种多功能性使其适用于从创意内容到专业视频制作的广泛应用。LivePortrait应用群体内容创作者和影响者:LivePortrait 使内容创作者和影响者能够从单个图像生成高质量的动画视频,通过逼真的动画增强其内容。电影制片人和动画师:专业电影制作人和动画师可以使用 LivePortrait 高效创建逼真的角色动画,从而节省制作过程中的时间和资源。营销人员和广告商:营销人员和广告商可以利用 LivePortrait 制作引人入胜的动态视频广告,通过逼真的动画吸引观众的注意力。教育工作者和电子学习开发人员:教育内容可以通过动画肖像变得更具互动性和吸引力,从而使学习材料对学生更具吸引力。游戏开发商:游戏开发者可以使用 LivePortrait 创建逼真的角色动画,通过逼真的表情和动作增强整体游戏体验。LivePortrait的Comfyui版本:Liveportrait comfyui:https://github.com/shadowcz007/comfyui-liveportrait
130
EchoMimic

EchoMimic

EchoMimic简介 EchoMimic是一个蚂蚁集团支付宝基于音频驱动的肖像动画生成工具,通过可编辑的特征点条件生成逼真、自然的动画,用户可以根据自己的需求调整动画细节,可用于虚拟主播、视频编辑等,效果比SadTalker、MuseTalk好,表情更丰富动作更顺畅。EchoMimic可以根据人像面部特征和音频来帮人物对口型,结合面部标志点和音频内容生成较为稳定、自然的视频。EchoMimic功能:音频驱动动画,可以根据音频生成人物肖像的动画,比如唱歌、说话视频等。姿势驱动动画,可以根据姿势数据生成人物肖像的动画。音频和姿势混合驱动动画,可以同时使用音频和姿势数据来生成动画。WebUI 和 GradioUI,提供图形界面,易于使用。可编辑的标志调节:用户可以选择特定的面部标志来控制动画,提供更大的灵活性和定制性。支持多语言(包含中文普通话、英语)及多风格,也可应对唱歌等场景。EchoMimic应用:肖像图像动画:使用音频输入从静态图像创建动态视频,可用于娱乐、虚拟化身和数字通信。增强稳定性和自然度:通过结合两种输入,克服音频驱动方法的不稳定性和关键点驱动方法的不自然性。可定制的动画:用户可以编辑特定的面部标志以实现所需的动画效果。ComfyUI EchoMimic:https://github.com/smthemex/ComfyUI_EchoMimicEchoMimic项目:https://badtobest.github.io/echomimic.htmlEchoMimic Github:https://github.com/BadToBest/EchoMimicEchoMimic模型:https://huggingface.co/BadToBest/EchoMimicEchoMimic 由蚂蚁集团支付宝终端技术部开发的音频输入驱动创建逼真肖像动画的技术。它使用可编辑的地标调节来实现逼真的面部动作和表情,从而实现高度可定制且外观自然的动画。
150
Unique3D

Unique3D

Unique3D简介 Unique3D 在 30 秒内从单视图野生图像生成高保真、多样化纹理网格,当然运行速度取决于你的硬件资源情况。Unique3D主要功能:高保真度生成:Unique3D 实现了最先进的生成保真度,可生成细致复杂的纹理和复杂的几何形状。这是通过多视图扩散模型来实现的,该模型生成正交多视图图像和相应的法线贴图。效率:框架效率高,能够在30秒内生成高保真3D网格。这种效率归功于快速前馈模型和称为 ISOMER 的即时网格重建算法的集成。一致性:Unique3D 通过使用多级升级流程逐步提高生成图像的分辨率,确保生成视图的一致性。 ISOMER 算法将颜色和几何先验集成到网格结果中,解决了先前方法中发现的不一致问题。通用性:该框架表现出很强的通用性,在各种不同风格的野生2D图像上表现良好。大量实验证明了这一点,这些实验表明 Unique3D 在保真度、几何细节和分辨率方面优于现有方法。多级升级策略:Unique3D采用多级升级策略来逐步增强生成图像的分辨率。这涉及微调多视图感知 ControlNet 并使用超分辨率模型来实现高分辨率输出。法线贴图预测:为了捕捉丰富的表面细节,Unique3D 使用法线扩散模型来预测与多视图彩色图像相对应的法线贴图。这提高了几何细节的准确性,尤其是边缘处。ExplicitTarget 优化:为了解决多视图不一致问题并细化几何细节,Unique3D 引入了 ExplicitTarget 优化。该方法为每个顶点分配唯一的优化目标,比传统方法更稳健地指导优化方向。Unique3D特征:在 30 秒内生成高保真纹理网格。5 天内仅使用 8 个 RTX4090 GPU 进行训练。利用多视图扩散模型和法线扩散模型来生成多视图图像和法线贴图。采用多级升级流程来提高分辨率。使用 ISOMER 进行即时且一致的网格重建。Unique3D由清华大学和AVAR Inc.的研究团队共同开发。Unique3D官网入口:Unique3D 在线使用:https://huggingface.co/spaces/Wuvin/Unique3DUnique3D 项目地址:https://wukailu.github.io/Unique3D/Unique3D Github:https://github.com/AiuniAI/Unique3D
120
UniVG

UniVG

UniVG简介 百度UniVG是一种统一模式ai视频生成系统,能够以文本和图像的任意组合作为输入条件进行视频生成。UniVG系统由百度团队开发,解决现有视频生成模型在处理单一任务或单一目标时的局限性。UniVG开源地址:https://univg-baidu.github.io/UniVG主要功能和特点:高自由度视频生成:使用多条件交叉注意力机制,根据输入的图像或文本生成与语义一致的视频。低自由度视频生成:引入偏置高斯噪声替代完全随机的高斯噪声,以更好地保留输入条件的内容。多任务处理:系统内的视频生成模型被重新划分为高自由度生成和低自由度生成两类,分别适用于不同的生成任务。扩散模型:基于扩散的视频生成方法,在学术和工业界取得了显著成功。UniVG应用场景和优势:灵活输入:用户可以灵活地输入图像和文本条件,单独或组合使用,满足实际应用场景的需求。高质量输出:在MSR-VTT数据库上实现了最低的FVD(Fréchet Video Distance),在人类评估中超过了当前开源方法,并与现有闭源方法Gen2相当。多样化任务:支持文本到视频、图像到视频以及文本和图像结合到视频等多种视频生成任务。UniVG作为一个强大的工具,它通过整合文本和图像输入,推动了视频生成技术向更灵活、更高质量的方向发展,为内容创作、广告、娱乐等多个领域提供更大的推广思路。
100
MindSearch

MindSearch

MindSearch简介 MindSearch 是一个开源的 ai 搜索引擎框架,具有与 Perplexity.ai Pro 相同的性能。您可以轻松部署它来构建您自己的搜索引擎,可以使用闭源 LLM(如 GPT、Claude)或开源 LLM(如 InternLM2.5-7b-chat)。MindSearch特性:任何想知道的问题:MindSearch通过搜索解决你在生活中遇到的各种问题深度知识探索:MindSearch通过数百网页的浏览,提供更广泛、深层次的答案透明的解决方案路径:MindSearch 提供了思考路径、搜索关键词等完整的内容,提高回复的可信度和可用性。多种用户界面:为用户提供各种接口,包括React、Gradio、Streamlit 和本地调试。根据需要选择任意类型。动态图构建过程:MindSearch将用户查询分解为图中的子问题节点,并根据 WebSearcher 的搜索结果逐步扩展图。MindSearch 有什么新功能?具有大型语言模型的最强大的答案引擎之一(LLM )。询问您想知道的一切:MindSearch旨在解决您生活中的任何问题并利用网络知识深入的知识发现:MindSearch浏览数百个网页来回答您的问题,提供更深更广的知识库答案详细解决路径:MindSearch 公开所有详细信息,允许用户检查他们想要的所有内容。这极大地提高了最终响应的可信度以及可用性多代理LLM框架:多个之间的无缝集成LLM代理,可在1分钟内实现300+网页浏览全部开源:每一段代码都是开源的,拥抱一种对新想法和贡献持开放态度的文化。部署您自己的答案引擎!优化UI体验:为用户提供各种接口,包括React、Streamlit、Terminal。根据您的需要选择任何类型与其他人工智能搜索引擎相比,基于 ChatGPT-Web、Perplexity.ai (Pro) 和 MindSearch 生成的响应的深度、广度和真实性来比较,更符合人类的偏好。 相关资讯: 10款开源AI搜索引擎项目合集
160
LabelLLM

LabelLLM

LabelLLM简介 LabelLLM是一个开源的数据标注平台,致力于优化对于大型语言模型(LLM)开发不可或缺的数据标注过程。LabelLLM的设计理念旨在成为独立开发者和中小型研究团队提高标注效率的有力工具。LabelLLM的核心在于通过提供全面的任务管理解决方案和多样化的多模态数据支持,简化并增强模型训练的数据注释过程的效率。LabelLLM特色功能:灵活的配置:LabelLLM以其可适应性强的框架而脱颖而出,提供了一系列可定制的任务特定工具,以满足数据标注项目的多样化需求。这种灵活性允许平台无缝集成到各种任务参数中,使其成为模型训练数据准备阶段的宝贵资产。多模态数据支持:LabelLLM认识到数据多样性的重要性,并将其能力扩展到包括音频、图像和视频在内的多种数据类型。这种全面的方法确保用户可以在一个统一的平台上进行包含多种数据类型的复杂标注项目。全面的任务管理:为确保体现最高标准的质量和效率,LabelLLM设有全方位的任务管理系统。该系统提供实时监控标注进度和质量控制,从而保证所有项目的数据准备阶段的完整性和时效性。人工智能辅助标注:LabelLLM支持预标注数据的一键载入,用户可以根据实际需要对其进行细化和调整。这一特性提高了标注的效率和准确性。LabelLLM产品特性:多功能性: LabelLLM为用户提供了广泛的数据标注工具,旨在处理各种任务,而不会损害标注的效果或准确性。用户友好: 除了功能强大之外,LabelLLM还非常注重用户体验,提供直观的配置和工作流程,简化了数据标注任务的设置和分配。效率提升: 通过整合人工智能辅助的标注,LabelLLM大幅提高了标注效率
130
MemFree

MemFree

MemFree简介 MemFree 是一个开源的混合AI搜索引擎,它结合使用矢量搜索和 SERP 搜索来提供最相关的结果。可以同时对您的个人知识库(如书签、笔记、文档等)和互联网进行搜索, 为你提供最佳答案。Memfree 支持搜索、聊天和询问模式:搜索模式:从您的个人知识库快速访问相关内容。快速获取网页链接。聊天模式:个人助理:编码、写作、头脑风暴、翻译等。有关历史、文化、科学和常识的问题。询问模式:获得详细、准确和最新的答案。根据您的个人知识库提出问题。MemFree功能亮点:混合 ai 搜索引擎自托管的极速无服务器向量数据库自托管的极速Local Embedding and Rerank Service一键 Chrome 书签索引完整代码开源前后端一键部署MemFree 能做什么您可以根据书签、笔记和文档部署自己的混合人工智能搜索引擎您可以首先索引某个主题的最佳资源,然后构建特定领域的 AI 搜索引擎可以先索引一个网站的所有文档,然后为一个网站构建一个智能答疑助手对于您在 MemFree 中专门索引的书签和网页, MemFree 会在搜索过程中对它们进行优先级排序,使用矢量索引返回最相似的内容,并最终通过其 AI 模型提供最佳答案。对于您认为有价值或感兴趣的网页,您只需要让MemFree一键索引即可。 MemFree 将成为您的第二大脑,让您不再需要记住细节。稍后,当您想要从索引网页中检索信息时,MemFree 将为您提供所需的精确答案。通过利用这种方法,MemFree 不仅可以智能、高效地管理和搜索您的书签和网页,还可以确保您始终能够快速找到所需的信息,无论这些信息是隐藏在网上的某个位置还是存储在您的个人收藏中。MemFree价格 相关资讯: 10款开源AI搜索引擎项目合集
120
Teable

Teable

Teable简介 Teable 是一个基于 Postgres 构建的超快速、实时、专业、开发人员友好的无代码数据库。airtable替代品,类似操作电子表格一样创建复杂的企业级数据库应用,无需编写代码。Teable使用简单的、类似电子表格的界面来创建复杂的企业级数据库应用程序。通过无代码实现高效的应用程序开发,摆脱数据安全性和可扩展性的障碍。Teable特点:直观的界面:提供类似电子表格的界面,方便数据输入、编辑、排序、过滤、汇总等操作多样的视图:支持表格视图、表单视图、看板视图、日历视图等性能:基于 PostgreSQL 数据库,可以处理海量数据,并提供自动索引保证速度支持 SQL 语句,可以与其他工具无缝集成支持自建数据库,可以完全掌控自己的数据支持实时协作,方便团队成员共同编辑和管理数据支持扩展和自动化集成了 AI 能力,可以快速创建应用程序、分析数据、创建视图、执行操作等支持SQLite、PostgreSQL、MySQL、MariaDB、TiDB 等多种数据库类似电子表格的界面单元格编辑:直接单击并编辑单元格内的内容。公式支持:输入数学和逻辑公式以自动计算值。数据排序和过滤:根据一列或多列对数据进行排序;使用过滤器查看特定的数据行。聚合功能:自动汇总每列的统计数据,提供总和、平均值、计数、最大值和最小值等即时计算,以简化数据分析。数据格式化:格式化数字、日期等。分组:根据列值将行组织成可折叠的组,以便于数据分析和导航。冻结列:冻结表格的左列,以便它们在滚动时保持可见。导入/导出功能:导入和导出其他格式的数据,例如.csv、.xlsx。行样式和条件格式:根据特定条件自动更改行样式。 (即将推出)图表和可视化工具:从表格数据创建图表,例如条形图、饼图、折线图等(即将推出)数据验证:限制或验证输入到单元格中的数据。 (即将推出)撤消/重做:撤消或重做最近的更改。 (即将推出)评论和注释:将评论附加到行,为其他用户提供解释或反馈。 (即将推出)多个视图以最适合其特定任务的各种方式可视化数据并与数据交互。网格视图:表的默认视图,以类似电子表格的格式显示数据。表单视图:以表单格式输入数据,这对于收集数据很有用。看板视图:在看板中显示数据,这是列和卡中数据的可视化表示。日历视图:以日历格式显示数据,这对于跟踪日期和事件非常有用。 (即将推出)图库视图:以图库格式显示数据,这对于显示图像和其他媒体很有用。 (即将推出)甘特视图:以甘特图显示数据,这对于跟踪项目进度很有用。 (即将推出)时间线视图:以时间线格式显示数据,这对于跟踪一段时间内的事件很有用。 (即将推出)超快惊人的响应速度和数据容量百万数据轻松处理,筛选排序无压力自动数据库索引以获得最大速度支持一次性批量数据操作全功能 SQL 支持与您熟悉的软件无缝集成Metabase PowerBi 等 BI 工具...像 Appsmith 这样的无代码工具...使用原生 SQL 直接检索数据隐私第一尽管有云,您仍拥有自己的数据自带数据库(即将推出)实时协作专为团队设计无需刷新页面,数据实时更新无缝集成协作成员邀请和管理完善的权限管理机制,从表到列级别...从本质上讲,Teable 不仅仅是另一个无代码解决方案,它是对现代软件开发不断变化的需求的全面解决方案,确保每个人,无论其技术熟练程度如何,都拥有一个适合其需求的平台。
40
Emote Portrait Alive

Emote Portrait Alive

Emote Portrait Alive简介 Emote Portrait Alive是阿里巴巴发布的EMO,一种音频驱动的AI肖像视频生成框架。输入单个参考图像和声音音频,例如说话和唱歌,Emote Portrait Alive就可以生成具有表情丰富的面部表情和各种头部姿势的声音肖像视频,让照片中的人物根据音频内容自然地张嘴说话或唱歌,面部表情和头部姿态非常逼真。同时,我们可以根据输入视频的长度生成任意持续时间的视频。Emote Portrait Alive功能和特点:音频驱动的视频生成:EMO能够根据输入的音频(如说话或唱歌)直接生成视频,无需依赖于预先录制的视频片段或3D面部模型。高表现力和逼真度:生成的视频具有高度的表现力,能够捕捉并再现人类面部表情的细微差别,包括微妙的微表情,以及与音频节奏相匹配的头部运动。无缝帧过渡:确保视频帧之间的过渡自然流畅,避免了面部扭曲或帧间抖动的问题,从而提高了视频的整体质量。身份保持:通过FrameEncoding模块,EMO能够在视频生成过程中保持角色身份的一致性,确保角色的外观与输入的参考图像保持一致。稳定的控制机制:采用了速度控制器和面部区域控制器等稳定控制机制,以增强视频生成过程中的稳定性,避免视频崩溃等问题。灵活的视频时长:可以根据输入音频的长度生成任意时长的视频,为用户提供了灵活的创作空间。跨语言和跨风格:训练数据集涵盖了多种语言和风格,包括中文和英文,以及现实主义、动漫和3D风格,使得EMO能够适应不同的文化和艺术风格。Emote Portrait Alive应用场景:唱歌视频生成:输入一张人物肖像照片和唱歌音频,EMO可以生成与音频同步且富有表现力的唱歌视频。说话视频生成:不仅限于唱歌,还可以处理说话音频,生成与语音同步的说话视频。多语言支持:支持多种语言的音频输入,能够生成不同语言下的人物肖像视频。跨风格应用:可以将不同风格(如动漫、3D模型等)的肖像图像与音频结合,生成具有特定风格的视频内容。Emote Portrait Alive不仅限于处理唱歌的音频输入,还可以容纳各种语言的口语音频。此外,Emote Portrait Alive还能够将过去的老照片、绘画以及 3D 模型和AI生成的内容制作成视频,为它们注入逼真的动作和真实感。
120
MedisGo

MedisGo

MedisGo简介 MedisGo,一款视频在线提取工具,视频解析下载工具,支持流媒体下载 、视频下载 、 m3u8下载 、B站视频下载。MedisGo特点MedisGo支持m3u8视频在线提取工具 流媒体下载m3u8下载。无需抓包:使用软件自带浏览器可以轻松嗅探网页中的视频资源,通过嗅探到的资源列表选择自己想要下载的资源,简单快速。移动播放:可以轻松无缝的在 PC 和移动设备之前切换,下载完成后即可使用手机观看视频。批量下载:支持同时下载多个视频和直播资源,高速带宽不闲置。MedisGo使用方法第1步:在软件的【素材提取】选项中输入网址第2步:随后在下载列表选项就可看到下载链接,如果没有,可以在素材提取中按一下刷新按钮。MedisGo基础设置选择文件夹: 视频下载的路径下载器主题: 支持浅色和深色模式在新窗口中打开浏览器: 开启了之后浏览器页面会独立出一个窗口。下载完成提示: 开启之后下载完成会出现系统提示MedisGo项目在Github已经获得1.6K的stars和201K的下载量,是一款十分火爆的视频解析下载工具。运行MedisGo代码需要 node 和 pnpm,node 需要在官网下载安装,pnpm 可以通过npm i -g pnpm安装。
250
LabelU

LabelU

LabelU简介 LabelU是一个开源的数据标注工具,它可以帮助用户快速、准确、高效地对数据进行标注,从而提高机器学习模型的性能和质量。LabelU支持多种标注类型,包括标签分类、文本描述、拉框、多边形、点、线、立体框、时间戳、片段分割等。LabelU可以自由组合多样工具,无缝兼容多格式数据,同时支持载入预标注,加速数据标注效率,满足不同场景和需求的标注任务。LabelU主要特征:多功能图像注释工具:LabelU 提供了一套全面的图像标注工具,包括 2D 边界框、语义分割、折线和关键点。这些工具可以灵活解决物体检测、场景分析、图像识别、机器翻译等多种图像处理任务,帮助用户高效识别、注释和分析图像。强大的视频标注能力:在视频标注领域,LabelU展示了令人印象深刻的处理能力,支持视频分割、视频分类和视频信息提取。非常适合视频检索、视频摘要、动作识别等应用,使用户能够轻松处理长时长视频,准确提取关键信息,并支持复杂场景分析,为后续模型训练提供高质量的标注数据。高效的音频注释工具:音频注释工具是 LabelU 的另一个关键功能。这些工具具备高效、精准的音频分析能力,支持音频分割、音频分类、音频信息提取。通过可视化复杂的声音信息,LabelU 简化了音频数据处理工作流程,有助于开发更准确的模型。LabelU特征:简单:提供多种图像标注工具,通过简单的可视化配置即可进行标注。灵活性:多种工具可以自由组合,满足大多数图像、视频、音频标注需求。通用性:支持导出多种数据格式,包括JSON、COCO、MASK。LabelU注册与登录:在线版可通过“手机验证码”注册登录,也可使用“手机号/邮箱+密码”的方式注册登录。离线版账号信息存储在本地电脑,可通过用邮箱注册来进行登录。LabelU应用:用于自动驾驶的图像数据标注,从而训练车辆识别模型。对音频数据进行时间戳标注,提高语音识别或语音转文字的准确性。在医疗影像中,对CT扫描图像进行标注,进行辅助疾病诊断。LabelU作为一个综合数据标注平台,专为处理多模态数据而设计。它提供了一系列先进的注释工具和高效的工作流程,使用户可以更轻松地处理涉及图像、视频和音频的注释任务。 LabelU专为满足复杂数据分析和模型训练的需求而量身定制。
140
VideoDoodles

VideoDoodles

VideoDoodles简介 VideoDoodles是一款能在视频中轻松任意插入手绘动画并与视频内容无缝融合的ai工具,它将视频内容与手绘动画相结合,制作出独特的视频剪辑。通过VideoDoodles你可以在视频中添加手绘涂擦动画,比如你可以画个搞笑的小人或者别 的手绘元素插入到视频中,让视频更吸引人。这些动画不仅能跟随视频中的物体移动,还能自动调整大小和角度。VideoDoodles主要挑战在于确保手绘动画能完美集成到捕获的场景中,当它们相对于相机和场景中的其他对象移动时进行适当的跟踪、透视变形和遮挡。VideoDoodles引入了一种新颖的 UI 和跟踪算法,以解锁通过深度和运动数据(通过现有计算机视觉方法获得)增强的视频的新版本功能。根据通过任意数量的位置和方向关键帧表达的用户意图,VideoDoodles的算法可以通过正确的遮挡、透视变换在视频的任何帧渲染场景感知画布,并使画布跟随移动对象。使得插入的绘画能够自然地融入视频场景,实现追踪、透视变形和遮挡等复杂视觉效果。VideoDoodles 的主要功能:场景感知画布:VideoDoodles让用户可以将平面画布放置在从视频重建的 3D 场景中。这些画布以 3D 方式进行跟踪,然后手绘动画在相对于相机和场景中的其他对象移动时保持正确的透视和遮挡。自定义跟踪算法:VideoDoodles可将画布锚定到视频中的静态或动态对象。这确保画布移动和旋转以跟随这些对象的位置和方向,使动画显示为捕获场景的一部分。用户界面易用:VideoDoodles提供 2D 图像空间 UI,用户可以通过关键帧控制画布的位置和方向。系统通过跟踪视频1中移动对象的运动来插入这些关键帧。深度和运动数据集成:VideoDoodles 利用通过现有计算机视觉方法获得的深度和运动数据来增强动画的真实感。这种集成允许通过正确的遮挡和透视变换准确渲染场景感知画布。VideoDoodles 的应用:娱乐:通过添加与现实世界镜头交互的动画元素来创建有视觉吸引力的视频内容。教育:通过说明性动画增强教育视频,有助于更有效地解释复杂的概念。增强讲故事能力:VideoDoodles 可用于在真人镜头中添加异想天开或说明性元素,从而增强叙事和视觉吸引力。创意广告:品牌可以使用 VideoDoodles 来创建独特的广告,通过将现实世界的镜头与动画元素相结合来让广告更有吸引力。VideoDoodles 通过实现手绘动画与视频内容片段的无缝融合,从而轻松地生成独特有趣的交互式视频视觉内容,从而增强讲故事、教育、营销、社交媒体内容创作的用户体验。
180
YouDub-Webui

YouDub-Webui

YouDub-Webui简介 YouDub-webui是一款开源的多语言ai配音和视频翻译工具,YouDub-webui提供了一套完整的视频中文化工具包,涵盖了从视频下载、语音识别、字幕翻译、AI声音克隆、视频处理、自动上传等一系列流程。YouDub-webui 是 YouDub 项目的网页交互版本,基于 Gradio 构建,为用户提供简易操作界面来访问和使用 YouDub 的强大功能。YouDub 是一个开创性的开源工具,能将 YouTube 和其他平台上的高质量视频翻译和配音成中文版本。YouDub-webui结合了最新的 AI 技术,包括语音识别、大型语言模型翻译,以及 AI 声音克隆技术,提供与原视频相似的中文配音,为中文用户提供卓越的观看体验。YouDub-webui主要特点视频下载: 支持通过链接直接下载 YouTube 视频。无论是单个视频、播放列表还是频道内的多个视频,均能轻松下载。AI 语音识别: 利用先进的 AI 技术,将视频中的语音高效转换为文字。不仅提供精确的语音到文本转换,还能自动对齐时间并识别不同说话者,极大地增强了信息的丰富性和准确性。大型语言模型翻译: 结合大型语言模型如 GPT,实现快速且精准的中文翻译。无论是俚语还是专业术语,均能得到恰当的翻译,确保内容的准确性与地道性。AI 声音克隆: 通过 AI 声音克隆技术,生成与原视频配音相似的中文语音。这不仅提升了视频的观看体验,也保留了原视频的情感和语调特色。视频处理: 综合了音视频同步处理、字幕添加、视频播放速度调整和帧率设置等多项功能。用户可以根据需要生成高质量的最终视频,实现无缝的观看体验。自动上传: 支持将最终视频自动上传到 Bilibili 平台。用户可以在不离开 YouDub-webui 的情况下,将视频上传到 Bilibili 平台,实现一键式的视频中文化处理。YouDub-webui技术细节AI 语音识别:我们的 AI 语音识别功能现在基于 WhisperX 实现。WhisperX 是一个高效的语音识别系统,建立在 OpenAI 开发的 Whisper 系统之上。它不仅能够精确地将语音转换为文本,还能自动对齐时间,并识别每句话的说话人物。这种先进的处理方式不仅提高了处理速度和准确度,还为用户提供了更丰富的信息,例如说话者的识别。大型语言模型翻译:我们的翻译功能继续使用 OpenAI API 提供的各种模型,包括官方的 GPT 模型。同时,我们也在利用诸如 api-for-open-llm 这样的项目,这使我们能够更灵活地整合和利用不同的大型语言模型进行翻译工作,确保翻译质量和效率。AI 声音克隆:在声音克隆方面,我们已经转向使用 Coqui AI TTS。同时,对于单一说话人的情况,我们采用了火山引擎进行 TTS,以获得更优质的音质。火山引擎的高级技术能够生成极其自然且流畅的语音,适用于各种应用场景,提升了最终产品的整体质量。视频处理:在视频处理方面,我们依然强调音视频的同步处理。我们的目标是确保音频与视频画面的完美对齐,并生成准确的字幕,从而为用户提供一个无缝且沉浸式的观看体验。我们的处理流程和技术确保了视频内容的高质量和观看的连贯性。YouDub-webui 适用于多种场景,包括教育、娱乐和专业翻译,特别适合那些希望将国外优秀视频内容本地化的用户。此工具的简洁界面使得即使是非技术用户也能轻松上手,实现视频的快速中文化处理。YouDub-webui 的这些特点使其成为一个强大且易于使用的视频中文化工具,无论是个人用户还是专业团队,都能从中受益。
90
Kolors Virtual Try-On

Kolors Virtual Try-On

Kolors Virtual Try-On简介 Kolors Virtual Try-On是一个由快手可图团队开发的ai试衣技术,通过可图AI试衣,用户上传自已的照片,就可以在几秒钟内看到自己穿上不同衣服的效果。可图AI试衣在可图基座模型基础上,引入衣服SKU保持网络,实现服饰细节特征的提取与表征。目的在于让用户可以即时看到服装在自己身上的效果,轻松搭配出不同风格,使买家能够更高效地做出购买决策,同时降低卖家的退货成本。Kolors Virtual Try-On可图AI试衣技术特点:保持衣服款式细节:支持多种衣服类型款式,包括上装、长裙等,同时保留衣服图案、文字花纹等细节,实现商品SKU服饰同款保持效果。自然的人物试穿效果:可图AI试衣能生成贴合人物的自然试穿效果,就像本人穿衣服拍照一样,支持室内人物、室外街拍多种场景,实现从平铺衣服到穿衣上身,生成效果符合物理客观规律。全流程素材生成能力:可图大模型支持跨越不同年龄、性别、种族人物模特及背景生成,支持海内外电商模特素材生成需求,以及从模特素材图到模特短视频的全流程生成。Kolors Virtual Try-On可图AI试衣应用场景:买家试衣:帮助买家在购买前看到衣服的实际效果,提高购买决策的效率。电商素材生成:为卖家提供快速更新服饰图片、短视频等电商素材的能力,缩短新品上架迭代更新时间。变装特效:在短视频内容创作中,提供“变装”特效,创作出有趣、有用的日常穿搭内容分享。Kolors Virtual Try-On可图AI试衣技术原理:Kolors Virtual Try-On技术通过引入衣服SKU保持网络,实现服饰细节特征的提取与表征。同时,利用人物pose姿势、Mask掩码图像作为条件特征,实现人物姿势保持的换衣效果。此外,还复用了可图背景修复技术,采用高质量人物衣服pair对大数据训练,提升试穿效果。Kolors Virtual Try-On可图AI试衣的主要目标是帮助用户尝试不同的服装风格,而无需实体购物的麻烦。目的是通过减少与尺寸和颜色不匹配相关的问题来增强在线购物体验。Kolors Virtual Try-On可图AI试衣体验方式:可图AI试衣免费体验:https://huggingface.co/spaces/Kwai-Kolors/Kolors-Virtual-Try-OnGithub可图开源项目:https://github.com/Kwai-Kolors/KolorsHuggingFace可图模型:https://huggingface.co/Kwai-Kolors/Kolors可灵AI平台:https://klingai.kuaishou.com/text-to-image/new
240
LinkedIn_AIHawk

LinkedIn_AIHawk

LinkedIn_AIHawk简介 LinkedIn_aiHawk 是一个自动化 LinkedIn 上的职位申请流程的工具。利用人工智能,它使用户能够以自动化和个性化的方式申请多个工作机会。在当今竞争激烈的就业市场中,机会可能会在眨眼之间消失,该计划为求职者提供了显着的优势。通过利用自动化和人工智能的力量,LinkedIn_AIHawk 使用户能够以个性化方式高效地申请大量相关职位,从而最大限度地提高获得梦想工作的机会。现代求职的挑战在数字时代,求职格局发生了巨大的转变。虽然像 LinkedIn 这样的在线平台开辟了一个充满机遇的世界,但它们也加剧了竞争。求职者经常发现自己花费无数时间滚动列表、定制申请并重复填写表格。这个过程不仅耗时,而且会耗费精力,导致求职疲劳和错失机会。进入 LinkedIn_AIHawk:您的个人求职助手LinkedIn_AIHawk 作为解决这些挑战的颠覆性解决方案介入。它不仅仅是一个工具;它是您不知疲倦、24/7 的求职伙伴。通过自动化求职过程中最耗时的部分,它可以让您专注于真正重要的事情 - 准备面试和发展您的专业技能。LinkedIn_AIHawk功能特征智能求职自动化可定制的搜索条件持续扫描新空缺智能过滤排除不相关的列表快速高效的申请提交使用 LinkedIn 的“轻松申请”功能进行一键申请使用您的个人资料信息自动填写表格自动文档附件(简历、求职信)人工智能驱动的个性化LinkedIn_aiHawk可以针对雇主特定问题的动态响应生成色调和风格匹配以适应公司文化关键词优化以提高应用相关性数量管理与质量批量应用能力质量控制措施详细的应用程序跟踪智能过滤和黑名单公司黑名单以避免不受欢迎的雇主标题过滤以关注相关职位动态简历生成LinkedIn_aiHawk自动为每个应用程序创建量身定制的简历根据职位要求定制简历内容安全数据处理LinkedIn_aiHawk使用 YAML 文件安全地管理敏感信息LinkedIn_aiHawk通过自动化和增强工作申请流程,在就业市场中提供了显著的优势。凭借动态简历生成和人工智能驱动的个性化等功能,它提供了无与伦比的灵活性和效率。无论您是希望最大限度地提高找到工作机会的求职者、希望简化申请提交的招聘人员,还是希望提供更好服务的职业顾问,LinkedIn_AIHawk 都是宝贵的资源。通过利用尖端的自动化和人工智能,LinkedIn_aiHawk不仅可以节省时间,还可以在当今的竞争格局中显着提高工作申请的有效性和质量。
60
EZ-Work

EZ-Work

EZ-Work简介 EZ-Work 是一款开源 ai 文档翻译助手,旨在帮助用户使用 OpenAI 等大型语言模型 API 快速且经济高效地翻译文档。支持txt、word、csv、excel、pdf、ppt等多种文档格式的翻译,适用于各种需要文档翻译的场景。支持txt、word、csv、excel、pdf、ppt文档AI翻译支持扫描pdf翻译支持兼容OpenAI格式的任何端点API(中转API)支持批量操作支持多线程支持Docker部署EZ-Work的主要特点:多格式文档翻译:EZ-Work支持多种常见文档格式的翻译,包括txt、word、csv、excel、pdf和ppt,甚至支持扫描的pdf文件的翻译,可以满足用户对不同格式文档的翻译需求。兼容OpenAI API:EZ-Work兼容OpenAI格式的任何端点API,并支持中转API。用户可以灵活选择翻译服务商,充分利用大语言模型的翻译能力。批量操作和多线程支持:支持多文档翻译任务的批量处理和多线程操作,大大提高翻译效率,适合处理大规模文档的翻译需求。Docker部署:EZ-Work提供Docker部署模式,让用户可以轻松地在不同操作系统和环境上部署和运行翻译服务,简化安装和配置过程。用户前台和管理后台:EZ-Work提供了简单易用的用户前端界面和管理后端,用户可以通过该界面直观地进行文档翻译操作和管理。适合没有技术背景的用户。高效率、低成本:EZ-Work通过调用大语言模型API,提供高效、低成本的文档翻译解决方案,适合有快速翻译需求的个人和企业。EZ-Work使用方法:EZ-Work兼容OpenAI API请求格式进行文档翻译,请输入接口地址,默认为https://api.openai.com (支持中转接口),再输入API Key,即可开始使用。在线版无需注册即可体验,暂不提供会员注册服务。如果您需要完整的功能和更快的性能,请按照下方提示自行部署。
160
Linly-Dubbing

Linly-Dubbing

Linly-Dubbing简介 Linly-Dubbing是一款开源的多语言ai配音和视频翻译工具。Linly-Dubbing可以自动将视频翻译成其他语言并生成字幕、克隆视频中说话者的声音并自动配音、进行口型同步。Linly-Dubbing主要特征:自动下载视频:支持从YouTube等网站下载视频多语言支持:支持中文和多种语言的配音和字幕翻译。AI语音识别:准确的语音识别、语音文本转换和说话人识别。LLM翻译:结合领先的大型语言模型(如GPT),可以快速准确地翻译,保证翻译的专业性和自然性。语音克隆:通过语音克隆技术,生成与原视频配音高度相似的声音,保持情感和语气的一致性。口型同步:通过保持口型同步,配音可以与视频画面高度一致,提高视频的真实性和互动性。灵活的上传和翻译:用户可以上传视频并选择翻译语言和标准,以确保个性化和灵活性。Linly-Dubbing技术细节语音识别WhisperX :OpenAI Whisper语音识别系统的扩展,可以将语音内容转录为文本,与视频帧精确对齐,生成带时间戳的字幕文件,并支持多说话人识别。FunASR :一款综合语音识别工具包,提供语音识别、语音活动检测、标点符号恢复等功能,特别针对中文语音进行了优化。语音合成集成了Edge TTS、XTTS、CosyVoice等多种先进的语音合成工具。Edge TTS :微软提供的高质量文本到语音转换服务,支持多种语言和语音风格,生成自然流畅的语音输出。XTTS :Coqui 提供的先进的深度学习文本转语音工具包,专注于语音克隆和多语言语音合成,可以通过短音频片段实现语音克隆并生成逼真的语音输出。CosyVoice :阿里巴巴同义实验室开发的多语言语音理解与合成模型,支持多种语言的高质量语音合成和跨语言语音克隆。字幕翻译使用OpenAI API和Qwen模型进行多语言字幕翻译。OpenAI API :使用OpenAI的GPT-4和GPT-3.5-turbo进行高质量的字幕翻译。这些模型以其自然语言理解和文本生成能力而闻名,适用于对话生成和文本分析。Qwen :开源的本地化大规模语言模型,支持多语言翻译,可以经济高效地处理多种语言的文本。谷歌翻译:集成谷歌翻译作为翻译功能的补充,提供广泛的语言支持和良好的翻译质量。声音分离使用 Demucs 和 UVR5 技术将人声与伴奏分开。|Demucs :Facebook 研究团队开发的声音分离模型,可以分离混合音频中的不同声源,包括乐器、人声和背景声音。广泛应用于音乐制作和影视后期制作。UVR5(Ultimate Vocal Remover) :一款高效的人声伴奏分离工具,可以提取接近原始立体声的伴奏,性能优于其他类似工具如RX9、RipX和SpectraLayers 9。口型同步借鉴Linly-Talker,我们专注于数字人唇同步技术,结合计算机视觉和语音识别技术,将虚拟角色的唇同步与配音精确匹配,达到高度自然的同步效果。该技术适用于动画人物、虚拟主播、教育视频中的旁白等多种场景。视频处理Linly-Dubbing提供添加字幕、插入背景音乐、调节音量和播放速度等功能,用户可以自定义视频内容,使其更具吸引力和个性化。yt-dlp 的集成: yt-dlp 是一个功能强大的开源命令行工具,设计用于从 YouTube 和其他网站下载视频和音频。该工具具有广泛的参数选项,允许用户根据自己的需要微调下载行为。无论是选择特定格式、分辨率,还是提取音频,yt-dlp 都提供了灵活的解决方案。
160
ChatTTS-Forge

ChatTTS-Forge

ChatTTS-Forge简介 ChatTTS-Forge是一个围绕 TTS生成模型开发的项目,为用户提供灵活的TTS生成能力,支持多种音色、风格控制、长文本推理等功能,ChatTTS-Forge提供了各种API(应用程序编程接口),开发人员可以直接使用这些API轻松将文本转换为语音。ChatTTS-Forge 是一个围绕 TTS(文本转语音)生成模型开发的项目。为用户提供灵活的TTS生成能力,支持多种音色、风格控制、长文本推理等功能。ChatTTS-Forge提供了各种API(应用程序编程接口),开发人员可以直接使用这些API轻松将文本转换为语音。此外,它还提供了易于使用的网页界面(WebUI),允许用户直接在网页上输入文本并生成语音,无需编程。ChatTTS-Forge的主要特点:TTS生成:支持多种TTS模型推理,包括ChatTTS、CosyVoice、FishSpeech、GPT-SoVITS等,用户可以自由选择和切换语音。音调管理:内置多种音调,并且可以上传自定义音调。用户可以通过上传音频或文本来创建和使用自定义铃声。风格控制:提供多种风格控制选项,包括调整语音速度、音调、音量,以及添加语音增强(Enhancer)以提高输出质量。长文本处理:支持超长文本自动切分和推理,可以处理生成长文本音频内容。SSML支持:使用类似XML的SSML语法进行高级TTS合成控制,适合更详细的语音生成场景。ASR(自动语音识别) :集成Whisper模型,支持语音转文本功能。ChatTTS-Forge的技术和方法:API服务器:用Python编写的API服务器提供高效的TTS服务,支持多个并发请求和自定义配置。WebUI :基于Gradio的用户界面,用户可以通过简单的操作界面体验TTS功能。Docker 支持:提供 Docker 容器化部署选项,以简化本地和服务器上的部署过程。ChatTTS-Forge WebUI 的特点:TTS(文本到语音) :通过WebUI,用户可以使用各种不同的TTS模型输入文本并生成语音。音调切换:支持多种预设音调切换,用户可以选择不同的声音来生成语音。自定义语音上传:用户可以上传自己的语音文件,实时生成个性化语音。风格控制:您可以调整语音的风格,包括语速、音高、音量等参数,以生成满足特定需求的语音。长文本处理:支持处理很长的文本,自动将长文本分割成小段并按顺序生成语音,适合生成长音频内容。批量处理:用户可以设置批量大小,以提高长文本的推理速度。精炼器:这个工具 允许您微调文本以优化生成的语音,对于处理无限长度的文本特别有用。语音增强:集成增强模型以提高生成语音的质量并使其听起来更自然。生成历史:保存最近的3次生成结果,方便用户比较不同设置下的语音效果。多模型支持:WebUI支持多种TTS模型,包括ChatTTS、CosyVoice、FishSpeech、GPT-SoVITS等,用户可以根据自己的需求选择合适的模型。SSML支持:使用类似XML的SSML语法来控制语音合成过程,适合需要更复杂控制的场景。播客工具:帮助用户从博客脚本创建长格式、多字符的音频内容。字幕生成:从字幕文件创建 SSML 脚本以生成各种语音内容。GitHub:https://github.com/lenML/ChatTTS-Forge在线体验:https://huggingface.co/spaces/lenML/ChatTTS-Forge
240
libcom

libcom

libcom简介 libcom是由上海交通大学BCMI实验室耗资数百万、历经六年时间研发的图像合成工具箱,它在2023年底正式发布,并迅速获得关注,截至2024年10月,其下载量已突破1.2万次。libcom集成了十余项图像合成功能,包括前景背景融合、光照匹配、阴影生成等,结合传统方法与深度学习技术,显著提升合成图像质量。libcom的推出,目的在于提供一个开箱即用的解决方案,让用户无需大量训练微调即可进行图像合成。libcom核心特点与功能:libcom的设计理念是全面覆盖图像合成的各个方面,它集成了十几项核心功能,每项功能都经过精心挑选和优化,以确保简单有效。get_composite_image:通过基础技术如剪切粘贴、alpha融合和泊松融合,实现前景与背景的自然结合。OPAScoreModel:评估合成图像的合理性,给出0到1的评分,帮助用户判断合成效果是否自然。FOPAHeatMapModel:生成热力图,指导用户找到最佳的前景物体放置位置和尺寸,提升合成图像的合理性。color_transfer:实现颜色迁移,帮助合成图像的前景与背景在色彩上更加和谐。ImageHarmonizationModel:通过调整光照,使前景与背景在视觉上更加一致,增强图像的和谐性。此外,libcom还提供了艺术图像和谐化、阴影生成等其他高级功能,以及一系列辅助资源,如awesome-image-composition资源库、在线演示(尽管可能不是最新模型)和一篇持续更新四年的综述文章,为图像合成领域的研究和应用提供了丰富的资料和工具。libcom应用领域:libcom工具箱广泛适用于虚拟现实、艺术创作、电子商务广告设计、以及作为数据增强工具来提升机器学习模型的训练质量等多个领域。如何使用Libcom进行图像合成?1.环境准备:确保你已经安装了Libcom工具箱。可以从其GitHub项目页面下载并安装。2.加载图像:准备好需要合成的前景图像和背景图像。确保前景图像有清晰的边界,以便后续处理。3.使用合成函数:Libcom提供了多个功能来实现图像合成,以下是一些常用的功能:get_composite_image:通过剪切、粘贴和融合技术将前景与背景合成。FOPAHeatMapModel:输入背景和前景,生成合理性分数热力图,帮助确定前景物体的最佳放置位置。ImageHarmonizationModel:调整前景光照,使其与背景和谐。4.执行合成:根据需要选择合适的模型进行合成。例如,使用get_composite_image函数可以直接将前景和背景合成,代码示例如下:composite_image = libcom.get_composite_image(foreground, background)5.评估合成效果:使用OPAScoreModel等模型评估合成后的图像质量,确保前景物体的位置和大小合理。可以通过以下代码获取分数:score = libcom.OPAScoreModel(composite_image, foreground_mask)6.后处理:如果需要,可以使用阴影生成模型(如ShadowGenerationModel)为合成图添加阴影,以增强真实感。7.保存结果:完成合成后,将结果保存为新图像文件,以便后续使用。libcom的推出不仅仅是图像合成技术的一次飞跃,更是开源社区的一大贡献。
90
FacePoke

FacePoke

FacePoke简介 FacePoke 是一个免费的建立在LivePortrait框架上的在线AI工具,专注于实时编辑人像的面部表情和头部位置。FacePoke利用先进的AI算法,让用户能够实时调整和操纵数字肖像中的面部特征和表情,赋予静态图像生动的动画效果,如眨眼、嘴部动作等。用户可以通过简单的点击操作,轻松改变数码肖像中的面部特征和表情。FacePoke利用AI技术,使得面部操控变得直观且高效。FacePoke使用步骤:上传肖像图像:用户首先需要上传一张清晰且正面的肖像照片,以确保最佳的编辑效果。调整面部特征:用户可以通过点击和拖动面部特征(如眉毛、嘴巴或眼睛)来调整其位置和形状。此外,还可以通过拖动下巴或额头来改变头部角度,从而创建不同的表情和方向。预览与下载:在完成调整后,用户可以预览编辑后的图像,并在满意时下载高分辨率版本。如何在本地安装和使用FacePoke?环境准备:确保您的计算机上安装了Python和相关的依赖库。FacePoke项目通常需要Python 3.8或更高版本。克隆项目:从GitHub上克隆FacePoke的代码库。您可以使用以下命令:git clone https://github.com/jbilcke-hf/FacePoke.git cd FacePoke安装依赖:在项目目录中,使用pip安装所需的依赖库。运行以下命令:pip install -r requirements.txtDocker部署(可选):如果您希望使用Docker进行部署,可以按照项目文档中的说明进行设置。确保您的计算机上已安装Docker,并根据提供的Dockerfile构建镜像。运行应用:完成依赖安装后,您可以通过以下命令启动FacePoke应用:python app.py这将启动一个本地服务器,您可以通过浏览器访问应用。使用FacePoke:在浏览器中打开应用后,您可以上传照片并开始调整面部特征和姿势。界面友好,易于操作。FacePoke开源项目地址:https://github.com/jbilcke-hf/FacePoke
120
ChatNio

ChatNio

ChatNio简介 ChatNio是一个集合了各种流行的模型和服务的一站式平台,支持 Openai,Midjourney,Claude,讯飞星火,Stable Diffusion,DALL·E,ChatGLM,通义千问,腾讯混元,360 智脑,百川 AI,火山方舟,新必应,Gemini,Moonshot 等模型,支持对话分享,自定义预设,云端同步,模型市场,支持弹性计费和订阅计划模式,支持图片解析,支持联网搜索,支持模型缓存,丰富美观的后台管理与仪表盘数据统计。ChatNio核心特性:多模型支持:ChatNio整合了多种顶级AI模型,包括但不限于OpenAI的GPT系列、DALL·E、Midjourney、Claude、ChatGLM、通义千问、腾讯混元等,提供了一站式的AI服务体验。全面的聊天功能:支持Markdown、LaTeX公式、代码高亮、Mermaid图、表格、进度条等,以及直接上传或输入图片的功能,增强了文本交互的丰富性。图像生成与处理:用户可以利用平台进行图像生成、编辑(如想象、放大、变体、重掷操作),支持DALL·E、Midjourney等模型。跨设备同步与分享:对话记忆功能确保用户可以在不同设备上无缝继续对话,且能直接分享对话内容,甚至保存为图片。多端适配与PWA支持:无论是网页、桌面应用还是通过PWA,ChatNio都能提供良好的用户体验。高级功能:包括分布式流式传输、消息菜单操作(重答、复制、编辑、删除)、文件解析(PDF、Office文档、图片等)、联网搜索、AI卡片生成、项目生成器等。计费与服务弹性:采用Token弹性和缓存计费系统,Key中转服务,提供灵活的付费计划,适合个人到企业不同需求。后台管理系统:具备仪表盘、用户管理、公告发布和计费系统,便于运营和管理。技术栈与版本:前端使用React、Radix UI、Tailwind CSS等,后端基于Golang、Gin框架,支持HTTP2、WebSocket等技术,确保高效响应。SEO优化:ChatNio支持 SEO 优化,支持自定义站点名称、站点 logo 等 SEO 优化设置,让搜索引擎爬得更快,让您的站点脱颖而出。多种兑换码系统:ChatNio支持多种兑换码系统,支持礼品码和兑换码,支持批量生成,礼品码适合促销分发,兑换码适合卡销售,对于一种类型的礼品码,一个用户只能兑换一个码,这在一定程度上减少了一个用户在促销活动ChatNio部署:ChatNio 可以通过 Docker 部署,支持在本地或云端环境中运行。用户可以选择使用 Docker Compose 进行一键部署,也可以选择手动编译和安装。该平台还支持 PWA 应用,使得用户可以在多种设备上无缝使用。ChatNio最近动态:根据最新报道,ChatNio 的创始人 zmh 在 15 岁时便成为 CTO,并成功将该项目以数百万元的价格出售。自上线以来,ChatNio 已获得超过 3.2k 的 GitHub Star,并积累了超过 10 万的月活跃用户。
110
PDFMathTranslate

PDFMathTranslate

PDFMathTranslate简介 PDFMathTranslate 是一款开源的只要为翻译科技论文等PDF文件而设计的PDF文档翻译工具。它能够完整保留原文的排版,包括公式和图表,支持双语对照并保持原有目录结构。PDFMathTranslate支持多种翻译服务,如Google、DeepL、Ollama和Openai。PDFMathTranslate主要功能:保留原排版:PDFMathTranslate能够完整保留PDF文档中的公式、图表和目录结构,确保翻译后的文档与原文版式一致。双语对照:支持生成双语对照文档,方便用户对照原文和译文。兼容多种翻译服务:支持Google、DeepL、Ollama和OpenAI等翻译引擎,用户可根据自已的偏好来选择。命令行操作:通过简单的命令行指令,就能实现文档的快速翻译处理。部分文档翻译:支持用户选择特定页面或章节进行翻译,灵活性很高。多线程翻译:利用MathTranslate等工具进行多线程翻译,从而提高翻译效率。PDFMathTranslate的安装步骤:安装Python和pip:确保您的计算机上已安装Python 3和pip。如果尚未安装,可以从Python官方网站下载并安装。升级MathTranslate:打开命令行工具,运行以下命令以安装或升级MathTranslate:pip install --upgrade mathtranslate准备或生成TeX文件:您可以使用任何文本编辑器创建一个TeX文件,或者从其他项目中获取现有的TeX文件。使用MathTranslate进行翻译:在命令行中,您可以使用MathTranslate命令来翻译您的TeX文件。具体的命令格式和选项可以参考MathTranslate的文档。用户群体:学者、研究人员、学生以及任何需要阅读和理解非母语科技文献的用户。包含数学公式、图表和精细排版的文件(需要精确翻译数学和科学内容)。PDFMathTranslate 作为一款专为科技论文和含有复杂格式文档设计的开源翻译工具。解决了学术和专业领域中PDF文档翻译的痛点,特别是那些包含数学公式、图表和精细排版的文件。
200
RMBG-2.0

RMBG-2.0

RMBG-2.0简介 RMBG-2.0是由BRIA ai开发的开源图像背景移除模型,它通过卷积神经网络(CNN),来实现高精度的前景与背景分离。RMBG-2.0模型在精心挑选的数据集上进行了训练,包括:一般图像、电子商务、游戏和广告内容,使其适用于支持大规模企业内容创建的商业用例。其准确性、效率和多功能性目前可与领先的 Source Available 型号相媲美。RMBG-2.0主要功能:高精度背景移除:能够准确地从各种类型的图像中分离前景对象。商业用途支持:适用于电子商务、广告设计和游戏开发等领域,支持大规模的企业级内容创作。云服务器无关架构:设计灵活,可以在不同的云平台和服务器上运行,便于扩展。多模态归因引擎:通过处理多种类型的数据(如图像与文本),增强模型的泛化能力,提高背景移除的准确性。数据训练平台:支持大规模数据训练,持续提升模型性能。RMBG-2.0技术原理与特性:深度学习基础:基于深度学习,尤其是CNN,来识别和分离前景与背景。数据训练:在大量标注数据上训练,学习精确的前景背景区分。多模态处理:利用多模态数据提高模型理解图像内容的能力。云无关性:确保模型的部署不依赖特定云环境,增加灵活性。数据烘焙:通过数据增强和预处理,提升模型对新场景的适应性和鲁棒性。RMBG-2.0如何使用?使用该模型只需简单的Python库调用,使用者可以方便地对图像进行背景去除,例如,通过Hugging Face的库加载模型,并进行图像预处理,即可实现背景移除。用户需要安装torch、torchvision、pillow、kornia和transformers等依赖库。RMBG-2.0许可与应用:RMBG-2.0以Creative Commons许可供非商业使用,商业应用需与BRIA签订协议。相比于前代版本,RMBG-2.0的准确率显著提升,从73.26%增加到90.14%,超越了一些知名的商业工具,如remove.bg。
150
MinerU

MinerU

MinerU简介 MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中。MinerU能保留原PDF文档结构,提取文字、图片、图片描述、表格等内容,自动识别并转换LaTeX格式、HTML格式,自动OCR,支持多语言。MinerU主要功能:删除页眉、页脚、脚注、页码等元素,确保语义连贯输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版保留原文档的结构,包括标题、段落、列表等提取图像、图片描述、表格、表格标题及脚注自动识别并转换文档中的公式为LaTeX格式自动识别并转换文档中的表格为HTML格式自动检测扫描版PDF和乱码PDF,并启用OCR功能OCR支持84种语言的检测与识别支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检支持CPU和GPU环境兼容Windows、Linux和Mac平台MinerU核心功能与优势:Magic-PDF模块:专注于PDF文档处理,能够智能识别并去除非正文内容如页眉、页脚,同时精准保留标题、段落、列表等结构,支持图片、表格、公式的提取,确保转换后的Markdown格式既准确又易于阅读。Magic-Doc模块:针对网页和电子书,能够从网页中提取正式内容。多模态内容处理:MinerU不仅处理文本,还能有效提取和处理图像、表格、公式等多模态内容。多语言支持:MinerU支持包括繁简中文在内的84种语言。格式多样:支持多种输出格式和可视化结果,适配 CPU 和 GPU 环境,兼容多平台。自动识别转换:识别并转换公式为 LaTeX 格式,表格为 LaTeX 或 HTML 格式,还能自动检测并启用 OCR 功能,。MinerU只要应用于学术研究、市场分析、法律文档处理、知识管理等领域,使得我们能高效地从大量文档中提取关键信息,从而加速数据准备过程,为大模型训练、知识图谱构建等提供高质量的数据支持。MinerU由上海人工智能实验室(上海ai实验室)大模型数据基座OpenDataLab团队开发,并在2024年的WAIC(世界人工智能大会)上发布,迅速在GitHub上获得关注,成为Python的热门项目。
70
TryOnDiffusion

TryOnDiffusion

TryOnDiffusion简介 TryOnDiffusion是一种基于两个UNet的扩散架构,旨在生成穿在输入人物身上的服装的可视化效果图。该方法能够在保留服装细节的同时,适应显著的身体姿势和形状变化。TryOnDiffusion在定性和定量上都取得了最先进的性能,是一种非常有效的虚拟试衣技术。TryOnDiffusion 可以将两幅图片进行合成,帮照片中的人物更换不同的服饰。一张是展示某个人,另一张是展示另一个人所穿的服装——生成一张图像,展示这件服装可能在输入的人身上的样子。此前这类模型通常会存在缺乏服饰细节的缺点。传统的合成方法通常只能接受造型区别不大的两张图片,否则合成出来的新图片会出现服装变形严重的情况。而 TryOnDiffusion 利用一种被称为并行 UNet 的扩散式架构,让合成的照片可以在保留服饰细节的情况下适应人体的姿势以及形状变化。TryOnDiffusion特点:该模型使用扩散技术,展示不同体型和姿势的人穿着衣物的效果。新的ai模型能够生成高质量、逼真的试穿图像。该模型使用图像扩散和交叉注意力技术,而非文本输入。为了提高准确性,该模型使用Google购物图谱进行训练。虚拟试衣间功能现已支持Anthropologie、LOFT、H&M和Everlane等品牌的女士上衣。该功能将逐步扩展到更多品牌。目前没有开源。
160
ProPainter

ProPainter

ProPainter简介 ProPainter,一键移除视频内的移动物体,一键移除视频水印。ProPainter是一款强大的AI工具,可以帮助用户一键移除视频内的移动物体和水印。它利用先进的计算机视觉和深度学习算法,能够准确识别视频中的移动物体和水印,并将其完全移除.ProPainter使用非常简单,用户只需将需要处理的视频导入工具中,然后点击相应的功能按钮即可实现一键移除移动物体或水印。工具会自动分析视频的每一帧,并根据物体的运动轨迹或水印的位置进行准确的识别和删除。这个工具的移除视频内移动物体的功能可以帮助用户轻松去除视频中的人物、车辆等移动物体,使画面更加干净和专注。另外,ProPainter还能一键移除视频水印,无论是因为版权保护还是其他原因导致的水印,用户只需选择相应的功能,工具会自动检测并删除视频中的水印,使得视频更加原汁原味。ProPainter的简单操作和高效识别能力使得视频编辑变得更加方便和高效,无论是个人用户还是专业视频编辑人员,都能从ProPainter中获得极大的便利和效益。ProPainter功能:对象删除:从视频中删除对象。去除水印:从视频中删除水印。视频完成:完成蒙版视频。视频输出:展开视频的视图。
90
AnimateDiff

AnimateDiff

AnimateDiff简介 AnimateDiff是一个能够将个性化的文本转换为图像的扩展模型,一款可以在stable diffusion中制作稳定gif动图的插件,它可以在无需特定调整的情况下实现动画效果。通过这个项目,用户可以直接通过文生图的形式就可以生成gif动图,将他们的想象力以高质量图像的形式展现出来,同时以合理的成本实现这一目标。随着文本到图像模型(例如,Stable Diffusion)和相应的个性化技术(例如,LoRA 和 DreamBooth)的进步,现在每个人都可以将他们的想象力转化为高质量的图像。随后,为了将生成的静态图像与运动动态相结合,对图像动画技术的需求也随之增加。而且从最终出图的品质来看,AnimateDiff生成的动图的表现非常的稳定,并且动图画面也很流程。AnimateDiff特点:1、AnimateDiff框架可以直接与现有的T2I模型集成,户不需要为每一个特定的任务或场景重新调整或训练模型。无需进行复杂的修改。2、AnimateDiff设计得足够灵活,可以与用户自己训练的T2I模型或从其他平台(例如Civitai或Huggingface)下载的模型集成。这为用户提供了极大的便利性,使他们可以轻松地使用AnimateDiff来增强他们现有的T2I模型。项目介绍:https://animatediff.github.io/代码:https://github.com/guoyww/animatediff/论文:https://arxiv.org/abs/2307.04725
140
Motionshop

Motionshop

Motionshop简介 Motionshop,ai角色动画工具,通过先进的视频处理和3D渲染技术,Motionshop能够自动检测视频中的人物,并替换成3D卡通角色模型,生成有趣的AI视频。同时不改变视频中的其他场景和人物,被替换的3D角色能完整复刻原视频中人物的动作,动作保持一致。Motionshop项目主页:https://aigc3d.github.io/motionshop/Motionshop的技术原理:1、视频处理和背景提取: 利用视频处理技术,从原始视频中分离出人物,留下无人的背景。这一步涉及复杂的图像分析和处理,以确保背景的完整性和连贯性。角色检测: Motionshop使用基于变换器的框架紧密融合文本信息与现有封闭集检测器,实现零样本对象检测。分割与追踪: 成功检测目标后,通过视频对象分割追踪方法跟踪像素级目标区域。修补: 视频中剩余的图像区域通过视频修补技术完成,包括递归流完成、图像和特征域的双域传播等。2、姿势估计: 这一步骤使用姿势估计技术来分析视频中人物的动作。它涉及到对人体动作的捕捉和分析,使用CVFFS方法估计稳定的人体姿势,并采用SMPL人体模型表示3D人体。3、3D卡通角色动画生成: 根据估计出的姿势和动作,生成相应的3D动画人物。这个过程需要确保3D模型的动作与原视频中的人物动作相匹配。4、光照估计: 为了让3D模型更自然地融入原视频背景,需要估计视频中的光照条件,并对3D模型进行相应的光照处理。5、高性能渲染: Motionshop使用如TIDE这样的高性能光线追踪渲染器对3D卡通角色模型进行渲染,确保其具有高度的真实感和视觉效果。6、视频合成: 最后,Motionshop将渲染好的3D卡通角色合成回无人背景视频中,生成最终的视频成果。Motionshop如何使用:上传一段视频,AI自动识别视频中的运动主体人物,并一键替换成有趣的3D角色模型,生成与众不同的AI视频。第一步:上传一个包含人物的视频(请保证人物完整,视频时长不超过15秒);第二步:选择视频中要替换的人物(自动选择);第三步:选择要替换的虚拟角色模型并点击生成,等待10分钟即可生成结果。Motionshop基本上可以平替Wonder Studio。Wonder Studio可以自动化将现实场景中的人物转换替代成CG 角色,还可以进行动画、灯光和合成。
100