开源音乐生成模型,能够对各种流派/语言/人声技术进行建模
AI 写作助手,帮助用户组织写作风格提示词,并发送给大型语言模型生成内容
AI 赋能的、强大的、开源有声书工具集
开源 AI 网页自动化工具,OpenAI Operator 的开源平替
将 DeepSeek-R1 推理过程传递给 Claude 使用,输出更高质量的内容
基于CLIP模型的图片智能组织和搜索应用
接近真实人声的TTS模型,无需预先微调即可克隆语音
开源AI深度搜索引擎
从任何文本中提取知识图谱的AI工具
很有野心和创意的AI生活助手。使用 Meta Aria 眼镜收集数据,EgoGPT 实时理解在做什么,EgoRAG 存储、整理和检索信息
端到端多模态 SVG 生成模型,能够生成从简单的图标到复杂的动漫角色的矢量图
Transformer架构LLM推理优化框架,提供类似ChatGPT的Web UI,兼容OpenAI 和 Ollama 的 RESTful API
Zyphra开源的文本转语音(TTS)模型,仅需5秒的样本音频即可克隆用户声音
Grok3 非官方API,类似项目:grok2api
大模型数据爬取工具集
AI 总结网站服务条款,突出显示任何可能值得关注的条款
开源 AI Agent工作流构建器,用于构建、测试和优化代理工作流程
跨平台的通用 OCR 引擎
使用AI大模型,一键生成高清故事短视频
基于AI大模型的视频翻译和配音工具
AI驱动的自托管实时会议笔记记录器和会议记录摘要生成器
本地深度研究AI助手,支持主流LLM搜索和 Web 搜索执行深入迭代分析
使用微信聊天记录微调大语言模型,使用微信语音消息实现高质量声音克隆,实现自己的数字分身
开源Deep Researcher 工具
一键将SVG转换为3D模型
深度搜索Agent,执行深度Web 搜索并生成问题的综述
Manus 开源替代
开源浏览器Agent,可自主执行 Web 复杂任务
学术论文阅读伴侣应用程序,集成了PDF处理、AI翻译、RAG检索、AI问答和语音交互等多种功能
超逼真对话式语音合成模型,1.6B 参数,目前只支持英文
实现Claude控制Ableton Live,直接使用自然语言提示词创作音乐
基于LLM的高效文本转语音模型,支持支持零样本语音克隆
通过MCP为Cursor等AI编程工具提供Figma设计文件,从设计图直接生成代码
开源数据引擎,同时支持自定义转换逻辑和专门用于数据索引的增量更新
开源RAG系统,可以为任何主题创建AI 问答助手
支持在私有数据进行深度推理分析、搜索的工具,支持主流推理大模型和向量数据库
为微信OCR功能提供跨语言调用接口的开源项目
社交媒体AI机器人管理平台,每个机器人都可以拥有自己独特的个性、声音和行为
AI数字分身模型,训练你的数字分身
Google 开源的多模态医疗模型,可以根据医学影像和病历描述生成诊断报告
公司调研的Agent框架,从各种数据源收集公司数据,生成全面的公司研究报告
AI驱动会议记录和摘要工具
AI Web搜索引擎大汇总
AI 每日新闻简报,通过抓取数百个来源,提供简洁、个性化的每日简报来消除新闻噪音
多 AI Agent 框架,创建各类 AI Agent,实现任务自动化和解决各种问题
AI浏览器助手,允许用户使用自然语言命令来控制浏览器
开源AI自动化工具,原理类似按键精灵
将非结构化文本转为可视化可交互的知识图谱的AI工具
根据论文自动生成学术海报
微软开源的AI量化投资平台
让 AI 能够以结构化的方式浏览和操作网页的MCP Searver
开源音频基础模型,在音频理解、生成和对话方面表现出色
让Agent使用语义搜索搜索任何应用程序,以将其内容转换为Agent可搜索理解的知识
开源文本转语音工具,支持超长文本,多角色配音
把微信的 OCR 功能提取出来做 Docker 服务,v2ex.com/t/1120897
事物描述多模态模型,指定图像或视频中某个特定区域,自动生成详细描述
无限长电影生成模型
开源Agentic 浏览器,可在本地运行 AI, Dia 、Perplexity Comet 的开源隐私优先替代方案
爬取某个网站并将其用作 MCP 服务器
AI将手绘2D 草图,一键转换为 3D 模型