通过照片+音频输入生成视频
开源构建 AI Agent/Assistant 框架和 API
视频生成应用Dream Machine API
腾讯混元文生图模型
开源图像和视频生成模型
在 iPhone 上通过快捷命令实现 Llama3、GPT等模型对话
具有音频理解能力的音频基础模型
用 Claude 3.5 制作的网页版冒牌 macOS,所有代码都是 Claude 编写的
基于企业私有数据构建 AI 的开源平台
Perplexity Pages 开源平替!可浏览网络生成长达几万字的长篇文章/研究论文
比肩GPT4V的开源多模态模型,基于基于Llama3-8B
基于GPT4o的验证码解决工具
开源AI 数据源解析工具
通过代码进行视频编辑的开源框架,很适合在有视频编辑需求的应用中集成
计算机视觉工具集
微软开源的使用 LLMs从非结构化文本中提取有意义的结构化数据项目
基于ML和LLM的开源数据处理系统,用于从各种文档和图像中高效提取和处理数据
可自建的AI搜索引擎,支持本地或云端LLM
AI语义搜索本地素材
构建基于 AI 虚拟化身的工具套件
根据文件内容对文件名智能重命名工具
使用LLM从非结构化数据构建 Neo4j 图
本地语音助手,基于Ollama, Hugging Face Transformers, Coqui TTS Toolkit
集成了20+ 高性能LLM,具有用于大规模预训练、微调和部署的能力
从单个图像生成高质量和高效的3D网格
24/7 全天候录制您的屏幕和麦克风并将其连接到 LLM,类似 Windows Recall,rewind.ai
复旦开源的根据音频和图片生成说话视频的项目
阿里巴巴开源的多语言大语音生成模型,提供推理、训练和部署全栈能力
产品化程度较高的开源 RAG 引擎
基于gpt-4o-mini 的OCR工具
面向 AI Agent 的工具集
AI辅助生成、修复和扩展Wordpress插件
基于PaddleOCR重构的轻量级OCR工具,推理速度是PaddlePaddle框架的5倍
李笑来老师团队开发的英语AI学习软件
开源AI搜索引擎
交互式学习文本生成模型的工具,可实时观察Transformer模型内部组件如何协同工作来预测下一个词
个性化 AI 的记忆层,爆火应用Dot背后核心的技术
开源AI故事可视化工具
来自CAMB.AI的开源TTS模型,只需 5 秒的音频和文本,就可以生成对应文本语音
构建Agent工作流的开源框架
AI吟美-人工智能主播-Vtuber
提示词创建和评估工具
使用视觉大语言模型(如 GPT-4o)将 PDF 解析为 markdown
智能视频多语言AI配音/翻译工具
基于Prompt的 Python Web 应用程序生成器
开源AI 生产力工具
音视频转结构化笔记系统,能够快速提取音视频内容,调用大模型整理成markdown文件
AI 音乐播放器,AI 版网易云音乐
基于知识图谱的AI智能体,推动李白文化的数字化普及与推广,提供古诗词问答与鉴赏体验
在Azure上一键部署GraphRAG
心理大模型
自动视频生成器,给定主题,自动生成解说视频
只需一张照片,实现实时换脸和一键视频 deepfake
自动识别出相册中图像文件的元信息,然后借助RAG技术,实现了与相册对话的能力
基于Llama 3.1的AI个人辅导工具
基于GPT-4o 的漫画翻译器
在 cursor 中针对常见编程框架和语言优化的Prompt 配置规则
牛津大学开源的世界首个用于自动研究和开放式发现的 “AI 科学家”