开源文本生成音乐
开源Vision-Language (VL)模型,旨在实现真实世界的视觉语言理解
你的动漫女友,CharacterAI 的开源替代
与AI无缝语音对话(超低延迟)
根据用户的喜好创建个性化报纸,能够根据个人口味和兴趣来策划、撰写、设计和编辑内容
ChatGPT插件WebPilot作者开发的浏览器插件版本,能集成到浏览器基于当前网页完成各种任务
Android端Stable-diffusion-webui客户端
使用大数据模型逆向工程二进制文件
效果并肩Magnific AI 的开源的图片放大工具
开源 Sora AI 视频生成器模板,Sora API 发布后可快速替换上线
基于AI的视频硬字幕去除、水印去除,无损分辨率生成去字幕、去水印后的视频文件
使用GPT-3.5和GPT-4处理MIT开放式课程网站等公开课程,并将RAG技术应用于Wikipedia 生成的免费教材
将LLM编码能力转换为LLM图像生成(图像合成)能力
服务于群聊的LLM。支持飞书、微信(有风险)、企业微信
基于GPT等大语言模型的长篇小说生成器
开放TTS语音合成引擎大全
图文多模态大模型,能够在自由形式的输入下进行图文创作和理解
虚拟试衣
经过精心优化的终极语音克隆工具
基于 ChatTTS 的 Colab 项目,一键部署(含离线整合包)
Kaggle AI生成文本检测竞赛第一名方案
开源图像标注模型,对训练的内容和标签没有任何过滤和审查
500行代码实现类似 Perplexity 的生成式搜索引擎
使用LLMs 和计算机视觉技术(GPT-4V)实现浏览器自动化操作工作流
一步完成将一张图片转换成另一张风格或特征的图片
自动分析视频,提取最有趣的部分,并对其进行裁剪以改善观看体验
开源AI搜索引擎
开源浏览器自动化操作Agents
使用日常设备在家中运行自己的人工智能集群
OpenAI Sora资源大汇总
北大-兔展AIGC联合实验室实现开源 Sora的 Open-Sora 计划
好用的PC端的语音输入工具
通过摄像头将任何一张纸变成一架钢琴
“Do Anything Now” 论文中使用的 15,140 个 ChatGPT 提示
Windows Recall/Rewind.ai的开源替代
一体化端到端的 OCR 模型,可以处理各种复杂OCR任务
开源金融大模型
Android 开源、离线实时翻译应用,外语沟通神器
AI音频制作工具,支持语音克隆、LLM 预处理、RVC 增强和自动评估等
将 ArXiv.org 论文转为音频/视频
开源AI对冲基金
OpenAI Strawberry(o1) 和推理技术大汇总
ChatTTS资源大全,免费体验地址,音色库等
用于对科学文献 PDF 或文本文件进行高精度检索增强生成 (RAG) 的软件包
开源AI Agent平台,用于金融应用的大型语言模型
收集AI科技领域高质量信息源,避免信息差和信息茧房
开发大语言模型程序框架
将 nanoGPT 架构的完整推理用一个电子表格来实现,帮助更好了解 GPT 的工作原理
基于Stable Diffusion的文字转动画模型AnimateDiff的官方实现
使用 LLM校正来增强扫描 PDF 的 Tesseract OCR 输出
简易语音工具箱,提供了包括语音模型训练在内的多种自动化音频工具
适用于 Windows、MacOS 和 Ubuntu 的 GPT-4o
基于 Llama-3.1 70b on Groq 实现类似 OpenAI o1推理链的开源项目
微软Azure开源的自动为项目生成多语言翻译的工具
集导演、编剧、制片人和视频生成器于一体的Agent视频生成
大模型Token价格计算器
适用于 Apple Silicon 的 Whisper 语音识别模型的设备端推理工具
语音处理工具箱,支持本地语音识别、语音合成、说话人识别、VAD、声音事件检测、语种检测等
实时交互流式数字人,实现音视频同步对话。基本可以达到商用效果