在浏览器中运行大语言模型
面向视障人士的智能导航与辅助系统,集成了盲道导航、过马路辅助、物品识别、实时语音交互等功能
Calibre的翻译插件,支持Google Translate/ChatGPT/DeepL
多功能的slack bot
GPT-4V 级多模态大模型
使用AI技术来自动生成PPTX,并且支持在线修改和导出PPTX
视频生成模型。支持跨任何域生成视频来模拟世界状态,支持使用自然语言对生成视频进行动态控制
微软开源的基于 LLM 的多智能体人格模拟框架
开源企业搜索平台(分开源版和企业版),Perplexity 企业版和 Glean 平替
阿里巴巴蚂蚁集团开源的AI数字人项目
实时端到端目标检测
实时语音交互数字人,支持端到端语音方案和级联方案
完整保留排版的 PDF 文档全文双语翻译,支持 Google/DeepL/Ollama/OpenAI 翻译
利用Groq和Llama3技术快速构建非小说类书籍
AI 驱动的视频生成工具,一键生成高质量营销视频
智能会议记录与分析工具,能够将音视频内容转换为文本,同时识别不同发言人,生成结构化会议报告
Facebook 开源的图像水印技术,允许在图片中嵌入一个或多个局部化水印信息
AI 加密币交易Agent
能够写真正的论文/报告的GPT
专门为对话场景设计的文本转语音模型
用于 ChatTTS 的Web UI界面项目,提供网页中使用 ChatTTS 合成语音的功能,并支持api接口调用
拍一张餐厅菜单的照片,并为每道菜生成精美的图像
免费开源的屏幕实时翻译工具
使用AI 3D动画任何物品
识别文本是AI生成还是人类生成的快速算法
基于 MusicGen 的音乐改编工具
六爻游戏 + GPT 解读
一个语音生成模型,允许您仅使用3秒的音频片段克隆不同语言的声音
基于Whisper逆向开发的开源语音合成系统,在发音准确性和自然度方面都非常优秀
ChatGPT 驱动的AI电话呼叫中心API
结合了多个OCR引擎(EasyOCR, Tesseract)和LLM的开源OCR,实现对文本更准确的识别
面向SaaS产品的开源 AI Copilot
上传自己的照片生成你的数字孪生
用于高质量视频生成的开放式扩散模型
网易有道开源的语音合成TTS引擎,支持2000种语音,中英双语,能进行情感提示控制
收集了关于AIGC的各种精选教程和资源
LLM 应用开发平台,涵盖了构建生成式 AI 原生应用所需的核心技术栈
为网页自动化Agent提供视觉识别工具的开源库
一个平民版视频翻译工具,音频翻译,翻译校正,视频唇纹合成全流程解决方案
ChatGPT驱动的视频检索和流媒体工具,支持搜索视频内容的任意时刻
上传5到20张自己的半身照,生成一个你的AI数字孪生,类似妙鸭相机
完全可定制的 AI 聊天组件,轻松地将AI聊天机器人嵌入到任何网站中
开源聊天机器人创建平台
从单一图片,生成多张从不同角度看这个物体或场景的图像
模拟相机飞越生成动画视频
开源的基于GPT模型的文档助手,可和任意文档进行聊天
对圣经的内容语义搜索和总结
让视频中的人物的嘴型与输入的声音同步
视频翻译工具,可将一种语言的视频翻译为另一种语言和配音的视频
与 LLM 增强角色进行视频聊天
OpenAI GPTs的开源版本
按照人类指令进行高质量图像恢复
Stability AI 跟Tripo AI 联合推出的3D 生成模型,可以快速生成高质量的 3D 模型
开源copilot平台,支持让 AI根据使用者意图自动化控制网页
人形机器人相关资源汇总
AI程序员 Devin 的开源替代
AI读唇语
基于 Google MediaPipe模型识别手势,并实现手势操控电脑