快速筛选

回家地址： judh.pages.dev | rentry.org/judh | judh.top

AI其他

开源文本生成音乐

开源Vision-Language (VL)模型，旨在实现真实世界的视觉语言理解

你的动漫女友，CharacterAI 的开源替代

与AI无缝语音对话（超低延迟）

根据用户的喜好创建个性化报纸，能够根据个人口味和兴趣来策划、撰写、设计和编辑内容

ChatGPT插件WebPilot作者开发的浏览器插件版本，能集成到浏览器基于当前网页完成各种任务

Diffusion-Client

Diffusion-Client

Android端Stable-diffusion-webui客户端

使用大数据模型逆向工程二进制文件

Clarity-Upscaler

Clarity-Upscaler

效果并肩Magnific AI 的开源的图片放大工具

开源 Sora AI 视频生成器模板，Sora API 发布后可快速替换上线

Video-subtitle-remover

Video-subtitle-remover

基于AI的视频硬字幕去除、水印去除，无损分辨率生成去字幕、去水印后的视频文件

使用GPT-3.5和GPT-4处理MIT开放式课程网站等公开课程，并将RAG技术应用于Wikipedia 生成的免费教材

将LLM编码能力转换为LLM图像生成（图像合成）能力

服务于群聊的LLM。支持飞书、微信（有风险）、企业微信

基于GPT等大语言模型的长篇小说生成器

Open TTS Tracker

Open TTS Tracker

开放TTS语音合成引擎大全

InternLM-XComposer

InternLM-XComposer

图文多模态大模型，能够在自由形式的输入下进行图文创作和理解

虚拟试衣

经过精心优化的终极语音克隆工具

基于 ChatTTS 的 Colab 项目，一键部署（含离线整合包）

Kaggle AI生成文本检测竞赛第一名方案

开源图像标注模型，对训练的内容和标签没有任何过滤和审查

Search with Lepton

Search with Lepton

500行代码实现类似 Perplexity 的生成式搜索引擎

使用LLMs 和计算机视觉技术（GPT-4V）实现浏览器自动化操作工作流

一步完成将一张图片转换成另一张风格或特征的图片

AI-Video-Cropper

AI-Video-Cropper

自动分析视频，提取最有趣的部分，并对其进行裁剪以改善观看体验

开源AI搜索引擎

开源浏览器自动化操作Agents

使用日常设备在家中运行自己的人工智能集群

开源 Sora AI 视频生成器模板，Sora API 发布后可快速替换上线

Awesome Open AI Sora

Awesome Open AI Sora

OpenAI Sora资源大汇总

北大-兔展AIGC联合实验室实现开源 Sora的 Open-Sora 计划

CapsWriter-Offline

CapsWriter-Offline

好用的PC端的语音输入工具

通过摄像头将任何一张纸变成一架钢琴

In-The-Wild Jailbreak Prompts on LLMs

In-The-Wild Jailbreak Prompts on LLMs

“Do Anything Now” 论文中使用的 15,140 个 ChatGPT 提示

Windows Recall/Rewind.ai的开源替代

一体化端到端的 OCR 模型，可以处理各种复杂OCR任务

开源金融大模型

Android 开源、离线实时翻译应用，外语沟通神器

AI音频制作工具，支持语音克隆、LLM 预处理、RVC 增强和自动评估等

将 ArXiv.org 论文转为音频/视频

开源AI对冲基金

Awesome LLM Strawberry (OpenAI o1)

Awesome LLM Strawberry (OpenAI o1)

OpenAI Strawberry(o1) 和推理技术大汇总

Awesome-ChatTTS

Awesome-ChatTTS

ChatTTS资源大全，免费体验地址，音色库等

用于对科学文献 PDF 或文本文件进行高精度检索增强生成 (RAG) 的软件包

开源AI Agent平台，用于金融应用的大型语言模型

Awesome-AISourceHub

Awesome-AISourceHub

收集AI科技领域高质量信息源，避免信息差和信息茧房

开发大语言模型程序框架

Spreadsheet Is All You Need

Spreadsheet Is All You Need

将 nanoGPT 架构的完整推理用一个电子表格来实现，帮助更好了解 GPT 的工作原理

基于Stable Diffusion的文字转动画模型AnimateDiff的官方实现

使用 LLM校正来增强扫描 PDF 的 Tesseract OCR 输出

Easy Voice Toolkit

Easy Voice Toolkit

简易语音工具箱，提供了包括语音模型训练在内的多种自动化音频工具

GPT Computer Assistant

GPT Computer Assistant

适用于 Windows、MacOS 和 Ubuntu 的 GPT-4o

基于 Llama-3.1 70b on Groq 实现类似 OpenAI o1推理链的开源项目

co-op-translator

co-op-translator

微软Azure开源的自动为项目生成多语言翻译的工具

集导演、编剧、制片人和视频生成器于一体的Agent视频生成

大模型Token价格计算器

适用于 Apple Silicon 的 Whisper 语音识别模型的设备端推理工具

语音处理工具箱，支持本地语音识别、语音合成、说话人识别、VAD、声音事件检测、语种检测等

metahuman-stream

metahuman-stream

实时交互流式数字人，实现音视频同步对话。基本可以达到商用效果