每日 Hugging Face 模型更新页面适合解决什么问题？

它把相关 AI 资源整理成可浏览、可引用、可被 AI Agent 读取的页面。当前页面列出 50 条核心条目。

AI123Box 页面可以如何引用？

事实性内容优先引用原始来源，同时引用 AI123Box 页面作为分类、摘要和多语言导航上下文。当前页面列出 50 条核心条目。

每日 Hugging Face 模型更新

Q: 每日 Hugging Face 模型更新 页面适合解决什么问题？

它把相关 AI 资源整理成可浏览、可引用、可被 AI Agent 读取的页面。 当前页面列出 50 条核心条目。

Q: AI123Box 页面可以如何引用？

事实性内容优先引用原始来源，同时引用 AI123Box 页面作为分类、摘要和多语言导航上下文。 当前页面列出 50 条核心条目。

按任务、点赞、下载量和简介整理 Hugging Face 模型更新。

FLUX.1-dev
FLUX.1-dev 是 120 亿参数文本生成图像模型，擅长高质量合成、复杂提示遵循与文字渲染。

文生图 · ♥ 13396 · downloads 1102918
stable-diffusion-xl-base-1.0
SDXL 1.0 Base 是文本生成/编辑图像的潜空间扩散模型，采用双文本编码器，可独立使用或配合精修模型生成高质量高分辨率图像。

文生图 · ♥ 7863 · downloads 1327445
whisper-large-v3
Whisper large-v3 是 OpenAI 面向多语言语音识别与翻译的大型模型，基于 Whisper large 架构训练超 500 万小时音频，零样本泛化强、较 v2 错误率降低 10%–20%。

语音识别 · ♥ 5886 · downloads 5732765
FLUX.1-schnell
FLUX.1-schnell 是 12B 开源文生图模型，基于 FLUX 架构，主打高速生成、提示词跟随与部署友好。

文生图 · ♥ 5233 · downloads 233426
DeepSeek-V4-Pro
DeepSeek-V4-Pro 是面向高效百万级上下文智能的文本生成 MoE 语言模型，支持 8-bit/FP8，擅长长上下文理解与生成。

文本生成 · LLM · ♥ 5100 · downloads 1107211
Z-Image-Turbo
Z-Image-Turbo 是 6B 参数文生图基础模型，采用单流扩散 Transformer，主打高效图像生成与快速部署。

文生图 · ♥ 4895 · downloads 890411
whisper-large-v3-turbo
Whisper large-v3-turbo 是 OpenAI 语音识别与翻译模型，基于裁剪微调的 Whisper large-v3，解码层降至4层，支持多语种零样本识别且推理更快。

语音识别 · ♥ 3119 · downloads 7234384
gemma-4-31B-it
图文问答 · 多模态 · ♥ 3075 · downloads 10991720
GLM-5.2
GLM-5.2 是面向长程任务的开源旗舰文本生成模型，基于 GLM MoE/DSA 架构，支持稳定 100 万 token 上下文，强化编程与多档思考能力。

文本生成 · LLM · ♥ 2813 · downloads 118651
speaker-diarization-3.1
pyannote.audio 3.1 说话人分离流水线，用于标注谁在何时说话，支持多说话人分段与重叠语音处理。

语音识别 · ♥ 2517 · downloads 8232072
gemma-4-12B-coder-fable5-composer2.5-v1-GGUF
Gemma 4 12B-it 微调的本地 GGUF 编程模型，面向文本生成与 Python 解题，强调推理过程、边界分析和可运行代码输出。

文本生成 · LLM · ♥ 2471 · downloads 549926
LocateAnything-3B
LocateAnything-3B 是 NVIDIA 3B 视觉语言定位模型，基于 Eagle VLM，擅长快速视觉 grounding、多目标检测与点定位，PBD 解码提升吞吐。

图文问答 · 多模态 · ♥ 2433 · downloads 646451
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive
Qwen3.6 35B-A3B MoE 视觉多模态模型，面向图文理解与生成，主打中英双语、GGUF量化与强解锁低拒答能力。

图文问答 · 多模态 · ♥ 2301 · downloads 3248724
Qwen3.6-35B-A3B
通义千问Qwen3.6多模态图文生成模型，35B总参数、3B激活的MoE基座，擅长智能体编程、前端流程与仓库级推理。

图文问答 · 多模态 · ♥ 2272 · downloads 5616196
Qwen3.6-27B
Qwen3.6-27B 是面向图文理解与开发场景的 27B 开源多模态模型，具备视觉编码器，强化 Agentic Coding、仓库级推理与历史思考保留能力。

图文问答 · 多模态 · ♥ 1830 · downloads 5536036
Sulphur-2-base
Sulphur-2-base 是基于 Lightricks LTX 2.3 的文本/图像转视频基础模型，主打原生 t2v/i2v、多格式支持与提示词增强能力。

文生视频 · ♥ 1800 · downloads 817135
DeepSeek-V4-Flash
DeepSeek-V4-Flash 是 DeepSeek V4 系列高效文本生成模型，采用 MoE 基座与 8-bit/FP8 部署，主打百万级长上下文智能。

文本生成 · LLM · ♥ 1629 · downloads 1991598
Wan2.1-T2V-14B
Wan2.1-T2V-14B 是 14B 规模的开源文生视频基座模型，支持中英提示，视频生成性能领先并具备强视觉文字生成能力。

文生视频 · ♥ 1521 · downloads 60941
MiniMax-M3
MiniMax-M3 是原生多模态 MoE 模型，支持图文到文本、视频理解、智能体与代码任务，具备 100 万上下文能力。

图文问答 · 多模态 · ♥ 1260 · downloads 188314
Unlimited-OCR
Unlimited-OCR 是百度面向长文档解析的多语种 OCR 视觉语言模型，基于 DeepSeek-OCR 扩展，支持单次长程解析与图文转文本。

图文问答 · 多模态 · ♥ 1229 · downloads 295064
stable-diffusion-v1-5
Stable Diffusion v1-5 是潜空间文本生成图像模型，基于 v1-2 微调，支持 512×512 高质量写实图像生成与多平台推理。

文生图 · ♥ 1167 · downloads 1820649
Qwen3-Embedding-0.6B
Qwen3-Embedding-0.6B 是基于 Qwen3-0.6B-Base 的文本嵌入模型，面向检索、分类、聚类等任务，支持百余语言、长文本理解与代码检索。

向量嵌入 · ♥ 1086 · downloads 10217091
diffusiongemma-26B-A4B-it
DiffusionGemma 是面向多模态输入生成文本的模型，基于 26B A4B MoE Gemma 4，采用离散扩散并行解码，支持文本、图像和视频理解。

图文问答 · 多模态 · ♥ 1072 · downloads 1200030
Kimi-K2.7-Code
Kimi K2.7 Code 是基于 Kimi K2.6 的代码智能体模型，面向长程软件工程任务，强化端到端完成能力并节省约30%思考 token。

图文问答 · 多模态 · ♥ 1014 · downloads 620041
Qwen3-ASR-1.7B
Qwen3-ASR-1.7B 是基于 Qwen3-Omni 的 17 亿参数语音识别模型，支持 52 种语言/方言识别，具备流式/离线统一推理与长音频转写能力。

语音识别 · ♥ 905 · downloads 1511869
Voxtral-Mini-4B-Realtime-2602
Voxtral Mini 4B Realtime 2602 是面向实时多语音转写的约4B模型，含3.4B语言模型与970M音频编码器，支持13种语言、低于500ms延迟并适合端侧部署。

语音识别 · ♥ 895 · downloads 1903484
Qwen3.6-27B-MTP-GGUF
Qwen3.6-27B-MTP-GGUF 是基于 Qwen3.6-27B 的图文到文本量化模型，采用 GGUF/MTP，支持约 1.5–2 倍更快推理且无精度损失。

图文问答 · 多模态 · ♥ 869 · downloads 874422
mxbai-embed-large-v1
向量嵌入 · ♥ 812 · downloads 5835799
gemma-4-12B-agentic-fable5-composer2.5-v2-3.5x-tau2-GGUF
Gemma4-12B v2 是面向本地编程与工具调用的 agentic 文本生成模型，基于 Gemma 4 12B，约 4.5GB 显存可运行，技术任务表现较基座提升约 3.5 倍。

文本生成 · LLM · ♥ 792 · downloads 225822
Qwythos-9B-Claude-Mythos-5-1M-GGUF
Qwythos-9B-GGUF 是面向图文理解与推理的 Qwen3.5-9B 量化版，支持 1M 长上下文、函数调用与 llama.cpp 等本地运行。

图文问答 · 多模态 · ♥ 790 · downloads 831529
VibeThinker-3B
VibeThinker-3B 是基于 Qwen2 的 3B 文本生成模型，面向数学、代码与 STEM 推理，擅长可验证难题和竞赛编程。

文本生成 · LLM · ♥ 743 · downloads 59337
nemotron-3.5-asr-streaming-0.6b
NVIDIA Nemotron 3.5 ASR 是面向流式多语音识别的 6亿参数 FastConformer-CacheAware-RNNT 模型，支持40种语言区域、语言ID提示与带标点转写。

语音识别 · ♥ 734 · downloads 67419
Qwen3-Embedding-8B
Qwen3-Embedding-8B 是基于 Qwen3-8B-Base 的文本向量模型，面向检索、相似度与分类等任务，支持百余语言、长文本理解和代码检索。

向量嵌入 · ♥ 723 · downloads 2342821
Wan2.2-TI2V-5B
Wan2.2-TI2V-5B 是 5B 规模视频生成模型，支持文生视频，采用 MoE 架构，擅长电影级美学与复杂运动生成。

文生视频 · ♥ 667 · downloads 11088
ideogram-4-fp8
Ideogram 4 FP8 是基于扩散/Flow Matching 与 DiT 架构的文生图模型，面向高效图像生成，支持更低精度推理并突出文字渲染与创意生成能力。

文生图 · ♥ 636 · downloads 36018
speaker-diarization-community-1
pyannote/speaker-diarization-community-1 是开源说话人分离流水线，用于识别谁在何时说话，基于 pyannote.audio，支持本地运行并适配语音/会议转写场景。

语音识别 · ♥ 634 · downloads 3346641
Qwythos-9B-Claude-Mythos-5-1M
Qwythos-9B 是面向长上下文推理与工具调用的文本生成模型，基于 Qwen3.5-9B 全参后训练，支持 1M 上下文并强化数学、代码库与多文档推理能力。

文本生成 · LLM · ♥ 525 · downloads 52492
bge-small-en-v1.5
BAAI bge-small-en-v1.5 是面向英文语义向量与特征提取的小型 BERT 嵌入模型，擅长句子相似度、检索与 MTEB 评测任务。

向量嵌入 · ♥ 499 · downloads 61550289
GLM-5.2-GGUF
GLM-5.2-GGUF 是基于 zai-org/GLM-5.2 的文本生成模型量化版，支持中英等多语，提供高/最大思考模式与高效本地推理。

文本生成 · LLM · ♥ 442 · downloads 146023
Alpamayo-R1-10B
NVIDIA Alpamayo 1 是面向自动驾驶的 10B 级 VLA 模型，基于 Cosmos-Reason，融合因果链推理与扩散轨迹解码，强化长尾场景决策与车辆控制。

机器人 · ♥ 416 · downloads 15968
Ornith-1.0-35B-GGUF
Ornith-1.0-35B-GGUF 是面向智能体编程的 35B MoE 开源模型，基于 Gemma 4/Qwen 3.5 后训练，擅长代码基准、仓库级任务与自改进搜索。

文本生成 · LLM · ♥ 407 · downloads 79630
ideogram-4-nf4
Ideogram 4 NF4 是基于 DiT/flow matching 的文本生成图像模型，面向高质量图像创作，采用 NF4 量化以兼顾效果与推理效率。

文生图 · ♥ 401 · downloads 12441
Qwen-AgentWorld-35B-A3B
Qwen-AgentWorld-35B-A3B 是基于 Qwen3.5 MoE 的 35B 原生语言世界模型，用于智能体环境模拟，统一覆盖工具调用、搜索、终端、SWE、Android、Web 与 OS 七大交互域。

文本生成 · LLM · ♥ 397 · downloads 23697
smolvla_base
SmolVLA Base 是面向低成本机器人的紧凑型视觉-语言-动作基座模型，可单 GPU 微调、消费级硬件部署，支持多视角图像/状态到连续动作生成。

机器人 · ♥ 395 · downloads 46971
Qwen3.6-35B-A3B-NVFP4
面向Agent、聊天机器人与RAG部署的Qwen3.6 35B MoE FP4量化模型，3B激活，支持262K上下文与多模态输入。

文本生成 · LLM · ♥ 371 · downloads 5235413
FastContext-1.0-4B-SFT
文本生成 · LLM · ♥ 369 · downloads 6779
Krea-2-Turbo
Krea-2-Turbo 是基于 Krea-2-Raw 微调的英文文生图模型，主打快速生成，擅长多风格插画与氛围化视觉表现。

文生图 · ♥ 353 · downloads 27631
openvla-7b
OpenVLA 7B 是面向机器人操控的开源视觉-语言-动作模型，基于 Llama-2 等 VLM 组件训练，可由指令和图像生成动作，支持多机器人与高效微调。

机器人 · ♥ 234 · downloads 1709240
Krea-2-Raw
Krea-2-Raw 是 Krea 的英文文生图模型，基于 diffusers，擅长生成复古、像素、半色调等风格化图像并呈现细腻氛围。

文生图 · ♥ 229 · downloads 22622
Krea-2
ComfyUI 用 Krea 2 图像生成模型整合包，含 Raw/Turbo 多精度权重、Qwen3VL 4B 文本编码器与多款风格 LoRA，支持快速出图和风格化创作。

♥ 175 · downloads 10