按任务、点赞、下载量和简介整理 Hugging Face 模型更新。
FLUX.1-dev 是 120 亿参数文本生成图像模型,擅长高质量合成、复杂提示遵循与文字渲染。
文生图 · ♥ 13396 · downloads 1102918
SDXL 1.0 Base 是文本生成/编辑图像的潜空间扩散模型,采用双文本编码器,可独立使用或配合精修模型生成高质量高分辨率图像。
文生图 · ♥ 7863 · downloads 1327445
Whisper large-v3 是 OpenAI 面向多语言语音识别与翻译的大型模型,基于 Whisper large 架构训练超 500 万小时音频,零样本泛化强、较 v2 错误率降低 10%–20%。
语音识别 · ♥ 5886 · downloads 5732765
FLUX.1-schnell 是 12B 开源文生图模型,基于 FLUX 架构,主打高速生成、提示词跟随与部署友好。
文生图 · ♥ 5233 · downloads 233426
DeepSeek-V4-Pro 是面向高效百万级上下文智能的文本生成 MoE 语言模型,支持 8-bit/FP8,擅长长上下文理解与生成。
文本生成 · LLM · ♥ 5100 · downloads 1107211
Z-Image-Turbo 是 6B 参数文生图基础模型,采用单流扩散 Transformer,主打高效图像生成与快速部署。
文生图 · ♥ 4895 · downloads 890411
Whisper large-v3-turbo 是 OpenAI 语音识别与翻译模型,基于裁剪微调的 Whisper large-v3,解码层降至4层,支持多语种零样本识别且推理更快。
语音识别 · ♥ 3119 · downloads 7234384
图文问答 · 多模态 · ♥ 3075 · downloads 10991720
GLM-5.2 是面向长程任务的开源旗舰文本生成模型,基于 GLM MoE/DSA 架构,支持稳定 100 万 token 上下文,强化编程与多档思考能力。
文本生成 · LLM · ♥ 2813 · downloads 118651
pyannote.audio 3.1 说话人分离流水线,用于标注谁在何时说话,支持多说话人分段与重叠语音处理。
语音识别 · ♥ 2517 · downloads 8232072
Gemma 4 12B-it 微调的本地 GGUF 编程模型,面向文本生成与 Python 解题,强调推理过程、边界分析和可运行代码输出。
文本生成 · LLM · ♥ 2471 · downloads 549926
LocateAnything-3B 是 NVIDIA 3B 视觉语言定位模型,基于 Eagle VLM,擅长快速视觉 grounding、多目标检测与点定位,PBD 解码提升吞吐。
图文问答 · 多模态 · ♥ 2433 · downloads 646451
Qwen3.6 35B-A3B MoE 视觉多模态模型,面向图文理解与生成,主打中英双语、GGUF量化与强解锁低拒答能力。
图文问答 · 多模态 · ♥ 2301 · downloads 3248724
通义千问Qwen3.6多模态图文生成模型,35B总参数、3B激活的MoE基座,擅长智能体编程、前端流程与仓库级推理。
图文问答 · 多模态 · ♥ 2272 · downloads 5616196
Qwen3.6-27B 是面向图文理解与开发场景的 27B 开源多模态模型,具备视觉编码器,强化 Agentic Coding、仓库级推理与历史思考保留能力。
图文问答 · 多模态 · ♥ 1830 · downloads 5536036
Sulphur-2-base 是基于 Lightricks LTX 2.3 的文本/图像转视频基础模型,主打原生 t2v/i2v、多格式支持与提示词增强能力。
文生视频 · ♥ 1800 · downloads 817135
DeepSeek-V4-Flash 是 DeepSeek V4 系列高效文本生成模型,采用 MoE 基座与 8-bit/FP8 部署,主打百万级长上下文智能。
文本生成 · LLM · ♥ 1629 · downloads 1991598
Wan2.1-T2V-14B 是 14B 规模的开源文生视频基座模型,支持中英提示,视频生成性能领先并具备强视觉文字生成能力。
文生视频 · ♥ 1521 · downloads 60941
MiniMax-M3 是原生多模态 MoE 模型,支持图文到文本、视频理解、智能体与代码任务,具备 100 万上下文能力。
图文问答 · 多模态 · ♥ 1260 · downloads 188314
Unlimited-OCR 是百度面向长文档解析的多语种 OCR 视觉语言模型,基于 DeepSeek-OCR 扩展,支持单次长程解析与图文转文本。
图文问答 · 多模态 · ♥ 1229 · downloads 295064
Stable Diffusion v1-5 是潜空间文本生成图像模型,基于 v1-2 微调,支持 512×512 高质量写实图像生成与多平台推理。
文生图 · ♥ 1167 · downloads 1820649
Qwen3-Embedding-0.6B 是基于 Qwen3-0.6B-Base 的文本嵌入模型,面向检索、分类、聚类等任务,支持百余语言、长文本理解与代码检索。
向量嵌入 · ♥ 1086 · downloads 10217091
DiffusionGemma 是面向多模态输入生成文本的模型,基于 26B A4B MoE Gemma 4,采用离散扩散并行解码,支持文本、图像和视频理解。
图文问答 · 多模态 · ♥ 1072 · downloads 1200030
Kimi K2.7 Code 是基于 Kimi K2.6 的代码智能体模型,面向长程软件工程任务,强化端到端完成能力并节省约30%思考 token。
图文问答 · 多模态 · ♥ 1014 · downloads 620041
Qwen3-ASR-1.7B 是基于 Qwen3-Omni 的 17 亿参数语音识别模型,支持 52 种语言/方言识别,具备流式/离线统一推理与长音频转写能力。
语音识别 · ♥ 905 · downloads 1511869
Voxtral Mini 4B Realtime 2602 是面向实时多语音转写的约4B模型,含3.4B语言模型与970M音频编码器,支持13种语言、低于500ms延迟并适合端侧部署。
语音识别 · ♥ 895 · downloads 1903484
Qwen3.6-27B-MTP-GGUF 是基于 Qwen3.6-27B 的图文到文本量化模型,采用 GGUF/MTP,支持约 1.5–2 倍更快推理且无精度损失。
图文问答 · 多模态 · ♥ 869 · downloads 874422
向量嵌入 · ♥ 812 · downloads 5835799
Gemma4-12B v2 是面向本地编程与工具调用的 agentic 文本生成模型,基于 Gemma 4 12B,约 4.5GB 显存可运行,技术任务表现较基座提升约 3.5 倍。
文本生成 · LLM · ♥ 792 · downloads 225822
Qwythos-9B-GGUF 是面向图文理解与推理的 Qwen3.5-9B 量化版,支持 1M 长上下文、函数调用与 llama.cpp 等本地运行。
图文问答 · 多模态 · ♥ 790 · downloads 831529
VibeThinker-3B 是基于 Qwen2 的 3B 文本生成模型,面向数学、代码与 STEM 推理,擅长可验证难题和竞赛编程。
文本生成 · LLM · ♥ 743 · downloads 59337
NVIDIA Nemotron 3.5 ASR 是面向流式多语音识别的 6亿参数 FastConformer-CacheAware-RNNT 模型,支持40种语言区域、语言ID提示与带标点转写。
语音识别 · ♥ 734 · downloads 67419
Qwen3-Embedding-8B 是基于 Qwen3-8B-Base 的文本向量模型,面向检索、相似度与分类等任务,支持百余语言、长文本理解和代码检索。
向量嵌入 · ♥ 723 · downloads 2342821
Wan2.2-TI2V-5B 是 5B 规模视频生成模型,支持文生视频,采用 MoE 架构,擅长电影级美学与复杂运动生成。
文生视频 · ♥ 667 · downloads 11088
Ideogram 4 FP8 是基于扩散/Flow Matching 与 DiT 架构的文生图模型,面向高效图像生成,支持更低精度推理并突出文字渲染与创意生成能力。
文生图 · ♥ 636 · downloads 36018
pyannote/speaker-diarization-community-1 是开源说话人分离流水线,用于识别谁在何时说话,基于 pyannote.audio,支持本地运行并适配语音/会议转写场景。
语音识别 · ♥ 634 · downloads 3346641
Qwythos-9B 是面向长上下文推理与工具调用的文本生成模型,基于 Qwen3.5-9B 全参后训练,支持 1M 上下文并强化数学、代码库与多文档推理能力。
文本生成 · LLM · ♥ 525 · downloads 52492
BAAI bge-small-en-v1.5 是面向英文语义向量与特征提取的小型 BERT 嵌入模型,擅长句子相似度、检索与 MTEB 评测任务。
向量嵌入 · ♥ 499 · downloads 61550289
GLM-5.2-GGUF 是基于 zai-org/GLM-5.2 的文本生成模型量化版,支持中英等多语,提供高/最大思考模式与高效本地推理。
文本生成 · LLM · ♥ 442 · downloads 146023
NVIDIA Alpamayo 1 是面向自动驾驶的 10B 级 VLA 模型,基于 Cosmos-Reason,融合因果链推理与扩散轨迹解码,强化长尾场景决策与车辆控制。
机器人 · ♥ 416 · downloads 15968
Ornith-1.0-35B-GGUF 是面向智能体编程的 35B MoE 开源模型,基于 Gemma 4/Qwen 3.5 后训练,擅长代码基准、仓库级任务与自改进搜索。
文本生成 · LLM · ♥ 407 · downloads 79630
Ideogram 4 NF4 是基于 DiT/flow matching 的文本生成图像模型,面向高质量图像创作,采用 NF4 量化以兼顾效果与推理效率。
文生图 · ♥ 401 · downloads 12441
Qwen-AgentWorld-35B-A3B 是基于 Qwen3.5 MoE 的 35B 原生语言世界模型,用于智能体环境模拟,统一覆盖工具调用、搜索、终端、SWE、Android、Web 与 OS 七大交互域。
文本生成 · LLM · ♥ 397 · downloads 23697
SmolVLA Base 是面向低成本机器人的紧凑型视觉-语言-动作基座模型,可单 GPU 微调、消费级硬件部署,支持多视角图像/状态到连续动作生成。
机器人 · ♥ 395 · downloads 46971
面向Agent、聊天机器人与RAG部署的Qwen3.6 35B MoE FP4量化模型,3B激活,支持262K上下文与多模态输入。
文本生成 · LLM · ♥ 371 · downloads 5235413
文本生成 · LLM · ♥ 369 · downloads 6779
Krea-2-Turbo 是基于 Krea-2-Raw 微调的英文文生图模型,主打快速生成,擅长多风格插画与氛围化视觉表现。
文生图 · ♥ 353 · downloads 27631
OpenVLA 7B 是面向机器人操控的开源视觉-语言-动作模型,基于 Llama-2 等 VLM 组件训练,可由指令和图像生成动作,支持多机器人与高效微调。
机器人 · ♥ 234 · downloads 1709240
Krea-2-Raw 是 Krea 的英文文生图模型,基于 diffusers,擅长生成复古、像素、半色调等风格化图像并呈现细腻氛围。
文生图 · ♥ 229 · downloads 22622
ComfyUI 用 Krea 2 图像生成模型整合包,含 Raw/Turbo 多精度权重、Qwen3VL 4B 文本编码器与多款风格 LoRA,支持快速出图和风格化创作。
♥ 175 · downloads 10