标签：混合专家架构

标签
混合专家架构

2025年阿里Qwen3开源来袭，解锁大模型新体验！

阿里巴巴于2025年4月29日开源了新一代通义千问Qwen3系列模型，该系列在性能、成本、多语言支持等方面均有显著突破。Qwen3在多项测评中超越主流模型，采用混合专家（MoE）架构降低部署成本，支持119种语言，并推出8款不同尺寸模型满足多样需求。技术突破包括数据规模翻倍、四阶段训练流程等。文章还提供了本地部署和微调的实操示例，并展望了Qwen3的开源生态与未来发展方向。

Meta深夜发布Llama 4开源模型：170亿参数+10M上下文长度，多模态能力全面升级

工具使用 AI学习之路 AI前沿

Meta于4月5日发布其最强大的开源AI模型系列Llama 4，包含Scout、Maverick和仍在训练中的Behemoth三大版本。Llama 4以170亿参数和10M超长上下文窗口刷新行业标准，并具备多模态融合、混合专家（MoE）架构等突破性技术，性能上直接对标GPT-4o和Gemini 2.0。Llama 4 Scout提供业界领先的10M上下文窗口，支持长达1000万token的上下文，而Llama 4 Maverick则在多模态任务中表现出色。模型采用早期融合技术、MetaP训练技术和FP8精度训练，性能在大模型竞技场和基准测试中表现卓越。用户可在llama.com和Hugging Face下载Llama 4 Scout和Llama 4 Maverick。