首页
AI工具
在线工具
在线学习
开源项目
资讯动态
其他导航
IT工具
Llama 3
Meta最新开源推出的新一代大模型
访问官网
收藏
工具介绍
Llama 3是什么 Llama 3是Meta公司最新开源推出的新一代大型语言模型(LLM),包含8B和70B两种参数规模的模型,标志着开源人工智能领域的又一重大进步。作为Llama系列的第三代产品,Llama 3不仅继承了前代模型的强大功能,还通过一系列创新和改进,提供了更高效、更可靠的AI解决方案,旨在通过先进的自然语言处理技术,支持广泛的应用场景,包括但不限于编程、问题解决、翻译和对话生成。 Llama 3的系列型号 Llama 3目前提供了两种型号,分别为8B(80亿参数)和70B(700亿参数)的版本,这两种型号旨在满足不同层次的应用需求,为用户提供了灵活性和选择的自由度。 Llama-3-8B:8B参数模型,这是一个相对较小但高效的模型,拥有80亿个参数。专为需要快速推理和较少计算资源的应用场景设计,同时保持了较高的性能标准。 Llama-3-70B:70B参数模型,这是一个更大规模的模型,拥有700亿个参数。它能够处理更复杂的任务,提供更深入的语言理解和生成能力,适合对性能要求更高的应用。 后续,Llama 3 还会推出 400B 参数规模的模型,目前还在训练中。Meta 还表示等完成 Llama 3 的训练,还将发布一份详细的研究论文。 Llama 3的官网入口 官方项目主页: GitHub模型权重和代码: Hugging Face模型: Llama 3的改进地方 参数规模:Llama 3提供了8B和70B两种参数规模的模型,相比Llama 2,参数数量的增加使得模型能够捕捉和学习更复杂的语言模式。 训练数据集:Llama 3的训练数据集比Llama 2大了7倍,包含了超过15万亿个token,其中包括4倍的代码数据,这使得Llama 3在理解和生成代码方面更加出色。 模型架构:Llama 3采用了更高效的分词器和分组查询注意力(Grouped Query Attention, GQA)技术,提高了模型的推理效率和处理长文本的能力。 性能提升:通过改进的预训练和后训练过程,Llama 3在减少错误拒绝率、提升响应对齐和增加模型响应多样性方面取得了进步。 安全性:引入了Llama Guard 2等新的信任和安全工具,以及Code Shield和CyberSec Eval 2,增强了模型的安全性和可靠性。 多语言支持:Llama 3在预训练数据中加入了超过30种语言的高质量非英语数据,为未来的多语言能力打下了基础。 推理和代码生成:Llama 3在推理、代码生成和指令跟随等方面展现了大幅提升的能力,使其在复杂任务处理上更加精准和高效。 Llama 3的性能评估 根据Meta的官方博客,经指令微调后的 Llama 3 8B 模型在MMLU、GPQA、HumanEval、GSM-8K、MATH等数据集基准测试中都优于同等级参数规模的模型(Gemma 7B、Mistral 7B),而微调后的 Llama 3 70B 在 MLLU、HumanEval、GSM-8K 等基准测试中也都优于同等规模的 Gemini Pro 1.5 和 Claude 3 Sonnet 模型。 此外,Meta还开发了一套新的高质量人类评估集,包含 1800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色/角色、开放式问答、推理、重写和总结。通过与Claude Sonnet、Mistral Medium和GPT-3.5等竞争模型的比较,人类评估者基于该评估集进行了偏好排名,结果显示Llama 3在真实世界场景中的性能非常出色,最低都有52.9%的胜出率。 Llama 3的技术架构 解码器架构:Llama 3采用了解码器(decoder-only)架构,这是一种标准的Transformer模型架构,主要用于处理自然语言生成任务。 分词器和词汇量:Llama 3使用了具有128K个token的分词器,这使得模型能够更高效地编码语言,从而显著提升性能。 分组查询注意力(Grouped Query Attention, GQA):为了提高推理效率,Llama 3在8B和70B模型中都采用了GQA技术。这种技术通过将注意力机制中的查询分组,减少了计算量,同时保持了模型的性能。 长序列处理:Llama 3支持长达8,192个token的序列,使用掩码(masking)技术确保自注意力(self-attention)不会跨越文档边界,这对于处理长文本尤其重要。 预训练数据集:Llama 3在超过15TB的token上进行了预训练,这个数据集不仅规模巨大,而且质量高,为模型提供了丰富的语言信息。 多语言数据:为了支持多语言能力,Llama 3的预训练数据集包含了超过5%的非英语高质量数据,涵盖了超过30种语言。 数据过滤和质量控制:Llama 3的开发团队开发了一系列数据过滤管道,包括启发式过滤器、NSFW(不适合工作场所)过滤器、语义去重方法和文本分类器,以确保训练数据的高质量。 扩展性和并行化:Llama 3的训练过程中采用了数据并行化、模型并行化和流水线并行化,这些技术的应用使得模型能够高效地在大量GPU上进行训练。 指令微调(Instruction Fine-Tuning):Llama 3在预训练模型的基础上,通过指令微调进一步提升了模型在特定任务上的表现,如对话和编程任务。 如何使用Llama 3 开发人员 Meta已在GitHub、Hugging Face、Replicate上开源其Llama 3模型,开发人员可使用torchtune等工具对Llama 3进行定制和微调,以适应特定的用例和需求,感兴趣的开发者可以查看官方的并前往下载部署。 官方模型下载: GitHub地址: Hugging Face地址: Replicate地址: 普通用户 不懂技术的普通用户想要体验Llama 3可以通过以下方式使用: 访问Meta最新推出的聊天助手进行体验(注:Meta.AI会锁区,只有部分国家可使用) 访问Replicate提供的Chat with Llama进行体验 使用Hugging Chat(),可手动将模型切换至Llama 3
相关工具
NONE
Model Scope 魔搭社区
免费
国内
共享 · 共创 · 共进,构建持续创新的 AI 开源生态
直达
详情
使用帮助
Coze
海量AI智能体免费用,已接入DeepSeek满血版
直达
详情
使用帮助
Ollama
本地运行Llama和其他大语言模型
直达
详情
使用帮助
无阶未来
AI应用与弹性算网平台
直达
详情
使用帮助
Gemma
谷歌推出的新一代轻量级开放模型
直达
详情
使用帮助
豆包大模型
字节跳动推出的AI大模型家族,包括视频生成、语音视觉、通用语言模型等
直达
详情
使用帮助
Sora
OpenAI推出的AI视频生成模型
直达
详情
使用帮助
腾讯混元大模型
腾讯研发的大语言模型,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力
直达
详情
使用帮助
书生大模型
上海人工智能实验室推出的系列AI模型
直达
详情
使用帮助
GPT-4
OpenAI旗下最新的GPT-4模型
直达
详情
使用帮助
DALL·E 3
OpenAI旗下最新的图像生成模型
直达
详情
使用帮助
文心大模型
百度推出的产业级知识增强大模型
直达
详情
使用帮助
LLaMA
Meta(Facebook)推出的AI大语言模型
直达
详情
使用帮助
Auto-GPT
爆火的实现GPT-4完全自主的实验性开源项目,GitHub超10万星
直达
详情
使用帮助
Jan
本地运行大模型并进行AI对话的工具,免费开源
直达
详情
使用帮助
AgentGPT
在浏览器中组装、配置和部署自主人工智能的开源项目
直达
详情
使用帮助
魔搭社区
阿里达摩院推出的AI模型社区,超过300+开源AI模型
直达
详情
使用帮助
悟道
智源“悟道”大模型,中国首个+世界最大人工智能大模型
直达
详情
使用帮助
相关资讯
首次发布对外投资活跃度指数 投洽会发出开放合作“好声音”
2025-09-09 09:15
前8个月外贸平稳增长 进出口连续3个月双增长
2025-09-09 09:15
习近平主席向第二十五届中国国际投资贸易洽谈会致贺信汇聚互利共赢合力
2025-09-09 09:15
习近平总书记在纪念中国人民抗日战争暨世界反法西斯战争胜利80周年大会上的重要讲话激励各民主党派中央、全国工商联和无党派人士为强国建设、民族复兴伟业踔厉奋发
2025-09-09 09:15
十四届全国人大常委会第十七次会议在京举行 审议生态环境法典总则编草案、生态保护编草案、绿色低碳发展编草案和民族团结进步促进法草案等 赵乐际主持
2025-09-09 09:15
习近平在金砖国家领导人线上峰会提出三点建议
2025-09-09 09:15
习近平在金砖国家领导人线上峰会的讲话(全文)
2025-09-09 09:15
新华社评论员:坚定捍卫国际公平正义——学习贯彻习近平总书记纪念中国人民抗日战争暨世界反法西斯战争胜利80周年系列重要讲话之三
2025-09-09 09:15
加强民间交往 推进友好合作——习近平主席贺辞为新时代中俄人民相知相亲增添动力
2025-09-09 09:15
中国证监会:坚决拥护党中央对易会满进行纪律审查和监察调查的决定 全方位完善公权力监督制约机制
2025-09-09 09:15
查看更多资讯 →
升级到专业版
解锁更多高级功能,提升工作效率
立即升级
推荐工具
广告位
300 x 250
友情链接
财联社
AI技术社区
文本生成
图像生成
音视频生成
代码生成
语音转换
办公处理
商业智能
资源优化
智能对话
医疗健康
金融科技
教育学习
法律法规
框架与库
模型库
部署工具
内容审核
隐私保护
算法公平性
专用芯片
计算平台
脑机接口
量子AI
情感计算
我的收藏