大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案评估

快讯 2024-06-18 21:44:08
导读 机器之心发布作者:李师尧(无问芯穹TechView)基于Transformer架构的大型语言模型在各种基准测试中展现出优异性能,但数百亿、千亿乃至万...
2024-06-18 21:44:08

机器之心发布作者:李师尧(无问芯穹TechView)基于Transformer架构的大型语言模型在各种基准测试中展现出优异性能,但数百亿、千亿乃至万亿量级的参数规模会带来高昂的服务成本。例如GPT-3有1750亿参数,采用FP16存储,模型大小约为350GB,而即使是英伟达最新的B200GPU内存也只有192GB,更不用说其他GPU和边缘设备。大模型压缩,即将大模型“瘦身”后塞进资源受限的场景,以减少模型存储、访存和计算开销。
免责声明:本文由用户上传,如有侵权请联系删除!