#模型压缩#

爱

爱可可-爱生活　21天前　佛山

【[77星]Caldera：用低精度和低秩分解技术压缩大型语言模型，让大模型也能“瘦身”！亮点：1. 在少于2.5比特/参数的极致压缩下，性能超越现有技术；2. 支持低秩适应性微调，针对特定任务进一步优化；3. 灵活的精度设置，可针对不同组件调整量化精度】 'CALDERA is a post-training compression metho ...全文
爱

爱可可-爱生活　97天前　北京

【Awesome-Efficient-MoE：专注于高效混合专家(MoE)模型相关研究的精选资源集合，收录了MoE模型及其高效变体的研究论文和资源。该仓库涵盖了稀疏MoE、MoE压缩、剪枝、量化、分解和加速等多个研究方向，同时提供中英双语内容解读】 'This repository collects research papers and resources about Mix ...全文
O

OneFlow　560天前　北京

#大模型日报# #AI前沿动态# 【技术】【优质的LLM的模型压缩概述】论文链接：🔗 概述：本文是一篇关于近期 #LLM# 模型压缩技术的简洁全面的调查报告，详细介绍了专门针对LLM定制的#模型压缩# 技术。本文对包括#量化# 、#修剪# 、#知识蒸馏# 等进行了高层次概述，此外还提供了关于 ...全文
爱

爱可可-爱生活　90天前　北京

【FluxKits：Flux系列模型工具集，包含两个主要部分：1) Flux-mini，一个3.2B参数的文生图模型，是从12B的Flux-dev模型蒸馏而来，大幅降低硬件需求；2) Flux-NPU，支持在NPU设备上运行Flux模型的工具库。特点是在保持较好生成效果的同时，显著降低了训练和推理的显存占用与计算时间】 'A repo that fac ...全文
爱

爱可可-爱生活　110天前　北京

【DeepCompressor：大型语言模型和扩散模型的模型压缩工具箱，支持8bit以内的任何整数和浮点数据类型的假量化，例如INT8、INT4和FP4_E2M1，具有高效压缩和加速模型推理的特点】'Model Compression Toolbox for Large Language Models and Diffusion Models' GitHub: ...全文
爱

爱可可-爱生活　208天前　北京

【ONNX神经压缩器：支持ONNX模型量化的开源Python库，提供流行的模型压缩技术，如SmoothQuant和权重量化，适用于Intel硬件和流行的大型语言模型（LLM）】'onnx/neural-compressor' GitHub: github.com/onnx/neural-compressor #模型压缩# #ONNX# #量化#
爱

爱可可-爱生活　214天前　北京

【SpectraSuite：多模型语言套件，支持从99M到3.9B参数的不同位宽，专为高效推理和模型压缩设计】'SpectraSuite - Comprehensive Language Model Suite' GitHub: github.com/NolanoOrg/SpectraSuite #语言模型# #模型压缩# #高效推理#
爱

爱可可-爱生活　261天前　北京

【Smol Vision：前沿视觉模型的压缩、优化与定制方案集，致力于缩小模型尺寸、提高运行速度并实现模型的个性化定制】 'smol-vision - Recipes for shrinking, optimizing, customizing cutting edge vision models.' GitHub: github.com/merveenoyan/smol-vision #模型压缩# #优化# #定制#
P

PaperWeekly　2872天前　

Exploring Sparsity in Recurrent Neural Networks #模型压缩# 本文的工作来自百度，解决的问题是RNN模型的压缩，模型尺寸压缩了将近8x，准确率保持了一定的水准。对模型压缩感兴趣的童鞋可以来看看。论文地址：🔗
P

PaperWeekly　2998天前　

#模型压缩# 模型过大是DL的一个问题，尤其是在部署模型时，这个问题尤其明显。本文工作来自FB，是开源分类工具fasttext的一个模型压缩版。 FastText.zip: Compressing text classification models 🔗

更多内容请移步微博原话题 >>

162

#模型压缩#

丨话题榜