爱可可-爱生活 221天前 北京
【开源中文预训练语言模型:Steel-LLM,个人从零开始训练的中文大型语言模型,目标是使用1T+数据预训练1B参数量的模型,对标TinyLlama,持续更新3个月+,开源全流程代码】'Steel-LLM' GitHub: 🔗 #中文LLM# #预训练模型# #开源项目#
爱可可-爱生活 77天前 北京
【为自然语言处理打造的先进工具库,提供预训练模型,支持文本分类、问答、翻译等多种语言任务,让NLP技术更易用】'Transformers provides thousands of pretrained models to perform tasks on different modalities such as text, vision, and audio.' GitHub: ...全文
爱可可-爱生活 158天前 北京
【Chronos:基于语言模型架构的概率时间序列预测预训练模型,能将时间序列数据转化为Token序列,并通过交叉熵损失训练语言模型,实现多轨迹采样以获得概率预测分布】'Chronos: Pretrained (Language) Models for Probabilistic Time Series Forecasting' GitHub: ...全文
Tracy喔喔林子 369天前 南通
Sovits训练模型确实有点费双脑,这次准备了300多个数据集,训练两万次看看结果#预训练模型# #大语言模型单次训练成本高达百万美元# 。
姚远-Jason 613天前 上海
Sovits训练模型确实有点费双脑,这次准备了300多个数据集,训练两万次看看结果#预训练模型# #大语言模型单次训练成本高达百万美元#
PaperWeekly 1209天前
#论文推荐# #EMNLP 2021# #预训练模型# T3-Vis: a visual analytic framework for Training and fine-Tuning Transformers in NLP 🔗 这篇论文作者提出了一个对于 transformer 的可视化框架,允许用户通过交互式可视化探索模型的不同方面(例如,隐藏状态、注意力),并允许使用一套 ...全文
PaperWeekly 1209天前
#论文推荐# #EMNLP 2021# #预训练模型# CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation 🔗 BERT 和 GPT 等自然语言(NL)的预训练模型最近已被证明可以很好地转移到编程语言(PL)上,并在很大程度上受益于一系列与代 ...全文
PaperWeekly 1209天前
#论文推荐# #EMNLP 2021# #预训练模型# The Power of Scale for Parameter-Efficient Prompt Tuning 🔗 在这篇论文中,作者探索了 “prompt tuning” 用于学习“soft prompt”以调节冻结语言模型(FPT)以执行特定的下游任务。通过使用 T5 对模型大小的消融,作者表明 prompt tuning ...全文