#语言模型评估#

爱

爱可可-爱生活　5天前　北京

【LLM-as-an-Interviewer：一个通过模拟面试过程来评估大型语言模型（LLMs）能力的框架，让一个LLM扮演面试官的角色，通过提供反馈和追问问题来全面评估其他LLMs的能力】'LLM-as-an-Interviewer: Beyond Static Testing Through Dynamic LLM Evaluation' GitHub: ...全文
爱

爱可可-爱生活　173天前　北京

【ZeroEval：一个简单的统一框架，用于评估大型语言模型的零样本性能，专注于指令微调聊天模型】'ZeroEval' GitHub: github.com/yuchenlin/ZeroEval #语言模型评估# #零样本学习# #自然语言处理#
爱

爱可可-爱生活　162天前　北京

【FlexEval：灵活的语言模型评估工具，支持多种评估场景和模型，易于扩展和自定义】’flexeval - Flexible evaluation tool for language models' GitHub: github.com/sbintuitions/flexeval #语言模型评估# #灵活性# #模块化#
爱

爱可可-爱生活　152天前　北京

【RPBench-Auto：自动化评估角色扮演游戏中大语言模型性能的工具，通过标准化流程测试和比较不同模型在角色扮演场景下的表现】'RPBench-Auto' GitHub: github.com/boson-ai/RPBench-Auto #角色扮演# #语言模型评估# #自动化#
爱

爱可可-爱生活　215天前　北京

【MixEval：大型语言模型评估套件，提供动态数据和实时更新的基准测试，旨在高效、准确地评估语言模型的性能，同时降低成本和时间消耗】'MixEval - The official evaluation suite and dynamic data release for MixEval.' GitHub: github.com/Psycoy/MixEval #基准测试# #语言模型评估# #动态数据#

更多内容请移步微博原话题 >>

162

#语言模型评估#

丨话题榜