欢迎小主! 162导航

#语言模型评估#

  • 爱可可-爱生活 5天前 北京

    【LLM-as-an-Interviewer:一个通过模拟面试过程来评估大型语言模型(LLMs)能力的框架,让一个LLM扮演面试官的角色,通过提供反馈和追问问题来全面评估其他LLMs的能力】'LLM-as-an-Interviewer: Beyond Static Testing Through Dynamic LLM Evaluation' GitHub: ...全文

  • 爱可可-爱生活 173天前 北京

    【ZeroEval:一个简单的统一框架,用于评估大型语言模型的零样本性能,专注于指令微调聊天模型】'ZeroEval' GitHub: github.com/yuchenlin/ZeroEval #语言模型评估# #零样本学习# #自然语言处理#

  • 爱可可-爱生活 162天前 北京

    【FlexEval:灵活的语言模型评估工具,支持多种评估场景和模型,易于扩展和自定义】’flexeval - Flexible evaluation tool for language models' GitHub: github.com/sbintuitions/flexeval #语言模型评估# #灵活性# #模块化#

  • 爱可可-爱生活 152天前 北京

    【RPBench-Auto:自动化评估角色扮演游戏中大语言模型性能的工具,通过标准化流程测试和比较不同模型在角色扮演场景下的表现】'RPBench-Auto' GitHub: github.com/boson-ai/RPBench-Auto #角色扮演# #语言模型评估# #自动化#

  • 爱可可-爱生活 215天前 北京

    【MixEval:大型语言模型评估套件,提供动态数据和实时更新的基准测试,旨在高效、准确地评估语言模型的性能,同时降低成本和时间消耗】'MixEval - The official evaluation suite and dynamic data release for MixEval.' GitHub: github.com/Psycoy/MixEval #基准测试# #语言模型评估# #动态数据#

丨话题榜