爱可可-爱生活 33天前 北京
【CRAG:META发布的综合性RAG基准测试工具,专门用于评估检索增强生成(RAG)系统的性能。包含五大领域和八个问题类别的问答数据集,提供模拟网络和知识图谱搜索的API,可以全面评估RAG系统在不同场景下的表现,支持自动化评估打分】 'Comprehensive benchmark for RAG' GitHub: ...全文
爱可可-爱生活 33天前 北京
【CRAG:META发布的综合性RAG基准测试工具,专门用于评估检索增强生成(RAG)系统的性能。包含五大领域和八个问题类别的问答数据集,提供模拟网络和知识图谱搜索的API,可以全面评估RAG系统在不同场景下的表现,支持自动化评估打分】 'Comprehensive benchmark for RAG' GitHub: ...全文
爱可可-爱生活 19天前 北京
【TheAgentCompany 模拟软件公司任务的Agent基准测试平台:一个用于衡量AI代理在现实世界专业任务中表现的基准测试平台,通过模拟数字工作者的方式,如浏览网页、编写代码、运行程序和与其他同事沟通,来评估AI代理的性能】'TheAgentCompany: An agent benchmark with tasks in a simulated software c ...全文
爱可可-爱生活 33天前 北京
【KernelBench:用于评估大语言模型(LLM)编写GPU内核能力的基准测试工具。提供4个级别的测试类别,包括单内核运算符、简单融合模式、完整模型架构和HuggingFace模型优化。可测试LLM将PyTorch算子转译为CUDA内核的能力,并评估生成代码的编译、正确性和性能】 'KernelBench - Can LLMs Write GPU Kernel ...全文
爱可可-爱生活 48天前 北京
【Evalchemy:一个强大的语言模型评测框架,统一整合了MTBench、WildBench、RepoBench等多个基准测试,支持多GPU并行评估和大模型分布式评测。特色包括统一安装部署、并行评估、标准化输出格式和可选的数据库集成,可用于全面评估指令微调模型的性能】 'Automatic Evals for Instruction-Tuned Models' ...全文
爱可可-爱生活 28天前 北京
【EgoPlan-Bench2:一个用于测试多模态大型语言模型在现实世界场景中规划能力的基准测试平台,通过模拟日常任务来评估AI的决策和问题解决能力】'EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios' GitHub: github.com/qiulu66/EgoPlan-Bench2 ...全文