欢迎小主! 162导航

#基准测试#

  • 爱可可-爱生活 33天前 北京

    【CRAG:META发布的综合性RAG基准测试工具,专门用于评估检索增强生成(RAG)系统的性能。包含五大领域和八个问题类别的问答数据集,提供模拟网络和知识图谱搜索的API,可以全面评估RAG系统在不同场景下的表现,支持自动化评估打分】 'Comprehensive benchmark for RAG' GitHub: ...全文

  • O

    OneFlow 509天前 北京

    #大模型日报# #AI前沿动态# 【技术】 【优质的LLM的模型压缩概述】 论文链接:🔗 概述:本文是一篇关于近期 #LLM# 模型压缩技术的简洁全面的调查报告,详细介绍了专门针对LLM定制的#模型压缩# 技术。本文对包括#量化# #修剪# #知识蒸馏# 等进行了高层次概述,此外还提供了关于 ...全文

  • 爱可可-爱生活 19天前 北京

    【TheAgentCompany 模拟软件公司任务的Agent基准测试平台:一个用于衡量AI代理在现实世界专业任务中表现的基准测试平台,通过模拟数字工作者的方式,如浏览网页、编写代码、运行程序和与其他同事沟通,来评估AI代理的性能】'TheAgentCompany: An agent benchmark with tasks in a simulated software c ...全文

  • 爱可可-爱生活 33天前 北京

    【KernelBench:用于评估大语言模型(LLM)编写GPU内核能力的基准测试工具。提供4个级别的测试类别,包括单内核运算符、简单融合模式、完整模型架构和HuggingFace模型优化。可测试LLM将PyTorch算子转译为CUDA内核的能力,并评估生成代码的编译、正确性和性能】 'KernelBench - Can LLMs Write GPU Kernel ...全文

  • 爱可可-爱生活 48天前 北京

    【Evalchemy:一个强大的语言模型评测框架,统一整合了MTBench、WildBench、RepoBench等多个基准测试,支持多GPU并行评估和大模型分布式评测。特色包括统一安装部署、并行评估、标准化输出格式和可选的数据库集成,可用于全面评估指令微调模型的性能】 'Automatic Evals for Instruction-Tuned Models' ...全文

  • 爱可可-爱生活 70天前 北京

    【MMIE:大型视觉语言模型的海量多模态交叉理解基准测试,旨在评估模型在不同领域中的理解与生成能力,支持自动化的可靠度量】'MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models' GitHub: github.com/Lillianwei-h/MMIE #人工智能# #视觉语言模型# ...全文

  • 爱可可-爱生活 15天前 

    【AIOpsLab:一个全面的框架,用于设计、开发和评估自主AIOps agent,构建可复现、标准化、互操作和可扩展的基准测试】'AIOpsLab: A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds' GitHub: github.com/microsoft/AIOpsLab #AIOps# #自动化云管理# #基准测试# #AI创造营#

  • 爱可可-爱生活 15天前 

    【Context is Key:一个基于关键文本信息进行预测的基准测试平台,旨在评估和提升预测模型在实际应用中的表现】'Context is Key: A Benchmark for Forecasting with Essential Textual Information' GitHub: github.com/ServiceNow/context-is-key-forecasting #预测分析# #文本信息# #基准测试# ...全文

  • 爱可可-爱生活 18天前 

    【MS-HAB:家庭重组任务中的低级操控基准测试,旨在提供评估家庭环境中物品操控和任务执行能力的标准】'A Benchmark for Low-Level Manipulation in Home Rearrangement Tasks' GitHub: github.com/arth-shukla/mshab #智能家居# #机器人操控# #基准测试# #AI创造营#

  • 爱可可-爱生活 28天前 北京

    【EgoPlan-Bench2:一个用于测试多模态大型语言模型在现实世界场景中规划能力的基准测试平台,通过模拟日常任务来评估AI的决策和问题解决能力】'EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios' GitHub: github.com/qiulu66/EgoPlan-Bench2 ...全文

  • 爱可可-爱生活 50天前 北京

    【M2DGR-Benchmark:基于M2DGR和M2DGR-plus数据集的最新SLAM算法基准测试平台,用于评估和比较不同SLAM系统的性能】'A benchmark based on M2DGR and M2DGR-plus dataset with adapted SOTA SLAM algorithms' GitHub: github.com/sjtuyinjie/M2DGR-Benchmark #SLAM# #基准测试# #机器人导航# #数据集#

  • 爱可可-爱生活 53天前 北京

    【SimpleBench:一个简单的基准测试工具,用于评估和比较不同模型的性能,特别适合需要快速获取模型性能反馈的用户】'SimpleBench - Run Instructions and Setup Instructions provided' GitHub: github.com/simple-bench/SimpleBench #基准测试# #性能评估# #模型比较#

丨话题榜