首页 /研究 /FactoryBench:评估工业机器理解
OTHER开放获取

FactoryBench:评估工业机器理解

Yanis Merzouki, Coral Izquierdo, Matei Ignuta-Ciuncanu, Marcos Gomez-Bracamonte, Riccardo Maggioni, Alessandro Lombardi, Camilla Mazzoleni, Federico Martelli, Balazs Gunther, Jonas Petersen, Philipp Petersen

2026

摘要

本文提出了FactoryBench基准,用于评估时间序列模型和大型语言模型在工业机器人遥测数据上的机器理解能力。该基准包含超过7万个问答对,覆盖因果推理的四个层次和五种答案格式,测试结果显示当前最先进的模型在结构化层次上准确率不超过50%,在决策层次上不超过18%。

关键词

benchmarktime-seriescausal reasoningrobotic telemetryLLM evaluation

相关论文