立即发布
计算机科学研究人员已经转向不太可能的来源——包括安然公司——来收集大量的电子表格,这些表格可以用来研究人们如何使用这款软件。其目标是让数据促进研究,使电子表格更有用。
“我们研究电子表格,因为电子表格软件被用来跟踪从公司收入到员工福利的一切,甚至简单的错误都可能让组织损失数百万美元,”北卡罗来纳州立大学(NC State)计算机科学助理教授、两篇有关该研究的新论文的合著者埃默森•墨菲-希尔(Emerson Murphy-Hill)表示。
然而,用于研究目的的电子表格数据的公开收集相对较少。例如,目前大多数研究人员使用的收集包括大约4500个电子表格。
但研究人员现在推出了两个新收藏——一个有1.5万份电子表格,另一个有超过24.9万份。
墨菲-希尔说:“此外,我们还发布了一项技术,其他研究人员可以用它来收集额外的电子表格数据。”
这1.5万份电子表格全部来自安然内部电子邮件,这些电子邮件在检察官传唤后被公开。
Murphy-Hill表示:“我们的重点是用户如何与电子表格进行交互。“这些电子表格实际上告诉了我们很多关于用户如何表示和操纵数据的信息。”
为了组装第二套电子表格,称为Fuse,研究人员开发了自己的技术,从50多亿个网页的在线档案中识别和提取电子表格。利用他们的技术,研究人员收集了249376份电子表格——包括2014年制作的电子表格。
“Fuse使用云基础设施搜索数十亿网页,以识别和提取我们在本文中所写的电子表格,”北卡罗来纳州立大学博士生、ABB企业研究研究员、关于Fuse的论文的主要作者Titus Barik说。“商品云计算令人难以置信地兴奋——在一台计算机上搜索这些页面需要连续七年的计算,但云计算的规模经济使我们能够在几天内用Fuse完成这一任务。”
Murphy-Hill说:“与其他电子表格收集相比,Fuse包含最近的电子表格是一个显著的优势,因为它提供的信息是最新的,反映了Excel和其他电子表格软件的变化。”
“Fuse也比其他电子表格集合更容易复制,”北卡罗来纳州立大学博士生、一篇关于Fuse的论文的合著者凯文·卢比克(Kevin Lubick)说。可重现性是良好科学研究的基石,但许多现有的电子表格收集很难重现。任何人都可以使用我们的技术,他们会得到和我们一样的结果。但结果也将包括自该程序上次运行以来提供的所有新电子表格。”
安然的文集是一篇论文的主题安然电子表格和相关电子邮件:数据集和分析该报告将于5月20日至22日在意大利佛罗伦萨举行的国际软件工程会议上发表。这篇论文的主要作者是代尔夫特理工大学的费莉安·赫尔曼斯。保险丝纸,"Fuse:一个可复制、可扩展、互联网规模的电子表格语料库,将于5月16日至17日在意大利佛罗伦萨举行的挖掘软件存储库工作会议上介绍。这篇导火索论文是由北卡罗来纳州博士共同撰写的。学生贾斯汀·史密斯和约翰·斯兰卡斯。
希普曼-
编辑:研究摘要如下。
“安然电子表格和相关电子邮件:数据集和分析”
作者: Felienne Hermans,代尔夫特理工大学和Emerson Murphy-Hill,北卡罗莱纳州立大学
提出了:5月20-22日,软件工程国际会议,意大利佛罗伦萨
文摘:电子表格在世界各地的业务流程中被广泛使用,因此是一个研究兴趣的话题。在过去的几年中,许多电子表格研究都是在EUSES电子表格语料库上进行的。虽然这个语料库很好地服务于电子表格社区,但它包含的电子表格主要是通过搜索引擎收集的,因此并不代表公司使用的电子表格。本文介绍了一个新的数据集,该数据集是为安然电子邮件存档而提取的,包含了安然公司内部使用的15000多个电子表格。除了电子表格,我们还提供了相关电子邮件的分析,其中我们研究了电子表格特定的电子邮件行为。我们的分析表明,1)24%的安然电子表格(至少有一个公式)包含Excel错误,2)电子表格中使用的函数几乎没有差异:本文语料库中76%的电子表格仅使用相同的15个函数,3)电子表格比EUSES语料库更臭,特别是在长计算链方面。关于电子邮件,我们观察到电子表格1)是电子邮件对话的一个经常话题,10%的电子邮件发送或参考电子表格,2)电子邮件经常讨论电子表格中的错误和更新。
Fuse:一个可复制、可扩展的互联网规模的电子表格语料库
作者:提图斯·巴里克,ABB公司研究和北卡罗来纳州立大学;凯文·卢比克、贾斯汀·史密斯、约翰·斯兰卡斯和爱默生·墨菲·希尔,北卡罗来纳州立大学
提出了:5月16日至17日,意大利佛罗伦萨,采矿软件存储库工作会议
文摘:电子表格可能是终端用户编程软件最普遍的形式。本文描述了一个名为Fuse的语料库,其中包含2127284个返回电子表格(及其HTTP服务器响应)的URL,以及249376个独特的电子表格,包含在一个超过268.3亿页的公共web存档中。通过近60000小时的计算,得到的语料库比以前的电子表格语料库显示出一些有用的特性,包括再现性和可扩展性。我们的语料库不受任何许可协议的限制,可供所有人使用,并可供最终用户软件工程研究人员广泛使用。在本文中,我们详细介绍了数据和电子表格提取过程,描述了数据模式,并讨论了Fuse与其他语料库的权衡。

有趣的研究。“错误”是否通常是打字错误、移动单元格和其他用户看不到的胖手指问题,或者您是否正在考虑不适当地使用电子表格,例如去年的常见qtr与相同qrt会计缺口等,以及不鼓励绘制点的电子表格软件,错误条和合法数据分析,推动有用的决策?