十九世纪杂志上看到爆炸英国单报数从1846年的550页跃升到60年后2 400多页对人文学学者而言,如此大规模出版物信息跟踪是一项艰巨挑战
数字人文学努力在创建工具方面取得了一些进展,使学者能够搜索所有文本。挑战大为复杂 当人们试图理解 千千图 并发现
这是哪里保尔费并钱高进来Fyfe是NC州副英语教授,Qian Ge是Ph.D电机工程生并加在一起,他们做了一些探索性工作计算机视觉如何用于分析十九世纪报纸.
论文描述他们的发现图片分析器和第十九世纪图解报于十月发布文化分析杂志.
最近我们有机会选择Fyfe的大脑了解更多关于这个不可能的duo所学的知识,同时试图分析三期报纸上超过14万图象
抽象性 :研究题或挑战
PaulFyfe:第一个问题很简单:你甚至用计算机视觉方法分析历史素材吗?发现许多图像解析工具面向图片说得通,数字图像扩散多数素材不是照片由刻画线和密舱编译计算机识别整理这些东西万一如此,如何实现?
下一个问题更多与数字人文学研究相关广度说来 历史素材中许多大数据法 都聚焦文本历史学家LizLorang问道 上百万表示数字化文化记录
上个问题关乎十九世纪 上百万图象首次流传什么样的视觉模式 我们能从这些插图中找到人所见所闻报页相对文本和图像随时间变化
TA:新奇你对材料的处理方式
Fyfe:迄今大多数大规模数字人文学研究项目都侧重于文本我们的项目是一波新研究的一部分 视觉素材规模使用计算机视觉技术并不只是图片上使用,
计算研究在我的十九世纪书籍媒体史领域非常新奇我们不是想仔细分析单图和它的含义,而是一次研究千分之一种不同的方法理解文本、报纸和图片如何比单个阅读器大规模工作这并不是一种更好的方法,当然, 可能是一种辅助方法 人文研究者已经擅长做
最后,这是英语系与电气计算机工程系之间的新协作大都通过活动NC状态视觉描述集群.
TA:关键发现出自工作
Fyfe:发现多组相关图像 之前没有研究成群举个例子 夜间犯罪插图数十幅国际地图由一家以艺术复制闻名的报纸发布成千画像格式化这些集群令我们思考视觉知识模式,当媒体变成多媒体经验时
并发现图解报长期展示图片模式举个例子 半色调照片数比木刻数多逐步混合单页文本和图像,而不是严格包含一页或二页的页面
归根结底,重要的是注意那些我们找不到的东西至少技术无法识别图像内容得用低级像素排序 而不是题材相形之下,当我们用上千幅插图时,这些图片仍然仅提供19世纪视觉文化相对狭义的表示法。即使是大规模工作,我们也知道我们必须限定数据集代表或排除什么-更重要的是代表或排除谁-
TA:这些发现如何为今后实地工作提供参考
Fyfe:显示其他人文学学者 研究比我们用法大得多资料集的潜力人民可能不得不扩展他们的论题范围 关于历史插图的含义或它如何函数我希望它鼓励其他人尝试更多计算机视觉方法处理这些材料,或至少追求新式学科间协作
- 类别 :
