在线显示超过1400万个扫描的书页

Flickr资源上显示了数百万本书的扫描页面，该资源由美国组织Internet Archive发布供免费使用。目前，已经出版了约300万张图像，这仅仅是个开始，该项目的组织者说，在不久的将来，将有超过1400万页的扫描文字免费使用。

仅通过最近创建的算法就可以实现如此大规模的项目，该算法可以自动从超过200万本书中提取图像，这些图像当前存储在Internet Archive组织的公共图书馆中。该程序由乔治敦大学的研究人员Kalev Litaru开发，被配置为自动识别文本并从每个扫描的图像中提取500个单词，从而可以对整个集合进行文本搜索。

值得注意的是，代表Internet Archive发布的所有文本图像均不受版权保护，这将允许它们在Internet上免费分发。该项目的创建者相信，随着时间的推移，他们将能够创建一个视觉库，在其中通过读取图像来搜索信息。

迄今为止，组织Internet Archive Book Images已包含在通用项目The Commons中，该项目的目的是创建开放的图书馆来保存Internet的遗产。该服务已经有特殊的子类别，用于音频，视频和图形资料，网站的过时版本，1970年代和80年代的主机游戏以及各种软件。 Internet档案库中存储的信息已经是19 Pb，其中包括在过去500年中编写的超过6亿种不同体裁和方向的书籍的扫描文本。

在线显示超过1400万个扫描的书页自动翻译

您无法评论为什么?

在线显示超过1400万个扫描的书页 自动翻译

您无法评论 为什么?

在线显示超过1400万个扫描的书页自动翻译

您无法评论为什么?