在线显示超过1400万个扫描的书页 自动翻译
Flickr资源上显示了数百万本书的扫描页面,该资源由美国组织Internet Archive发布供免费使用。 目前,已经出版了约300万张图像,这仅仅是个开始,该项目的组织者说,在不久的将来,将有超过1400万页的扫描文字免费使用。
仅通过最近创建的算法就可以实现如此大规模的项目,该算法可以自动从超过200万本书中提取图像,这些图像当前存储在Internet Archive组织的公共图书馆中。 该程序由乔治敦大学的研究人员Kalev Litaru开发,被配置为自动识别文本并从每个扫描的图像中提取500个单词,从而可以对整个集合进行文本搜索。
值得注意的是,代表Internet Archive发布的所有文本图像均不受版权保护,这将允许它们在Internet上免费分发。 该项目的创建者相信,随着时间的推移,他们将能够创建一个视觉库,在其中通过读取图像来搜索信息。
迄今为止,组织Internet Archive Book Images已包含在通用项目The Commons中,该项目的目的是创建开放的图书馆来保存Internet的遗产。 该服务已经有特殊的子类别,用于音频,视频和图形资料,网站的过时版本,1970年代和80年代的主机游戏以及各种软件。 Internet档案库中存储的信息已经是19 Pb,其中包括在过去500年中编写的超过6亿种不同体裁和方向的书籍的扫描文本。
Svetlana Korableva©Gallerix.ru
- «Utilitarianism» by John Stuart Mill
- "The Origins of Totalitarianism" by Hannah Arendt, summary
- Actual experience of opposing totalitarianism
- Totalitäre Tendenzen in der Architektur der 20-30er Jahre
- Banksy: ¿Vandalismo o arte?
- In Moscow, the opening of the library-cultural center of the writer Fazil Iskander
- 中式家具是企业声望和财富的象征
- Farewell to the sage. Fazil Iskander passed away
您无法评论 为什么?