互联网档案馆

本页使用了标题或全文手工转换
来自反共维基
互联网档案馆
Internet Archive
File:Early screenshots from the Internet archive.jpg
互联网档案馆1997年1月26日的早期样式
公司类型501(c)条款非盈利组织
网站类型
數位圖書館
语言英語
成立1996年5月12日,​28年前​(1996-05-12[1][2]
總部美國加利福尼亞州舊金山列治文区
37°48′0″N 122°27′37″W / 37.80000°N 122.46028°W / 37.80000; -122.46028坐标37°48′0″N 122°27′37″W / 37.80000°N 122.46028°W / 37.80000; -122.46028
创始人布魯斯特·卡利
服务存档、開放圖書館互聯網檔案館(2001年起)、网络标签、NASA图片、普林格档案英语Prelinger Archives
员工200
网址archive.org
archivecrfip2lpi.onion (如何访问)[3]
推出时间1996年 (1996)
旧“互联网档案馆”总部(1996年 - 2009年11月)
新“互联网档案馆”总部(2009年11月 - )

互联网档案馆(英語:Internet Archive)是美国的一個由Alexa创始人布鲁斯特·卡利创办于1996年的非營利性的、提供互联网多媒体资料档案阅览服务數位圖書館,总部位于加利福尼亚州旧金山列治文区,其使命是“普及所有知识”(英語:universal access to all knowledge.[notes 1][notes 2]。该“档案馆”提供的数字资料有如网站、网页、图形材料音乐、视频、音频、软件、动态图像和数百万书籍等的永久性免费储存及获取的副本。 迄至2012年10月,其信息储量达到10PB[5][6]。除此之外,該檔案館也是網絡開放與自由化的倡議者之一。

数据来源[编辑]

该档案馆的數據是由自帶的網絡爬蟲自動搜集的,網站存档英语Web archiving檔案館“網站時光機”抓取了超過1500億的網頁[7][8]

资金情况[编辑]

年度預算約为1000萬美元,來源則是其網頁爬蟲服務、合作關係、贊助以及卡利-奧斯丁基金會[9]。總部僱員只有數十人,大部份僱員工作於書籍掃描中心,在紅木城也有數據中心。

数据库[编辑]

档案馆的數據庫是國際網際網路保留協會英语International Internet Preservation Consortium成員[10],2007年被加利福尼亞州選為官方指定圖書館[11]。档案馆收集的数据是各种各样的。截止2015年年初,互联网档案馆共收录了2400款MS-DOS游戏[12]

歷史[编辑]

1996年,卡利(Brewster Kahle)在創建盈利性的Alexa Internet時同時也創立了互联网檔案館;同年10月開始收集儲存數據[13][14]。不過,直到2001年開發了「時光機」前,這些數據都無法存取。1999年末擴展收集範圍[15]

2012年8月,宣布[16]將在其現存的130萬檔案的下載選項中加入BitTorrent[17][18]。因為通過兩個檔案數據中心協調,這成為從該檔案館下載數據的最快方法[17][19]

2013年11月6日,檔案館在里奇蒙德區的總部失火,損壞了許多設備和一些附近的公寓[20][21],預計損失達到60萬美元[22]


网页存档[编辑]

时光机[编辑]

网站时光机是互联网档案馆最重要的服务之一,其名取自一部名为The Rocky and Bullwinkle Show英语The Rocky and Bullwinkle Show的美国卡通片。时光机允许人们去搜索和访问其网页存档。在一些国家和地区,时光机这个术语的使用已经非常普遍,“时光机”和“互联网档案馆”甚至开始被当做同义词使用。

互联网档案馆增量采购的存储盘
年份 存档页面的数量(亿)
2005 40[23]
2006 85[24]
2007 85[25]
2008 85[26]
2009 150[27]
2010 150[28]
2011 150[29]
2012 150[30]
2013 373[31]
2014 430[32]
2015 479[33]
2016 510[A][34]

273[B][35]

2017 286[36]
2018 344[37]
A 使用了2016年10月以前的旧版计数系统
B 使用了2016年10月以后的新版计数系统

Archive-It[编辑]

创始人布魯斯特·卡利正在谈论Archive-It

Archive-it是一款帮助机构和个人建立存档的工具。一旦目标网站的URL被输入并保存且该网站允许互联网档案馆所使用的robots.txt访问,该网页将会成为时光机的一部分。[38]截至2014年3月 (2014-03),Archive-it在美国的46个州和其他16个国家共有超过275个机构是其合作伙伴,共有超过74亿个网页的在线存档。

收集书目[编辑]

互联网档案馆的“抄写员”图书扫描工作站

互联网档案馆收集了世界各地的数字化图书以及各大图书馆和文化遗产机构的特殊藏品。互联网档案馆在5个国家经营着33个圖書掃描中心,其活动受图书馆和基金会的财政支持。[39][40]截至2013年7月 (2013-07),档案馆共收集了440万本书,每月的下载量超过1500万。[39]截至2008年11月 (2008-11),档案馆共有100万个网络文本,总大小高达0.5PB,涵盖了原始照相图像、裁剪和歪斜的图像、PDF文件和原始OCR数据。[41]

各语言的文本数[编辑]

1 语言 英语 法语 德语 西班牙语 汉语 阿拉伯语
文本数(2015年11月27日) 6,553,945[42] 358,721[43] 344,810[44] 134,170[45] 84,147[46] 66,786[47]
2 语言 荷蘭語 葡萄牙語 俄语 乌尔都语 日语 合计(2016年10月30日)
文本数(2015年11月27日) 30,237[48] 25,938[49] 22,731[50] 14,978[51] 14,795[52] 10,612,003[53]

各个年代的文本数[编辑]

1 年代 1800年代 1810年代 1820年代 1830年代 1840年代 1850年代
文本数

(2015年11月27日)

39,842[54] 51,151[55] 79,476[56] 105,021[57] 127,649[58] 180,950[59]
2 年代 1860年代 1870年代 1880年代 1890年代 1900年代 1910年代
文本数

(2015年11月27日)

210,574[60] 214,505[61] 285,984[62] 370,726[63] 504,000[64] 455,539[65]
3 年代 1920年代 1930年代 1940年代 1950年代 1960年代 1970年代
文本数

(2015年11月27日)

185,876[66] 70,190[67] 85,062[68] 81,192[69] 125,977[70] 206,870[71]
4 年代 1980年代 1990年代 2000年代 2010年代
文本数

(2015年11月27日)

181,129[72] 272,848[73] 579,905[74] 855,253[75]

影像资料[编辑]

读卡器
互联网档案馆的缩微胶片
互联网档案馆的录影带

除了上述内容之外,互联网档案库还收集了大量的数字媒体,这些数字媒体均符合美国公共领域CC授权协议。这些媒体文件均会根据媒体类型(moving images、audio、text、etc.)被组织成集合,并根据各项标准被分入子集合。例如大都會藝術博物館提供的相关资料就会被分入一个子集,目前该集合相关资料的数量已经超过了140,000个[76]。每个主集合都含有一个“社区”子集合(以前被称为“开源”)用于存储公众的贡献。

音频收藏[编辑]

音频档案包括音乐,有声读物,新闻广播,旧时广播的节目和各种其他音频文件。该系列中有超过200,000个免费数字录音。子集包括有声读物和诗歌,播客,[77]非英语音频等。[78]

Live Music Archive子集包括来自独立音乐家的超过170,000个音乐会录音,以及更为成熟的艺术家和音乐合奏,以及关于录制他们的音乐会的宽松规则,例如Grateful Dead,以及最近的The Smashing Pumpkins。此外,Jordan Zevon还允许互联网档案馆收藏他父亲Warren Zevon的音乐会录音。Zevon系列从1976年至2001年不等,包含126场音乐会,包括1,137首歌曲。[79]

布鲁克林博物馆[编辑]

此系列包含大约3,000件布鲁克林博物馆的物品。[80]

镜像網站[编辑]

當機或資料庫出錯時,可於新亞歷山大圖書館鏡像網站查詢1996至2007年的備份資料[81]

参见[编辑]

註釋[编辑]

  1. Internet Archive Frequently Asked Questions. Internet Archive. [2013-04-13]. (原始内容存档于2009-10-21). 
  2. Internet Archive: Universal Access to all Knowledge. Internet Archive. [2013-04-13]. (原始内容存档于2013-03-10). 

参考文献[编辑]

  1. Internet Archive: About the Archive. Wayback Machine. 2000-04-08 [2016-03-13]. (原始内容存档于2000-04-08). 
  2. archive.org WHOIS, DNS, & Domain Info – DomainTools. WHOIS. [2016-03-13]. (原始内容存档于2018-11-05). 
  3. Internet Archive: Offline Archive. archive.org. [2019-11-22]. (原始内容存档于2019-10-29). 
  4. archive.org Site Info. Alexa Internet. [2018年11月13日]. (原始内容存档于2018年11月13日). 
  5. 10,000,000,000,000,000 bytes archived!. Collections Team blog. Internet Archive. 2012-10-26 [2012-10-27]. (原始内容存档于2012-10-27). On Thursday, 25 October, hundreds of Internet Archive supporters, volunteers, and staff celebrated addition of the 10,000,000,000,000,000th byte to the Archive's massive collections. 
  6. Brown, A. (2006) Archiving websites: A practical guide for information management professionals. London: Facet Publishing. pp. 9.
  7. Internet Archive: Projects. Internet Archive. [2013-03-06]. (原始内容存档于2013-03-01). 
  8. Grotke, A. (2011). Web Archiving at the Library of Congress. Computers In Libraries, 31 no. 10 (December 2011), p. 15-19.
  9. Womack, David. Who Owns History?. Cabinet Magazine. No. 10. Spring 2003 [2013-04-13]. (原始内容存档于2013-03-19). 
  10. "Members" International Internet Preservation Consortium. Netpreserve.org
  11. "Internet Archive officially a library" 页面存档备份,存于互联网档案馆, May 2, 2007. Archive.org
  12. Internet Archive 放大招,2400 款 MS-DOS 游戏任你玩. ifanr爱范儿. 2015-01-07 [2017-01-29]. (原始内容存档于2017-02-02). 
  13. 互联网真能帮人类历史存档吗?. 腾讯科技. 2015-01-24 [2016-10-30]. (原始内容存档于2016-09-15). 
  14. Internet Archive: In the Collections. Wayback Machine. 2000-06-06 [2016-03-15]. (原始内容存档于2000-06-06). 
  15. "Daisy Books for the Print Disabled" 页面存档备份,存于互联网档案馆, February 25, 2013. Internet Archive.
  16. Kahle, Brewster (August 7, 2012). "Over 1,000,000 Torrents of Downloadable Books, Music, and Movies" 页面存档备份,存于互联网档案馆. Internet Archive Blogs.
  17. 17.0 17.1 Van der Sar, Ernesto. Internet Archive Starts Seeding 1,398,875 Torrents. TorrentFreak英语TorrentFreak. 2012-08-07 [2014-03-21]. (原始内容存档于2012-08-08). 
  18. "Hot List for bt1.us.archive.org (Updated August 7 2012, 7:31 pm PDT)" 页面存档备份,存于互联网档案馆. US Cluster. Internet Archive.
  19. "Welcome to Archive torrents" 页面存档备份,存于互联网档案馆. Internet Archive.
  20. Alexander, Kurtis. Internet Archive's S.F. office damaged in fire. San Francisco Chronicle. 2013-11-06 [2014-03-21]. (原始内容存档于2013-12-12). 
  21. Fire Update: Lost Many Cameras, 20 Boxes. No One Hurt. Internet Archive Blogs. 2013-11-06 [2014-03-21]. (原始内容存档于2014-03-14). 
  22. Shu, Catherine. Internet Archive Seeking Donations To Rebuild Its Fire-Damaged Scanning Center. TechCrunch. 2013-11-06 [2014-03-21]. (原始内容存档于2014-03-17). 
  23. Internet Archive. Internet Archive. [March 2, 2014]. (原始内容存档于December 31, 2005). 
  24. Internet Archive. Internet Archive. [March 2, 2014]. (原始内容存档于December 28, 2006). 
  25. Internet Archive. Internet Archive. [March 2, 2014]. (原始内容存档于December 28, 2007). 
  26. Internet Archive. Internet Archive. [March 2, 2014]. (原始内容存档于December 24, 2008). 
  27. Internet Archive. Internet Archive. [March 2, 2014]. (原始内容存档于December 20, 2009). 
  28. Internet Archive. Internet Archive. [March 2, 2014]. (原始内容存档于December 30, 2010). 
  29. Internet Archive. Internet Archive. [March 2, 2014]. (原始内容存档于August 30, 2011). 
  30. Internet Archive. Internet Archive. [March 2, 2014]. (原始内容存档于October 14, 2002). 
  31. Internet Archive. Internet Archive. [March 2, 2014]. (原始内容存档于December 31, 2013). 
  32. Internet Archive Blogs. blog.archive.org. [June 10, 2018]. (原始内容存档于July 7, 2018) (美国英语). 
  33. Internet Archive. Internet Archive. [December 9, 2018]. (原始内容存档于May 31, 2015). 
  34. Internet Archive. Internet Archive. [December 9, 2018]. (原始内容存档于September 30, 2016). 
  35. Goel, Vinay. Defining Web pages, Web sites and Web captures. Internet Archive. October 23, 2016 [December 9, 2018]. (原始内容存档于December 9, 2018). 
  36. Internet Archive. Internet Archive. [December 9, 2018]. (原始内容存档于June 1, 2017). 
  37. Internet Archive. Internet Archive. [December 9, 2018]. (原始内容存档于December 9, 2018). 
  38. Rossi, Alexis. Fixing Broken Links on the Internet. Internet Archive. 2013-10-25 [2013-12-29]. (原始内容存档于2013-12-16). 
  39. 39.0 39.1 Hoffelder, Nate (July 9, 2013). "Internet Archive Now Hosts 4.4 Million eBooks, Sees 15 Million eBooks Downloaded Each Month" 页面存档备份,存于互联网档案馆. The Digital Reader.
  40. Kahle, Brewster (May 23, 2008). "Books Scanning to be Publicly Funded" 页面存档备份,存于互联网档案馆. Internet Archive Forums.
  41. "Bulk Access to OCR for 1 Million Books" Archived 2012-11-28 at WebCite. Open Library Blog. November 24, 2008.
  42. Internet Archive Search : (language:eng OR language:"English"). Internet Archive. [2015-11-27]. (原始内容存档于2016-04-15). 
  43. Internet Archive Search : (language:fre OR language:"French"). Internet Archive. [2015-11-27]. (原始内容存档于2016-03-17). 
  44. Internet Archive Search : (language:ger OR language:"German"). Internet Archive. [2015-11-27]. (原始内容存档于2016-01-14). 
  45. Internet Archive Search : (language:spa OR language:"Spanish"). Internet Archive. [2015-11-27]. (原始内容存档于2016-04-08). 
  46. Internet Archive Search : (language:Chinese OR language:"chi") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始内容存档于2016-04-08). 
  47. Internet Archive Search : (language:ara OR language:"Arabic"). Internet Archive. [2015-11-27]. (原始内容存档于2016-03-22). 
  48. Internet Archive Search : (language:Dutch OR language:"dut") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始内容存档于2016-04-08). 
  49. Internet Archive Search : (language:Portuguese OR language:"por") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-15). 
  50. Internet Archive Search : (language:rus OR language:"Russian") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-19). 
  51. Internet Archive Search : (language:urd OR language:"Urdu") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-15). 
  52. Internet Archive Search : (language:Japanese OR language:"jpn") AND mediatype:texts. Internet Archive. [2015-11-27]. (原始内容存档于2016-04-08). 
  53. Internet Archive Search : mediatype:texts. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-05). 
  54. Internet Archive Search : mediatype:texts AND date:[1800-01-01 TO 1809-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-04-09). 
  55. Internet Archive Search : mediatype:texts AND date:[1810-01-01 TO 1819-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-26). 
  56. Internet Archive Search : mediatype:texts AND date:[1820-01-01 TO 1829-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-15). 
  57. Internet Archive Search : mediatype:texts AND date:[1830-01-01 TO 1839-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-04-09). 
  58. Internet Archive Search : mediatype:texts AND date:[1840-01-01 TO 1849-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-26). 
  59. Internet Archive Search : mediatype:texts AND date:[1850-01-01 TO 1859-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-17). 
  60. Internet Archive Search : mediatype:texts AND date:[1860-01-01 TO 1869-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-13). 
  61. Internet Archive Search : mediatype:texts AND date:[1870-01-01 TO 1879-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-15). 
  62. Internet Archive Search : mediatype:texts AND date:[1880-01-01 TO 1889-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-16). 
  63. Internet Archive Search : mediatype:texts AND date:[1890-01-01 TO 1899-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-11). 
  64. Internet Archive Search : mediatype:texts AND date:[1900-01-01 TO 1909-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-18). 
  65. Internet Archive Search : mediatype:texts AND date:[1910-01-01 TO 1919-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-19). 
  66. Internet Archive Search : mediatype:texts AND date:[1920-01-01 TO 1929-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-04-09). 
  67. Internet Archive Search : mediatype:texts AND date:[1930-01-01 TO 1939-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-04-09). 
  68. Internet Archive Search : mediatype:texts AND date:[1940-01-01 TO 1949-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-26). 
  69. Internet Archive Search : mediatype:texts AND date:[1950-01-01 TO 1959-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-16). 
  70. Internet Archive Search : mediatype:texts AND date:[1960-01-01 TO 1969-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-15). 
  71. Internet Archive Search : mediatype:texts AND date:[1970-01-01 TO 1979-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-04-09). 
  72. Internet Archive Search : mediatype:texts AND date:[1980-01-01 TO 1989-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-04-09). 
  73. Internet Archive Search : mediatype:texts AND date:[1990-01-01 TO 1999-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-11). 
  74. Internet Archive Search : mediatype:texts AND date:[2000-01-01 TO 2009-12-31]. Internet Archive. [2015-11-27]. (原始内容存档于2016-03-26). 
  75. Internet Archive Search : mediatype:texts AND date:[2010-01-01 TO 2015-11-27]. Internet Archive. [2015-11-27]. (原始内容存档于2016-04-09). 
  76. Metropolitan Museum of Art - Gallery Images: Free Image : Download & Streaming : Internet Archive. Internet Archive. [2014-12-04]. (原始内容存档于2015-01-03). 
  77. How to Host Podcast MP3 on Archive.org. TurboFuture. [2019-02-25]. (原始内容存档于2017-08-04) (英语). 
  78. Download & Streaming : Audio Archive : Internet Archive. archive.org. [2019-02-25]. (原始内容存档于2019-02-24) (英语). 
  79. Clarke, John. Warren Zevon Live Shows Hit the Web, Possible Film in the Works. Rolling Stone. 2009-06-03 [2019-02-25]. (原始内容存档于2019-02-26) (美国英语). 
  80. Brooklyn Museum : Free Image : Free Download, Borrow and Streaming : Internet Archive. archive.org. [2019-02-25]. (原始内容存档于2019-02-24) (英语). 
  81. International School of Information Science (ISIS). www.bibalex.org. International School of Information Science. [2016-10-30]. (原始内容存档于2016-10-31). 

延伸阅读[编辑]

外部連結[编辑]