国际数据公司发布的第六期数字宇宙研究报告显示,由于个人和机器产生的大量数据,数字资源的膨胀已然达到了前所未有的程度。预计到2020年,数字宇宙规模将达到40ZB,全球人均5247G,而利用率却不到0.1%;目前我国占全球数字宇宙的比例为13%(4000亿GB),全国人均295G,预计到2020年所占比例将上升到21%。这是典型的大数据环境。
数字宇宙中含有大量文化遗产、政府信息、科学数据等有价值的资源。它们是国家重要的战略资源,是国家信息基础设施的重要组成部分,对促进经济与社会发展发挥了重要的推动作用。数字信息资源已成为社会信息资源的主流,集中反映了一个时代文化、科技、政治、经济等领域的特征,塑造了一个民族的记忆,是国家软实力的重要表征。
面对如此庞大的数字宇宙,人类正面临失去记忆的危险。受到多种复杂因素以及数字信息资源本身脆弱性、载体依赖性以及未来价值不确定性等的影响,数字信息资源生命周期大大缩短,大量有价值的资源正在迅速消失和失去其原有价值。造成这种情况的因素包括:数字信息资源本身快速增长;能创制这种遗产的软件和硬件迅速淘汰;维护和保护这类遗产的资金、责任和方法都不确定,以及相关立法缺少;观念的转变落后于技术的更替;等等。
如果缺乏有效的保存措施,很可能会造成资源的永久消逝、民族记忆的湮灭和文化传承链条的断裂。正因为如此,数字信息资源长期保存问题受到了广泛关注。联合国教科文组织制定了《保存数字化遗产宪章》和《数字化遗产保存指导方针》,实施了“世界记忆”项目;美国国会通过立法保障“国家数字信息基础设施及保存计划”的实施,国会图书馆开展了“美国记忆”项目;欧盟制定了《数字保存项目和政策合作的行动方案》。
我国也将数字信息资源长期保存纳入到战略规划中。文化部提出实施“中国记忆”项目,大力推动数字文化建设;科技部提出加强科技基础性工作,持续增强科学研究积累,加强对相关科学数据的采集和保护;《新闻出版业“十二五”时期发展规划》提出建设“国家学术论文数字化发布平台”,数字内容的保存是其重要组成部分。但整体上看,这些项目分散零碎,缺乏顶层设计,在理论研究和实践应用方面还面临众多亟须解决的重大问题。比如,中国众多的文化典籍没有在数字环境下得到储存和保护,我国各级各类图书馆、档案馆共收藏古籍4000余万册,由于历经岁月侵蚀,其中1/3(约1500万册)损毁和自然老化严重;国家机关及企事业单位42.2%的电子文件没有以任何方式留存,电子邮件、多媒体文件、网页文件等类型的电子文件处于严重的流失状态;中国专利信息数据库漏检率高达70%至90%,其中医药领域专利数据库漏检率高达90%。
与中国高速增长的经济相比,与公众快速增长的数字文化需求相比,中国当前数字领域的信息资源整合与服务能力、基础数字文化的公众普及和社会影响力还远远不够,中国数字文化对世界的影响力也远远不够,迫切需要我们进行协同创新,开展数字环境下的“中国记忆”与数字保存研究,产出符合中国国情、学术上有重大突破、理论上有重大创新的成果。
为此,应该建立相应的协同创新中心(机制),集中国内优质资源,围绕基础研究、制度设计、服务示范三个功能,全力打造集学术创新、智库咨询、人才培养、资源建设于一体的“中国记忆”与数字保存协同创新平台。它服务于国家数字文化建设、利用与传播的重大需要,推动文化事业大发展大繁荣,促进信息资源的持续开发利用,实现内容产业稳定发展,推动科技、经济、政府等类型信息资源交流共享,放大资源效益的重要保障,为实现“全面提高信息化水平,加快建设下一代国家信息基础设施”目标提供资源支撑。
我国数字信息资源长期保护之路任重而道远,需要立足于现在,着眼于未来,构建具有中国特色的数字资源长期保存体系和平台,打造数字时代的“中国记忆”。