近日,中国科学院发布了《中国开放数据白皮书2024》,该报告深入探讨了我国开放数据的多个维度,展示了当前的发展状态、取得的成就、面临的挑战及未来的方向。
报告首先揭示了调研的关键发现。2024年的调查结果显示,中国学者对开放数据的支持度持续上升,期刊和出版商在数据政策方面的影响力日益增强。然而,数据共享过程中仍存在诸多障碍。学者们普遍担忧数据被提前发表、滥用以及涉及敏感信息等问题,不同学科领域的担忧因素各有侧重。学者们在数据共享方面的贡献尚未得到充分认可,科研机构、基金资助方等在推动数据共享方面的引导作用仍需加强。
在开放数据的实践成果方面,国家科学数据中心在各自领域内取得了显著成效。例如,国家材料腐蚀与防护科学数据中心通过大量腐蚀大数据的联网观测,解决了建模难题,并明确了未来的发展方向。国家生态科学数据中心则构建了标准规范体系,开发了数据产品和分析工具,建立了云平台,有效推动了生态系统野外台站数据的开放共享。国家基因组科学数据中心建立了人类遗传资源数据管理平台,实现了数据的有效管理与共享;而国家青藏高原科学数据中心在数据共享和质量控制方面取得了突出成果,为众多科研项目和区域发展提供了坚实的数据支撑。
数据论文的发展也是白皮书关注的重点之一。在政策引导下,中国数据论文的数量不断增加,在全球数据论文发表中占据重要地位,中国学者的发表数量位列全球第二。然而,尽管数量可观,但论文的影响力仍需进一步提升。
科技资源标识的应用在开放数据中发挥着重要作用。科技资源标识服务平台为各类科技资源提供唯一标识服务,广泛应用于大科学装置和生物多样性等领域,实现了数据溯源、资源共享整合等功能。未来,该平台将朝着智能化、数字化、标准化的方向发展。
白皮书还探讨了生成式AI在开放科学中的作用。随着技术的发展,生成式AI为开放科学带来了新机遇,它可以帮助作者生成高质量的元数据,撰写数据可用性声明,助力数据论文的发表,提高数据共享的合规性和报告质量。然而,技术并不能替代政策制定和编辑的领导力。
在报告的最后部分,展示了多个领域的具体数据和案例,包括数据共享的成功实践、数据论文的影响力分析以及科技资源标识的应用实例等。这些数据和案例为全面理解中国开放数据的现状和发展提供了有力的支持。