​中国文化元宇宙AIGC发展报告概况

中国文化元宇宙AIGC发展报告概况

中国文化产业协会文化元宇宙专业委员会组织举办的 "AIGC:开启文化元宇宙新纪元 " 系列专题研讨会专家演讲稿整理汇编而成了《中国文化元宇宙 AIGC 发展研究报告》。

ChatGPT 对文化元宇宙的启示

一、破题——从生产的角度探索文化元宇宙

目前这个阶段我们谈到 " 元宇宙 " 的时候,还是在消费层面,但是不管是过去的 PGC 还是 UGC 一直到现在的 AIGC,都是从不同的生产方式来讲的,这一点 是非常有启发性的。国家文化数字化战略就是从供给侧入手的,我们叫发力供给侧,激活文化资源,推动文化生产体系现代化。

就目前来说,在元宇宙的初级阶段,主要还是从消费层面做,也应是数字化 文化消费的新场景,而且是数字化文化体验的一种形式。但再往前走,实际上已 经进入到一个比较高的阶段,由实现生产和消费统一来推动文化元宇宙的发展会更好。

649c0f2f8e9f0962623fa8e7_1024

二、数据——数字化时代的生产要素

(一) 数据保真:下一步人工智能发展的充分必要条件

从目前非常火的 ChatGPT 谈起,ChatGPT 带来的启示有两点,一个是数据如何保真,这个可能是大家非常关心的问题。数据的保真可能是下一步人工智能发展一个非常重要的充分必要条件。如果说数据不能做到保真,人工智能发展的方向可能就会出现一些不应有的失误。

目前 ChatGPT 训练的数据集来源大体上分为六类,包括维基百科、书籍、期 刊、互联网的网站等等,训练的数据集在 GPT-3 里面实际上总量应该有 3000 亿的词汇,有 1750 亿的参数,如果没有这样一个数据量训练的话,人工智能发展确实有很大制约。

649c0f2f8e9f0962623fa8e8_1024

在大家测试聊天机器人水平的过程中,有些人已经提出了一些问题。第一个 大家比较关心的问题是互联网上的数据并不都是准确的,当错误的数据量足够大 的时候,就会导致得出的结论也是错误的。有一个案例是基于 GPT-3 的医疗聊天,机器人曾经建议病人自杀。这可能是个案,但如果个案过多,就成了普遍性的问题,归根结底就是数据的保真问题。而且现在所有的人工智能模型的学习都是基于一些历史数据,还有一些社会学学者也在研究,有可能这些数据当中存在不必要的偏见,这种偏见也会导致社会的排斥和歧视。所以,扣好文化元宇宙第一粒扣子非常重要,这是 AIGC 的充分必要条件,也是开发人工智能非常重要的条件。

这方面,跟现在正在推动实施的国家文化数字化战略有相通的地方。也就是 这些数据集到底从哪里来。在中文互联网的数据质量堪忧的情况下,数据到底应该从哪里来?我们认为应该从中华民族积淀了五千多年的文化资源中转化而来,这可能是我们下一步应该重点考虑的。

我国是文明古国,也是文化资源大国,这些年我们在推动文化数字化过程中, 特别是文化资源数字化过程中,积攒了大量的文化资源数据,这些数据大多数都 集中在公共文化机构。这次中国共产党中央委员会办公厅、中华人民共和国国务院办公厅文件当中明确提出公共文化机构要向社会释放数据,依法向社会公众开放,让大家从这些数据当中提取具有历史传承价值的中华文化元素、符号和标识,并把它们转化为文化生产要素,从而成为文化元宇宙以及文化创新和创造的文化素材。

具体来说,我们现在数据量是非常大的,包括文化馆、图书馆、美术馆、博 物馆。我们尤其关注的一个点是地方志,地方志的数据也是非常珍贵的。根据中国地方志指导小组统计,到 2020 年,我们省、市、县三级的地方志志书已经完成了有 5000 多部,到 2020 年底公开出版的已经有 4900 多部,同时现在又增加了一些部门志、行业志和专题志,这个数量就更大了,有 25000 多部。

地方志是中华民族积淀 5000 年文化资源的底部。像乡镇志、村志,还有过 去的旧志,这个量是非常大的。更重要的是这些年地方志的数字化已经有了一个长足的进展,截至 2019 年年底,省、市、县三级光建成的数字方志馆 (数据库) 就有 100 多个。

649c0f2f8e9f0962623fa8e9_1024

文化旅游部民族民间文艺发展中心,业内人认为这是一个文艺长城工程,大 概是从 " 六五 " 时期开始做的,用了三十年时间,动员了三十多万人的力量,最 后收集到总量在 50 亿左右的民族、民间的文艺资料,包括民歌、民间故事等等。现在已经出了很多书,也在推动进一步的数字化。一些中央新闻单位的数据量也是非常大的,例如《人民日报》、新华社、中央电视台、中央人民广播电台、国际台。出版业的数据也非常多,期刊里面有知网、万方、维普等,图书领域综合性的有国家数字图书馆,还有一些专业专题性的数据库也非常多。

同时,我们民间的数据量也非常大。从 1983 年、1984 年开始,钱钟书老先 生曾经开辟了一项事业,就是对中国古典文献做数字化,他在世的时候做了 17 年,去世以后这项工程又持续了二十多年,他们的公司—— " 扫叶 ",现在积累 的汉字数总量在 20 亿左右,其中汉字库是目前我们看到的最全的。《康熙字典》 最多是 4 万多字,据说他们已经达到了将近 8 万个汉字,收录了 36 万人,比《中 国人名大辞典》多出 5 倍,这里面有作品库、地名库、工具库、图片库、地图库等等。

649c0f2f8e9f0962623fa8ea_1024

有些地级市也在做大量的数据库,如陕西渭南 " 两河一山 " 文化数字记忆项目积攒的数据库有十个,包括重点文物保护、古代的书院、民间传说、诗词歌赋、 历史文化名城、名镇、名村、名人数据库、非遗数据库、古籍目录数据库、传统戏曲剧目剧本数据库和红色文化资源数据库,量是非常大的。所以说,我们现在在推动实施国家文化数字化战略过程中的一项重要任务,就是关联形成中华文化数据库,这对整个人工智能的发展,通过人工智能创造生产更多面向大众的文化数字内容而言,是一个基础性的工程。

我们现在讲数据驱动,这个数据应该是具有文化内涵的数据,现在数据量非 常大,但还没有做标注、标引,这样文化内涵是体现不出来的。我们过去经常说一句话 " 基础不牢,地动山摇 ",现在许多产业项目、在推广的很多东西以及互联网大厂在做的一些事,总的感觉是在沙漠上盖高楼,地基不稳,什么事都做不大。所以为什么说 ChatGPT 没有在中国产生,我觉得这就是因为我们基础不牢。

(二) 数据标注:把数据的采集、加工和数据服务变成一种经常性的工作

第二个启示,就是数据的标注。有专家向 ChatGPT 提出:" 请模仿杜甫写一 首诗 ",结果并不是很理想。有的专家分析,在它的语料库中没有对汉语的韵律、字节做标注和训练,这可能是非常重要的原因。我们有了数据但不去做标注,那人工智能也发展不起来。对于数据的标注,在国家文化数字化战略当中有了一个明确的要求,就是希望各级各类文化机构,要把数据的采集、加工和数据服务变成一种经常性的工作。

数据的标注主要是从三个方面着手,第一要对数据进行分类,我们现在按照 联合国教科文组织分的六大类别,包括自然和文化遗产、表演和庆祝活动、视觉艺术和手工艺、图书和出版、视听和互动传媒、设计与创意服务六大类别,在这个基础上,每个类别里都有一些专题的知识图谱,我们就可以依据它来做编目。分类和编目,实际上对数据定下坐标了,最后我们还要对数据的特征进行描述,即数据的标签化。

在这方面,我们国家这几年有了长足的进展,例如百度在全国有七个已经建 成的数据标注基地,如山西太原的基地,这个基地是入驻在山西的综改示范区,到 2022 年的 5 月份,办公面积已经超过 19000 平方米,有 5000 名数据标注师,有 53 家代理商入驻,从 2018 年进驻到 2020 年 5 月份,累计的产值已经超过 5 个亿,累计培育孵化了 41 家的数据标注企业。

文化领域里中国知网在太原的数据加工基地,是对期刊和报纸,包括一些论 文做标注,这个量也是非常大的。太原的百度基地,每年的营收应该在 1 个亿左右,中国知网的太原数字出版数据加工基地营收也是在一年 1 个亿左右,这个量也是非常大。因此我们今年计划在全国建设国家文化大数据标识基地,在标注的基础上再赋标识符(ISLI 码),使具有文化内涵的数据,真正能够在国家文化专网互联互通,这是一项基础性工作。

我们用的标识是我国提案创建的国际标准,叫 ISLI,就是国际信息和文献领域关联标识符的国际标准。我们现在文化数字化采用的是标识解析,这跟互联 网的域名解析有很大的区别。我们的域名解析是把域名变成了 IP 地址,用 IP 寻址的方式来解析。文化数字化用标识解析,用我们国家提案并创建的国际标准,为每一个数据赋标识码,然后我们自己有一套解析系统。它跟域名解析最大的区别是,我们标注的标识码后面都包含两个主要内容,一个是数据的元数据信息, 一个是数据的访问地址。

649c0f308e9f0962623fa8eb_1024

国际标准发挥它的四大功能:第一是标识,标识编码由十进制的数字和三个 字段构成的;第二是用这个码构建数据和数据之间的关联关系,这一点非常重要,这也是国际信息和文献领域当中唯一一个具有关联功能的国际标准;第三是解析功能;第四是鉴权功能,验证用户是不是拥有访问系统的权利,即版权的认证。 如果这些问题全解决了,在数字化时代,所有数据涉及的版权问题,用标识解析就可以解决。

649c0f308e9f0962623fa8ec_1024

这样就达到了三个目的:第一是数据的互联互通,因为它有地址和元数据; 第二是数据的分布式存储,现在的文化机构最大的问题是担心自己的数据被别人 盗取,所以我们一方面先用了国家文化专网,跟互联网是物理隔离的,同时我们也采用了标识解析,可以实现物理分布、逻辑关联,即谁的数据还是在谁的服务器里,或者数据中心里面,但是由于它可以互联互通,别人知道你有数据,然后可以进行交易,通过授权使用这个数据来做加工;最后一个是数据的确权,每个数据都有唯一的身份证,而且是伴随着这个数据的全生命周期,从采集、加工、 生产、交易到最后数据的呈现全过程,以及它和其他的数据融为一体之后所产生 的新的文化数字内容,这个过程中每个数据都可溯源,这是标识解析解决的非常重要的问题。

这样一个标识解析,对于文化元宇宙下一步的发展很有启发意义。我们认为 文化元宇宙的核心要素有三个:第一是数字身份,第二是数字货币,第三是数字资产。在这个过程中,如果把电视机作为元宇宙的入口,把电视机的机顶盒变成元宇宙的发射器,用国际标准的标识符作为数字身份,ISLI 的 DRA 扮演元宇宙 " 户籍警 " 的角色。

649c0f308e9f0962623fa8ed_1024

数据身份认定之后,给个人机构以及对数据和内容都可以做标识,这样整个 元宇宙发展的 " 底座 " 就有了,不会像过去那样先发展后治理的模式。在这个基 础上,我们就可以发展一种主权链。在中办国办文件里面明确提出推动标识解析与区块链、大数据等技术融合发展,在这个基础上依托我国主导的国际标准,它的手段就是依托国家文化大数据标识注册中心,实现这个标识解析体系和当下在发展的各种联盟链对接。用这样一套系统,给各个基于区块链的联盟链做背书,也就是说我们可以扮演一种公链的角色,从而推动整个区块链技术向前一步。(新浪VR)

    温馨提示:内容来源网络,仅供参考,不代表本站元宇宙游戏之家立场,不构成任何投资建议,谨防风险!本图文内容如无意中侵犯您的权益,请邮件告知639235832@qq.com,我们将第一时间处理!
相关内容