西夏文字被称“死亡文字”的天书西夏文全球能读懂的不超10人

2021-06-06 11:02:320 评论350 阅读举报

导语：这本被称为“死亡文本”的天书，全世界最多只能有10个人阅读记得有一次聊天，一个朋友描述他对人工智能的印象，总结成三个字:西方，商业，未来。我马上说你说的很好，唯一的问题是你没说对什么...按下按钮，我们不谈怎么打。这里我们要打破的是人工智能的一些固有印象。其实人工智能作为一项很早就发展起来的通用技术，绝不是西方的专利，也不能只创造

这本被称为“死亡文本”的天书，全世界最多只能有10个人阅读

记得有一次聊天，一个朋友描述他对人工智能的印象，总结成三个字:西方，商业，未来。

我马上说你说的很好，唯一的问题是你没说对什么...

按下按钮，我们不谈怎么打。这里我们要打破的是人工智能的一些固有印象。其实人工智能作为一项很早就发展起来的通用技术，绝不是西方的专利，也不能只创造商业价值。

即使在一些巧合下，人工智能也可以成为我们认识历史、认识自己民族、认识祖先、认识过去的利器。

梁启超说“学习是世界的公共工具”，这不仅意味着学习是所有人共享的，也意味着学习是所有人共享的。人工智能作为一种基本工具，往往可以在意想不到的地方发挥作用。比如今天介绍的借助人工智能技术自动识别西夏语——一个纯粹的中国人文社会科学领域。

(有奇特美感的党项语言)

虽然大多数人永远不会涉足这项技术，但这个案例的价值在于打破了对AI的一些偏见。AI不仅集中在那些领域，也不是欧美寡头的玩具，甚至可能无处不在。

为什么要认党项？有哪些隐藏的困难？众所周知，西夏是一个先后与北宋、辽朝、金朝对峙的党项国家，曾统治河西地区200多年。

与大众认知不同，西夏不是野蛮文明。他们曾经建立了令人惊叹的文化艺术宗教文明，但是随着1227年西夏被蒙古人所灭，蒙元两朝并没有为西夏创造历史，这个政权的记载很快就消亡了，李元昊创立西夏时所创造的西夏语也是如此。

西夏文字，又称河西文字、范文文字和唐古特文字，曾在西夏管辖的宁夏、甘肃、陕西西北部和内蒙古南部盛行了约两个世纪。但西夏灭国后，这种以汉字为参照而创造的奇特文字逐渐失传，最终成为一种死语言。

直到1804年，武威大云寺发现了著名的“重建凉州护国寺塔碑”，西夏文字才在埋藏数百年后重新出现。从此，阅读西夏成为学术界的一项重要工作。

(《重建凉州护国寺童童塔纪念碑》)

在过去的200年里，西夏文献的出土数量越来越多，其中大部分被英国和俄罗斯的探险家带到国外。然而，经过各国学者的努力，西夏文字的基本识别已经完成。目前工作的重点是根据字表阅读大量西夏文献的具体内容，揭开西夏与当时中原西域的历史迷雾。

但在这个过程中，研究者要用手去读西夏文字，既费时又极难说清。由于西夏文字高度相似，人工识别可能会有较大的错误率。

因此，有学者提出用计算机自动识别西夏文字。这个假设很好，但是在具体操作上还是存在巨大的问题。比如西夏文字结构复杂，文字各部分元素高度相似，平均笔画达到25，计算机难以识别。

另外，西夏时期虽然有印刷，但出土的文献主要是手稿和刻字。同一单词在不同文档中的位置不固定，整体布局会发生偏移，给机器识别带来很大困难。

于是有趣的事情发生了。以宁夏大学相关研究机构为代表的学术力量选择了人工智能技术来解决西夏文字的自动识别。

而且这项工作已经很早就开始了，成果不断涌现。从时间上来说，绝不是赶上这种AI热的产物。

人工智能对西夏文字的自动识别事实上，计算机技术对西夏文字的处理已经很早就开始了。

早在1996年，日本国立亚非语言文化研究所就产生了西夏字库和排版系统。1997年，中国学者李和日本学者中岛康介共同发表了《西夏杂字计算机处理研究》一书。俄罗斯在西夏也应该有数据和计算机处理的项目和研究成果。

利用弹性网络、神经网络、AI算法和深度学习来识别西夏语，是我国完成的一项开创性工作。

(纪录片《神秘西夏》创造了一个文字片段)

人工智能对西夏的识别主要依靠计算机字符识别技术，自20世纪60年代以来，该技术已成为人工智能研究的主要领域之一。

其核心技术命题是基于人工智能操作对字符和符号的数字图像进行识别，并转换成相应的数字文本，从而达到可识别、可编辑、可转换的目的。

目前，光学字符识别技术在很多领域已经相当成熟，比如我们经常使用的打印文档的文本提取。在OCR识别领域，更多的应用是手写内容的准确识别，而利用OCR对考古文献中非广泛使用的文字的识别基本上是在空白色。

这里可以简单介绍两个AI识别西夏的案例。

比如在“基于弹性网络的党项识别”中，研究者利用弹性网络技术，通过网格化提取党项中的笔画特征。然后统计每个网格中像素的概率分布，形成可读的特征模型。最后，利用文档主题模型方法对提取的特征进行维度化，并结合数据库对文档进行识别。

根据该方法的实际情况，该方法的平均识别率可达87.99%。

再比如“基于均值漂移算法的西夏文字笔形状识别”，这是机器学习领域的一个基本算法。其基本理论是利用信息密度完成聚类、图像分割和跟踪任务，可以处理相似但模糊的图像处理应用。利用该算法，研究人员从原始数据中生成概率统计直方图，并通过相似度对特定的西夏风格进行判断和分类。

(西夏智能识别算法流程)

这里只是两个具体的应用案例，利用深度学习等前沿人工智能技术识别西夏文字的应用还在发展中。

人工智能在文学和考古中的应用

认识西夏语可能离我们的日常生活还很远，但是当它在整个人文社会科学领域普及的时候，AI的应用可能从另一个角度无限贴近我们的生活。

从近距离来看，人工智能促进学术效率，这可能会影响我们的学科配置、学术培训甚至高等教育系统。从远处看，AI推动的对历史和文学的进一步识别能力，是我们窥探过去，理解“中国”为什么是“中国”的全新工具。

当我们沉浸在未来带来的快乐中时，人工智能可能会在历史领域迅速发挥其价值。通过西夏识别的例子，不难发现，在文学考古等社会科学领域，人工智能至少可以发挥以下功能:

1.考古图像的识别与归档，如基于算法的文物识别、文物数字化、考古遗址数字化等。

2.文档文本识别和转码，如原始文档的文本识别和阅读、文档聚类和文档数据。

3.文献数据库的知识映射和机器学习应用。比如学科文档映射、时代文档映射、科研项目数据映射、基于知识映射训练的人文社科领域代理。

这个特别重要，想象力最丰富。就像金融、翻译等领域很有可能被AI取代一样，文字学、历史研究等领域大多依靠考证、整理、数据爬行，也完全可以被AI取代。

人文和AI之间有很多类似的跨界领域，有些甚至涉及到哲学和伦理层面的技术和人文，我们以后会陆续介绍。

也许AI就像风一样。暴风雨来临时，家家户户都会小心翼翼地锁好门窗。但当是徐来穿过屋子的微风时，ai在我们不知不觉中就无孔不入了。

免责申明：以上内容属作者个人观点，版权归原作者所有，不代表北库历史网立场！登载此文只为提供信息参考，并不用于任何商业目的。如有侵权或内容不符，请联系我们处理，谢谢合作！

上一篇：蒋干历史上真实的蒋干是怎样一个人：蒋干盗书确有其事吗？下一篇：曹操的故事有哪些少年曹操有什么故事：年轻时曹操真的玩世不恭？

西夏文字 被称“死亡文字”的天书西夏文 全球能读懂的不超10人

文章评论

相关文章

西夏文字被称“死亡文字”的天书西夏文全球能读懂的不超10人