王成平 曾庆雅 孙某姑 张娟[]
(西南民族大学民族语言文字信息处理重点实验室,四川成都,610041)
摘 要:目前彝语言基础语言工程建设研究尚处于初级阶段,难以全面科学地描写、展示彝语方言的真实面貌,如何借助计算机信息管理、语料库、人工智能等现代信息处理技术来构建信息处理用彝语方言语料资源库,真实记录彝语方言的面貌与现状,已成为彝语言及相关研究领域亟需解决的一个基础性关键问题。论文以西南地区彝语六大方言为研究主线,结合彝语不同方言的特点及使用范围及人口规模,确定每个方言、次方言、土语点的语言调查分析与数据采集点,从字、词语、句子、对话、篇章等多层次、多维度来开展彝语方言土语资源库的研究建设,创建高质量的西南地区彝语方言语料资源信息共享平台,并结合笔者从事彝语言信息处理技术研究与开发的实践,对彝语方言语料资源库建设与运用中的一些相关问题作了分析与思考。
关键词:彝语方言;语料;标注;共享平台;资源库
1.引言
彝族是我国民族大家庭中人口较多的一员,据2010年全国人口普查数据统计,共有870多万,居全国少数民族第六位,分布在云南、四川、贵州、广西四省区。彝语属汉藏语系藏缅语族彝语支,分为六大方言区,由于社会、历史发展的种种原因,彝语方言土语之间差异较大,方言土语之间基本上很难相互通话和交际[王秀英.现代彝语概论[M].四川民族出版社,2017.1.
],这些情况使得信息化、数字化背景下的彝语研究在“数字化建设、语音分析、语言标准化建设”等领域面临许多复杂的问题。以此同时,随着全球经济社会的一体化进程的快速推进,一些地区的彝语方言与文化在推广、运用、保护中面临许多困境[王成平.彝语言文字信息技术的开发与应用发展研究.四川民族研究(第一辑)[M],2019.
],使用范围和人群越来越少,有的甚至面临濒危、失传,亟需保护[中新网.广西抢救民族语文建语言有声数据库,http://www.chinanews.2018.6
];目前彝语言基础语言工程建设研究尚处于初级阶段,已建成的彝语语料库大都是标准的规范文本语料库,以纯文本的形式与用户见面,难以全面科学地描写、展示彝语各方言特性的真实面貌[王成平.彝语言语料资源数据库的设计与共享的实现[J].中文信息学报,2016(1).
]。因此如何借助计算机信息、语料库、人工智能等现代信息处理技术,建立西南地区彝语方言语料资源库,真实记录彝语方言的面貌与现状,保护具有社会历史价值的彝语言文化遗产,已成为彝语言及相关研究领域亟需解决的一个基础性关键问题。
论文研究以西南地区彝语六大方言为研究主线,并结合彝语不同方言的特点及使用范围及人口规模,确定每个方言、次方言、土语点的语言调查分析与数据采集点,从字、词语、句子、对话、篇章等多层次、多维度来开展信息处理用彝语方言语料资源库的研究与建设,创建高质量的彝语方言语料资源库及其共享平台,其研究的主要内容框架如下图所示:
.png)
(图1彝语方言语料资源库的建设内容框架)
2、彝语方言语料资源库的总体建设思路与实现流程
2.1彝语方言研究与计算机信息处理技术相结合,组织语言学、彝语言学、语音学、计算机、信息管理等专业领域的相关研究力量,多方并重进行研究和开发,以保证彝语方言语料采集、整理、分类、标注、语音特征分析的正确性和全面性,确保能够实现彝语六大方言语言数据资源之间的共享。
2.2根据彝语不同方言的特点,在广泛听取彝语言专家的意见的基础上,确定能反映不同地区彝语方言语音特点的字、词、短语、句子、对话、篇章,运用的计算机语音处理软件(Pratt、KEY音频处理平台)进行彝语方言有声资源数据的分析、研究,按照“中国语言资源有声数据库调查手册”、“中国语言资源有声数据库技术规范”的有关标准,开展西南地区彝语方言有声资源数据的采集、整理、分析、标注、语音分析。
2.3采用“广泛的客观定义的文本类型”进行初始语料的采样,根据语料的“影响力”、流通性等语料库建设标准,开展西南地区彝语方言文本资源数据的收集、整理、分类、语言分析。
2.4利用多媒体、语料库、SQL数据库、Web程序开发等信息处理技术,结合彝语不同方言的特点,按照“中国语言资源有声数据库技术规范与平台研发”等的有关标准,完成《彝语方言语料资源库》及其信息查询系统的设计开发,建设总体思路、实现流程如下图所示:
.png)
(图2.彝语方言语料资源库建设总体思路图)
.png)
(图3.彝语方言语料资源库建设的功能实现流程图)
2.5由于社会、历史发展的种种原因,彝语方言之间差异较大,彝语方言之间基本上很难相互通话和交际,同时彝语六大方言在读音、写法、表义上有很大分歧,同一字形不同的地方有不同的音、不同的写法及不同的意义,这些情况使得信息化、数字化背景下的彝语研究在“数字化建设、语音分析、语言标准化建设”等领域面临许多复杂的问题。此外,目前还没有任何统一的西南地区彝语方言语料资源库建设标准,因此如何建库、分类、标注,以及实现各个方言资源之间数据的共享等等都是课题研究的重点和难点所在。论文研究参考、借鉴参考各种类似语言在语音资源库建设的成功经验,同时针对彝语不同方言的具体问题来完成了语料库建设。
3. 彝语方言语料资源库建设的实现技术分析
3.1彝语方言字符的编码选择
由于彝语言方言字符的特殊性、多样性,必须考虑其编码的设计与选择,否则可能无法正常显示、查询彝文语料。
目前常用的编码方法有ASCII编码、GBK编码、GB2312编码、ANSI编码、BIG5编码、Unicode编码、utf-8编码。ASCII码是美国信息交换标准码的缩写,它主要考虑英语及一些西欧语言,共有128位,但由于原设计的限制,有些文本无法表示,如阿拉伯文、藏文、彝文等,因此无法选择ASCII码;另一方面,目前彝文方言字符属于大字符集,编码形式各异,难以形成统一的标准。[ CSDN.NET ANSIC和Unicode之间的转换 ,http://blog.csdn.net,2017
]
另一种流行编码是Unicode,1994年颁布实施国际语言信息处理标注,包括字符集、编码方案等,以全球语言信息处理的文本转换、处理的不同需求[ java_2017.Hadoop中Text类型 与 String的区别 ,http://blog.csdn.net
],其制定的初衷原则是为每种语言中的每个字符定制二进制文件,以便文本可以跨边界、跨平台和跨语言处理。因此,本论文采用使用unicode编码方案处理彝文方言字符。
3.2彝语方言语料资源库的建设与实现
语料库建设的质量和规模将直接影响最终的运用与分析结果,尤其是在数据统计、检索、语音识别技术中,语料库的质量和规模是所有问题的核心。作为彝语言信息处理技术开发的重要研究基地-西南民族大学民族语言文字信息技术研发中心始终把基础语料库、平衡语料库、双语平行语料库建设作为实验室建设与彝语言信息处理技术开发的基础和核心。通过长期实践探索积累,结合合彝语言文字的特点,借鉴藏、蒙古、维吾尔等民族语言建设语料库的技术与数据支撑,初步构建了的彝语方言语料库构建技术流程(如图3.1所示)和彝语方言语料库建立规范(如表3-1所示)。
.png)
(图4.彝语方言语料库构建的技术流程图)
在初始准备阶段,确定语料库的作用、目的和最终的测试标准,同时需要首先要对语料库的选择方法、词表设计、数据采集、标注、存储,以及语料库建库等方面进行规范。
3.3彝语方言语料资源库的语料规范
本论文研究的主要目的是建立一个统一、完整、高质量的信息处理用彝语方言语料资源库。为了实现既定语料库建设目标,必须首先制定语料库规范(如表1所示),对语料采集设备参数、数据采集与存储、语料库过滤、标签等都有全面的规范。
.png)
(表1.彝语方言语料资源库语料建设规范表)
3.4彝语方言语料资源的在线语音采集平台与方案
为方便、快捷地完成彝语方言语音数据采集,论文研究开发定制了彝语方言语音采集平台和采集方案,简化了语料采集过程,使远程数据采集和检测更加方便,保证了彝语方言数据的及时整理,极大地方便了快速建立彝语方言语料库,其总体框架如图5所示。
.png)
(图5.彝语方言语料采集框架图)
彝语方言在线语音采集软件详细工作流程:
首先在文件存储服务器上编写文本(TXT)格式的标准文本语料,其次预定的数据库管理程序将整个文本文件分割成几个任务文件,分割后的任务文件格式也是TXT格式,例如,如果设定了有一个包含1000个句子的文本语料库,文件存储服务器会自动将语料库分成10个单独的语句,每个语句包含100篇文章,任务文件会在客户端在录制之前下载服务器分配的任务,其具体的流程如图6所示。
.png)
(图6.彝语方言语音语料在线采集流程图)
用户启动语音采集软件后,首先进行注册,注册时需要填写发音人的基本信息,以注册语料库分析的准确性;用户注册成功后,便可开始录制;如果正确,点击下一个句子;每次用户点击下一个句子时,所记录的句子将被保存到采集软件生成的指定目录中;最后,在所有300个记录之后,用户返回到主页,输入上载文件列表,其实现框图如图7所示。
.png)
(图7.在线彝语方言语料采集平台实现流程图)
收集的语料库数据都初始化设置了如:说话人属性信息、录音环境、录音文件格式等的详细信息的存储信息;除了存储在录音工作介质中的信息、录音设备外,还留下了诸如:发音人姓名、联系电话、年龄、籍贯、方言所属区、录音地点、时长等属性标注。
采集的彝语方言音频格式如下:采样率为单通道、16为精度、441OOHZ;命名格式为语音文件编号号+注册名+地点+录音环境+性别+籍贯+年龄+录音设备等。
3.5彝语方言语料标注平台
自然语言形成的数据集称为语料库。基于相同标签规范的数据集称为带注释的语料库(带注释的语料库);对于语音语料库而言,其标注的准确性直接影响到语音语料库的质量和使用价值,其实现功能如图8所示。
.png)
(图8.彝语方言语料标注平台基本功能流程图)
彝语方言语料标注的实践步骤如下:
1. 目标:核实语料文件的文本是否与语音标注一致,保证采集、整理语言数据真实、有效。
2. 标注方法:音频数据分为好数据和坏数据,如表2所示:
.png)
(表2.彝语方言语音数据的分类及操作)
3.良好的数据准备:文本语料与音频语料一一对应。
4.坏数据标准:自然发音,如果说话人的发音不自然、不连贯,这个单词不适合严肃的单词;不适当的体积;如果音频切换不好,声音太低或太低,则不能被认为是坏数据。
5. 标注内容:语料的修改、增补,如数据说话者的性别,如:男性和女性。
6.数据标注已经完成了“my tasks”列表中显示的任务之一。单击以确认成功提交提示符以关闭当前页面,语音标注实现图和最终标注后生成的文件格式如图9、10所示。
.png)
(图9.彝语方言语音标注平台界面)
.png)
(图10.彝语方言语音标注分类文件界面)
4.彝语方言语料资源库的运用前景分析
随着信息技术的革新,方言调查、整理、分析、研究也由传统方法发展到结合计算机信息技术平台,欧洲早在20世纪90年代初就开始关注多样化语音资源库的建设,建立了基于欧洲七种语言的语音资源库“EUR-ACCOR";在国内一些高校、科研单位也早已开展了方言综合资源库的建设,并且取得了一些有影响力的研究成果,同样建设彝语方言语料库一方面让大范围、大规模、系统地再调查、收集、储存、研究彝语方言土语语料成为可能,而且为彝语研究提供了新的研究方法与视野,也将会进一步促进彝语言研究向深层次的发展与突破。
1)建立西南彝语方言语料资源库,真实记录彝语方言的面貌与现状,保护具有社会历史价值的彝语言文化遗产,具有抢救性特点。
2)不仅能给彝语言研究提供详实、可靠的语言资源数据保障,也为永久保存有关彝语方言的真实有声形态,搭建了一个立体的彝语言资源数据平台,为保护彝族传统文化遗产开辟了新的渠道。
3)有利于对彝语言做全面深入的描写与分析研究,可提高、改进目前彝语方言研究的手段,为研究彝语言现状及变化、彝语言与信息处理提供一些可靠的材料基础和理论依据,使得相关研究成果更为客观可靠和更具应用价值,是彝语研究向深入而不可缺少的一项基础性关键语言数据资源库。
4)在彝语言基础研究领域,为言语产生、言语感知、理解、言语习得、实验语音学等提供大规模的语言与语音材料,帮助发现一些新的彝语方言特殊现象;还可以利用数据库资源检验传统的、基于手工材料得出的各种语言理论,帮助我们对彝语方言语音进行量化分析,从而使我们对彝语方言自然语音的各种复杂现象获得更为深刻全面的认识。
5、结语
论文研究按照彝语不同方言的具体分布、使用区域进行有序的西南地区彝语方言资源的收集整理;结合彝语不同方言的特点及使用范围及人口规模,确定了6个语言调查分析与数据采集点;同时在广泛征求、听取彝语言专家的意见的基础上,按照“中国语言资源有声数据库调查手册”、“中国语言资源有声数据库技术规范与平台研发”的相关标准,确定能反映不同地区彝语方言语音特点的单音节词、双字音节词、三音节词、四音节词、五音节词、句子、短文、对话、篇章等的语料采集标准、样本;从字、词语、句子、对话、篇章等多层次、多维度来开展面向信息处理用的彝语方言语料的收集、整理、归档,在充分考察不同西南彝语方言中语料分布、语料流通性、影响性的基础上,利用多媒体、语料库、SQL数据库、Web程序开发等信息开发技术,提出了WEB在线彝语方言语料库的研究与建设思路,完成了18000词条规模的西南地区彝语方言语料资源库的建设任务,方便了彝语言研究工作者对语料的检索,提高语料使用效率的有效途径,同时文中涉及到的开发思路和原理对其他民族语言方言资源库的也提供了一个可参考的解决方案。
参考文献:
[1]沙马拉毅. 彝文信息处理技术三十年发展历程与展望[J],中文信息学报,2011.(6):170-174.
[2]俞士汶.综合型语言知识库的建设与利用[J],中文信息学报,2004.(5):1-10.
[3]王成平.信息处理用彝、汉、英三语平行语料库的建设与语料对齐技术研究[J],科技通报,2012(1):131-134.
[4]周从军.XML程序设计[M],天津,天津大学出版社,2010:9-12.
[5]胡百敬.SQL Server 2008管理实践[M].北京,人民邮电出版社,2009:36-48
[6]曹馨宇,曹存根.从Web获取部分整体关系语料的方法[J],中文信息学报, 2011.(5):17-23.
[7]林政,吕雅娟,刘群,马希荣.Web平行语料挖掘及其在机器翻译中的应用[J],中文信息学报,2010.(5):85-91.
[8]常宝宝,詹卫东,张华瑞.面向汉英机器翻译的双语语料库的建设及其管理[J].计算机辅助术语研究,2003,(1):28-31.
[9]李康熙,杨勇.平行语料库对齐技术的语言学思考[J].合肥工业大学学报(社会科学版),2009(6):83-86.
[10]艾山江·亚生.面向手语信息处理的维吾尔文本语料库构建技术的研究[D].新疆大学,2018.
[11]徐健.维吾尔语语音语料库管理平台的研究与实现[D].新疆大学,2018.
[12]吐尔根·依布拉音,卡哈尔江·阿比的热西提,艾山·吾买尔,买合木提·买买提.中亚语言自然语言处理综述[J].中文信息学报,2018,32(05):1-13+21.
[13]唐智超. 基于广义信息熵的维吾尔文文本分类器的设计与实现[D].吉林大学,2017.
[14]李康熙,杨勇.平行语料库对齐技术的语言学思考[J].合肥工业大学学报(社会科学版),2009(6):83-86.
[15]热合曼•吾拉音.基于在线的维吾尔语语音语料库的建立及应用[D],新疆大学, 2017.
[16] 费旭岚.新疆汉语方言语音语料库的建设[J],《新疆大学学报(哲学人文社会科学版) [J],2008(7): 16-19.
[17]徐健.维吾尔语语音语料库管理平台的研究与实现[D] ,新疆大学,2018.
[18]微口网.Emoji的诞生,http://www.vccoo.com, 2017.
[19]java_2017.Hadoop中Text类型 与 String的区别 ,http://blog.csdn.net,2017.
[20]CSDN.NET ANSIC和Unicode之间的转换 ,http://blog.csdn.net,2017.
[21]中新网.广西抢救民族语文建语言有声数据库,http://www.chinanews,2018.
[22]王成平.彝语言语料资源数据库的设计与共享的实现[J].中文信息学报,2016(1):129-132.
[23] Chengping Wang. Research on Design and Sharing of Yi Language Corpus Resources Database Based on Syntactic Rules [J]. Solid State Technology ,2020(5): 10618-10629.
[24]王成平.彝语言文字信息技术的开发与应用发展研究.四川民族研究(第一辑)[M],2019:148-158.
项目基金:
教育部人文社会科学研究项目(17YJA740051)、西南民族大学中央高校基本科研业务费专项资金项目(2016NGJPY07)、四川省社科规划项目(SC20B130)、四川省高校重点实验室-民族语言文字信息处理实验室建设的研究成果。
作者简介:
王成平(1979-),男,彝族,博士,副教授,民族语言资源库建设;
曾庆雅(1997-),女,汉族,西南民族大学2020级民族语言文字信息处理专业硕士研究生;孙某姑(1986-),男,彝族,四川省雅安市名山区政府办,西南民族大学2017级民族语言文字信息处理专业硕士研究生;
张娟(1990-),女,汉族,西南民族大学哲学学院;