大数据时代的汉语语言学及应用探讨

发表时间:2020/7/10   来源:《教育学文摘》2020年7期   作者:曹培培
[导读] 现如今,我国是大数据发展的新时期,互联网行业发展十分迅速
        摘要:现如今,我国是大数据发展的新时期,互联网行业发展十分迅速,借助互联网的迅猛发展,当今社会已经进入“大数据”时代。文章通过回顾计算机科学与语言学的交叉学科———计算语言学的发展历程,从一个侧面揭示了大数据处理对科学研究的冲击和影响,并在此基础上探讨汉语语言学研究的未来之路。文章认为,首先,汉语语言学研究应该更加注重语言工程的研究和开发,以提高汉语大规模语言资源的数量、类型及易获得性,因此,汉语语言资源建设应努力实现语言范畴形式化、语言数据专项化和语言知识可视化;其次,汉语语言学的研究应更加开放、更具多元化视角、更加注重多学科的交叉和融合。
        关键词:大数据;计算语言学;汉语语言学语言资源;形式化;可视化
        引言
        汉语作为目的语的教学实践的发展及汉语语言系统特殊性决定了研究设计专门的汉语语言学能测试的必要性。汉语语言学能应包括汉语语音编码能力、汉字感知识记能力、汉语语法辨识能力及汉语形音义对应记忆能力。近百人零起点学习者的测试和教学实验得出,学能测试成绩和汉语学业成绩呈现显著正相关,学能测试对汉语作为目的语的学习者的学习潜力有很好的预测作用。测试结果可为订单式人才培养和选拔、入门学习者分班测试和差异化教学等提供有效依据。
        1对比语言学元语言抽取的基本原则
        从生物学的角度而言,任何机体都是一个系统或系统的组合,而系统一般由器官、组织和细胞三个层级的单位逆次递进,组合而成。我们也可以将对比语言学的元语言系统看作一个由“细胞”、“组织”和“器官”逐级递进构成的统一体,进而按照其中不同“器官”、“组织”和“细胞”的重要性确立抽取组成系统的元语言的基本原则,并搭建比语言学的元语言系统。但是对比语言学研究属于人文学科的性质,与属于自然科学的生物学研究又有很大的不同—其元语言系统及构成元语言系统的各级元语言带有社会文化的历史承继性。因此,对于对比语言学元语言的抽取,除了根据元语言本身的重要性和结构的层级性确立层级性和代表性两个基本原则之外,还应确立另一个基本原则,即历史性原则。第一,历史性原则有两层含义:一是要按照对比语言学发展的自然历史顺序(西方为三个时期、中国为五个时期,两者之间有“饶有兴味”的相似之处)爬梳对比语言学理论和实践中的元语言,厘清中西对比语言学发展各自的脉络和轨迹,辩证两者之间的逻辑相关性;二是以历史的观点对待不同时期的对比研究及其元语言系统,关照对比语言学发展不同阶段的历史文化语境。第二,层级性原则:对比语言学元语言系统应该是一个由形上到形下层级分明的系统。可参照潘文国先生(2006:237)提出的汉英对比的三种属性(自然属性、社会属性、人文属性)和四个层级(哲学层、理论层、应用层、实践层)抽取对比语言学的元语言并搭建元语言系统。语言的自然属性体现于语言的表层结构(主要涉及语音学与音位学、词汇学与形态学、句法学等语言结构的元语言),语言的社会属性体现于语言的表达方式(表达法表现一个民族认知世界的方法和规则,这一层面的元语言主要涉及心理、文化和哲学上的因素),语言的人文属性体现于人们对语言的认知(涉及语言、思维和现实的关系,涉及语言世界观,等等)。而对比语言学元语言系统的整体框架则是三种属性与四个层面相互交叉的网络式结构。第三,代表性原则:根据上面的生物学类比,对比语言学元语言系统中的元语言不但在重要性上具有层级性,并且各级元语言都有不同意义的代表性,能够代表对比语言学发展的阶段性成果和发展方向。


        2大数据时代的汉语语言学及应用探讨
        2.1来自计算语言学的启示
        计算语言学(ComputationalLinguistics)从其应用目标来说,就是让计算机能够“理解”人类的自然语言(NaturalLanguageUnderstanding,NLU)。这个任务的实质是希望找到从语言的形式映射到语言的意义的机械方法。如果把“理解”人类的自然语言看做是人类智能行为的主要特征,那么,自然语言理解显然属于人工智能的研究范畴,即探求作为高级智能的人的语言行为在多大程度上可以机械化。
        2.2汉语语言学能测试的用途
        随着“汉语热”的持续升温,各种层次、各种目的汉语学习者越来越多,有效的学能测试在实践中至少有这样几种用途。一是作为定向订单式人才培养和选拔的依据。学能测试可以快速有效地选拔出潜在的成功学习者,保证人才培养目标的实现。二是作为入门学习者分班测试的依据。在对人数较多的入门学习者进行分班时,可以把他们在汉语语音编码能力、汉字感知识记能力、汉语语法辨识能力及形音义对应记忆能力方面的倾向性学能作为分班依据,在教学中也可据此采用相应的教学策略。三是作为实施差异化教学、实现教学公平和教学效益最大化的依据。一般的教学公平注重的是起点公平,不论什么样的学生都有受教育的权利,这没有问题。但更高程度的公平是教学过程及教学效果的公平,即根据不同学习者的个体特征实行差异化教学,提供合适的教学服务,给他们足够的指导,进而达到教学目标,这是一种更高层次的教学公平,也是实现教学效益最大化的有效途径。学能因素是二语习得中最重要的学习者因素之一,根据学习者学能测试中表现出的能力倾向差异进行有针对性的教学指导,有利于实现教学公平和教学效益最大化。
        2.3对比语言学创始时期的语言观与语言研究的目标
        所谓语言观,就是对语言及语言问题的整体认识。这种认识在很大程度上决定着语言研究的思想、方法和目标;就我们的研究而言,则决定着对比语言学是否能够作为一个独立的学科产生和发展。西方对比语言学的创始人洪堡特的对比语言学是建立在语言世界观的认识论基础之上的,因而他的“比较语言研究”(即今天的对比语言学)其实与他一手创立的普通语言学是相通的,目的在于通过两种或多种语言的对比,“成功而可靠地揭示语言的特征,阐明各民族的发展和人类形成”。叶斯柏森的语言观其实也是“语言世界观”,他将语言的本质视为“人类的活动”,因而他的《语法哲学》其实也是就是普通语言学,也就是对比语言学。他语言对比研究的目标则是“帮助人们更深刻地理解人类语言和人类思维最内在的本质”。沃尔夫的对比语言学是“萨不尔一沃尔夫假说”的自然结果,他的语言相关性原理(包括语言相对论和语言决定论)被后人称为“美国版的语言世界观”,可见其对比语言学的认识论基础是与洪堡特、叶斯柏森一脉相承的。展。
        结语
        在大数据时代,语言学家担当着语言数据(知识)的挖掘者、整理者、呈现者的角色。作为一个汉语研究者,有责任去挖掘和发现新的、有价值的汉语事实,并作出尽可能详尽的描写和尽可能合理的解释。而且汉语语言学研究应更加开放,更加重视多学科的交叉和融合。这要求我们自觉地用更加多元的视角去看语言对象,像盲人摸象一样,从单个视角,我们可能只能了解对象的一个侧面,如果多一些视角,就可以提供关于研究对象的更为完整的画面,使我们有可能更接近真理一些。这种开放的研究态度,并非大数据时代的新鲜事物,语言学理论研究中也早有先例。比如语言学家借鉴信息论的思想,提出把语言中的重音位置跟语言成分所负载信息量的大小关联起来的理论,就是以跨学科视角开展研究的极佳例证。现在我们已经迈入到大数据时代,开展交叉和融合型的汉语语言学研究有更好的条件,理应更加普遍。
        参考文献
        [1]詹卫东.基于大规模中文树库的汉语句法知识获取研究[C].第四届汉学国际会议,中国台北:台湾中研院语言学研究所,2012.6.20-22.
        [2]詹卫东.从语言工程的角度看“中心扩展条件”与“并列条件”[J].语言科学,2012(5):449-463.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: