CTEDEAP交通运输工程学术英语语料库的创建

发表时间:2021/3/15   来源:《科学与技术》2020年10月30期   作者:袁昊 侯学睿 李澄杰 胡妮 沈文霞
[导读] CTEDEAP交通运输工程学术英语语料库是DEAP语料库的一个分
        袁昊  侯学睿  李澄杰  胡妮  沈文霞
        重庆交通大学  
        摘要:CTEDEAP交通运输工程学术英语语料库是DEAP语料库的一个分支,主要通过对交通运输工程相关学科分支有关论文的收集,分析其中的话语学术特征,为相关学术研究奠定基础。本文从发展现状、建库方案、语料收集、语料处理、应用展望五个方面对CTEDEAP语料库进行全面概述,进而对CTEDEAP在今后的发展应用中进行初步的探讨。
        关键词:交通运输 学术英语 语料库建设 语料库发展
一、引言
        自20世纪90年代以来,语料库研究发展迅速,其重要性日趋突显,语料库由单语种向多语种发展,各种语料库的深加工技术相继涌现,语料库在各个领域得到了更加广泛的应用(何中清, 彭宣维2011)。20世纪60-70年代建立的Brown Corpus和LOB Corpus是世界上最早的语料库,均涵盖了100万词的美国和英国书面英语(穆晓莉,尹转云2001);我国第一个学术英语语料库(JDEST)是上海交通大学在1983年建成的。在2016年,我国外语教育研究中心语料库语言学研究团队启动建立设计规模不少于1亿词次的DEAP学术英语语料库,首先将对经济与管理、语言学、文学、医学等8个学科门类的学术英语语料库进行建设(语料库语言学2016)。通常,根据不同的标准和分类方法可确定语料库的类型,以中国语料库语言学文献研究为目的,可将语料库分为四类:百万词级及以下的小规模语料库、千万及上亿词级的大规模语料库、专门用途语料库和标注加工语料库(李艳,李潇潇2007);而根据用途,语料库又可分为通用语料库和专用语料库,对入门学者认识学习语料库具有重要作用。
        语料库的创建是学术语料库语言学研究的基础。近年我国对交通运输行业的投入越来越大,以交通强国作为政策,交通运输行业发展迅速。目前,赵小东(2012)提出了海洋交通运输英语语料库建设的基本情况,并对其在高频词分布、词长、词汇丰富度等方面与其他语料库的区别进行了研究;冯恩玉(2017)从建库设计、语料收集、语料加工、语料库共享提出了交通运输学术英语语料库建设的基本思想和方法,但依旧没有提出该语料库的具体建库方案及方法。另外,交通运输工程领域的相关语料库研究现如今还处于初始发展阶段,据资料显示,国内还没有较为完善的交通运输工程学术英语语料库,相关研究并不深入。由于知识产权的限制和学术语料库共享难以实现等原因,很多学者无法很便捷地获得交通运输工程领域的学术语料来从事相关方面的研究。目前的专业学术英语语料库覆盖面不够广,许多学科专业语料库还有待建设。因此,交通运输工程学术英语语料库的建设十分必要。
二、语料库概况
        CTEDEAP交通运输工程学术英语语料库共收集了SCI学术期刊所刊登的高质量期刊论文805篇,共600万词,其中研究论文共720篇,综述论文85篇。语料库涉及了综合交通运输、铁路交通运输、公路交通运输、水路交通运输和空路交通运输五个领域,可以很好地代表交通运输工程学术英语的总体情况,建成后的“交通运输工程学术英语语料库”可为交通运输工程学术话语特征研究提供大规模的真实语料,服务于学术话语分析。
三、建库方案
1.期刊来源
        根据交通运输工程的学科特点,在交通运输工程所涵盖的五个主要领域:综合交通运输、铁路交通运输、公路交通运输、水路交通运输、空路交通运输选择学术期刊。
        首先,我们通过文献检索,在Web of Science中分别选取整合上述五个类别对应具有权威性和主流性的学术期刊;其次,根据每个类别中所涉及期刊的影响因子和JCR分区从高到低排序;然后,根据我们是否拥有下载该期刊的权限进行甄别,舍去没有下载权限的期刊。最终,可得到确定的CTEDEAP 语料库的来源期刊,分别是:综合交通运输期刊 10 种,铁路、公路、水路和空路交通运输期刊 2 种,共计 18 种期刊。
2.文献的过滤选取
        根据Web of Science可使用的论文过滤结果依据,考虑到上述18种期刊所共有的文献类型,CTEDEAP选取了极具代表性的两种类型:研究论文(Research Article)和综述论文(Review Article)。在检索论文时,由于综述论文数量相对较少,研究论文数量较多,CTEDEAP中,研究论文约占89%,综述论文约占11%。
        为了体现CTEDEAP语料的时效性(章柏成、杨玲2020)和目前语料库的语言特征,我们主要选取2018年出版的文献。在收集过程中由于部分综述论文数量不够,我们扩展收集了2019年、2017年中发表的被引频次数高的文献。
四、语料的收集与处理
1.文本命名
        CTEDEAP交通运输工程学术英语语料库采用“一级学科代码-期刊领域代码-文本类型代码-文本序号”的命名方法对收集的805篇语料命名。一级学科代码交通运输工程(Communication & Transportation Engineering)采用首字母“CTE” 表示;期刊领域代码采用交通运输工程学科所涉及五个领域名称的首字母表示,综合、铁路、公路水路、空路交通运输分别采用C、R、H、W、S表示;两种文本类型代码分别采用:研究论文——RA,综述论文——RV;文本序号均采用三维数字表示,即从001到805,先排720篇研究论文001-720,再排85篇综述论文序号721-805。例如,CTECRA001表示在交通运输工程学科下,综合交通运输领域中的第一种刊物的第一个文本。
2.语料库标注
        语料库的标注对于语料的后期研究和语料检索有重要意义。

本文的CTEDEAP学术英语语料库采用标准的可扩展标记语言(Extensible Markup Language,简称XML)对语料库中的表头信息和文献结构信息进行标注。XML标注的表头信息以<Header>作为起始标签,</Header>作为揭示标签,Header的中间信息包括出版年(<Publication_Year></Publication_Year>)、学科领域(<Domain></Domain>)、学科名称(<Discipline></Discipline>)、语料收集者(<Contributor></Contributor>)、期刊名称(<Journal_Title></Journal_Title>)、卷号(<Volume></Volume>)、期号(<Issue></Issue>)、页码(<Pages></Pages>)、数字对象识别码(<DOI></DOI>)、文章标题(<Article_Title></Article_Title>)、作者名字(<Author></Author>);类似的,文献结构信息以<Text>开头,</Text>结尾,中间信息包括摘要(<Abstract></Abstract>)、关键词(<Keywords></Keywords >)、文章内容。
3.语料采集与清理
3.1文本采集
        首先,根据上述表1中所列的来源期刊,在Web of Science学术数据库分别检索目标期刊名称,将检索目标设置成“出版物名称”进行检索,得到Web of Science所收录该期刊的全部学术文献列表;然后,精炼检索结果,将“出版年”设置成2018,先后将“文献类型”设置成“Article”和“Review”,筛选出对应的期刊文献;之后将“排序方式”设置成“被引频次”,从高到底依次选取40篇研究论文和5篇综述论文,但在空路交通运输领域Space Science Reviews期刊中综述论文极少,因此舍去了这部分的语料文本。由于综述论文的数量不够,我们将“出版年”扩展到2017年,以达到语料库的收集目标。
        其次,在具体进行文本采集操作时,我们将上述表4中的英文标注信息制作成一个word文本模板,然后使用复制粘贴迅速得到805个模板副本,利用批量改文件名插件将这805个副本依据表3中的文本命名原则进行命名,得到805个收集模板。
        最后,我们在检索得到的文献列表中依次选择文献,获得网页格式下的全文,将文献的出版年、学科领域、学科名称、语料收集者、期刊名称、卷号、期号、页码、数字对象识别码等内容复制到对应的word文本模板中,完成文本的收集工作。
        在语料收集过程中有部分期刊中的文献没有卷号、期号或者页码,为避免收集的模板中出现信息缺失影响语料库的应用,我们使用“unknown”来代替缺失的信息。
3.2文本清理
        在网页格式下复制粘贴到word文本中时语料文本中存在大量的不合规范的符号、空格、乱码等,我们首先对图、表(保留图、表标题)和下载链接进行了人工删除,其次对乱码进行了处理并删除,最后利用查找和替换方法将换行符和多余空格进行删除,得到处理好的word文本。将word文本转换为TXT纯文本,并设置为UTF-8编码格式。
        
        
五、应用展望
        CTEDEAP交通运输工程学术英语语料库研究发展起步较晚,但其作用不可忽略。该语料库内含丰富的语料信息,能够促进学术研究的深层次挖掘的和课程教学的质量提高。
        建设交通运输学术英语语料库,可以在词汇、短语、句法、修辞、篇章等层面,分析交通运输工程学术话语特征,也可以在二级学科层面进行相关学术话语特征的比较研究,并且能够为研究人员建设其它学科语料库提供借鉴。
        建设交通运输学术英语语料库能为该学科的专业英语教学提供大量真实的语言使用实例,为大纲制订、词表编制、教学设计、教材编写提供高度专业化、针对性的专门语料。同时,能够为学生在相关专业英语知识储备和应用方面提供实用的帮助,并且有助于提升本科及以上学历的人才在学术写作和论文发表专业化方面的能力。
参考文献
[1]章柏成,杨玲.CivDEAP土木工程学术英语语料库的创建[J].语料库语言学,2020,7(01):78-87.
[2]王克非.中国英汉平行语料库的设计与研制[J].中国外语,2012,9(06):23-27.
[3]赵小东.海洋交通运输英语词汇密度及覆盖率研究[J].广东海洋大学学报,2012,32(02):93-96.
[4]李艳,李潇潇.新时期国内英语语料库研究状况评析[J].中国电化教育,2007(12):72-76.
[5]冯恩玉.交通运输学术英语语料库建设[J].英语教师,2017,17(19):25-28.
[6]穆晓莉,尹转云.语料库在语言研究方面的应用综述[J].西安外国语学院学报,2001(03):21-26.
[7]本刊讯.DEAP学术英语语料库建设项目启动[J].语料库语言学,2016,3(02):113.
[8]何中清,彭宣维.英语语料库研究综述:回顾、现状与展望[J].外语教学,2011,32(01):6-10+15.
[9]黄奕静,林雅茹.国内英语语料库研究的现状分析与未来展望综述[J].海外英语,2020(15):236-237+251.
[10]王志娟,于丽.工科英语语料库的设计构想及应用前景[J].沈阳大学学报(社会科学版),2018,20(02):196-200.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: