语音识别技术在口译实战中的应用

发表时间:2021/4/26   来源:《科学与技术》2021年1月3期   作者:赵帅
[导读] 2020年疫情的暴发,对翻译的需求主要变成了远程视频口译,
        赵帅
        身份证号码:33038219880314****
        摘要:2020年疫情的暴发,对翻译的需求主要变成了远程视频口译,远程视频口译平台也层出不穷,让译员可以安全地在家提供口译服务,熟知各个远程口译平台的优缺点,给客户提供最适合的平台也成了译员的工作。可见技术与人依旧是以人为核心的同时,人也依赖于技术的发展。本文先详细讲述了语音识别技术中发展得最好的基于HMM模型的人工神经网络(ANN)是如何工作的,再针对译前、译中、译后语音识别技术应当如何发挥作用做了详细描述,最后对口译技术与译员之间的关系进行了详细分析与展望。
        关键词:语音识别;口译技术;应用分析
        0引言
        纯人工翻译费时费力,早已消亡。自上世纪80年代开始,技术就一直应用在口译实战中。随着人工智能发展的日益成熟,语音识别技术、文本转换、语义分析、情感识别、语音合成等自然语言处理技术也越来越多的应用在机器翻译中,谷歌和微软都推出了神经网络的机器翻译,国内的腾讯于2018年推出腾讯君,为博鳌论坛提供口译服务,但翻译效果仍不理想。
        因此,技术在口译实战中的参与程度越来越高,并且之后无论是作为主体还是客体也会以显性或隐形的方式贯穿始终。机器翻译包括语音识别技术、机器翻译、语音合成三大步骤,但三大步骤发展不平衡,发展得并不理想。本文试图将这种技术作为辅助翻译工具,对它在口译员译前、译中和译后所起的作用进行详细阐述,从而进一步阐述译员与技术之间的关系。
        1语音识别技术的工作原理
        1.1技术描述
        自动语音识别是一种将语音信号转化为文本的技术,其目的是让计算机能够“听写”出不同人所说出的连续语音。语音识别是一个多学科交叉的领域,与声学、语音学、语言学、数字信号处理、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,传统的基于隐马尔科夫模型以及混合高斯模型的语音识别系统都难以取得令人满意的效果。近年来,端到端的基于深度学习的语音识别取得了巨大成功,如Graves等人训练的深度长-短期记忆循环神经网络把TIMIT数据集上的音素识别错误率降低至17.7%。这种基于深度学习的ASR系统随即取得了广泛应用,如科大讯飞的LongFormASR语音识别引擎等。
        1.2智能断句
        随着深度学习越来越普及,神经网络在机器学习的各个领域得到了前所未有的广泛应用。在语音识别领域,DNN借助自身强大的建模能力,在声学模型建模任务中,性能相比传统GMM-HMM提升25%以上,而LSTM网络进一步对DNN进行改进,引入了长短时记忆模块,使得模型能够记住更长的历史信息,进一步改善识别率20%以上。与识别任务类似,文本中单词与单词之间也有一定的时序信息,或者可以称之为有一定的上下文联系,这种联系对断句的预测也有着十分重要的影响如图1所示。图1给出了双向LSTM用于断句预测的一种示意图,w1、w2、w3为输入的单词序列,输出序列对应每个词后面是否加断句以及加何种断句,与声学模型中LSTM模型不同的是,这里的输入层是一个WordEmbedding层,即将每个单词对应的序号转化为对应Embedding向量的网络层,在此网络中,WordEmbedding向量经过隐层变换,预测每个词后的断句信息,网络本身采用双向结构,既能看到前文信息又可以看到下文信息,使断句的预测更加准确。
        
        图1双向LSTM断句预测模型示意图
        2语音识别技术的作用
        2.1译前
        译前准备阶段,语音识别技术其中一个发展方向是便携性的加强,最突出的两家一个是苹果的Siri系统和国内专攻中文的科大讯飞。Siri更像是一个人工智能,不仅能听懂各种语言,还能基于问题作出反应。Siri首先通过手机的扬声器和听筒提取声学特征,然后借助在线强大的搜索引擎来满足用户的需求,完成了人机交互;科大讯飞则是专攻语音技术主要包括语音合成和语音识别两项关键技术。此外,语音技术还包括语音编码、音色转换、口语评测、语音消噪和增强等技术,有着广阔应用空间。口译员译前准备得好坏甚至可以决定整场翻译的质量。前期大量的调查研究工作对译员来说是非常烦琐的一件事,但在语音识别和人工智能的帮助下,译员可以快速锁定自己需要了解的相关知识,将平行材料中会议素材中的语音素材转换成文字,甚至也可以将文字材料转换成语音材料,译者可以边听边做别的,其本质是减少人的重复性劳动投入,是对人的一定程度的解放。
        2.2译中
        译中,语音识别通过语音特征提取、声学模型计算、语言模型计算等途径生成文字表达,有助于解决噪音干扰、语速过快、语音变体等因素造成的听辨失效或低效问题,而且语音识别技术可以将说话者的话转换成文字表达后,口译的难度大大下降,从交传听译、同传变成了视译。JasonS.Littlefield等人描述了一种使用说话者相关语音识别的自动转录系统的概念演示器。该系统旨在更有效地生成讨论、访谈、会议等的文本和音频记录。它还允许人工更正已识别的文本并以更完整和可信赖的方式审阅笔录。尽管该原型基于未经验证的概念,但它打开了广泛的可能应用和进一步开发的领域。作者提出了一种使用词汇化信息进行翻译的方法。基于短语的翻译系统能够在句子中确定翻译开始时的点,延迟更短。经过充分的实验,发现该方法对于减少机器翻译的开始时间和处理时间很有用,可以在将来以各种方式加以利用。但也要注意尤其是在同传的时候,语音识别出来的文字可能会对译者精力分配造成影响。在进行口译时,译者原本是要兼顾听力分析和输出,语音识别技术对于习惯依赖笔记的译员来说可以极大地减少短期记忆的压力,但对于一个本身专注于听的译员来说,可能会打乱自己的精力分配,反而会影响自己的译文质量。与此同时,语音识别技术在汉译英和英译汉中表现也完全不同,在中文译员做汉译英所起的作用要远远大于英译汉时的作用,所以语音识别技术在母语翻译成另一种语言的时候表现得更好,作者认为,根本还是译者理解母语的速度要远远快于译者理解另一种语言。但仅仅作为笔记,也减少了译员的工作。所以,译员还是要多和机器磨合,从而提供更高质量的翻译服务。
        2.3译后
        译后,语音识别技术可以将会上的录音直接转换成文字输入到语料库中,既可以为之后同样的主题的译前准备做后备资源,本质是将译员从重复性劳动中解放出来,从而提供更高效翻译服务。
        3结语
        智能化的机器口译是对人工口译的集成性应用。然而,这并非预示口译活动中人的价值的丧失。相反,人将发挥包括高阶思维、情感认知、文化识别,以及机器监控等更为重要和必要的作用。因此,即使在以机器为主导的智能化口译模态下,人的智能仍无以比拟,人的价值仍无可替代。本文探讨了口译技术中语音识别技术在译前、译中、译后过程中具体是如何发挥作用的,希望能给译员提供一定的借鉴。
        【参考文献】
        [1]赵毅慧.口译技术的回溯与前瞻:工具化、交互化及智能化的演变[J].外文研究,2017,5(4):65-71+105.
        [2]沈旦.语音识别辅助同声传译仿真研究[D].厦门大学,2014.
        [3]赵毅慧.技术哲学视域下口译技术的“名”与“实”探析[J].外语教学,2017,38(6):89-94.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: