基于语料库的莎士比亚戏剧汉译研究
上QQ阅读APP看书,第一时间看更新

2.3 语料的预处理

语料的预处理主要包括格式的统一、各种杂质的清除和中英文语料的分存等。作为中文语料的3个汉译本分别由不同出版社出版,文本格式如字体、段落编排和文档格式等各不相同,加之语料输入方法不同,语料格式问题十分突出。为此,我们首先确保3个汉译文本格式的一致。应当指出,直接从网上下载的语料,往往有多余的空格及空行、断行、多余的语言符号,以及不必要的一些图形或符号等。这些杂质对于研究而言没有什么实质意义,直接影响着英汉语料平行的质量。为去掉语料中多余的空行,我们采用word的替换功能,打开编辑菜单的“替换”对话框。在“查找内容”的输入框中单击“高级”按钮,选择特殊字符“段落标记”两次,这时输入框中会显示“ p”,然后在“替换为”输入框中用上面所提的方法插入一个段落标记,即一个“^p”,再点击“全部替换”,多余空行会被删除。至于空格的删除,我们采用替换功能把要删除的空格复制一行粘贴于“要替换的内容”里,下面“替换为”保持空,并按“全部替换”,便可删除多余的空格。另外,上述莎剧汉译本均附有数量不等的注释,与研究内容没有多大关联,我们均将它们删除。

在输入并校对语料,清除杂质,统一语料格式之后,我们将每部莎剧的中英文语料分存,分存的每个文件均以英语命名,以便于文件的查询和加载。文件名需交代戏剧名称和语言载体等信息,中文语料的文件名还需说明译者的姓名,如:戏剧《李尔王》英文语料文件名为King Lear_en.txt,中文语料文件名分别为King Lear_cn_liang.txt,King Lear_cn_zhu.txt和King Lear_cn_fang.txt。en意即“英语”,cn表示“汉语”,分别注明文本语言是英语还是汉语。liang,zhu和fang分别表示汉语语料的译者为梁实秋、朱生豪和方平。