摘要:形象作为一种无形资产,对各方的发展都有非常大的影响。随着经济的持续发展,区域形象建设在区域发展中越来越受到重视,区域形象已变成区域、经济和发展诸因素中的核心因素。安徽具备南北特性,特殊的区域位置,使其在全国发展中起到承前启后、承东启西的功效。本研究即以此为背景,探讨基于《中国日报》的安徽形象语料库建设。文章以收集到的《中国日报》语料为基础,引入语料库这一技术手段,通过语料清洗等手段创建单语语料库。后通过对新媒体信息的整理,实现对信息资源的历时呈现,不仅可以用于话语分析,更是对语言学和传播学信息资源的重要补充。
关键词:形象;安徽形象;语料库;语料库建设
Abstract:Image,as a intangible asset,has a great influence on the development of all parties.With the sus-tainable development of economy,the construction of regional image has been paid more and more attention in region-al development,and regional image has become the core factor in regional,economic and development factors.Anhui has the characteristic of north and south,because of its special regional position,so Anhui plays the role of connect-ing the east and the west in the national development.Under this background,this study explores the construction of Anhui image corpus based on China daily.Based on the collected corpus of China Daily,this paper introduces the corpus as a technical means to create a monolingual corpus by means of corpus cleaning.Through the collation of the new media information,the diachronic presentation of information resources can be used not only for discourse analysis,but also an important supplement to linguistics and communication information resources.
Key words:image;Anhui image;corpus;corpus construction
一、引言
(一)研究背景
改革开放以来,中国各省迅速发展,区域形象的塑造与推广成为软实力的主要表现,如何调动各方力量塑造区域形象成为发展的题中要义。软实力愈来愈多地被用于吸引投资和人才,优良的区域形象在经济发展和区域对外交流中日益关键。
安徽具备南北特性,由于其特殊的区域位置,安徽在全国发展中起到承前启后、承东启西的功效。此外,随着社会经济的迅速发展,智能化和城市化的快速推进,以及中部崛起等有关规划的适用,安徽经济慢慢踏入快车道。但是,因为资源等因素的限定,安徽社会经济发展面临一些问题,与东部地区尤其是附近省份的差别持续拉大。要引进外资,得到发展机会,区域形象建设至关重要。掌握安徽形象的现况,找到安徽形象存在的不足,明确其形象定位,对安徽的发展具有重要的意义。本研究即以此为背景,探讨基于《中国日报》的安徽形象语料库建设,通过对新媒体信息的整理,实现对信息资源的历时呈现,不仅可以用于话语分析,更是对语言学和传播学信息资源的重要补充。
(二)研究方法
本研究将采用文献法、语料库方法和人工辅助法。
其一,文献研究法:通过阅读大量有关参考文献,全方位准确地掌握海外语料库的发展趋势和中国语料库的成效,参照诸多学者的研究成果,包含基本思路、研究思路和研究成果,将适合语料库基本建设的一部分消化吸收,运用到本文章的创作中。
其二,语料库方法:收集2019~2021年度《中国日报》有关安徽的新闻文本,通过Python根据关键词“安徽”搜集网站上相关语料,然后进行语料清洗,从而构建单语语料库。
其三,人工辅助方法:在语料清洗过程中,需要清洗相应图片、多余的标点符号等,从而确保语料库的质量。
二、文献综述
与本选题有关的研究主要包括安徽形象研究、语料库语言学研究及基于语料库的安徽形象研究,下文分别对这三方面展开概述。
(一)安徽形象研究
形象就是指“对某事情的意志、观念和印象”。并不是事物自身,只是对物体的感知或观点。这是一种主观性印象,由传播学、交往经历、成长经历、自然环境等要素建立[1]。因而,安徽品牌形象可被理解为中国群众对安徽的印象,是对安徽本质整体实力、外在魅力和未来发展前景的实际感知、整体观点和综合考核[2]。
随着安徽经济逐步发展,越来越多的学者对安徽形象进行了研究。钱智和徐俊结合思维科学、行为科学、区域规划等学科的相关理论,以安徽形象设计为例,提出了区域形象设计概念、基本思想以及操作框架[3];杨杰、吴克明运用“安徽形象评价量表”进行调查,针对安徽形象就人口素养、自然环境及政府治理提出改进措施[4];李彦迪、刘叶青、邹菲菲等就安徽省外宣文本,在语域理论视角下对安徽形象进行建构[5]。
(二)语料库语言学研究
自20世纪60年代初以来,语料库至今已经历60多年的发展,研究语料库的学者也越来越多。语料库的出现,也对语言研究产生了巨大的影响,拓宽了研究的角度与视野,完成了从定性到定性与定量相结合的转变。随着计算机技术的发展,1993年,Mona Baker提出,可以根据语料库对大量翻译文本进行描写和分析,从而证实了翻译可作为沟通媒介这一现象[6]。Sara Laviosa介绍了不同类型的语料库在翻译教学中的应用[7]。
相较而言,国内语料库语言学起步较晚,从成果来看,语料库被广泛应用于教学、翻译、词汇、语义、词典和语法等语言研究领域。如王克非就双语语料库设计构建提出一系列想法[8],张威提出口译语料库的开发与建设[9],胡开宝也就语料库基础特性、研究领域进行了系统梳理[10]。但语料库就话语分析方面的研究仍处于初期阶段,还需要进一步补充与探究。
(三)基于语料库的安徽形象研究
笔者通过中国知网(CNKI)检索“安徽形象+语料库”,发现与之相关的研究成果数量不多。左言娜以安徽省人民政府网站和安徽省旅游局网站文本为语料库,搭建语料库,以系统功能应用语言学为理论框架,选用批评性话语分析方式,探讨互联网媒体语句里的安徽旅游国际地位[11]。同年,左言娜还依据此语料库对新媒体话语中的安徽外宣形象进行探究。钟紫薇利用语料库检索软件等自建小型语料库,通过收集、整理和分类2016年China Daily网站中关于安徽的英语新闻报道,运用语料库语言学理论对不同类别的新闻报道展开话语分析[12]。以上研究已将语料库引入安徽形象研究中,为提升安徽区域形象做出了较大贡献。
三、语料库建设
(一)安徽形象语料库建设简介
语料库主要有四种形式:单语种语料库、平行语料库、多语种语料库和可比语料库。其中单语种语料库仅包含一种语言的文本;平行语料库包含两个单语种语料库,一个语料库是另一个语料库的翻译;多语种语料库包含多种语言的文本,且都是相同文本的翻译,存在与平行语料库相同的方式对齐;可比语料库是一组两个或两个以上的单语语料库,其文本涉及同一主题,但它们不是彼此的翻译,因此没有对齐。就文章研究需要而言,要建设的语料库为单语种语料库。此部分主要探索语料库设计、语料收集等。
(二)语料库设计
王克非认为语料库的总体设计是与建库目的密切相关的,需要考虑如下十点:设计目的、语言规模、语料范围、代表性与均衡性、双语比例、共时/历时性、语言类型、语言质量、取样策略和标注加工[8]。据此标准,建设语料库的参数和特点如表1所示。
(三)语料采集与清洗
由于文本信息量较大,本次研究使用Python软件,基于词义相关度进行语料收集,首先打开Python,设定关键词为“安徽”,后设置程序运行。爬取基本操作步骤包括:①寻找文本数据量大的网站URL,形成爬虫的初始URL队列;②访问网页链接,获得网页数据;③通过下载器对网页数据进行下载;④根据页面的HTML格式进行解析,编写Xpath表达式筛选出需要保留的文本信息;⑤再对文本信息分词,存为词汇素材列表,并完成后续的URL跳转动作使得爬虫持续运行。得到语料如图1所示。
研究共收集语料2475篇,合计80余万字。胡开宝提到:语料采集是指将书面语料和口语语料输入电脑,并以电子文本形式储存[10]。在广泛收集的大量语料素材数据中,部分数据的格式并不符合预期要求,其中存在大量的无效信息,例如夹带着多种的符号、标记,文字间残留大量空格等。这与预期格式存在差异,为了让计算机可以识别并方便后续的处理,必然要对收集的数据信息进行预处理。所以语料库构建的首个步骤就是对语料素材信息进行规范化处理。先使用正则表达式对大部分符号进行删除操作,少部分情况特殊处理。经过对符号的处理可以使绝大部分的文本数据符合格式要求。再对文本内容的格式进行处理,针对一些特殊格式数据例如小说、诗歌,其中存在非文本数据和无意义文本。非文本数据指不是文本中主要内容,主要起定义格式、装饰文本作用,例如HTML标签、URL地址、乱码等;无意义文本指文本数据中常出现但无实际意义的内容,例如作者附加的内容、广告内容、版权信息和个性签名的部分内容等。
(四)语料库建成
在进行筛选后,导出四个版本文件,为tmx格式、Word格式、Excel格式以及txt格式。这四种格式满足不同的需求:tmx格式作为翻译记忆库,主要适用于计算机辅助翻译软件;Word格式用于日常查阅,确定表达;Excel格式便于检索;txt格式适用于文本转换。自建小型语料库(图2)包含2475篇新闻,其中经济类578篇、政治类634篇、市民生活类704篇以及社会文化类559篇,共计1026876字符,按照经济、政治、文化等方面进行分类。后续使用语料检索软件AntConc4.1.2w,通过词频统计、高频词索引行等路径,并结合批评话语分析、评价理论和议程设置理论,对检索结果进行定性、定量分析,通过有理、有力、有节地传递自身声音,构建安徽形象话语体系,让更多人了解安徽、熟悉安徽、亲近安徽。
四、结语
笔者基于收集到的网站信息,设计语料库(设计目的,语料库规模,语料库范围,语言类型和语言质量)、处理文本(分类、清洗、标注语料),建立小型语料库,旨在帮助分析安徽形象现状,并提出改进安徽形象的策略和建议。因此,通过个人建立小型单语语料库,可以在一定程度上了解和使用语料库这一新的研究方法,方便研究者在科研领域克服技术难关。
参考文献:
[1]钱志鸿,陈田.发达国家基于形象的城市发展战略[J].城市问题,2005(1):63-68.
[2]王慧,吴樾.网络媒体中的安徽形象[J].新闻世界,2011(8):222-224.
[3]钱智,徐俊.区域形象设计的理论与应用研究———以安徽形象设计为例[J].地理研究,1998(1):66-74.
[4]杨杰,吴克明.安徽形象评价及对策分析[J].社会科学家,2006(5):148-151.
[5]李彦迪,刘叶青,邹菲菲,等.语域理论视角下的“安徽形象”建构———以安徽省外宣文本为例[J].海外英语,2019(14):92-93.
[6]Baker M.Corpus linguistics and translation studies:implications and applications[M]∥Baker M,Francis G,Tognini-Bonelli E.Text and technology:In honour of John Sinclair.Amsterdam:John Benjamins,1993.
[7]Lavisoa S.Translation and Language Educa-tion:Pedagogic Approaches Explored[M].London:Routledge,2001.
[8]王克非.双语对应语料库研制与应用[M].北京:外语教学与研究出版社,2004.
[9]张威.口译语料库的开发与建设:理论与实践的若干问题[J].中国翻译,2009(3):54-59,96.
[10]胡开宝.语料库翻译学概论[M].上海:上海交通大学出版社,2011.
[11]左言娜.新媒体话语中的安徽外宣形象———基于语料库的批评话语分析[J].安徽工程大学学报,2018(6):86-90.
[12]钟紫薇.基于语料库对《中国日报》中安徽新闻的话语分析[J].海外英语,2018(4):228-230.
第一种意见认为,刘某的行为构成贪污罪。全国... 详细>>
如何设计有效的环境治理政策, 是学术界和政策... 详细>>