Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 教育论文 > 正文

《中华白酒文化汉英词典》编纂云端平台设计与实现论文

发布时间:2020-01-15 10:43:29 文章来源:SCI论文网 我要评论














SCI论文(www.lunwensci.com):

摘要:《中华白酒文化汉英词典》编纂平台拟立足中西方双语辞典编纂理念,构建大规模语料管理平台,实现跨平台、跨设备、跨语种、高兼容、轻量级、深挖掘、易操作、易拓展、易监测且易管理的云端特性,充分发挥最新信息技术与自然语言处理技术的深度融合优势,实现标准化数据存储、自动排版、友好界面、多维统计与多维筛选等一系列核心功能。

本文引用格式:云虹,等《.中华白酒文化汉英词典》编纂云端平台设计与实现[J].教育现代化,2019,6(52):119-121.

一 引言

        计算词典学是词典编纂系统的直接理论指导,介于词典编纂学、信息工程学、认知心理学、语料语言学、二语习得理论及双语翻译学六个学术领地之间,旨在促进词典编纂的半自动及自动化水平,从而大大节省人力物力财力。我国在80年代中期出现针对词典编纂的计算机辅助软件研发,其编程开发者包括了语言教学与研究者、计算机专业人员、图书情报管理人员、出版社辞书工作者等。随着计算机编程技术与数据库管理技术的飞速进步,随着宽带在我国教育系统和社会生产生活中的迅速普及,词典编纂系统及其辅助软件也不断升级换代,已经从80年代的以“排序、查询、排版”为主要需求发展为“分布式、工作流管理、大型平行语料库”为主要特征。

二 编纂系统技术现状

        当代词典编纂系统的最核心功能是“词条编纂模块”,即让单个或多个编纂人员把词条微观结构的各个组成部分输入到一系列数据表(XML树形结构或其他标准数据库形式)。其他的功能都是辅助性或周边性的,大致分为10个方面:(1)网络功能,(2)权限功能,(3)导入导出功能,(4)自动排版功能,(5)发布功能,(6)语料处理功能,(7)统计功能,(8)树形结构的可视化编辑功能;(9)项目管理功能;(10)自动脚本操作的宏功能。

         可见,当代词典编纂系统实现了6个方面专业软件有限度的适当集成化:(1)网络功能,权限功能,导入导出功能,相当于一个“典型的网络数据库管理系统”,比如,Access 2003或MS SQLServer 2005;(2)自动排版功能和发布功能,相当于FrontPage的CSS作用或其他网页设计软件;(3)语料处理功能,相当于WordSmith Tools或Word Sketch Engine;(4)统计功能和可视化编辑功能,相当于Excel,SPSS或XML编辑器;(5)项目管理功能,相当于MS Project 2003;(6)自动脚本操作的宏功能,是当代的大型复杂软件的通用必备功能,从Photoshop到Office各种套件到3DMax之类的软件都有宏功能来代替操作者进行多种多样的重复性操作。

         故,当代的词典编纂系统的最主要特征可以概括为两点:集成化与自动化。“集成化”,是指现代的词典编纂软件实际上是“数据库管理软件”“网页设计软件”“语料分析与检索软件”“统计软件”“项目管理软件”这5类软件的功能的合并。“自动化”,是集成化的必然结果,每一个集成化,都实现了一定程度的自动化。目前,白酒行业的信息化、数据库化与软件化水平尚待开发,只有少量机构、少量论文与少量学者进行探讨。

三 中华白酒文化词典编纂平台系统的任务需求与后台设计

         拟编纂的中华白酒文化汉英词典是一创新型专科词典,白酒是中华独有的,涉及的技术资料和酒文化资料极少系统收集,国外资料更是缺乏,为双语词典的编纂带来很大不便。为了解决此问题,本平台的任务需求设计为跨平台、跨设备、跨语种、高兼容、轻量级、深挖掘、易操作、易拓展、易监测且易管理,融合信息技术与自然语言处理技术,实现标准化数据存储、自动排版、友好界面、多维统计、多维筛选、例证挖掘与质量管控等一系列核心功能。基于需求集合特征,中华白酒文化词典编纂平台系统拟采用“Node.js+Python+WSH”三种编程语言及其附属技术。

\

 
        2009年面世的Node.js是基于谷歌公司V8引擎,以JavaScript语言跨平台实现了HTTP服务器编程、网站编程与网页编程的三合一,是事件驱动、非阻塞式I/O的模型,软件体积仅30兆到50兆之间,其程序包管理器NPM已经成为全球级开源库生态系统,除了包含多媒体及网络等通用需求的模块包,也包含了不断更新的超过300款自然语言处理用途的模块包,能够加载jQuery等众多的JavaScript函数库。
 
         中华白酒文化词典编纂平台系统采用的WSH(全称为“Windows Script Host”)是Windows独有技术,由VBScript和JavaScript两种编程语言分别实现,可调用COM(Component Object Model,即组件对象模型)而实现对Microsoft Office、Internet Explorer及Windows系统管理,是Windows平台上实现Office自动排版、语料统计、语料检索及网页自动抓取的高效编程语言。以WSH技术开发的语料管理及辞典编纂软件都具备“免安装、一键运行、交互友好、内存占用低”的独特优势,这是其他编程语言都不具备的,因为WSH是Windows的系统级内置性编程语言。

四 中华白酒文化词典编纂平台系统的文字编码与数据技术

        中华白酒文化词典编纂平台系统的数据库引擎采用5层混合设计,以此实现基于具体软硬件条件的云计算与云存储:

(一)网络接口层采用JSON与XML

      JSON、XML与SOAP是网站响应网页表单提交的三种返回值格式,JSON最流行,其次是XML,再次是SOAP(本质上也是XML,但是源于微软公司的专利技术)。JSON是JavaScript的本体数据格式,用于网络数据交换的时候比XML更节省存储空间。JSON与XML都是树形结构,但JSON可以顶层是多个元素值组成。

(二)用户界面层采用JSON与XML

      Windows窗体和Web页界面都有树形控件,都可以从JSON或XML数据结构而映射生成。基于Web页且基于JSON的用户界面控件有更大的灵活性,能动态生成且动态删除控件。

(三)NOSQL内存层采用Redis

          Redis与MongoDB是当代最著名的NOSQL数据库,不仅支持内存型数据库,也支持把数据持续化到硬盘,也支持主从服务器之间的同步,常用数据结构有字符串、哈希表、列表、集合与有序集合这5种。普遍而言,NOSQL比传统SQL技术的存取速度快10倍甚至更多。

(四)NOSQL硬盘层采用Redis与UnQlite

         UnQlite的作者与SQLite的作者是同一人,UnQlite是进程内的NOSQL技术,是键值型与文件型双重功能的数据库技术,虽然所有的数据功能都基于JSON型键值存储,然而它也支持直接对一个完整文本文件的存储而无需进行符号规避的转换,而且UnQlite比普通的JavaScript情况下的JSON型数据存储的容量大很多倍且速度也快很多倍,因此用UnQlite有其独特优势。

(五)SQL硬盘层采用SQLite

       它是最广泛使用的SQL数据库,跨平台且体积小且速度极快,也内置了全文搜索引擎。

五 中华白酒文化词典编纂平台系统的界面排版与语料建库

        中华白酒文化词典编纂平台系统的语料及词典数据存储格式可分为两类:纯文本类与二进制类。纯文本类就是XML格式与JSON格式,二进制类就是SQL类与NOSQL类。纯文本类主要用在网络传输、网络数据API、小容量数据子库、小容量数据表、可视化界面数据这5种场合;SQL类与NOSQL类都可用于大容量数据库存储,其中的NOSQL类又细分为硬盘类NOSQL(例如MongoDB与UnQlite)与内存类NOSQL(例如Memcached与Redis)。纯文本类数据存储格式的优势是简洁美观、适合小容量、内存消耗少、技术难度小而且无需专门的数据库引擎,缺陷是难以应对大容量存储且不易支持复杂查询;二进制类数据存储格式的优势是适合大容量且支持复杂查询,缺陷是技术难度大、需专门安装数据库引擎、内存占用较多。SQL类相对于NOSQL类而言,优势是支持更复杂的查询、有传统的一系列数据库概念,缺陷是大数据查询太慢;NOSQL类相对于SQL类而言,优势是适合大数据,缺陷是不支持传统的SQL复杂查询与联合查询。

          编纂平台的数据库接口有本地型和网络型两种。本地型数据库接口的查询方式是基于数据库类型的:纯文本类本地数据库通常是一次性读取加载整个文件再按需查询,二进制类本地数据库往往支持多种查询方式(包括命令行式、进程式、线程式、telnet式、ODBC式与socket式)。网络型数据库接口的查询方式又细分为socket型与http型:http型是socket型的封装,本质上也是socket型;http型的标准形式被称为REST(REST是Representational State Transfer的缩写),主要采用GET与POST方式进行数据查询,传统上的GET与POST查询是整页刷新方式,但是近年来的GET与POST查询往往采用页面局部刷新技术(即AJAX,全称是Asynchronous JavaScript And XML)。

         中华白酒文化词典编纂平台涉及到多种数据来源,部分数据源可以被一次性做成独立数据库,但是有些数据源无法被一次性做成独立数据库。无法一次性做成独立数据库的数据源可以在用户查询过程中,把查询结果进行永久标准化存储,同时也基于查询频率把高频查询与最近查询加载到内存型数据库,以便减轻负荷且实现负载平衡,也可以以服务器计划任务的形式进行周期性收集。

\

 
参考文献

[1]陈于后.四川酒文化研究的知识图谱可视化分析[J].四川理工学院学报(社会科学版),2017,32(06):10-25.
[2]张玲.中国酒文化专题数据库建设的探讨[J].贵图学苑,2017(04):33-36.
[3]朱宁.中国酒文化数据库建设探析[J].办公自动化,2018,(12).
[4]袁竹连.中国青梅酒研究文献的计量分析[J].食品与机械,2013,29(02):49-53.

关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jiaoyulunwen/11106.html

相关内容

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml