 |
需求分析 |
 |
|
 |
繁简转换的难点 |
|
繁简互转,如果需要做到100%精确,实际上是一个非常复杂的工作。根据转换的精确性等级,大概可以分成4个等级:
1.字符码表一对一映射。
2.对于一对多单字,根据词语识别进行转换。
3.对词语表达方式差异的转换。
4.根据上下文的词汇翻译。
转换等级一 内码映射
其转换机制是按照内码字符映射表,在简繁转换时,用big5的内码把GB的内码替换掉,在繁简转换的时候就反过来。例如,GB
2312-80 0xB9FA 代表简体字国, 简繁转换的时候就把它替换成0xB0EA 对应繁体BIG5码的國字。根据我们实践证明,如果按照字符的转错几率来统计,对一般性质的文本,该处理方式可以达到98%的准确率。但其弱点是由于简繁字体并非一对一的关系,因此忽略掉一些其他较不常用的字。
以下是一个一对一字符内码映射表的例子:
| 简体源 |
内码GB (EUC) |
繁体目标 |
BIG5 |
其他可能性 |
|
出 |
B3F6 |
出 |
A558 |
齣 |
|
发 |
B7A2 |
發 |
B56F |
髮 |
|
干 |
B8C9 |
幹 |
A47A |
乾 干 榦 |
|
暗 |
B0B5 |
暗 |
B774 |
闇 |
|
里 |
C0EF |
裡 |
B8CC |
里 裏 |
|
征 |
D5F7 |
徵 |
BC78 |
征 |
|
门 |
C3C5 |
門 |
AAF9 |
|
|
汤 |
CCC0 |
湯 |
B4F6 |
|
转换等级二 一对多关系的字根据词语识别转换
对于一个单字应该翻译成在当前有可能的异种内码中的哪一个,我们可以根据该字所在的词汇来决定。比如,下表:
| 简体词语 |
繁体词语 |
拼音 |
英文意义 |
|
头发
|
頭髮
|
tou2fa0
|
hair
|
|
特征
|
特徵
|
te4zheng1
|
characteristic
|
|
出发
|
出發
|
chu1fa1
|
start off
|
|
干燥
|
乾燥
|
gan1zao4
|
dry
|
|
暗里
|
暗裡
|
an4li3
|
secretly
|
|
千里
|
千里
|
qian1li3
|
long distance
|
|
秋千
|
鞦韆
|
qiu1qian1
|
a swing
|
在上表中,头发与出发的“发”字在简体中是同一字型的,但繁体中却不一样。这样就可以根据“发”字所在的词汇来对该字进行准确的转换。如果是头发就翻译成“頭髮”,如果是出发就翻译成“出發”。
转换等级三 繁简词汇表达方式不同之转换
有一些词,在繁体与简体用户有不同的表达方式,下表显示了一些词汇表达方式差异的例子:
| 英文 |
简体表达方式 |
汉语拼音 |
繁体表达方式 |
汉语拼音 |
| bit |
位 |
wei4 |
位元 |
wei4yuan2 |
| byte |
字节 |
zi4jie2 |
位元組 |
wei4yuan2zu3 |
| CD-ROM |
光盘 |
guang1pan2 |
光碟 |
guang1die2 |
| computer |
计算机 |
ji4suan4ji1 |
電腦 |
dian4nao3 |
| database |
数据库 |
shu4ju4ku4 |
資料庫 |
zi1liao4ku4 |
| file |
文件 |
wen2jian4 |
檔案 |
dang4'an4 |
| information |
信息 |
xin1xi4 |
資訊 |
zi1xun4 |
| Internet |
因特网 |
yin1te4wang3 |
網際網路 |
wang3ji4-wang3lu4 |
| software |
软件 |
ruan3jian4 |
軟體 |
ruan3ti3 |
| week |
星期 |
xing1qi1 |
禮拜 |
li3bai4 |
能够实现以上表达方式转换,就是在本文中所提到的第三级转换功能。
转换等级四 根据上下文对词汇翻译
有一些词,是需要根据上下文才能够准确地决定如何翻译的。比如在中国大陆的语言习惯中,“文件”可以是通常意义上的“文件”,也可以表达计算机磁盘中存取的“文件”(document)。但是,在繁体用户的语言习惯中,这两个东西就是分别用两个词来表达,通常意义上的“文件”和在电脑磁盘中保存的“档案”。
该层次的翻译需要根据上下文的意思对文章进行断句,分析。因此,是属于繁简互译中最难做的,而且消耗的系统资源也最大。
|
|
|