首 页 字库芯片 拣货标签 市场案例 新闻媒体 关于高通 联系我们
您当前位置:首页 >> 产品与应用
后PC 时代汉字输入技术的挑战与突破(二)

后 PC 时代汉字输入技术的挑战与突破(二)

上海集通数码科技有限公司 崔巍

3.1. 客观指标——编码效率[1]。

根据信息论在汉字编码中的应用,决定汉字输入编码效率的三要素包括:码表(字 符集)汉字总数、平均码长(击键次数)和键位数目,三者相互制约,任何一个要素的 指标降低都会导致综合指标——汉字编码效率(η)的降低,由此才能够全面反映出汉 字输入法的综合客观指标。

以上频度概率取自现有最新的汉字频度表——《现代汉语字频统计表》[2]。 根据以上汉字信息量计算原理,不同字符集的信息量统计见下表:(表 3)

字符集 字数 平均汉字信息量 Ho 加权汉字信息量 H1 加权字词信息量 H2
GB2312 6763 12.72 bit 9.68 bit 8.20
BIG5 13053 13.76 bit 9.81 bit 8.33
GB13000 20902 14.35 bit 9.97 bit 8.49
GB18030 27484 14.75 bit 10.10 bit 8.62
注:字词信息量 H2 均按单字信息 H1 中减去 1.48bit 计[3]

由于汉字频度的分布规律,字数越多冗余度越大,例如在 GB2312 字符集的 6763 汉字中,其中前 3755 汉字出现概率为 98.4%,而其余 3008 汉字仅占 1.6%[3],因此对 高频字的有效处理将明显降低按键次数,提高输入效率。高频字对降低按键次数的贡献, 理论上,最多节省按键=1-(高频加权信息量/等概率信息量)=1-(10.10bit/14.75bit) =31.5%。

进一步压缩冗余度的可能性在于对词组和句子的处理。各种汉字信息量按冗余度从 高到低顺序排列如下:

等概率单字 → 高频加权单字 → 词组 → 句子

在汉字输入方案的实践中利用高频字和词组提高输入效率已被普遍采用。

等概率单字的理论最少码长为:Lmin0=Ho/Log2K

高频加权单字的理论最少加权码长为:Lmin1=H1/Log2K

[1] [2] [3] [4] 下一页

 
关于我们
关于高通
人才招聘
新闻中心
我们的产品
 智能芯片  智能显示模组
24款字库芯片 智能零售货架标签ESL
高通矢量字库芯片 家电卖场货架标签ESL
金融专用芯片 汽车4S店显示
物联网芯片 智能拣货电子标签
 智能教育
电子书包
智能化教学讲台
知识云
更多服务与支持
产品资讯
联系我们
Copyright©2009 - 2014 上海高通半导体有限公司 版权所有 沪ICP备12000193号