汉字输入

044

汉字的输入问题曾经是20世纪7080年代中文信息处理最热点的研究课题。为了能让汉字进入到计算机,中文信息处理起步阶段的那一代学人竭尽才智、努力探索,提出了各种各样的编码输入方案,创造过一个“万码奔腾”的时代。

Pasted image 20221007173738.png

键盘输入

输入法程序一般简称为IME(Input Method Editor),除基本的单字输入功能外,设计开发ME还需要考虑的功能点主要包括以下内容。
(1)单词和词组输入。一般编码方案(不论音码还是形码)中都会有词语输入码,在此基础上还可增加词组联想功能,即提示下一个可能出现的词。
(2)排序和翻页。重码不可避免,故应提供候选字/词的提示和选择功能。排序上有单字优先、词语优先和频率优先等策略。候选项过多时还需要翻页功能。
(3)字汇选择。也就是选择支持的字符集,如GB2312、GBk、Unicode等。特定环境下使用的字符集并非越大越好,字符集越大意味着重码率也就越高,所以应给用户提供切换字符集的选项。
(4)用户词库。用户可以根据自身需要自造词汇,一般五笔字型输入法中都提供自造词和相应的用户词库管理功能。
(5)“简繁输入。可选择按简体或繁体输入,因此需要为输入法配备简繁内码映射表。对于一简对多繁情况,若为整词输入则可按词解决,否则只能让用户自己选择。这与一般简繁转换问题不同,因为输入是一个实时交互过程,消歧的上下文并不完整,不可能调用通用简繁转换程序。
(6)特殊符号输入。一般通过快键或软键盘方式提供标点符号、拼音字符、数学符号等特殊符号的输入。
自动调频、在线词库、整句输入

字形识别

ocr技术

语音识别

点阵字模
矢量字模