李枭也就直接道:“确实有,不过不是这套方法,而是另外一套实现汉字打字的办法,也是我准备进行研究的。”。
“奥?”,支教授这一下也来了兴趣,连忙道:“不知道是什么办法?”。
李枭想了想也就道:“我叫它五笔输入法。”。
之前李枭也考虑过拼音输入法,只不过拼音输入法对计算机的要求很高,毕竟拼音输入法将汉字视为语音符号,但这也将会面临两个问题。
第一个就是重码率极高,后世的计算机处理起来不是问题,但这年代的计算机不一样,有限的计算机内存和运算,根本就不可能支撑实时的、海量的同音字词智能排序与选择。
其次就是现代拼音输入法依赖的强大词库,以及智能联想功能,如果没有这两项功能那就太难受了,需要在众多重码的字中寻找自己想要的,肯定要疯,所以适合这个年代的还是五笔输入法。
“五笔输入法?”,听着这个陌生的名字,支教授下意识反问识道。
“对,五笔输入法。”,李枭也是再一次确认后,这才又开口:“五笔输入法的核心在于将汉字精准拆分为基本字根,这些字根就是汉字的 最小可编码部件,包括了一些传统偏旁部首,
像是木字旁、三点水、两点水、四点底、火字旁、衣字旁、草字头这些,还有就是一些特定的笔画组合,如犬 、豕,之类的,这些我一共列出了226个字根。
这些字根就是五笔输入法的基石。
而字根按五种基本笔画,横、竖、撇、捺、折分类,分别对应键盘的五个区域,每个字根都会被精准映射到25个字母键,形成系统化的键盘布局。”,并且这些字根还会分布遵循 形相近、类相同 原则,便于记忆和快速定位。”。
说到这里李枭顿了顿,好让支教授有思考的时间,顿了顿后这才又道:“并且我还按照五笔输入法制定了一套严谨的拆分规则,能确保每个汉字都能被唯一编码。”。
闻言这也让支教授有些不太相信,就疑惑道:“这是怎么做到的?”。
“规范笔顺、取大优先、兼顾直观、能连不交、能散不连。”。
“这是什么意思?”,支教授有些疑惑道。
“就是按汉字标准书写顺序先进行拆分,也就是先横后竖、先撇后捺,然后每次尽可能取最大的字根,
就比如可以拆为+而非+,
这就是取大优先,在拆汉字时,能拆成一个大字根,就不拆成两个小字根,优先选笔画数多、覆盖范围广的字根,避免把完整的大部件拆碎,
解释完取大优先,李枭就又开始解释兼顾直观,所谓的兼顾直观就是拆分结果要符合视觉认知,看着像什么就拆什么,不能为了凑字根硬拆得 “四不像”,简单来说,就是拆完后还能一眼认出原字,不别扭。
能连不交,顾名思义就是优先拆相连、不拆交叉,就是两个字根的关系要么是相连,挨着但不交叉,要不就是交叉笔画叠在一起,而在拆分的时候,优先选 “相连” 的拆法。
之所以这样这是因为相连结构更符合汉字书写逻辑,也更容易记忆。
能散不连,就是优先拆 “散结构”,不按“连结构”算,这里就要明确两个概念,就拿散结构倡来举例子,散结构的汉字的几个部件是“分开的”,“倡”是由“亻” 和“昌”组成,中间有缝隙,不挨着。
连结构:汉字的部件是“粘在一起的”,比如“字”,就由“丿”和“目”组成,“丿”贴在“目”上面,所以拆分的时候汉字是 “散结构”,就按散结构拆,不要强行按 “连结构” 拆,这样才可以。
可以说这些规定都是为了辅助取大优先这一条做基础。
至于编码机制,就是四码编码+简码优化,这个也是五笔输入法的核心编码策略,
这个策略简单来讲,就是每个汉字最多取4个字根编码,就能够打出字,
键名汉字和成字字根则是五笔输入法中的两个重要概念,
所谓的键名汉字,就是五笔字根总表中每个键位上的第一个字根,也是该键位的代表汉字,共25个。比如G键上的“王”,F键上的“土”,d键上的“大”等,
而键名汉字的输入方法是连续按下该键4次,也就是说输入“王”字的编码是“GGGG”,“土”字的编码是“FFFF”,
成字字根,就是指在五笔字根总表中,除了键名汉字外,本身就是一个独立汉字的字根,
例如“五”“士”“干”等。
成字字根的输入方法是先打一下该字根所在的键,这就和报户口一样,再打该字根的第一、第二及最末一个单笔画,不足4码时补打空格。
如“十”字,其字根在F键,第一笔是横(G),第二笔是竖(h),所以编码是“FGh”;“贝”字,字根在m键,第一笔是竖(h),第二笔是折(N),末笔是捺(Y),编码就是“mhNY”。
有了这两个概念,就能构成简码体系。
而听着这些支教授也是眼前越来越亮,心中也是越来越期待了起来。