命中每一个编码的人都很多,编制编码表是合适的。学过数据库的人画个ER图就很容易发现本来就应该这么做。但是唯有一个字段,就是姓名,永远也绕不过中文编码的问题。人口普查表各字段的具体设计工作可以丢给民生省的人,可是这中文编码必须现在解决。
“其实中文编码问题不难解决,问题是占用空间太大。”
“1980年颁布的《信息交换用汉字编码字符集》,通称GB2312编码,不仅仅规定了汉字在计算机上的表示方法,其实也定义了一套使用4位十进制数字表示汉字的方法,就是区位码。区位码收录了一级汉字3755个,二级汉字3008个,符号682个,基本满足当前需求。所以最简单的中文编码方法就是每4列编码一个汉字,大家以前高考的时候都涂过自己的姓名,当时用的就是区位码。”
“目前邮电部在全岛的电报系统已经基本铺设完成,电报员也培训了好几批。我看是不是直接用我们的标准中文电码更方便?人手也可以通用。”这时一直没怎么发言的绍宗开口了。
“区位码在每级汉字内部排序是按照拼音顺序,不怎么用培训吧。反而是标准电码是按部首排序的,实际上比掌握区位码难得多。”
“标准电码从19世纪末就有雏形,直接从清朝那时就编制了,是现阶段汉字编码的自然之选。”
“说话容易还是写字容易?标准电码从字形入手那是因为开始用电报的都是读书人阶层。我们的国民普及教育从拼音入手实际已经颠覆了过去的体系,普通人当然是用区位码更方便。”
“美国护照当年用的可一直是标准电码。”
……
……
区位码和标准电码之争持续了一小会,最后还是因为区位码直接和以后电子计算机的汉字国标码挂钩而获得了多数与会者的倾向性赞同。
“农业口要控制土地,工业口要控制技术,财金口要控制货币,军政口要控制位子,到咱IT圈,就要控制标准啊标准。”冯诺神秘一笑,心理暗想。
“如果采用4位数字编码1个汉字的话,每张穿孔卡片可以存储20个汉字。”编码方案本身,与编码在穿孔卡上的表示实际是两个问题。如果按穿孔与否作为2进制的观点来看,每列实际上有12位,一个半字节的信息。足可以编码4000多个字符。
“这也太少了,好像还不如80个英文字母的信息含量大,7张卡片才能发一条微博,还没算标点符号。”又有人说道。
“4位数的中文编码在实践中可以用两列来表示,只是机械设计的难度会增大。具体方案请大家查看附录3。”
原来冯诺的设想是每列打3个孔来表示两位数字,其中在每列的09位置上打两个孔表示两位数字。高区11行打孔表示下面穿孔的两位数字从小到大排列,12行穿孔表示下面穿孔的两位数字从大到小排列。
“两位数字相同怎么办?”
“11行和12行同时穿孔,09只打1个孔。下一页有说明。”
不过3孔的方式虽然能把汉字编码长度缩减到一半,让一张卡片最多存储40个汉字,但显然机电系统和控制系统设计都不是一日之功,讨论来讨论去,会议还是决定本次人口普查的卡片设计采用4位数字编码汉字,毕竟欧美人姓名也是动辄十几个字母,相比之下汉字姓名也不算太长。
冯诺接下来又简要介绍了资料上的一些内容,最后特意说道:“我们做这个工作时间比较匆忙,部分资料查得有不到位的地方,以后也会继续完善。督……马国务卿对机械式计算机的研究很久也很深入,期望能给我们一些方向上的指导和细节上的补充。”
马千瞩笑着说,“我今天本来打定主意只带着耳朵