TL;DR;
打字的时候基本没有生僻字出来干扰视线(当然这也导致如果你想打生僻字基本打不出来),没有用 OpenCC,避免了使用这种方式实时转换遇到的问题
GitHub 地址:hosxy/rime-aurora-pinyin
AUR 地址:rime-aurora-pinyin
AOSC 的 rime-data
中已包含了此方案
诞生缘由
Rime 的简体中文输入主要有两种思路:
- 繁体和简体分别维护一套码表和词库
- 简体和繁体共用一套码表和词库,使用上最后输出时使用 OpenCC 转换
前者的优势是用词和词频等都比较准确,简单来说就是用户体验比较好,缺点是总维护量大;
后者则恰好相反,虽然维护量骤减至不到原来的一半,但是用词和词频的准确性大幅度下降,表现为经常出现一些简体中文和现代汉语(大陆)不常用的词汇排在候选词的前面,同时,这种方案采用了实时繁简转换,还会遇到另外一个非常影响用户体验的问题:
部分可被认作繁体的简体字可能会被错误的再次翻译
例如:“徴羽摩柯”这个词中的“徵”就很容易被当作繁体而错误转换为“征”(当然这个字的问题已经修复,但是还有很多很多这样的字,同时又有新词不断产生,怎么能改得完呢?
同样的例子还有“复投”
官方为了减轻工作量采用第一种方法制作了 luna-pinyin-simp 朙月拼音简化字方案,完美的撞上了这两个问题(此外官方给出的理由竟然是选择繁体码表和词库更准确?
后来,官方又制作了 pinyin-simp 袖珍简化字方案和 c2h6-pinyin 乙烷拼音(这次是简体码表了),但是,这个方案延续了官方一贯的态度,不管你用不用的上,先都塞给你,哪怕牺牲用户体验也在所不惜:生僻字比例极高,大量的古音(甚至不是专门研究古代汉语音韵的人都不一定知道这个音……这里就有一个小故事:
AOSC rime-data 维护者:c2h6 打出来的都是那种万年不见一次的生僻字,最重要的是没人用,于是我就 drop 了
一位群友:我就知道佛振搞简体方案会变成这样……
一位群友:这个方案名起的非常应景……
还有一堆古音……
给简体汉语拼音方案上古音……
綾香姐姐:其实有可能是台湾国语(
一位群友:下次让他给繁体方案用大陆简化字音(
https://github.com/lotem/rime-c2h6-pinyin/commit/5fcd1228d35d64f99d334c75114eaf7f3d34a081#diff-6ca64afcf64d153d02639c5e12253dc5R8601 比如这里……我完全没找到出处……
而且有很多字……noto字体都没有……
只有 ttf-hanazono 才有……
綾香姐姐:《集韻》䉷/厂「說文隿射所蔽者也」(打鳥的用來掩蔽的物體)魚杴切 = yán 😂
不知道佛振怎麼找到這讀音的(
一位群友:如果一个汉字 noto 这种字体都没的显示……那么大概率一般人也不会用到……除了研究古文……但是研究古文用繁体啊……
本人保证这个故事的真实性,不信者可自行尝试乙烷拼音以及前往 Rime Telegram 群组观看聊天记录查证
起步
这个方案,其实最初只是 hosxy 自用的方案,可能是处于备份或者分享还是其他的目的,hosxy 将它发布到了 GitHub 上。这个时间点,是2020年3月19日。
后来,由于官方的简化字八股文注音能力过于生草……hosxy 将其从方案中移除。
再后来,hosxy 从 sunpinyin 拿来了约5w条词语……
然后,因为词频问题,hosxy 简单的为其按照教育部标准一二三级字添加了粗略的字频
随后,这个方案被群友发现大家开始合理试图改进这个方案:綾香姐姐根据 Unihan 数据库调整了单字字频,hosxy 又单独将简化字八股文的词库抽出使用
渐渐的,这个方案变得越来越好用了……
一些观点
我觉得,官方关于分别维护繁简码表工作量大的理由不成立,先不说官方最后还是维护了单独的简体码表,就说一件事:这简体码表何必官方维护?官方在群里的发言更是令人气愤,他们说我们自立门户自行维护简体码表是增加官方负担,“徒增混乱”。粗俗一点说,他们这和主动去吃屎又说屎难吃不能吃有什么区别呢?没有人强求官方维护简体码表
最后修改于 2020-08-12