IDS件
具有表意描述序列的汉字/汉字标记器(来自 。
仅使用九个IDC(U + 2FF0,U + 2FF1,U + 2FF4至U + 2FFA)。
IDC永远不会在另一个IDC之后立即发生。
在IDC之后,最好立即使用Kanxi Radicals和Supplement(U + 2E80至U + 2FD5)。
否则,首选CJK统一表意文字和扩展A(U + 3400至U + 9FFC)。
基本用法
>> > from idspiece import idstable
>> > def tokenize ( text ):
... tokens = []
... while text > "" :
... c = text [ 0 ]
... if c in idstable :
... tokens . append ( idstable [ c ][
2021-03-20 16:07:32
2.64MB
Python
1