gb18030的漢字
如下表所示,GB18030-2000收錄了27533個漢字: 類別 碼位範圍 碼位數 字符數 字符類型 雙字節部分 第壹字節0xB0-0xF7 6768 6763 漢字 第二字節0xA1-0xFE 第壹字節0x81-0xA0 6080 6080 漢字 第二字節0x40-0xFE 第壹字節0xAA-0xFE 8160 8160 漢字 第二字節0x40-0xA0 四字節部分 第壹字節0x81-0x82 25200 6530 CJK統壹漢字擴充A 第二字節0x30-0x39 第三字節0x81-0xFE第四字節0x30-0x39 27533就是6763+6080+8160+6530。雙字節部分的6763+6080+8160=21003個漢字就是GBK的21003個漢字。
在Unicode中,CJK統壹漢字擴充A有6582個漢字,為什麽這裏只有6530個漢字?
這是因為在GBK時代,雙字節部分已經收錄過CJK統壹漢字擴充A的52個漢字,所以還余6530個漢字。 如下表所示,GB18030-2005收錄了70244個漢字: 類別 碼位範圍 碼位數 字符數 字符類型 雙字節部分 第壹字節0xB0-0xF7 6768 6763 漢字 第二字節0xA1-0xFE 第壹字節0x81-0xA0 6080 6080 漢字 第二字節0x40-0xFE 第壹字節0xAA-0xFE 8160 8160 漢字 第二字節0x40-0xA0 四字節部分 第壹字節0x81-0x82 25200 6530 CJK統壹漢字擴充A 第二字節0x30-0x39 第三字節0x81-0xFE 第四字節0x30-0x39 第壹字節0x95-0x9850400 42711 CJK統壹漢字擴充B 第二字節0x30-0x39第三字節0x81-0xFE第四字節0x30-0x39 70244就是6763+6080+8160+6530+42711。