wasted (wasted) rakstīja koderi kopienā, |
Par tiem diviem baitiem Tev taisnība (16 biti, ja precīzi), taču, cik noprotu, tas ir UTF-16, nevis UCS-2. UTF-16 viena rakstzīme tiek kodēta 16 bitos tad, ja tā ir no BMP, rakstzīmes ārpus tās tiek kodētas izmantojot aizvietotājpārus (vārds, kuru tikko izdomāju; angliski "surrogate pairs"). MSDN ir raksts arī par tiem: Surrogates and Supplementary Characters.
Protams, ņemot vērā, ka vēl vakar par to nezināju pilnīgi neko, iespējams, ka diezgan pamatīgi kļūdos. :)
Nopūsties: