[轉貼]國內中文字碼之發展

debian 開發版,這個版面主要是要討論 debian@taiwan or debian@chinese 相關開發議題,所謂開發如 debian 中文化問題、文件製作維護問題、程式開發問題...最終目的是能從這個版面的討論成立一個接一個的工作小組來幫助 debian@taiwan or debian@chinese 發展,讓 taiwan 或華人能更方便的使用 debian。

[轉貼]國內中文字碼之發展

文章moto » 週日 5月 25, 2003 3:54 pm

文章來自於:

http://cell.cs.uh.edu/computing/10years.txt

發信人: rux@cis_nctu (亦驢), 信區: 'Chinfost'
標 題: 國內中文字碼之發展
發信站: 交大資科_BBS (Wed May 28 20:55:57 1997)
來 源: 140.116.253.216

我國最早之中文字碼為民國六十九年提出之「中文資訊交換碼」 (Chinese
Character Code for Information Interchange, CCCII)。訂定此碼的原動力是
美國急需使用電腦處理東亞語文資料,因此派遣負責人赴東亞考察。當時只有日
本訂定資訊碼標準 JIS C 6226 。在「只此一家,別無分號」的情況下,美方初
步決定採用此標準。我華裔美國亞東圖書館代表與我國代表極力反對,說明日本
漢字無法代表中國文字的理由,並允諾四個月之後提出我方之標準。

我方代表返國之後,上書政務委員李國鼎及國科會、中美會等單位,集合國
內一批文字學家、圖書館學家、以及電腦學者,組成臨時性質之任務編組──國
字整理小組。經過謹慎考察、研究,一套涵蓋中日韓各國語文、以及繁體、簡體
、異體等等之「中文資訊交換碼」出爐了。此碼終為美方接受為處理中日韓資料
之正規標準。至今仍有許多圖書館系統採用,因為只有此碼才能擔當這個重任。

CCCII 在國外受到歡迎,在國內卻遭受排擠。有心人士或是想在歷史留名;
或是自認官大學問大。用盡各種方法打擊 CCCII,並玩起編碼遊戲。這個遊戲,
為咱們中文字碼的悲劇「萬碼奔騰」揭開了序幕。我想這個編碼遊戲,至少讓國
內的資訊工業停滯五年。

下列兩本書,詳細記載了這一段歷史,以及 CCCII 的技術資料。在本文之
後,我從第二本書抄錄一個章節,供無法借到這兩本書的網友參考。打這篇文章
的目的,一方面是前一陣子有許多網友詢問到 CCCII;另一方面,讓網友瞭解現
在我們使用的中文內碼的訂定過程是如何草率。

一、書名:中文字碼:萬碼奔騰,一碼當先
作者:黃大一
出版:永麒科技

二、書名:國字整理小組十年
作者:謝清俊、黃克東
出版:資訊應用國字整理小組

========================================================================
以下文章摘錄自「國字整理小組十年」p15-p18
========================================================================

四、國內外局勢之發展

(一)國內中文字碼之發展

國內有識之士早在民國六十六年起,就多次提起制訂中文字碼的事情。可惜
當時由於國內沒有標準字形而受阻。此事在六十七年、六十八年之國建會及近代
工程討論會中,亦曾討論,甚至有決議作成。然而終究因字形整理的問題而拖延
著。至六十八年,教育部公佈了 4808 個常用字的標準字形後,編字碼的是才有
一線希望。

中文資訊交換碼之所以能在六十九年三月發表,實拜教育部公佈標準常用字
形之賜。然而,在當時,除上述之標準字形外,餘無標準字形。於是國字小組只
得負擔起後續的工作,以期能在七十年將 CCCII 擴充到可實用的字數,並能符
合國際上日益迫切之需求,來維護我們的傳統文字。

當民國六十九年三月中文資訊交換碼發表之事傳到國內以後,並未受到應有
的重視和獎勵,反而引起了杯葛、謾罵、和各種侮辱的情形,此誠始料未及。

引起這種情況的主要原因是:在六十八年國建會的建議中,曾建議我國編中
文字碼,而行政院將此案交主計處電子處理資料中心研究。因此,該單位獲知
CCCII 發表後,赫然震怒。認為國字小組破壞政府體制,此事應該由他們做才是
。於是在民國六十九年五月,召開會議決定要另做一碼。當時國字小組有人出席
該次會議,曾即席說明編制 CCCII 之原委,並說明 CCCII 發表時沒有作者,
中心合作或甚至交給他們繼續未完之工作,大家戮力一致對外。非常可惜的是此
建議並未為主計處電子處理資料中心接受,反而一意孤行,非另做一碼不可。

為協調此爭執,有該年九月間在溪頭開的會議。在溪頭開的會議中,國字小
組代表對編碼的作業有詳細的報告。在當時,國內翠於 ISO 資訊交換的相關標
準之了解實在貧乏的可憐,與會人員不明白 ISO 646 及 ISO 2022 是做什麼的
,因此對 CCCII 之編碼技術無法體認。當然也就不明白 CCCII 的長處了。國
字小組之成員雖然全力說明,然而在主事人以政治手段解決技術問題的作法之下
,以為再編一碼亦非難事,而且還可以平息爭端,斷然宣佈要再設計一碼作為解
決之道,由此開啟了中文字碼十年混亂之情,迄今仍然遺禍社會無法解決。

經溪頭會議後,主計處電子處理資料中心邀王金土根據決議所編之碼為「中
文資訊標準碼」,並於民國七十年發表 (記錄上是二月,而事實上到六月才完稿)
。此碼完全不理會 ISO 之相關標準,獨斷專行,在碼的結構上主觀幼稚,在文
字上則由個人任意挑選。當然,這種碼是不能用的,然而主事者並不相信,反而
行文各單位要求採用。經過日本 NEC 及 FACOM 之技術人員在警政署強烈抗議之
下,才明白此碼真不可用,只得偃旗息鼓自行收回。然而其耗費之公帑,即以印
刷而言,上千本二吋厚之巨著就此報廢,更遑論其人力、物力,和時間之投入,
合法之浪費莫以此為甚。

事實上,由此事件之教訓,主事者應該明白溪頭會議之錯誤,以及編碼是涉
,也就罷了。可嘆的是,在此過程中,主辦單位應用各報章媒體,造成許多打擊
國字小組,對 CCCII 之技術成就惡意曲解,似是而非的謬論,一意認定他們自
國字小組,對 CCCII 之技術成就惡意曲解,似是而非的謬論,一意認定他們自
己是對的。當發現所編的王金土碼不能時,竟惱羞成怒,執意非再做一個碼不可
。至此情形,已非理性之爭,而是以一己之私,一念之差,置國家社會利益不顧
地孤行到底了。

於是主事者另起一灶,又行設計第二套碼,在民國七十一年七月發表,這碼
名為「中文資訊標準交換碼」。然而,此碼並未完全做完,同年九月又補充附冊
。這些碼雖然號稱採用 ISO 646 及 ISO 2022 標準,然而,又不真正認真執行
,所以徒具虛名,且七月發表和九月補充的字碼均不同, (詳情請月表一) 。當
然此碼依然不能用!

雖然又失敗了,可是主事者巧言隱瞞事實,暗地裡再整旗鼓,又做一碼: 「
通用漢字標準交換碼」並於民國七十二年十月發表。經過以前這許多失敗之經驗
,又從 CCCII 學到不少技術,這一次充滿信心竟以國家標準為支柱,以行政命
令強行推銷此碼,此舉已干犯到國家標準不是強制性質的原則了。雖然此碼修正
了許多過去之缺失,也越來越神似 CCCII,可是主事者所堅持的: 以一萬三千字
為限的錯誤決定,仍然使得此碼窒礙難行。許多廠商為應付採購程序上非要用國
家標準的箝制,在電腦中安置了此碼,然而實際上又不用。形成了可笑亦復可悲
傷害更是無以言喻!

之後,由於大家心裡明白此碼不可不用又不得不用的情況下,只好再造一碼
,即「五大專案碼」之誕生。爾後,至民國七十五年「通用漢字標準交換碼」又
更新一次版本,字碼又換一次,從民國七十年至七十五年之五年中,六次變易,
世界上找不出這樣子做的「國家標準」。不僅這個過程無法統一字碼,為工業界
造福,反而造成天下大亂,國內中文碼之亂,此實為罪魁禍首。

到今天,這個碼除了在個人電腦中可用以外,稍微大一些的系統都不夠用,
它仍然是採購上必要而又無用的一個設備罷了。無論在台電,自來水、瓦斯、電
信局、警政署、海關、外貿會、出版社、報社、財稅... 此碼的字均不夠用,更
不必談到國家級的系統,像戶政、地政、財稅、圖書館等等系統了。

這麼多年來,主持通用中文標準交換碼的人員對中文資訊交換碼之攻擊和打
擊不遺餘力,凡有中文資訊交換碼之廠商竟不敢明言,以免遭排擠。對通用中文
標準碼以行政命令強制推行,若任何中文系統無此碼者則禁止公家機構採購。在
標準法中明白說明國家標準無強制性,然而有關單位竟一意孤行。在這麼惡劣的
環境下,通用碼無法取得使用上之優勢,實在是該碼設計上缺陷累累 (見經建會
民國七十七年九月製版之 "中共電腦業之發展及其對我之影響 P.173) ,否則以
國家政令之力,豈有中文資訊交換碼活命之空間?

表一 中文標準碼自民國70年至75年歷年變遷簡表
代碼: 選擇全部

 +--+--------+----------+------------+----------+--------+----------+
 |名|中文資訊|中文資訊  |中文資訊標準|通用漢字  | 五大   |通用漢字  |
 |稱|標準碼  |標準交換碼|交換碼(附冊)|標準交換碼| 專案碼 |標準交換碼|
 +--+--------+----------+------------+----------+--------+----------+
 |發|        |          |            |          |        |          |
 |表|  70年  |  71年    |  71年      |  72年    |  73年  |  75年    |
 |時|  二月  |  七月    |  九月      |  十月    |  三月  |  三月    |
 |間|        |          |            |          |        |          |
 +--+--------+----------+------------+----------+--------+----------+
 |發|        |  國科會  |            |          |        |  國科會  |
 |表| 主計處 |  教育部  |  同左      |  同左    | 資策會 |  教育部  |
 |單|        |  標準局  |            |          | 工業局 |  標準局  |
 |位|        |  主計處  |            |          |        |  主計處  |
 +--+--------+----------+------------+----------+--------+----------+
 |主|  李    |    何    |    何      |    何    |   果   |    何    |
 |持|  克    |    宜    |    宜      |    宜    |        |    宜    |
 |
 +--+--------+----------+------------+----------+--------+----------+
 |承| 行政院 |          |            |          | (十三  |  行政院  |
 |辦| 主計處 |   同左   |  同左      |  同左    |  家業  |  主計處  |
 |單|電子資料|          |            |          |  者)   | 電子資料 |
 |位|處理中心|          |            |          |  不詳  | 處理中心 |
 +--+--------+----------+------------+----------+--------+----------+
 |結|2 8-bits|          |            |          |        |          |
 |  | bytes  |   同左   |  同左      |  同左    |  同左  |  同左    |
 |  | 16 bits|          |            |          |        |          |
 |構| 二元碼 |          |            |          |        |          |
 +--+--------+----------+------------+----------+--------+----------+
 |字| 32,768 | 35,344   |  35,344    |  35,344  | 35,344 |          |
 |位|(奇數碼)|          |            |          |        |          |
  +--+--------+----------+------------+----------+--------+----------+
 |字|16,000字|          |            |5,401 (   |  5,401 |5,401   ( |
 |  |王金土由|  4,808   |   4,808    |4421-7D4B)| 常用字 |4421-7D4B)|
 |  |"辭海"中| (常用字) |  (常用字)  |13,053 (  | 7,652  |7,650   ( |
 |構|任意選出|          |            |30A1-FBE2)| 次常用 |2121-7244)|
 +--+--------+----------+------------+----------+--------+----------+
 |字|1.總筆劃|1.總筆劃  |1.部首      |1.總筆劃  |1.總筆劃|1.總筆劃  |
 |序|2.部首  |2.部首    |2.總筆劃    |2.部首    |2.部首  |2.部首    |
 +--+--------+----------+------------+----------+--------+----------+
 |S|完全不合|部份合    |    同左    |   同左   |  同左  |   同左   |
 |O|        | ISO 2022 |            |          |        |          |
 +--+--------+----------+------------+----------+--------+----------+
 |獨|        |          |            | 不合     |        |          |
 |一|   合   |   同左   |    同左    | 常用字一 |   合   |    合    |
 |性|        |          |            |          |        |          |
 +--+--------+----------+------------+----------+--------+----------+
 |�[| 不合僅 |  不合    |            |  不合    |        |  不合    |
 |蓋| 32768  |  總字    |    同左    |  總字    |  同左  |  總字    |
 |性| 字位   |  4,808   |            |  13,053  |        |  13,053  |
 +--+--------+----------+------------+----------+--------+----------+
 |擴| 不合   |  不合    |            |  不合    | 不合   |          |
 |充| 無法   |  總字數  |    同左    |  無法    | 總字數 |          |
 |性| 擴充   |  35,344  |            |  擴充    | 35,344 |          |
 +--+--------+----------+------------+----------+--------+----------+
 |試|不能使用| 無人試用 |            |無業者採用|多家採用|          |
 |  |主計處  | 業者字數 |    同左    | 75年三月 |外來�{式|          |
 |用|自行收回| 超過8000 |            | 宣佈放棄 |有問題  |          |
 +--+--------+----------+------------+----------+--------+----------+
 |中| 031F   |  4C50    |    4C26    |4463 32F6 |  A4A4  |  4463    |
 |華| 36AB   |  6675    |    712B    |615E B1AE |  B5D8  |  615E    |
 |國| 2730   |  5F54    |    535E    |594F A138 |  B0EA  |  594F    |
 +--+--------+----------+------------+----------+--------+----------+


亦驢註:想知道主計處編出來的第一套碼有多荒誕,可以看看上表最後一項。
「中」的內碼為 031F 。在 ASCII 標準中 03、1F 都是控制碼。在
以 ASCII 為主的電腦世界,這個字碼不是非常荒謬嗎?

------------------------------------------------------------------------

亦驢人驢名亦驢(不可再驢下去) 成大電研計算機 rux@eembox.ncku.edu.tw
歡迎你來到MOTO學園一起討論Debian相關問題。
在post問題前可先別忘記了以下的步驟:
1:翻一下/usr/share/doc/中是否已經有解答了?
2:閱讀一下無痛起步是否已經提到了?
3:找一下google予以解答?
4:善用學園中的"搜尋"功能,往往答案就在裡面窩。
頭像
moto
摩托學園站長
摩托學園站長
 
文章: 2808
註冊時間: 週二 9月 03, 2002 3:37 am
來自: 台北

re:[轉貼]國內中文字碼之發展

文章訪客 » 週日 5月 25, 2003 9:53 pm

雖然在Linux的世界中,中文化的操作及顯示已經漸漸的改善了,但是看見如此的演變過程,在未來了時間是否又將因內碼的轉換而變的不相容了,在一個使用者或設計者都希望有個穩定的環境,去開發和應用。在某些字的影響造成程式國際化的腳步變慢,以致於自由軟體推廣無法世界的發展,不知在台灣的開發自由軟體的先進是否已有萬全的構思與共識,來完成這項為子孫前程鋪路的壯舉。我想最好不要到像醫學界因為 SARS 才把多年宣導的分級制度給落實,我想還是事在人為的,不要受無理、無建設性的因素給'影響了。
訪客
 

re:[轉貼]國內中文字碼之發展

文章hakken » 週一 5月 24, 2004 1:27 am

當年主事的人是那些?

他們應該向歷史負責吧!這裡面只看到一個王金土,而他又似乎不是首惡....
頭像
hakken
可愛的小學生
可愛的小學生
 
文章: 13
註冊時間: 週六 5月 15, 2004 3:39 pm

re:[轉貼]國內中文字碼之發展

文章Tetralet » 週一 5月 24, 2004 2:57 pm

hakken 寫:當年主事的人是那些?

他們應該向歷史負責吧!這裡面只看到一個王金土,而他又似乎不是首惡....

拖出來鞭屍嗎?(笑)
用 Google 找找應該可以得到蠻豐富的資訊的...

雖然 MS Windows / Linux 對於 Unicode 的處理還是未能盡善盡美,
但是向 Unicode 靠攏似乎是一種趨勢...

請問,Unicode 在處理中文字方面是否還有什麼不足之處呢?
之前看過大陸同胞對 Unicode 似乎是頗有怨言,
但並沒有說明為什麼...
時間並不能治療我心中的疼痛
南方的春天說什麼也溫暖不了我冰冷的血

誦唱大復活咒文,今天的 Tetralet 又在唧唧喳喳了 重生!
Tetralet
俺是博士
俺是博士
 
文章: 3078
註冊時間: 週四 11月 28, 2002 3:02 pm

Re: re:[轉貼]國內中文字碼之發展

文章shogun1234 » 週三 10月 27, 2004 9:59 pm

[quote="Tetralet"]

請問,Unicode 在處理中文字方面是否還有什麼不足之處呢?
之前看過大陸同胞對 Unicode 似乎是頗有怨言,
但並沒有說明為什麼...[/quote]
Unicode 目前大多以UTF-8(不定長度)進行編碼, 依西方的語系而言較節省空間, 然而 UTF-8(約兩萬多字) 所包含的字數少於圖書館使用的CCCII編碼 (54,090).
shogun1234
可愛的小學生
可愛的小學生
 
文章: 53
註冊時間: 週三 1月 08, 2003 3:04 pm

Re: re:[轉貼]國內中文字碼之發展

文章Tetralet » 週四 10月 28, 2004 9:38 am

shogun1234 寫:
Tetralet 寫:請問,Unicode 在處理中文字方面是否還有什麼不足之處呢?
之前看過大陸同胞對 Unicode 似乎是頗有怨言,
但並沒有說明為什麼...

Unicode 目前大多以UTF-8(不定長度)進行編碼, 依西方的語系而言較節省空間, 然而 UTF-8(約兩萬多字) 所包含的字數少於圖書館使用的CCCII編碼 (54,090).


關於這個問題,
請參考:

 GNU/Linux 的轉碼系統

 Unihan (unicode) 與CCCII 比較的問題

 Unicode與ISO10646(上)(作者:曾士熊)

 Unicode與ISO10646(下)(作者:曾士熊)

而 UTF-8 字數不足的確是個問題,
但記得沒錯的話,glibc 內部是以 UCS-4 字集(即 ISO10646 字集)來實作的,
所以 Linux 基本上已經可以說是 Unicode Ready 了;
(應該就是 zh_TW.EUC-TW 這個 Locale)
而 ISO10646 字集(記得沒錯的話)應包含了 CCCII 的所有字集,
且 CCCII 似乎也一直努力能完全相容於 ISO10646 字集,
那麼基本上想要轉換至 ISO10646 環境應該完全不是難事。
(如果不去理 Microsoft Windows 的話)
那麼我們是否還有堅持 CCCII 的必要呢?
時間並不能治療我心中的疼痛
南方的春天說什麼也溫暖不了我冰冷的血

誦唱大復活咒文,今天的 Tetralet 又在唧唧喳喳了 重生!
Tetralet
俺是博士
俺是博士
 
文章: 3078
註冊時間: 週四 11月 28, 2002 3:02 pm

文章s710388 » 週五 10月 29, 2004 11:06 am

談論到這個中文編碼的問題,我突然想到之前在報章上看到有關香港文化傳信朱邦復先生他們所提出的"飛龍CPU",它內建了如同ASCII的CCCII(應該是這樣)的文字引擎,朱邦復先生將中文字拆解成許多部件成分,當需要輸入跟顯示中文字型時,都是直接由CPU產生而非如目前的技術是用外掛的軟體來處理,報紙上專訪的那位人士(好像是文化傳信的副主席)也說到正(繁)體中文是比較好的方案(必須先說明,這是報紙所言,非個人立場),假如使用"飛龍CPU"也需要搭配能夠發揮其字型引擎的作業系統,也就是Linux作業系統自由,有助於中文字型方案的發展,還有說到,就算沒有使用這一顆CPU,一般個人電腦亦可以加上一張PCI的飛龍卡來達成此一功能

我想除了Unicode外,香港亦積極的在電腦中文的進程想要掌握技術的主導能力,不過無論如何,還是樂見中文在電腦的世界裡能更貼近真正的使用族群

這裡有一些有關"飛龍CPU"跟中文基因計劃的相關聯結:
http://chinese2000.sniic.com/sniic3/index_notice/update_news.php?html=2003_07_31_1
http://china.sina.com.tw/tech/h/n/2003-07-28/0824214022.shtml
http://www.people.com.cn/BIG5/it/2284983.html
http://sfs.wpes.tcc.edu.tw/print.php?sid=205
塵煙落盡遠山新,淨影回明又一春;
轉眼還疑花舞過,風雲徒笑勁鳶鄰。
s710388
可愛的小學生
可愛的小學生
 
文章: 96
註冊時間: 週四 8月 21, 2003 6:49 pm
來自: 北台灣

re:[轉貼]國內中文字碼之發展

文章訪客 » 週五 10月 29, 2004 1:59 pm

[quote="s710388" 當需要輸入跟顯示中文字型時,都是直接由CPU產生而非如目前的技術是用外 [/quote]

現在的 CPU 都已經很快了,不需要專屬的中文字型 CPU,
就像電視卡一樣,現在沒有人還會強調硬體 MPEG壓縮,現在 很舊的 Celeron 1.1 G 就可以 640x480 30 frames/sec 的 MPEG4 real-time 壓縮。
訪客
 

re:[轉貼]國內中文字碼之發展

文章Tetralet » 週日 10月 31, 2004 12:13 am

s710388 寫:談論到這個中文編碼的問題,我突然想到之前在報章上看到有關香港文化傳信朱邦復先生他們所提出的"飛龍CPU",它內建了如同ASCII的CCCII(應該是這樣)的文字引擎,朱邦復先生將中文字拆解成許多部件成分,當需要輸入跟顯示中文字型時,都是直接由CPU產生而非如目前的技術是用外掛的軟體來處理,報紙上專訪的那位人士(好像是文化傳信的副主席)也說到正(繁)體中文是比較好的方案(必須先說明,這是報紙所言,非個人立場),假如使用"飛龍CPU"也需要搭配能夠發揮其字型引擎的作業系統,也就是Linux作業系統自由,有助於中文字型方案的發展,還有說到,就算沒有使用這一顆CPU,一般個人電腦亦可以加上一張PCI的飛龍卡來達成此一功能

我想除了Unicode外,香港亦積極的在電腦中文的進程想要掌握技術的主導能力,不過無論如何,還是樂見中文在電腦的世界裡能更貼近真正的使用族群

這裡有一些有關"飛龍CPU"跟中文基因計劃的相關聯結:
http://chinese2000.sniic.com/sniic3/index_notice/update_news.php?html=2003_07_31_1
http://china.sina.com.tw/tech/h/n/2003-07-28/0824214022.shtml
http://www.people.com.cn/BIG5/it/2284983.html
http://sfs.wpes.tcc.edu.tw/print.php?sid=205

之前就有看過相關的報導,
但看不太懂它的技術優勢為何...

它是一顆 CPU 還是晶片呢?


天馬行空亂亂猜:

它有點像是預設就處於 UTF-8 的 Locale 下的迷你 Linux,
它的所有字碼、字型產生器全內建在這顆 CPU(還是晶片?)中,
所以就可以將系統所需的作業環境縮到最小。
很適合用於小而美的嵌入式系統...
(有看過跑 MS Windows 的提款機嗎?)
比如說,縮在一張磁片上,僅需 2MB 記憶體的 GUI 中文系統...

是這樣嗎?
時間並不能治療我心中的疼痛
南方的春天說什麼也溫暖不了我冰冷的血

誦唱大復活咒文,今天的 Tetralet 又在唧唧喳喳了 重生!
Tetralet
俺是博士
俺是博士
 
文章: 3078
註冊時間: 週四 11月 28, 2002 3:02 pm

re:[轉貼]國內中文字碼之發展

文章s710388 » 週二 11月 09, 2004 10:51 am

回應一下Tetralet師兄^^
我看了相關的報導之後,個人認為應該是要做出如同目前電腦CPU中已經內鍵了基本的西方拼音文字及符號,也就是ASCII,英文字母以及各種符號都市直接由CPU所產生,而飛龍芯就是要把中文字拆解成許多的元件(在朱邦復先生的努力下)將中文字的產生直接交由CPU來負責,而CPU具有這樣的功能是因為內建了這樣一個掌管中文字產生的運算單元,而飛龍卡的產生就是為了讓非使用飛龍CPU的人能夠使用這種技術,因此把內建的中文字產生的單元作成PCI卡的形式,但是這種技術必須要靠軟體配合,軟體必須能驅動這個單元並且搭配方才能由此運算單元來產生中文字而不需靠外掛中文的終端機或者是外掛其他軟體來負責中文字型的處理

所以這與其說是為了發展精簡型Linux不如說是希望從東方人的角度去設計電腦,是要與ASCII一較長短的東方標準,我看到的報導是說他們也有企圖要將除了中文以外的文字也包括進去,例如韓文,日文...等,所以重點是希望建立起一個包含中文的CPU的標準環境...

以上是個人的認知,如有理解錯誤,麻煩大家指正,謝謝^^
塵煙落盡遠山新,淨影回明又一春;
轉眼還疑花舞過,風雲徒笑勁鳶鄰。
s710388
可愛的小學生
可愛的小學生
 
文章: 96
註冊時間: 週四 8月 21, 2003 6:49 pm
來自: 北台灣

Re: re:[轉貼]國內中文字碼之發展

文章阿信 » 週二 11月 09, 2004 10:57 am

Tetralet 寫:(有看過跑 MS Windows 的提款機嗎?)


亂入一下,郵局的磁卡提款機就是 windows 95 喔
頭像
阿信
版面大總管
版面大總管
 
文章: 4756
註冊時間: 週二 9月 03, 2002 11:58 pm
來自: 台灣 - 嘉義

re:[轉貼]國內中文字碼之發展

文章banyan » 週二 11月 09, 2004 11:50 am

阿信 寫:
Tetralet 寫:(有看過跑 MS Windows 的提款機嗎?)


亂入一下,郵局的磁卡提款機就是 windows 95 喔

我也看過Windows NT的提款機 :D
頭像
banyan
可愛的小學生
可愛的小學生
 
文章: 35
註冊時間: 週五 3月 14, 2003 5:16 pm
來自: 台中

re:[轉貼]國內中文字碼之發展

文章s710388 » 週三 11月 10, 2004 9:53 am

對了...回覆一下訪客兄^^
當然現在的電腦都夠快,用外掛軟體的方式處理絲毫不會感覺到速度的差異,但是這個技術本身不只是要解決這個問題,以下是在BBS站全國連線的BSD版看到的:

------------------------------------------------------------------
※ 引述《HenryHo.bbs@ptt.cc (:))》之銘言:
: as title,感覺好像問題很多,由其是傳統的tcsh / xcin好像對UTF8的support
: 都不是很好,winxp,linux內部都是Unicode了,感覺在這方面FreeBSD似乎稍嫌
: 弱了點... 在這邊好奇問一下有人成功的將FreeBSD整個系統完全轉移到utf8
: 且中文部份也都沒問題的呢?

目前我的系統就是用 zh_TW.UTF-8
FreeBSD 對 UTF-8 的支援很完整呀
tcsh 我不清楚,bash 一切都 OK
xcin 只要使用 firefly 的 patch 也一切 OK
不然也可以試試看 scim,看起來很棒 (但我沒用過)

terminal 的部份,rxvt-unicode 對 UTF-8 的支援好像比 mlterm 好一點
(gnome-terminal 應該也不錯,但我沒在用)

目前唯一需要 big5 的地方是 bbs 以及某些用 big5 檔名的 ftp 站
我的作法是用 screen 來轉,如果不習慣用 screen,也可以試試 luit

我想目前 UTF-8 環境下最難以解決的問題應該是字型、輸入法表和轉碼字碼表吧
字型的話,好像目前並沒有非常完整又高品質、可自由使用的向量字型
一般好像都是拿 MS Windows 上的字型來用

而輸入法大部份的表仍然只有 big5 的部份
有完整 Unicode 3.0 的好像只有倉詰、行列(?)、拼音

而轉碼的問題比較大,big5 的符號跟 unicode 的對應一直都有些問題存在
^^^^^^^^^^^^^^^^^^^^^^^^^^^
有些軟體可以透過修改字碼表解決,有些軟體寫死在 code 裡,很麻煩...
^^^^^^^^^^^^^
------------------------------------------------------------------

以上是完整的文章摘錄,有^符號的是我標示的地方,那裡也是內建中文產生器CPU比較能解決的方法,因為中文字是由CPU組合出來,而非用字碼來紀錄每個字的完整字型
塵煙落盡遠山新,淨影回明又一春;
轉眼還疑花舞過,風雲徒笑勁鳶鄰。
s710388
可愛的小學生
可愛的小學生
 
文章: 96
註冊時間: 週四 8月 21, 2003 6:49 pm
來自: 北台灣

Re: re:[轉貼]國內中文字碼之發展

文章Tetralet » 週五 11月 12, 2004 9:16 pm

s710388 寫:而轉碼的問題比較大,big5 的符號跟 unicode 的對應一直都有些問題存在

有些軟體可以透過修改字碼表解決,有些軟體寫死在 code 裡,很麻煩...

打個比方,
qe 這個程式就只能在 zh_TW.Big5 下執行。

s710388 寫:以上是完整的文章摘錄,有^符號的是我標示的地方,那裡也是內建中文產生器CPU比較能解決的方法,因為中文字是由CPU組合出來,而非用字碼來紀錄每個字的完整字型

我並不知飛龍 CPU 到底是在說明什麼技術,
所以再討論下去也只是瞎子摸象亂亂猜。

但是... 我想不管如何,
只要是文字系統就會有編碼的問題。
ASCII 是編碼方式之一,
而 Big5 也是編碼方式之一,
UTF-8 也是編碼方式之一。
沒了編碼原則,
我想不出來該如何實作中文系統?
時間並不能治療我心中的疼痛
南方的春天說什麼也溫暖不了我冰冷的血

誦唱大復活咒文,今天的 Tetralet 又在唧唧喳喳了 重生!
Tetralet
俺是博士
俺是博士
 
文章: 3078
註冊時間: 週四 11月 28, 2002 3:02 pm

Re: re:[轉貼]國內中文字碼之發展

文章Edward G.J. Lee » 週五 11月 12, 2004 10:09 pm

Tetralet 寫:我並不知飛龍 CPU 到底是在說明什麼技術,
所以再討論下去也只是瞎子摸象亂亂猜。

但是... 我想不管如何,
只要是文字系統就會有編碼的問題。
ASCII 是編碼方式之一,
而 Big5 也是編碼方式之一,
UTF-8 也是編碼方式之一。
沒了編碼原則,
我想不出來該如何實作中文系統?

這是一種所謂的「構形編碼」,最終當然還是有「碼」在對應,只不過看是怎麼對應及在什麼層次去實作罷了。

也就是說,方塊字是由 stroke/radical on-the-fly 組合而成的。方塊字的單位並不是一整個字,而是把他的筆畫、部首拆開來,要用到的時候再組合起來。

國內也有實作的例子,例如中央研究院的中文電腦缺字解決方案及易符公司的組字方法及以前網虎公司的 GCS。
更正(Sun Nov 14 12:08:59 CST 2004)
GCS(Giga Character Set) 不能算是「構形編碼」的實作,他是屬於另一種的 m17n solution,請參考:
http://www.linuxdevices.com/cgi-bin/pri ... 3271194620

目前碰到的問題大概是這些 stroke/radical 的分類並沒有充分及統一,也沒有標準化。

請參考:
《以構字式解決缺字問題的系統設計實務(莊德明)》
http://linguistics.berkeley.edu/~rscook ... index.html

《中文電腦缺字解決方案(莊德明 中央研究院資訊科學研究所)》
http://www.linguistics.berkeley.edu/~rs ... ngChar.pdf
http://std.dkuug.dk/JTC1/SC2/WG2/docs/n2480.pdf

《開放式中文字的組合》
http://edt1023.sayya.org/tex/cccii.pdf

易符公司的做法大致和構字式類似(雙方曾有合作關係)。但他是由 Forth 系統發展的,可參考我國符式協會的資料:
http://www.figtaiwan.org/
最後由 Edward G.J. Lee 於 週日 11月 14, 2004 12:12 pm 編輯,總共編輯了 1 次。
LGJ
道隱於小成,言隱於榮華。(莊子.齊物論)
頭像
Edward G.J. Lee
榮譽學長
榮譽學長
 
文章: 211
註冊時間: 週一 11月 10, 2003 9:24 pm
來自: 鄉下

下一頁

回到 debian develop

誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 1 位訪客