要如何看文字的編碼?

歡迎提問 debian desktop 相關問題,何謂 desktop ? 舉凡您日常生活會用到的部份,如上網 ( www 、 bbs ..) 、程式設計、繪圖...等等。 通常以 X Window 環境底下問題為主。

要如何看文字的編碼?

文章訪客 » 週六 3月 12, 2005 3:21 pm

請問如何判斷一個純文字檔的文字編碼是用UTF-8或BIG5
或GB2312等等?因為要用iconv之前必需先知道。
訪客
 

文章訪客 » 週日 3月 13, 2005 10:56 pm

iconv 真的不好用, 常常無法轉出檔案, 會囉哩巴嗦說什麼有問題
然後就跳出來, 不給你轉.
這時拿古代的 utf-converter 卻轉得好好的, 沒有任何問題.

utf-converter 比現代的 iconv 成熟好用, 不曉得為什麼反而很少
人用﹖古代 CLE 時都有這個. (utf-converter 主要就是用來轉 big5,
gb2312, utf8 互轉)
訪客
 

文章willie0220 » 週日 3月 13, 2005 11:04 pm

iconv加上-c參數就可以讓他略過一些不合法字元了

建議多看man page囉 :mrgreen:
willie0220
可愛的小學生
可愛的小學生
 
文章: 70
註冊時間: 週二 1月 13, 2004 9:04 pm

文章訪客 » 週一 3月 14, 2005 12:01 am

那究竟如何看文字的編碼呢?謝謝
訪客
 

文章d2207197 » 週一 3月 14, 2005 4:15 am

找個編輯器或 terminal,以不同編碼來看他就知道啦。
像是是在 .vimrc 設定 set fileencodings=ucs-bom,utf-8,gb2312,big5,latin1
然後用 vim 打開那個文件讓 vim 來猜猜看,如果你看到的不是亂碼,那就打 :set 查看 vim 現在用哪個編碼讀入。
或是用 mlterm 或 gnome-terminal,切換輸出編碼,然後 cat 那份文件。

如果你知道編碼是什麼東西的話,就知道要電腦猜一個檔案是什麼編碼並不是容易的事。
單純指定幾個差異相當大的編碼或許還猜得出來,幾個相近或完全一樣的編碼方式就猜不出來了。
比如說 iso8859-1 ~ iso8859-16,是以相同編碼方式來對不同字集作編碼。
電腦要猜出他是哪個,還必須分析內容,看以那種字集才能夠合文法,合該國語言。
頭像
d2207197
鑽研的研究生
鑽研的研究生
 
文章: 1763
註冊時間: 週二 5月 27, 2003 9:57 pm
來自: 火星

文章訪客 » 週一 3月 21, 2005 11:54 am

willie0220 寫:iconv加上-c參數就可以讓他略過一些不合法字元了
建議多看man page囉 :mrgreen:

iconv 確實有問題, 例如從一個 utf8 的檔轉成 big5
就會掉字, 轉出來後會離離落落, 例如以 utf8 寫的
「我觉得这个题目很有意思」
用 iconv -f utf8 -t big5 <那段文字的檔案>
轉出來變成
「我得目很有意思」

但是用 utf-converter 的 u8tob5 轉
u8tob5 < <那段文字的檔案>
會完整的轉出「我覺得這個題目很有意思」

是我在用 iconv 有下錯指令、參數嗎﹖
還是 iconv 真的有問題﹖
訪客
 

文章高原之狼 » 週一 3月 21, 2005 12:39 pm

Anonymous 寫:iconv 確實有問題, 例如從一個 utf8 的檔轉成 big5
就會掉字, 轉出來後會離離落落, 例如以 utf8 寫的
「我觉得这个题目很有意思」
用 iconv -f utf8 -t big5 <那段文字的檔案>
轉出來變成
「我得目很有意思」

但是用 utf-converter 的 u8tob5 轉
u8tob5 < <那段文字的檔案>
會完整的轉出「我覺得這個題目很有意思」

是我在用 iconv 有下錯指令、參數嗎﹖
還是 iconv 真的有問題﹖

这是因为 iconv 是字符集转换程序而不是繁简中文转换程序,“觉”和“覺”在 Unicode 里面并不是一个字。
高原之狼
懵懂的國中生
懵懂的國中生
 
文章: 185
註冊時間: 週一 10月 28, 2002 5:54 am

文章xacid » 週一 3月 21, 2005 1:15 pm

d2207197 寫:找個編輯器或 terminal,以不同編碼來看他就知道啦。


為什麼不用 file ?
頭像
xacid
可愛的小學生
可愛的小學生
 
文章: 70
註冊時間: 週日 9月 19, 2004 10:40 am

文章Tetralet » 週一 3月 21, 2005 2:37 pm

Anonymous 寫:iconv 確實有問題, 例如從一個 utf8 的檔轉成 big5
就會掉字, 轉出來後會離離落落, 例如以 utf8 寫的
「我觉得这个题目很有意思」
用 iconv -f utf8 -t big5 <那段文字的檔案>
轉出來變成
「我得目很有意思」

但是用 utf-converter 的 u8tob5 轉
u8tob5 < <那段文字的檔案>
會完整的轉出「我覺得這個題目很有意思」

是我在用 iconv 有下錯指令、參數嗎﹖
還是 iconv 真的有問題﹖

小技巧:
代碼: 選擇全部
iconv -f utf8 -t gb2312 Uncoded_GB2312-FILE | iconv -f gb2312 -t big5 > BIG5-FILE
時間並不能治療我心中的疼痛
南方的春天說什麼也溫暖不了我冰冷的血

誦唱大復活咒文,今天的 Tetralet 又在唧唧喳喳了 重生!
Tetralet
俺是博士
俺是博士
 
文章: 3078
註冊時間: 週四 11月 28, 2002 3:02 pm

文章Tetralet » 週一 3月 21, 2005 2:46 pm

xacid 寫:
d2207197 寫:找個編輯器或 terminal,以不同編碼來看他就知道啦。

為什麼不用 file ?

因為 file 似乎只能判別這個文字檔是不是以 UTF-8 編碼的,
它無法判別它是以 Big5 還是以 GB2312 編碼的。
(注:據個人所知,Big5 和 GB2312 所使用的編碼規則極為類似,
   只是所對應到的字並不相同,所以難以判別。)
時間並不能治療我心中的疼痛
南方的春天說什麼也溫暖不了我冰冷的血

誦唱大復活咒文,今天的 Tetralet 又在唧唧喳喳了 重生!
Tetralet
俺是博士
俺是博士
 
文章: 3078
註冊時間: 週四 11月 28, 2002 3:02 pm


回到 debian desktop

誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 1 位訪客

cron