文書處理,LaTeX,SGML,HTML...which one

放輕鬆,這個版純聊天不談技術,歡迎大家進來坐坐。

文章Edward G.J. Lee » 週一 6月 11, 2007 5:02 pm

granziliao 寫:不知道有沒有從LaTeX生XML-SGML-的套件呢?
Tex4Ht太LaTeX了一點,感覺生出來的網頁就跟pdflatex生出來的差不多,不是很適合當作網頁閱讀。

最著名的是 LaTeX2HTML 及 TeX4ht。功能上是 TeX4ht 比較強大,
他甚至可以轉化 tex 文稿為 OO.o 的格式,但是這個系統非常複雜,
使用上並不是那麼的流利,需要有人開發他的前端工具才會方便使用。
LaTeX2HTML 則是比較簡單使用的工具,但功能就沒有 TeX4ht 那麼
強了。

至於『感覺生出來的網頁就跟pdflatex生出來的差不多』,我不是很
清楚這其中的意思,能說明詳細一點嗎?HTML 的外觀,在
LaTeX2HTML/TeX4ht 都是可以依使用者的意願來調整的(起碼你可以
自行編輯 css 來符合你的需求),以下就是由 LaTeX2HTML 輸出的
結果:
http://edt1023.sayya.org/tex/latex123/
http://edt1023.sayya.org/tex/mycjk/

http://cle.linux.org.tw/~edt1023/tex/la ... ex123.html
http://cle.linux.org.tw/~edt1023/tex/mycjk/mycjk.html
不過,有一個很重要的問題需要考慮,如果 TeX/PDF 版本和 HTML
版本的輸出外觀差異太大,這可能不是一個成功的轉換。

我個人的看法,一般而言,由 TeX/LaTeX 轉成 SGML/XML/HTML 會比
SGML/XML/HTML 轉成 TeX/LaTeX 困難,這是他們先天 tags 結構上
及其標準化上的問題,所以有這種需求的話,可能使用
DocBook/OO.o/LyX/TeXmacs/rst/vst 等工具會比較方便?

另一種方式是改用 ConTeXt,他先天上就有考慮這種問題,只是他使
用上和 LaTeX 差異頗大,可能需要另一段時間的熟悉才能使用順手。

如果是考慮 LaTeX 文稿含數理式子,需要精確的轉換成 XML/MathML
網頁,那麼可能需要特殊的工具,例如:Hermes。而且需要要求閱覽
者安裝數學字型:
http://hermes.roua.org/
http://hermes.aei.mpg.de/
測試頁(請使用 firefox/mozilla):
http://edt1023.sayya.org/db/amstest.xml

http://cle.linux.org.tw/~edt1023/db/amstest.xml
如果沒有看到如下圖檔一樣的內容,那表示數學字型的安裝及設定失敗:
http://edt1023.sayya.org/db/amstest.png

http://cle.linux.org.tw/~edt1023/db/amstest.png
最後由 Edward G.J. Lee 於 週一 6月 11, 2007 9:21 pm 編輯,總共編輯了 1 次。
LGJ
道隱於小成,言隱於榮華。(莊子.齊物論)
頭像
Edward G.J. Lee
榮譽學長
榮譽學長
 
文章: 211
註冊時間: 週一 11月 10, 2003 9:24 pm
來自: 鄉下

文章Edward G.J. Lee » 週一 6月 11, 2007 5:04 pm

sendxp 寫:Debian etch上如何去使用Xetex呢?

用texlive嗎? 找不到相關的套件...


目前只有 unstable 才有 TeX Live 2007,也才會有 XeTeX。

所以,可能的方式是:
1. 自行編譯打包 deb(不過,TeX/LaTeX 相關工具的編譯,
細節很多,因此並不建議)。
2. 使用 TeX Live 2007 Live DVD 或 install CD 安裝至硬碟。
一個作業系統上可以同時存在多種版本的 TeX 系統,只要
路徑設定好就可以同時並存(因軟體相依性的問題,需要
同時並存)。
3. 直接升級至 unstable 的版本。
LGJ
道隱於小成,言隱於榮華。(莊子.齊物論)
頭像
Edward G.J. Lee
榮譽學長
榮譽學長
 
文章: 211
註冊時間: 週一 11月 10, 2003 9:24 pm
來自: 鄉下

文章Edward G.J. Lee » 週一 6月 11, 2007 5:09 pm

sendxp 寫:請教前輩, rst/vst如何透過cjk-latex轉成PDF
文件我都是使用UTF8編碼.

你可以參考 vst 的做法,因為我沒使用過原本的 rst。主要的
是在 pdflatex 處理前,要插入 LaTeX CJK 必要的格式(環境)。

或者可以改用 xelatex,他所要插入的部份可能較簡單。
LGJ
道隱於小成,言隱於榮華。(莊子.齊物論)
頭像
Edward G.J. Lee
榮譽學長
榮譽學長
 
文章: 211
註冊時間: 週一 11月 10, 2003 9:24 pm
來自: 鄉下

文章granziliao » 週二 6月 12, 2007 2:31 pm

tex4ht似乎還有一個問題,就是對CJK的支援,
比如我的原來的tex檔中有用 \begin{CJK*}{UTF8}{cwkc} \end{CJK*} mark起來的中文,當轉到xml (用mzlatex) 全成了亂碼,想要自己裝virtual fonts 確不知如何裝起
凡發生之事必合理
頭像
granziliao
可愛的小學生
可愛的小學生
 
文章: 99
註冊時間: 週三 6月 18, 2003 9:23 am
來自: 板橋後埔

文章Edward G.J. Lee » 週二 6月 12, 2007 7:47 pm

granziliao 寫:tex4ht似乎還有一個問題,就是對CJK的支援,
比如我的原來的tex檔中有用 \begin{CJK*}{UTF8}{cwkc} \end{CJK*} mark起來的中文,當轉到xml (用mzlatex) 全成了亂碼,想要自己裝virtual fonts 確不知如何裝起

你可以找一下他的輸出訊息及他所附 *.htf 的內容,他需要的應該是字元的對應。不過 tex4ht 似乎是用原 big5 的 cjk 方式來對應的。

由於我沒在用 tex4ht,所以,你可能需要問一下 Eitan 先生,看有沒有現成的工具可以產生 *.htf 的對應表(應該寫個 script 來操作會比較方便)。以前對岸也有人曾請教過他,據說他相當熱心。
LGJ
道隱於小成,言隱於榮華。(莊子.齊物論)
頭像
Edward G.J. Lee
榮譽學長
榮譽學長
 
文章: 211
註冊時間: 週一 11月 10, 2003 9:24 pm
來自: 鄉下

文章silice » 週三 6月 13, 2007 3:04 am

感謝果正兄的「分享」
我覺得果正兄相當熱心
這些建議和分享對我相當有幫助
想法更是重要
事不宜遲(師父引進門修行在個人)
小弟我趕快去學習
我對果正兄的態度非常敬佩
「政治」這兩個字真的讓人很頭痛
看了果正兄的回應真的讓我省下不少時間
live cd的想法真的很不錯
先放下TeX/LaTeX不說
LGJ的「分享方式」我覺得更值得學習
但願自己也能像這樣影響別人
silice
可愛的小學生
可愛的小學生
 
文章: 54
註冊時間: 週二 10月 04, 2005 1:55 am

文章Edward G.J. Lee » 週三 6月 13, 2007 6:53 pm

silice 寫:感謝果正兄的「分享」
我覺得果正兄相當熱心
這些建議和分享對我相當有幫助
想法更是重要
事不宜遲(師父引進門修行在個人)
小弟我趕快去學習
我對果正兄的態度非常敬佩
「政治」這兩個字真的讓人很頭痛
看了果正兄的回應真的讓我省下不少時間
live cd的想法真的很不錯
先放下TeX/LaTeX不說
LGJ的「分享方式」我覺得更值得學習
但願自己也能像這樣影響別人

因為這裡是 talk 版,有點聊天的性質,所以,我的話比
較多,而且也並沒有打算完全給出烹調好的魚(有些是我
根本就不會,有些是實在沒有時間投入,畢竟我不是專業
資訊人)。

但這個議題大家來聊聊是很不錯的一個議題,尤其是文檔
格式的轉換、中文處理及將來的方向。像 LyX 6(1.6.x)
的版本就打算改採 XML 的「格式」,LDP 也捨 linuxdoc
而鼓勵大家使用 DocBook/XML,PassiveTeX/ConTeXt 將
TeX macro 和 XML/XSL FO 做一定程度的結合,OO.o 也
開始支援 TeX/LaTeX 格式的輸出。

個人的看法,將來文件的[交換]底稿走向應該是會朝 XML
這個大方向,而且結合現有能用的其他相關工具(的成
果),這點 XML 的包容性不錯,只不過是整體配套措施
有沒有準備好的問題。

所以,請大家繼續聊!
LGJ
道隱於小成,言隱於榮華。(莊子.齊物論)
頭像
Edward G.J. Lee
榮譽學長
榮譽學長
 
文章: 211
註冊時間: 週一 11月 10, 2003 9:24 pm
來自: 鄉下

文章silice » 週四 6月 14, 2007 6:21 am

「有些我根本就不會」我大部份都不會@@
像XML、LyX、SGML…太多了都看不懂
可是我看了洪朝貴老師的網頁
比如這篇:
https://people.ofset.org/~ckhung/a/c013.php
不懂可以查啊
以下是查有關XML的資料
XML 「可擴展標示語言」(eXtensible Markup Language) 是用於標示具有結構性資訊的電子文件的標示語言。 XML 是根據一個國際標準 -- Standard Generalized Markup Language (SGML) -- International Organization for Standardization (ISO) ISO 8879:1986 所製定而成的. XML 的格式類似 HTML, 但是您可以使用自行定義 的標籤及文件結構. 也可以由資料庫中取得資料,再用 XML 進行 串列化 (serializing) 的工作。

是啊!talk版真不錯(好在是talk版,不然我離題太多了)
聊天版比較沒壓力

什麼是專業的資訊人?我不知道。
只能確定我一定不是
可是我發現一件事:
很多在網路上很熱心的人都會這樣說:「我不是專業資訊人」
謝謝LGJ給了我「釣竿」(不知道這樣形容適不適合)

LGJ說:TeX/LaTeX 有接觸過的朋友,沒有被操過、嚇過的大概是少數人。他們的指令非常繁複,記不勝記,學習曲線很陡峭,雖然排版品質很不錯,但不是經常寫文件的朋友,大概是不太會有學習的欲望。

我不常寫文件,身邊周遭的朋友提到文書處理只想到微軟的Word,也都跟我說很簡單,但我覺得通通都很不簡單。個人只停留在打一些簡單的筆記的階段vim就很夠我用了(當然vim也很不簡單,太多功能都嚇到我了,奇怪的是我身邊的人很少用,連聽過的人都很少)。也許就因為這樣,本來我就什麼都不懂,所以再去學學TeX/LaTeX我也沒什麼損失,至於用什麼好?;用什麼不好?很難說!對我來說都是好的。何況說學TeX/LaTeX還有熱心LGJ可以請益。我覺得使用GNU/Linux相關的自由軟體讓我比較安心。我不迷信 GNU/Linux, 也不害怕選擇的自由,也尊重他人選擇的自由。(佛渡有緣人,這句話很讚,可以時時提醒我尊重他人選擇的自由)
silice
可愛的小學生
可愛的小學生
 
文章: 54
註冊時間: 週二 10月 04, 2005 1:55 am

文章idealbsd » 週四 6月 14, 2007 11:31 am

软件对多数人而言只是一种工具,内容往往要重于其表现形式,文档格式的选择也更多地取决于其用途,很多情况下文档要与别人交流,选择的余地就要受到很大的局限,相应文档可输出的精美与否倒在其次
越来越多的软件采用xml是好事,像OO.o的ODF文档本身是许多xml文件的zip格式,但至于xml能否一统大局就很难说了,就个人感觉而言,asciidoc、muse、rst等在可预见的时间里将会继续存在
idealbsd
可愛的小學生
可愛的小學生
 
文章: 6
註冊時間: 週三 3月 09, 2005 10:23 am

文章Edward G.J. Lee » 週四 6月 14, 2007 12:40 pm

Edward G.J. Lee 寫:
granziliao 寫:tex4ht似乎還有一個問題,就是對CJK的支援,
比如我的原來的tex檔中有用 \begin{CJK*}{UTF8}{cwkc} \end{CJK*} mark起來的中文,當轉到xml (用mzlatex) 全成了亂碼,想要自己裝virtual fonts 確不知如何裝起

你可以找一下他的輸出訊息及他所附 *.htf 的內容,他需要的應該是字元的對應。不過 tex4ht 似乎是用原 big5 的 cjk 方式來對應的。

依 Unicode 的方式也是可以。

這裡只是「半條魚」,看誰的 awk 比較利害,幫忙完成它:
代碼: 選擇全部
#!/usr/bin/env bash
# vim:ts=2 sw=2 et
# mkhtf.sh : make TeX4ht htf fonts from *.afm.
# Edward G.J. Lee (06/13/07)
# This code is Public Domain.

B=`grep -m1 '^C ' $1 | awk '{print $2}'`
E=`grep -B1 'EndCharMetrics' $1 | awk '/^C / {print $2}'`

awk 'BEGIN{print "'${1%.afm}' '$B' '$E'"}
     /^C / {gsub(/uni/,"\\&#x");
     print "\047"$8";\047","\047""\047", $2}
     END{print "'${1%.afm}' '$B' '$E'"}' $1 > ${1%.afm}.htf


使用方法,先進入置放 *.afm 的目錄下:
代碼: 選擇全部
for i in *.afm
do
./mkhtf.sh $i
done


請注意,這樣還不能用,要把沒有字元的部份填入 '' '' '',就是說像以下這樣:
代碼: 選擇全部
'倀' '' 0                                                                 
'' '' ''
'倂' '' 2
'' '' ''
'' '' ''
'倅' '' 5
'倆' '' 6
'倇' '' 7
'' '' ''
'倉' '' 9
'' '' ''
'個' '' 11


如果這些 *.htf 找不到置放位置,暫時先放在工作目錄下做測試。


Thu Jun 14 17:03:49 CST 2007 mkhtf.sh 第一次修改
Fri Jun 15 00:49:20 CST 2007 mkhtf.sh 第二次修改

以下是完整版本:
代碼: 選擇全部
#!/usr/bin/env bash
# vim:ts=2 sw=2 et
# mkhtf.sh : make TeX4ht htf fonts from *.afm or *.pfb.
# Edward G.J. Lee (06/13/07)
# This code is Public Domain.

B=`grep -m1 '^C ' $1 | awk '{print $2}'`
E=`grep -B1 'EndCharMetrics' $1 | awk '/^C / {print $2}'`
if [ $E -eq -1 ];then
  E=`grep -B1 '^C -1' $1 | awk '!/^C -1/ {print $2}'`
fi

echo "${1%.afm} $B $E" >> ${1%.afm}.htf
IND=$B
while [ $IND -le $E ]
do
  grep '^C '"$IND"' ;' $1 > /dev/null 2>&1
  if [ $? -eq 0 ];then
    awk '/^C '"$IND"' ;/{gsub(/uni/,"\\&#x");
    print "\047"$8";\047","\047""\047", $2}' $1 >> ${1%.afm}.htf
  else
    echo "'' '' ''" >> ${1%.afm}.htf
  fi
  IND=$(($IND + 1))
done
echo "${1%.afm} $B $E" >> ${1%.afm}.htf

速度有點慢,可能需要改進一下。這樣就不必自行去插入
沒有字元的部份了。
最後由 Edward G.J. Lee 於 週五 6月 15, 2007 12:58 am 編輯,總共編輯了 2 次。
LGJ
道隱於小成,言隱於榮華。(莊子.齊物論)
頭像
Edward G.J. Lee
榮譽學長
榮譽學長
 
文章: 211
註冊時間: 週一 11月 10, 2003 9:24 pm
來自: 鄉下

文章Edward G.J. Lee » 週四 6月 14, 2007 5:13 pm

什麼是專業的資訊人?

我對「專業的資訊人」的定義是以下兩者之一:

1. 學資訊相關科系出身,目前仍有在摸資訊相關的東西(不管是不是
當成職業)。
2. 非科班出身,但目前在資訊相關行業工作,或以此為副業。

當然,提到文書排版的工具時,我們可能並不一定要絕對的工具論、
目的論,其實當成一種「嗜好」也不會被槍斃的,像我是把 TeX 系統
當成「電動玩具」在玩,:-D
LGJ
道隱於小成,言隱於榮華。(莊子.齊物論)
頭像
Edward G.J. Lee
榮譽學長
榮譽學長
 
文章: 211
註冊時間: 週一 11月 10, 2003 9:24 pm
來自: 鄉下

文章訪客 » 週四 9月 25, 2008 11:36 pm

http://www.ecn.wfu.edu/~cottrell/wp.html

這篇文章寫得真是好,真的是學海無涯,唯勤是岸嗎?
謝謝阿信。 :finger1:
訪客
 

文章訪客 » 週四 9月 25, 2008 11:46 pm

現在才想到,雖然OpenOffice是open source,但為何要裝JRE?這個不是跟微軟一樣想獨大,叫大家都用它的東西一樣的企圖嗎?
訪客
 

文章sppmg » 週二 9月 30, 2008 1:10 pm

回覆上面的訪客
裝jre是為了方便移植吧!
jre是否open source+gpl我就不確定了。
系統的威力來自於程式的相互關係, 而非來自程式本身
is the idea that the power of a system comes more from the relationships among programs than from the programs themselves.

(英文語法怪怪的......誰能提供完整的版本?)
sppmg
活潑的高中生
活潑的高中生
 
文章: 317
註冊時間: 週五 8月 04, 2006 3:47 pm
來自: 臺灣

上一頁

回到 talk

誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 1 位訪客