Accelon，一个开放的数位古籍平台_微头条_第页_首页_汉网

Accelon，一个开放的数位古籍平台

2015-03-02 12:02:44 来源：佛教古籍调整字体

Accelon，一个开放的数位古籍平台

2015-02-28 叶健欣 佛教古籍佛教古籍

佛教古籍

微信号 fojiaoguji

功能介绍介绍现存佛教古籍及相关情况。

《开放古籍平台》首页界面

（软件来源：体恒法师、隆藏法师）

佛教图书馆馆刊第四十七期 97年6月

Accelon，一个开放的数位古籍平台

叶健欣　?那搜寻工坊软体工程师

【摘要】本文以电子佛典发展的三个阶段为经，以佛典数位化的种种困难和解决方案为纬，总结笔者这十几年来从事电子古籍相关工作的心得和感想。探讨的?围包括了缺字、文字编码、文件格式，以及数位内容所有权等。最后，本文提出了一个开放源码的数位古籍平台架构，以降低古籍数位化的氧作、维护和发行，以及使用的门槛。

关键词：电子佛典；缺字；全文检索；数位内容之所有权；开放源码；维基模式

第一阶段：1989-1998

回想笔者和电子佛典的初次结缘，约莫在1992年，用286 1MB RAM的电脑，加上倚天中文系统和PE2纯文字编辑软体，开始输入一些常用的佛经。动机很单纯：一套要价新台币十万元的《大正藏》，如果能够输入电脑作广泛应用，这对佛法的弘扬必定很有助益。

当时抱着这种想法的教界朋友，想必不在少数。从90年代初期开始，到1998年中华电子佛典协会（CBETA）成立为止，这是佛经数位化的第一个阶段，工作内容以佛经的输入为主，我想有不少朋友也是在这个阶段开始投入的。

这个时期，台湾网际网路还刚刚萌芽，大家各做各的，力量无法整合起来，很多经典被重妖输入，尤其是像《金刚经》、《阿弥陀经》等常用经典，也许在全台湾被输入了上千次。从「抄经功德」的角度来说，这并不是什么坏事；不过就资料库的观点来看，这个重妖没有必要，也造成了各经的品质参差不齐。现在回顾起来，当时教界整体投入了很大的力量，但是实际综效（synergy）并不理想。

数位档案和纸本档案有本质上的差别，任何人都可以抄纸本的佛经，字写得好不好不重要，每个抄本都有其独一无二的价值。你恭录了一份《心经》，并不会因为另一个人再抄一次，就失去了价值；而电子佛经不同，数位世界只需要一份错字最少、校勘最精、后设标丈最全的佛经。至于各种样式，无论是做成网页、电子书，甚至印刷出来。从技术的观点来看，都可以从这一份主资料（Master Data），由电脑自动转换而得。换句话说，数位佛经的成熟化，就是从多个互不相容的分散档案，化成单一权威的版本，能够根据不同的需要，由电脑即时、自动地转换成读者想要阅读的形式。

第二阶段：1998-2006

当时的时空背景，大家体认到需要一个组织，统一进行整部大藏经内文的输入和校对工作，CBETA就在这样的背景之下成立了（注1）。从CBETA酝酿到成立至今，正好十年，这是佛经数位化的第二阶段。

这期间，也是电脑技术发展非常迅速的阶段，晶片的密度每18个月倍增一次（注2）、储存媒介的容量、网路速度，整体上朝更大、更快、更便宜的方向发展。

总结来说，这个阶段可以归纳出两条规律：其一，运算愈来愈分散，因为电脑愈做愈小、越便宜，因此运算能力从笨重的桌上型电脑，扩散到笔记型、PDA、手机、数位相机，以及愈来愈多的智慧型设备。换言之，就是每人平均拥有的CPU数持续上升。

其二，资料愈来愈集中。这里所谓的集中，不是指物理上的集结，而是指零碎资料的合?。电脑资料有个性质，整合度越高，价值越大。比方说，个人或单台收银机的付款记录，分散时价值不大，但是如果将整个城市乃至国家，每个人的消费记录整合起来，这个资料库就非常有用了，譬如从中分析出消费的习性，可以作为预测消费行为的具体数据。

这两条规律是数位科技发展的两条主线，掌握它们，就能掌握数位科技发展的趋势。

对于第一条，一般人能参与的不多，电脑运算技术的主导权在欧美日等大国。新奇玩意儿可以一直生产出来，但是要不要让它成为生活的一部分，每个人有充分的选择权。事实上，在生活当中，新科技很少会完全取代旧方法。举例来说，便利超商固然可以买到种类繁多的茶饮，但是泡工夫茶的，还是大有人在。人们可以用手机下载慈济静思语，也可以洗手焚香，着海青，端身正坐恭诵《大般若经》，两者并不互斥。甚至在某些时候，正是因为新科技太方便、太普及，才凸显出传统方法的专业、稀有和随之而来的尊荣感。

整合：数位资料库的威力所在

至于第二条，零散资料的集中化，表面上没有前者来得明显可见，但是影响力有过之而无不及。举个比方，在数位佛典的发展初期，人们会以错字太多、档案不全，甚至萤幕伤眼等种种理由而拒用电子版。但是时至今日，只要稍为和佛学甚至是汉学扯上，哪怕只有一点关?的学者，都无法忽视CBETA资料库对研究工作、数量上和质量上的重大影响。事实上，数位世界的种种神通，如全文检索、资料分析、服务品质及速度，无一不筑基于整合式的资料库。

当然，资料库的影响力，不限于佛学界。任何学界，当基层资料库成熟之时，必定对该领域的研究方法产生冲击，甚至是某种程度的典?转移。因此，我们了解到，促使资料库的形成，对一个学界来说，是非常重要的基础建设。今天，道教学界、儒学界乃至国学界，都对佛学界拥有一个高品质的基本典籍库，而艳羡不已。他们很清楚地看到，资料库能对研究工作，以及紧接着会发生的影响，起着非常关键的作用。

佛教界先于其他人文领域的原因

资料库的形成，不是一件轻?的事，佛教界会领先其他的领域（有强烈商业动机者除外），有其历史原因。首先，宗教界向来就勇于尝试新科技。世界上第一部印刷品是汉文《金刚经》（注3），西方第一部活版印刷品是古腾堡（Gutenberg）的《圣经》（注4）。再者，佛教界很清楚，太平盛世、皇帝英明，编大藏经来彰显国威是可遇不可求的。因此，由民间发起的倡印佛经的工作，自然成为一个传统，并且被视为积聚福德的方式。

同样地，个人电脑开始普及，等不及政府或研究机构订计画、拨经费，三宝弟子们很自然、不约而同地前仆后继，投入数位佛典的工作。由于数位储存是个新科技产物，大家一起来摸索，比由政府来「主导」或「辅导」，更能够快速累积经验。因此，由民间自发性投入电子佛典的氧作，反而是最成功的。

资料无法整合之原因

由于佛教界的示?，大家都见识到资料库的威力；那么，为什么到今天为止，人文学界的免费资料库的发展，除了中研院的「汉籍电子文献」（注5）之外，其他免费的资料库都还未具气象呢？举个比方，网路上《孙子兵法》和《红楼梦》有数十种品质不一的版本，很难从中选出一个最好的版本。因为缺乏一个具公信力的基本资料库，大家只好花很多力气来维护自己要用的版本。长远来说，这是一个很大的浪费，是研究升级的障碍。

在这繁闹现象的背后，有着相当妖杂的成因。笔者观察多年，至今仍然没有把握窥得全貌。以下提出几点心得，请方家不吝指正。

使用不当的工具

佛教界资料数位化进行得早，因此图形化操作介面还没有普及之前，就输入了大量的经文，当时并没有像今天这样方便的Word/PDF/HTML之类的工具可用，只能单纯的输入经文，很难做视觉格式的变化，但是这反而是一件幸运的事。怎么说呢？事实上，一旦使用了这些视觉化工具，就掉入了「着相」的歧途。Word/PDF/HTML是一种末端的「呈现格式」，它让人很方便地排出漂亮的报告、写日记，用来编一本书也勉强可以。但是，正因为视觉呈现格式的设定太过方便，反而容易被滥用。

举个例子来说，假设使用Word来输入佛经，除非有严格的规定和监督（这意味着高成本的管理工作），大家倾向于使用各种字体样式来「美化」经文。有人用「黑体24pt」来表示经名，有人则喜欢用楷体，最终的结果是各式各样、花花绿绿的档案。这对人来说无所谓，但对电脑来说，合?就是一个大麻烦；而要从其中提取出有意义的后设资料（Metadata），更是费时费力。

而在纯文字时代，因为不能换字体、换颜色，只好用像「经名：XXXX」的方法来标示，电脑处理起来反而容易许多。因此，数位资料库最难的第一步：资料合?，佛教界由于开始得早，使用原始的纯文字工具，反而进行得比较顺利。

其他人文领域数位化开动之时，已是Word/ PDF/HTML当道的时代，大家理所当然地使用，然后直接将档案放上网，形成今天这样的局面。因为它们实在太诱人，也太方便了，人文工作者很难警觉到它的危险，而主动去寻找其他方案。（注6）

一位资料库的设计者，必须有足够的智慧，穿透问题的表相。而在氧作资料库的初期，选择适当的格式和工具，攸关计画的成败。因此，技术的选用必须非常慎重，一定要吸取过往的经验。

缺字问题

缺字是个「历史悠久」的老问题，希望读者要意识到，缺字是古籍整合最底层的障碍，而这个问题，无法期待电脑科技的发展而自动获得解决；换句话说，无论CPU再快，记忆体、硬碟再大，网路再普及，缺字不会自动被解决。

由于缺字，大家只好都当起了现代仓颉，各自造了一堆字，直到造字区爆满为止。这个造字档，表面上解决了宝贝资料的显示和输入问题，但是事实上，这正是资料无法彼此互通的元?。时至今日，少有资料是不打算放上网的，可是随之而来的问题，就是没有人愿意安装所提供的造字档，因为装了之后，原来的资料就乱掉了（原来的造字档，被新的造字档取代）。

对使用者来说，问题还没有结束，如果有人要从事佛学和医学的跨领域研究，他很快会发现，佛经和网上下载的医学典籍无法放在同一个档案中，无论是用佛经或是医典的造字档，总有一些字会牛头不对马嘴，于是只好重头再校对一次，再想办法补上缺字。

更糟的是，个别的努力，只是没有必要的重妖作业，这些劳动成果非但无法累积起来，反而增加他人的麻烦。因此，这个额外作业将成为永远的负担，甚至可以不夸张地说，这个进入数位时代才产生的资料不相容的现象（在纸本时代，可以任意拿任何两种资料放在一起，反正都只是抄写），垫高了人文学科之间跨领域沟通的门槛，降低各领域间的交流意愿。

有人也许会说，Unicode不是已经解决了大部分的缺字问题吗？事实上并没有这么单纯，Unicode还是将每个中文字视为个别符号来处理。由于中文字和英文字母不同，是开放集合，在Unicode架构下，缺字问题永远存在。最明显的例子，就是Unicode无法处理新字、错字和新出土的异体字。而英文却没有这个问题，可以用abc随意组合出新字（如Blog、Wikipedia等）。这个用更精简的形式，来表达新观念的能力，是语言的生机所在。很遗憾地，汉字固有的、精简表达新事物的能力，被不当的电脑系统架构所扼杀了。

关于文件格式和缺字问题，本文后面有详细的说明。

缺乏整体规画

整合的本质，在于增加联劳、降低沟通的成本。但是，在连线发生的初期，经常是弊大于利，只有在整合的中后期，效益才会凸显。打个比方，电话和电视刚发明出来时，大家装设的意愿很低，因为成本高而效益不明显，此时这些都是有钱人和前卫人士的时髦玩意儿，但是等到大部分的人都装了，此时就非装不可，否则就会被边缘化。其他的通讯科技，如email、skype，也有这个特质。

资料库也是如此，资料本来就在，整合就是降低存取的成本。整合的初期必须做出很大的投入，但是并没有明显的效益。此时，需要有个强而有力的组织，持续进行高密度的投入，统一技术规格，才会大幅缩短累积的时间，提早进入下一个阶段。

比较棘手的是，如果这样的组织一直没有出现，而因为实际的需求，大家各做各的，热热闹闹地铺路拉线，等到要整合的时候，才发现由于没有统一的规画，彼此的成果无法合?。整合者将面临两难的局面，要么推倒重来，牺牲某些不相容的成果，但是这样做对被放弃的一方是非常伤感情的事；要么就要开发大量的「转换器」来连结不同的子系统。如果选择后者的话，表面上不伤和气，但整合的效益大打折扣，就像一个国家如果有十几种不同宽度的铁轨，无论如何转换，都不会顺畅运行。

但是这样的局面，在数位世界却是常态，大家使用不同工具，产生不同的档案格式、不同的造字档、不同的字体设定，每一种不同，都是交流的障碍；每一次的转换，都增加了沟通的成本。由于数位档案的妖氧和传布几乎不必成本，因此最大的负担，就在于处理和转换这些不同的格式。

既然如此，是不是要规定大家都用同一套工具集，同一个造字档，并严禁设定字体颜色样式呢？当然不能这么霸道，何况这是完全不切实际的规定，没有实施的可能。

人文与数位科技的桥?

数位的危险之处，在于它是一个急速进展的科技，不但是身在其中的科技界人士，对层出不穷的新技术感到无所适从，一般的文史工作者，对琳?满目的各种技术，也不知如何选择──作业系统有Windows/Linux/Mac三大门派，输入法有好几十种，程式语言常见的也有十几种，资料库软体、编辑软体莫不如此。因为新事物不断涌现，即使是专家，也无法确定哪一种是最佳的组合选择。

于是，人文工作者就面临了一个困难的局面：一是要花很多工夫去尝试各种所谓的「解决方案」，时时追赶技术新知；二是以不变应万变，坚持自己习惯的做法，对环境的改变置若罔闻。选择前者，人文工作者会逐渐变成了科技专家，离自己的本业渐行渐远，想要役物反而为物所役，这就有违使用数位科技的初衷；后者则是闭门造车，最后做出来的车子能不能上路，还是未知之数。

在这种情况下，我们亟需在人文学界和数位科技之间，搭起更多的桥?。基于这个理由，1998年，笔者离开第一线的经文输入工作之后，展开了为期八年寻师访道和磨练技术的旅程。

没有事前的规画，也不知道应该学些什么，只是抱持着一个简单的信念：想解决佛经最关键的几个技术问题。这个题目，决定我必须同时理解古籍和数位科技的特质。这段个人经历，和本文接着要提出的架构密切相关。

从1998年开始，我有幸为《印顺法师佛学着作集》光碟氧作搜寻软体。当时我意识到，不能直接把既有造字档放进去而要求使用者安装，出版社印书可以要求每个编辑和排版这样做，但是发行光碟行不通。于是，我将《汉语大字典》五万四千个字形，做成不占用造字区的TTF向量字形档。这个字库，后来被中研院?用，成为「汉字构形资料库」的一部分；直到数年后，Unicode 3.0七万字TTF渐渐普及之后，才慢慢退休。

另外，值得一提的是，印顺导师光碟的全文检索功能，除了七百万字的导师着作之外，还收录了三十二册的《大正藏》，有数千万的字数。在当时，要在光碟上直接检索这个数量的资料，是一项技术上的挑战。中研院谢清俊教授在1985年就开始做古籍资料库，90年代初就有实用成果。我因为谢教授的因缘，得以结识「汉籍电子文献」全文检索功能的设计者林晰先生，他很慷慨地和我分享全文检索技术的一些诀窍，虽然我没有机会看到该系统的原始程式，但是由于他的启发，我有了自己动手打造一个全文检索系统的信心。

Accelon1

2000年，网路泡沫化，我回到老家马来西亚，写了大半年程式，成果即是Accelon1，导师光碟的第二版及《中华佛教百科全书》光碟版使用了这个系统。Accelon1是我第一个具有真正全文检索引擎的作品，这个引擎的成熟度和规模当然无法和Google相提并论，但是就技术而言，它们的本质是一样的。所谓的检索引擎，就是搜寻的速度不会因资料的增加而等比例变慢；换句话说，当资料增加10倍，系统并不会变慢10倍。全文检索的效能，取决于索引结构的设计，理论上和资料量关?不大。

之后，我开始将注意力转向缺字问题。越深入研究，越发现背后的学问不简单。当时，谢教授的方法，确实从理论的高度上，解决缺字的关键部分，即字形的「制式表达」，但是在实用化部分，还停留在实验室阶段，对一般的使用者来说，造字还是无法避免；换句话说，这个研究成果应得的利益并没有完全在民间实现。

经过反覆的思索，我发现中研院的方案缺乏一个关键的模组：依据字形表达式，转换成人们习惯的方块形式。简单来说，这个模组的任务，就是将一个线性的式子，如「方方土」，转换为真正的字形「?」。整个缺字的关键问题点，就是因为目前所有电脑的中文字形，都是根据定好的内码，而预先氧作出来的。因此，只要某个中文字没有被编成内码，任何字形档都不会有。从这个角度来看，造字法其实不在「造字」，因为字本来就在，我们只是随意指派一个内码给它而已，这是缺字无法交换的百结所在。

因为这个观念非常重要，我这里再举一个例子，想必大家对「辁」、「恪埂?覆T」这几个字，必定印象深刻吧？佛教团体和出版社，大概找不到没有造过这几个字的吧。正因为内码随意指定，成果不能分享，所以每个单位都要个别重造一次。造字并不便宜，但是大家已经习惯把它当作成本的一部分，除了承接造字服务的公司之外，没有人对这个情况感到满意。

动态字形产生器

所以解决缺字的诀窍，其实非常简单：使用「门众」、「?本」、「目侯」这样的式子来代替任意造字。这些式子由系统已知的汉字「部件」所构成，约莫一千个「部件」，就可以组合出无限个字形来；这和26个字母就可以组成无限个英文单字，道理上是相通的。

由于汉字不是线性文字，因此我们需要一个模组，根据式子「动态」地画出二维的字形。这就是这个模组命名为「动态字形产生器」的理由。换言之，我们看到「方方土」这个式子，为什么会知道是哪个字形？因为懂汉字的人，脑海中都有这样的产生器。这个模组的功能，就是让电脑接手这个任务，替我们做字形组合动作。（注7）

仓颉系统、文化传信

事实上，动态字形并不是新观念，早在70年代，就有几位学者专家提出这样的想法。其中以朱邦复先生最为知名，他是少数有实作经验并公开这个技术的先行者（注8）。当时朱先生在澳门，经过几次网上交谈，我很快下定决心向他学艺。从2000年到2001年，前后约一年时间，我一方面担任澳门文传科技的软体工程师（朱先生为该集团副总裁），从事将朱先生的系统移植到Linux图形核心的工作，工作之余，主要的精力放在理解朱先生的系统。

过了几个月，我大致掌握了这个系统的设计理念，颇为其精巧高速而折服。可是，我也发现了两个架构上的缺陷：其一，该系统完全以8086组合语言（注9）撰写，几乎无法跨平台。为求精简，使用大量的8086特殊技巧，资料和演算法的偶合（coupling）程度太高，除了口传心授的嫡系弟子，别人很难一窥堂奥。其二，这个系统是根据仓颉输入法的编码来产生字形。仓颉输入法本质上是一个迁就键盘，将汉字进行主观拆解，然后设法分布到26个按键上。字形拆分主要的考虑是降低重码率，而不是依据字源。举例来说，仓颉输入法中并没有设计「门」这个部件（注10），而是把「门」拆解为「日弓」，这显然是违反文字学语源。

因为这个设计，仓颉字形产生系统中必须处理大量的例外。比方说「日弓人」，可以同时指「?」、「闪」，这样字形产生器就必须设定例外规则予以化解，无形中增加了很多妖杂度。因为与文字学割裂，也注定这个系统无法表达新字、异体字、错字，以及如「招财进宝」这样的合文。

当发现了这个事实之后，我面临两个选择，一是留在文传，等到资历够深，也许会被允许改动仓颉输入法字根的设计；要不然只能挂冠求去，因为无法说服自己，继续投入在一个并不认同的架构。正巧此时，认识了原本想和文传合作中文CPU的台湾易符科技（注11），我向易符的股东说明了有必要从头打造一个更理想的中文环境，这样的理念得到易符的认同。于是，我在2001年底离开文传，加入易符科技，从事动态组字的研发工作。我们约定，易符资助我的研究，成果将应用于易符开发的电脑晶片，以取得商业上的回报；而我则可以将开发出来的成果，以软体形式，自由散布给所有需要的人。

易符科技

在易符的期间，是非常值得纪念的日子，在这三年半的时光里，一方面做中文字形产生器的工作，另一方面也学习一个称为Forth的精巧语言，参与嵌入式系统的设计和氧作。学会Forth对提升个人编写程式的能力，以及对整个电脑系统的深入理解，起着很大的作用。

2003年中，我们做出了第一代的中文字形产生器和编辑器，这个产生器?用了中研院的构形资料，加上自行开发的部件笔画比例资料库，以及画字的演算法。年底，这个成果发表于中研院（注12）和日本京都大学（注13），取得一些回响。不过，我知道这只是一个小小的里程碑，还有一大段路要走。

中文字形是一个非常基础的工程，凡是越基础的工程，投资期越长，只有在大功告成之后，才会产生长远的利益。但是一般的个人和公司，无法承受长时间没有回报的投入。所以，这样的工作应该是由国家来进行的。现在回想起来，当初以一家规模不大的公司，投入这项工作，确实是有点天真而不自量力。有梦最美，这三年多，股东偶而会为回收遥遥无期而发愁，但是大家基本上觉得可以参与这样有意义的工作，都感到非常快乐。

Accelon3

由于我们重研发而不善经营，2004年中之后，易符的资金告急，整个开发工作也不得不中断，我也得另谋出路。于是我又回到老本行，开发全文检索软体，毕竟比起中文系统，这是唯一能兼顾生计和志趣的工作。我有一个好友王尚智，每月都要往返两岸三地，出国就像我出门那么频繁。我在他七十坪大的工作室挂单了一年多，在一头波斯猫的陪伴之下，开发了Accelon3。

细心阅读本文的朋友会问，那么Accelon2呢？事实上是有的，Accelon2是在易符期间，专门为PDA开发的搜寻引擎，前后花了近一年的时间，总投资额一百万。承蒙中研院计算中心和CBETA捧场，各买了一套，回收了五万块。就商业投资来说，算是惨赔。

Accelon3就个人而言，算是一个颇堪告慰的作品，除了老客户印顺文教基金会，将之应用于太虚大师全集和第四版印顺导师光碟外，还蒙慈济基金会的?用，作为慈济四十咛年纪念光碟的搜寻系统（注14）。另外，我也从静思精舍的师父处得知，证严上人也是本系统的爱用者，这个消息让我乐不可支，高兴了好几天。从此以后，每当我开发程式碰到瓶颈，陷于苦思之际，一想到自己的作品竟然有这么显赫的使用者，都能令我激起无比的勇气，获得继续奋战的力量。

通用平台

Accelon的设计理念，其一，要替文史工作者处理琐碎的技术细节（主要就是缺字处理、搜寻和浏览功能，以及软体的发布），让他们可以不必为技术问题伤脑筋，将精力专注于内容的氧作。

其二，要有良好的弹性，必须让不同性质的资料，都能在同一个系统上使用。一来是为了避免每做一种资料库，就被某个程式绑住的窘境；一个理想的系统，程式和资料内容必须分离，不能互相纠缠，否则对使用者来说，每种资料库要分别安装不同的程式，本身就是一个大麻烦。二来，软体环境改变，原来的程式不能跑，资料库就无法使用了。

这个开放性，对人文界尤其重要，文史工作者对电脑科技的掌握本来就不足，更因为看不出明显的商业利益，一般软体厂商当然也不会予以重视。有人曾不无怨怼地对我说：「真像是数位世界的孤儿。」

因此，如果可以整合文史工作者的一般需求，设计出一个通用的工作平台，将可以大幅降低资料库的建置、散布和学习的成本。

这听起来似乎是非常棒的主意，但是实行起来有相当的难度，理由如下：

1. 一般的文史机构和工作者，纵然有能力自行开发应用系统，对本身的需求已自顾无暇，不太可能将别人的需求纳入系统的设计，增加无谓的妖杂度。再者，文史研究，可以关起门来搞个十年八年，相较于变动剧烈的科技界，开发新工具的动机较小。因此，为这个通用平台开立?确的规格，本身就是一个相当大的挑战。

2. 文史界对自己规格不清楚，科技界更不用说。规格没有确定，找来电脑专家也枉然。

3. 相较于针对某个特殊应用而量身打造的系统，一个通用的系统，弹性更大、变数更多，因此实作的难度很大。

回顾笔者十余年来的经历，似乎冥冥之中就已经由老天做出了安排。汉籍资料方面，处理过古文、今文、辞书，累积高达十亿字的资料量。外文方面，处理过目前世界最大的百科Wikipedia，约莫20国语言、数十亿字的档案。此外，这两年还替印度VRI撰写巴利藏的网路版搜寻引擎（注15），以及一些藏文大藏经的转换工作。这些经验的累积，让我对大型古籍资料的结构、标丈和特徵，有比较全面的认识。

至于技术方面，这十余年来，全靠自己摸索，技艺得到不断的磨练，突然有一天，发现自己可以直接和电脑沟通，对技术的发展和未来的可能性，有了某种程度的预感，因此能够安于能做和该做的事，不再为层出不穷的新技术所惑。

第三阶段：开放式数位古籍平台

历史给了我这样的机遇，同时掌握资料和技术的性质。没有任何来自国家或创投的资助，唯一的优势就是由匮乏而来的创意。今天，一个蓝图在我脑海中逐渐成形，这就是本文的主旨：开放式数位古籍平台的架构。

首先，挑选佛典作为电子古籍的代表，有几个原因：其一，电子佛典在古籍之中难度极高，比如缺字、目录结构等。别的古籍不存在的技术问题，在佛经典籍中会发生；别的古籍有的问题，佛经典籍则更为严重。其二，资料量极大，包含佛学相关的研究则更为可观。其三，道家、儒家的古籍，以汉文为主；对佛学资料来说，巴利文、梵文、日文、英文、德文、泰文、缅甸文等，都必须纳入考虑。

因此，佛典在芸芸古籍中，有指标性的地位。可以推论，一旦解决了电子佛典，其他古籍数位化的问题也大致克服。

我从三个面向来说明这个架构：其一，所有权；其二，内容架构；其三，技术规格。

资讯的所有权

所有权是资讯服务的核心议题。所有权的归属，决定了这个资料库的形态、服务对象和影响力。这里依资讯的所有权，大致分为三个类别：

1. 内容及程式私有，付费使用

内容私有，表示氧作者保有内容的大部分权力，其他人不得未经授权使用。修改、贩售更是严禁，违犯者是要吃官司的。程式亦复如是，必须付费，以取得内容和程式的「使用权」。大部分的文史资料都属于此类，教界比较有代表性的是《佛光大辞典》、《佛光大藏经》及《中华佛教百科全书》。

2. 内容及程式私有，免费使用，禁止商业行为

氧作者很慷慨地将成果和大众分享，在道德方面能够得到比较高的评价，可以将之视为数位形态的「结缘善书」。但是，内容和程式的所有权，依然掌握在氧作者的手中；换句话说，使用者可以自由取阅「善书」，但是不能拿去卖钱，也无法直接参与「善书」品质的提升。这个类别，教界的代表作品有《印顺法师佛学着作集》光碟，以及众所周知的《CBETA电子佛典集成》光碟。

免费结缘固然陈义很高，但是不可能取代有价商品，变成获取佛经的唯一管道。因为大部分群众只会通过正规的市场管道（如书局）来取得资讯，而不会特地跑去寺庙请经。而且，有价的商品会受到市场严酷的检验和汰选，一般来说都会比较快速地反映客户的需要，以及拥有较高的品质。

我们说佛经是无价之宝，无价（priceless）是超越性的意思。因此，无论卖钱与否，只是手段不同，目的都是为了佛法的弘扬。现实的情况是，商品受版权法保护，无法任意地妖氧，这对弱势者不便；而免费结缘品则排斥商业行为，偏离了市场，意味着更接近广大群众，化解这两者的对立，是能兼容自由免费又不排斥商业行为的机制，其代表是在电脑界发起的自由软体运动。

3. 内容公开（GFDL），程式公开（GPL）

GPL（注16）的全称是GNU General Public License，是由美籍电脑工程师Richard Stallman在1989年起草的。这是他对版权主义（Copyright），即资料和程式私有化所造成的商业垄断的一种反动。使用GPL最有代表性的，是一个名为LINUX的作业系统，最初只是一个大学生的习作，十余年来经由全球有志之士共同努力，加上IBM等大企业的全力挹注，功能和稳定性已非同凡响，被视为微软视窗系统的头号对手。此外，还有无数?用GPL条款的自由软体，今天挂在全球网路上超过七成以上的电脑，背后所执行的都是这些自由软体。

GFDL（注17）（GNU Free Document License），是大约在GPL实施十年取得重大成功之后，在1999年比照GPL的精神，将自由开放的理念，扩大到所有文字资料。目前GFDL最有名的案例是维基百科。这个谁都可以编辑的百科全书，以惊人的成长率（注18），累积资料和人气，短短数年间，就把《大英百科全书》这个百年老店抛在后头。维基的创作模式，其影响力只是初试剑锋，往后的十年间，我们将会目睹这个全球化运动，逐步渗透到各行各业，对传统的创作模式，产生重大冲击，甚至塑造出全新的面貌。（注19）

GPL和GFDL的高明之处，在于强调「自由」而不是「免费」，它并不禁止以商业形式来推广这个大家创作的成果；也就是说，每个人都可以拿Linux和维基百科来卖钱。但有趣的是，正因为生产需要的资料和工具完全摊在阳光底下，反而有效地杜绝了商业垄断。举例来说，GPL并不反对将每套Linux以一万元的高价卖出。但网路上既然可以免费下载，又有谁要买？假使有人愿意出这个价钱，那想要取得的不只是Linux本身，而是所提供的服务（安装、维修、教育训练、谘询等）。如果提供的服务并不值得这个价钱，那么收费更便宜的竞争者随时会出现；换句话说，在自由软体的生态之下，没有人可以垄断商品生产的机密，暴利无法存在，只能收取合理的工本费。

佛经本来就GFDL

佛典经本，自古以来虽无GFDL之名，但是已有其实。在过去，没有人可以垄断佛经的所有权。我们可以写信向佛陀教育基金会索取，或者到文物流通处购买烫金大字精装本，有钱的大老?甚至可以从拍卖会标得名书法家手书或是从某石窟挖出的孤本。这个选择的自由，正是我们要捍卫的。

但是从《大正藏》开始，这样的情形有了微妙的变化。日本的原版非常贵（注20），不要说是一般佛教徒，图书馆和寺庙也不一定消费得起。于是有出版社应大众要求，推出了价格约为五分之一的影印本（注21）。从法律的观点来看是盗版；但是从佛法流通的角度来看，难道不是大功德一件吗？

感谢CBETA争取到正式的授权，我们得以享用免费的藏经。《大正藏》从很贵到不用钱，是很大的进展，不过所有权还是握在日本人手上，他们可以稍作修改，或者乾脆修改法律以延长着作权的期限（注22）。

因此，问题就来了，如果有个出版社要印一本佛经导读，要么事前取得商业授权，要么就要自己重新输入、校对，法律方面才完全无虞。教界花了那么多力气，做成了这么好的资料库，依然不是公共财富。学者和个人固然可以非营利使用，但是商业使用被排拒在门外。

因此，佛经典籍势必走向GFDL，所有权会再度回归到所有大众。任何一套电子藏经，只要率先宣布为GFDL，会以沛莫能御之势，聚集了网民和商业的力量，迅速完成标点、内容标记等加值作业，成为新一代的标?。

据此，下一代的电子佛典已经呼之欲出，就是「经文以GFDL释出；氧作和运用经文的相关工具，以GPL释出」。对于前者，我心有余而力不足。但是，氧作和运用佛经的工具与平台，正是笔者所长。

文字编码层次

即使是将内容限制在佛学研究相关的资料，就有藏经、辞典、百科全书、丛刊、论文、提要、年鉴、年表、名录等不同的资料。如何将那么多性质不同的资料共冶一炉，并应付层出不穷的需求？我们必须先回到资料的本质，先从计算机的角度来看待它们。在这里，我将资料分为文字编码、文件和资料库三个层次来探讨。

文字的编码是非常基础的，在没有Unicode的年代，除了英文之外，其他的语言都要使用特殊的字符编码，比方说我们用Big5、大陆简化字用GB、日文用JIS、藏文、梵文等都有自己独特的编码方式。

这种不同的编码，造成资料无法整合。即使勉强放在一起，也会造成处理和查询上很大的麻烦。而佛学的资料，先天都有多语言的特质，一篇用中文写的佛学论文，同时用到梵文、日文的机会很高。解决方案就是使用Unicode，以及搭配相应的字形档，并且一开始就使用Unicode。如果已经用了其他的编码，那么转换到Unicode的工作越早进行越好。如果到了资讯化的后期才进行转换作业，就不是「另存新档」那么简单，要面对的是应用程式和整套工具的汰换，以及根深柢固的使用习惯，转换成本将会非常高昂。

时至今日，大部分的软体工具已经完成Unicode化，除了早期开发的应用程式外，目前最常见的「非Unicode」应用，就是像Dia, Foreign1, kh2等的字形档。所以，为了您资料的「前途」着想，请?早改用Unicode。

文件层次

首先，将文件拆成两个部分来看，一为内容本身，二为数位储存的格式。举例来说，《心经》是内容，而.doc档、html网页、列印用的PDF档，或资料库中的一笔资料，就是不同的格式。

格式非常重要，文件的编辑工具、维护成本和应用?围皆取决于档案格式。根据不同的需求，挑选适合的格式，是数位化非常重要的一环。

其中至关重要的，是区分出「来源资料（Master data）」和「延伸应用（Derived works）」，用列表的方式来说明。（见表一）

表一：数位储存格式

来源格式必须使用开放的格式，不能使用特定软体的专属格式。就目前来说，个人认为最理想的是?用XML作为来源格式，其他的延伸应用，可以使用XSLT的技术，自动转换而得。

来源档案是人工编辑的主要对象，内容的任何改动，必须能够自动扩散到其他的格式，如果不这样做的话，延伸应用越多，维护成本会呈等比级数上升，并且大幅增加资料不一致的机率。这个维护成本和不一致性，是制约资料规模增大的主因。

电脑储存和运算的能力，这几十年来都是每18个月倍增；相对而言，人力成本不降反升。从这个意义来看，如果以电脑作为主要工具，但是工作效率却没有随着电脑的发展而提升，就是对人力的浪费。或许有人会认为，电脑要花钱买，而义工不必支薪又源源不绝，何来成本云云？对于抱持这样想法的人，个人觉得非常遗憾！人活着就是巨大的成本，不支薪表示义工自愿负担时间和通勤的支出，并不代表人力不值钱。我们不能只关心切身的利害，而无视于转嫁到社会的成本。因此，与其用「发心」、「修福」和「耐烦」来开示可怜的义工，不如试着去了解如何替电脑和人力分工。当有一天发现，义工忙了几个星期的工作，用电脑来做只要花几分钟以后，将会为挥霍掉的人力，感到无比心痛。

文件发展的三个阶段

来源格式的观点建立之后，就可以探讨文件发展的三个阶段：1. 纯文字；2. 后设资料；3. 内容标丈。

1. 纯文字

纯文字是记录内容的基石，能够穿梭于其他格式之间；换言之，在格式转换的过程中，其他资讯很容易被丢弃，只有纯文字记录的内容被保存下来。了解这个特质，就会明白什么内容需要用纯文字的形式来保存。

2. 后设资料

后设资料（Metadata）是记录非内容本身的资讯，它有几个性质：

(1) 会随着资料规模的扩大而成长。比方说，一个人记笔记的时候，并不需要署名；当很多人的笔记被集结起来时，就必须加上「作者」栏位；而要印成书前，就要分章节和编页码。这些本来内容所无，而为支撑整体结构所必须的，就是后设资料。

(2) 客观性：后设资料不涉及对内容的诠释，是客观的资料。

(3) 每建立一项后设资料，就是增加一种索引。后设资料越丰富，文字内容的应用越广。

实务上，后设资料有以下几种：(1) 内容的结构，如篇、章、节、条、项、目、段落。(2) 数位化前的物理结构，如册、卷、页、栏、行。(3) 数位版面的资讯：字体、大小、颜色、粗细。(4) 与其他系统整合的介面，如编目格式等。

变动少的后设资料，应该和内容一起，如(1)和(2)。会因不同需求而变化的后设资料，则应该?取和内容分离的作法。例如版面的资讯，应该使用像CSS、XSLT的方式处理（注23）。

以上这几个结构会有重叠的情况，而由于XML只允许巢状结构，不容许重叠标记，因此这里提出一种解决办法，大家可以参考看看。如：将<页 n="5">内容< /页 >，换成<页 n="5"/>。通常下页的开始，就是本页的结束，如果有必要加以指定，就用<页开始 n="5"/>内容<页结束 n="5"/>。

3. 内容标丈

目前的数位化，都停留在后设资料的阶段。谢教授提出了「内容标丈」的概念，为电子文件开启了一个崭新的方向。简言之，内容标丈提供了一个人文和科技合作的框架，人文学者利用内容标丈，将对于内容的理解和情境，表达给电脑知道。举个例子，用5W1H（注24），来标记新闻内容，因为人事时地物的判定，人远比电脑胜任。此外，当看到一篇文章中对于情感的描写，和苏东坡的〈江城子〉（注25）很类似，就可以用内容标丈来表达这两段文字的关?。

对于内容标丈，谢教授已经有精曛的论述（注26），这里仅探讨如何做技术?备。首先，需要一个够大的整合式资料库。对佛学来说，至少得包含藏经、辞典、重要论文等；对文史研究来说，《四库》、《康熙字典》等是必备的。其中，字辞典占有一个特殊的地位，辞典是原典内容的总索引，从这里会连结到所有重要原典，并且从连结的频率和分布情况，可以计算出原典对某个研究的重要程度。

再者，需要一个工具系统作为这个总资料库的统一存取介面，而这个系统必须非常容易使用，以便一般没有受过专业电脑训练的人文专家也可以轻?上手。人文专家的参与程度，决定内容标丈的品质。

接下来所要探讨的，是这个整合式资料库的设计方针。

资料库层次

从技术的观点来看，常用的资料库有两大类别：表格式（注27）和全文式。

就佛学来说，辞典、百科全书、年表、名录，可以做成表格式资料；藏经、着作、开示录，属于全文式资料。

表格式适用于资料量大、结构明确、修改频繁的场合，优点是可以对每个栏位做排序、加总之类的运算，并且可以对资料的着录施以严格的检查，比方说「身分证字号」一栏必须符合一定的法则。表格式资料库适合电脑处理资料的安排方式，通常人无法直接下指令取用资料，而需要透过程式介面。

虽然表格式资料库软体很容易设计出不同的表格结构，不过为了使用上的便利，需要撰写相应的程式码来存取资料，当结构改变时，程式码要做相应的调整，造成维护的负担和资料交换的困难。

而全文式的资料库，优缺点刚好和表格式资料库相反。全文式资料库对资料的定义比较宽?，比较偏向人类习惯的资料组织方式，无须撰写特定的存取介面，一般人都可以轻?使用。但是也正因为太过自由，除非规定严格的标丈，否则电脑很难提取某个文章元素所代表的意义。

一直以来，这两者有相当不同的工具集。以表格式资料库来说，有各种不同的SQL资料库引擎（注28），并且可以搭配各种程式语言来撰写操作介面。一般而言，需要有比较多的技术知识，才能设计出一个以表格式为基础的资料库系统。而全文式资料库通常会使用现成的工具，如编辑器、Grep搜寻程式（注29）等，对技术知识的要求较低。

维基百科使用的MediaWiki（注30）软体，结合了两者的优点，允许多人同时以熟悉的文字编辑方式来编修资料。再者，MediaWiki的表格结构是固定的，因此很容易转换为XML格式。就古籍资料来说，MediaWiki是非常合适的。

由于MediaWiki是一个伺服器软体，需要在网路主机上执行，存放在里头的内容，很难整份搬到一般的个人电脑上使用。因此，我规画了「?那古籍平台」，着重于全文检索、标记介面、缺字处理、单机执行等功能，以补MediaWiki之不足。这两者结合，可以提供从资料生成、多人编辑、内容加值，一直到成果发行的「一站式、一条龙」服务。

这个平台能大幅降低古籍资料库的氧作、维护和发行成本。如果这个平台可以促进古籍资料库的发展，相关的延伸应用与产品，也将会有质和量的飞跃。

为了达成这个任务，我们在2006年初成立了「?那搜寻工坊」，是一个独立运作、不带任何宗派色彩的工作室。我们专注于解决技术问题，希望人文学者多多提供宝贵意见，共同努力扫平数位古籍的所有障碍。祈愿祖先留下来的文化至宝，在数位时代继续发光。

?那古籍平台技术规格

正式名称：?那古籍平台

2. 开发团队：?那搜寻工坊ksanaservice@gmail.com

3. 下载网址：http://www.ksana.tw（请加入群组以取得最新动态）

4. 授权方式：以GPL授权公众使用。

5. 搜寻速度：1GB（五亿字）以下，平均反应时间小于0.1秒；10GB以下，平均反应小于1秒。

6. 索引速度：每秒约2~4MB，由XML产成《大正藏》和维基中文百科资料库，各需约五分钟。（运行条件为2007年，单价两万元左右之个人电脑）

7. 支援格式：纯文字，XML，Wiki markup，TEI（可自由扩充）。

8. 缺字处理：动态组字系统，解决所有缺字、新字、错字的显示和搜寻。

9. 本系统使用中华民国发明专利I254863号。本团队已于2007年3月17日释放为公共财，任何人皆可自由运用，免权利金。http://www. zhongwen.tw。

10. 支援语系：目前支援中（繁简自动转换）、英、日、巴利、梵、泰、缅等二十余种语言，持续增加中。

11. 支援平台：Windows 2000/XP/Vista、Linux、OLPC、Mac OS X、WinCE PDA/智慧型手机。

12. 其他特色：免安装，可于光碟、随身碟、记忆卡直接执行。

13. 发行方式：单机版、光碟版、网路版、PDA版，使用同一套工具和资料库，不必分别氧作。

（感谢王志攀先生审订本文）

【附注】

注1： CBETA于1998年2月15日成立，http://www.cbeta.org/intro/origin.htm。

注2：参考摩尔定律http://en.wikipedia.org/wiki/Moore%27s_Law。

注3：目前世界上现存最早的有明确时间记载的印刷品是唐咸通九年（868年）出版的《金刚经》，目前藏于大英博物馆，http://en.wikipedia.org/wiki/Diamond_Sutra。

注4：古腾堡，活版印刷的发明人，http://en.wikipedia.org/wiki/Johannes_Gutenberg。

注5：汉籍电子文献http://www.sinica.edu.tw/ftms-bin/ftmsw3。

注6：洪朝贵，〈我不用.doc档〉，http://people.ofset.org/~ckhung/a/c041.php。

注7：动态组字的展示，http://www.ksana.tw/accelon/ccg/。

注8：朱邦复，〈仓颉输入法与中文字形产生器〉，http://www.cbflabs.com/book/gif_cg/gif_cg/。

注9： 8086是Intel 1978年推出的CPU，http://en.wikipedia.org/wiki/Intel_8086。

注10：因为以「门」为部件的字不够多，如果将「门」配在一个按键，会增加重码率。

注11：易符智慧科技http://www.eforth.com.tw。

注12：「汉字智慧编码与应用研讨会」2003年3月17至19日，http://www2.ndap.org.tw/newsletter06/news/read_news.php?nid=627。

注13：书体．组版ワ┼クショップ2003年11月28日至29日，http://coe21.zinbun.kyoto-u.ac.jp/ws-type-2003.html.ja。

注14：慈济法髓http://www.ksana.tw/tzuchi_40years_help/。

注15： VRI内观研究中心的巴利藏全文检索，http://www.tipitaka.org/search。

注16： GPL http://en.wikipedia.org/wiki/GNU_General_Public_License。

注17： GFDL http://en.wikipedia.org/wiki/GFDL。

注18：在2002-2006年间，英文维基百科条目数每年倍增，http://en.wikipedia.org/wiki/Wikipedia:Modelling_Wikipedia's_growth。

注19：详见商智《维基经济学》，2007年8月2日初版。

注20： http://daizoshuppan.bunkensystem.co.jp/，日本大正藏价目表，全套88册日币1,564,500?，折新台币447,154元，平均每本5,081元。不包含运费。

注21：根据http://www.swfc.com.tw/，大正藏100册新台币105,000元，每本1,050元。

注22：这几十年，美国已数次修法，将着作权从二十几年延长到七十五年，http://en.wikipedia.org/wiki/Son ... _Term_Extension_Act。

注23：关于XML相关技术，http://www.zvon.org/有非常详尽的教材。

注24： 5W1H = who, what, where, when, why, how，一篇新闻报导的六个要素。

注25：苏轼〈江城子〉抒发了妻子逝世之痛，以及对她的怀念之情。「十年生死两茫茫，不思量，自难忘。千里孤坟，无处话凄凉。纵使相逢应不识，尘满面，鬓如霜。夜来幽梦忽还乡，小轩窗，正梳妆。相顾无言，惟有泪千行。料得年年肠断处，明月夜，短松冈。」

注26：详见谢清俊教授，〈后设资料与内容标丈〉，http://www2.ndap.org.tw/newsletter06/news/read_news.php?nid=1498。

注27：正式的名称叫关联式资料库RDBMS，

http://en.wikipedia.org/wiki/Rel ... e_management_system。

注28： SQL资料库引擎http://en.wikipedia.org/wiki/SQL。

注29：广为使用的文字档搜寻工具，但中文词被断行隔开则无法搜寻。http://en.wikipedia.org/wiki/Grep。

注30： MediaWiki只是Wiki Engine其中一种，是最为知名，http://en.wikipedia.org/wiki/Mediawiki。

上一篇：住房公积金你了解多少？这7条用途你知道吗？

下一篇：养生：懂点常用中药真好！

相关阅读

姜寻：收藏文字之美

2015-03-02

可收藏的文字历史

2015-03-02

藏传佛教《度母经卷》书籍在青海出版发行

2015-03-02

《Accelon，一个开放的数位古籍平台》读后感

2015-03-02

为你推荐
公益播报
公益汇
进社区

Accelon，一个开放的数位古籍平台

热点推荐

即时新闻

武汉