• 诗书鉴赏 | 声律智能化在辨音、校雠和辅助创作上的应用 ——以“搜韵网”为例
  • 楼主: 钓尚客 |查看: 44991|回复: 7
钓尚客 高级会员

主题

好友

1万

积分
钓尚客 发表于 2024-4-5 06:26:48

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
来源搜韵

以下文章来源于DH数字人文 ,作者陈逸云

摘 要:声律是区别各种诗体的重要基础之一。文章以作者创建的搜韵网为例,阐述声律智能化以及诗库和词汇库声律化的技术路线,并举例说明如何将声律智能化成果应用到辨音、校雠和辅助创作上。声律智能化,主要包括韵表的数字化与格律的程序化两部分。将声律智能化技术应用于搜韵网诗库103万首作品,可得到每一首作品的用韵和每一诗句的平仄句式等信息,形成千万数据级的声律化诗作数据库。基于律诗中间各联需对仗的格律要求,又可从作品库中提取到百万数据级的对仗词汇库。再将声律智能化技术应用于搜韵网词汇库约50万条数据,又可得到大量的声律化词汇。把上述资源以声律为纽带集成在一起,将作品每句按平仄句式分类索引,则可为诗词平仄句式研究提供庞大的数据支持;根据整首用韵和格律约束特征,则可协助辨别多音字在各个词汇或人名中的读音;再根据作品创作时间,又可考查某一词汇在各个历史时期的读音演变;根据押韵及诗词格律约束,可辅助诗词编辑校正讹误;结合声律智能化技术和声律化的诗例词例数据库,又可开发出诸如用韵、遣词造句、对仗建议、格律校验和修改建议等各种辅助诗词创作功能。从搜韵网近十年的数据增长来看,正是声律智能化技术的成功应用,吸引着越来越多的诗词爱好者从事创作活动,使传统诗词的创作和研究,又焕发出新的生命力。

关键词:声律 辨音 校雠 辅助创作 韵表

引 言

诗必押韵,除此之外,律诗、词和曲还有各自的格律要求。本文声律所指,包含声韵和格律两部分。各类诗体的创作,除了气息和功能上的不同之外,还受到各体声律要求的约束。正是这种约束,给声律智能化应用提供了各种可能。图1展示了搜韵网从声律智能化到诗库和词汇库声律化,以及各种应用开发的过程。具体实现细节和应用场景,将在后面各章节分述


一、声律智能化

声律智能化主要包括韵表的数字化与格律的程序化两部分。它使得计算机具备四声、分韵和格律判定的知识,进而具备诗体自动推断,近体诗、词、曲格律智能匹配,以及错误标识等能力。

(一)韵表数字化

搜韵网韵表,主要以《佩文韵府》《词林正韵》和《中原音韵》为基础,再参以历代诗库和《康熙字典》进行增订。

《佩文韵府》收字最多,有字头10,238个。但是即便如此,仍有不少出现在历代作品中的韵字未被收入,如塌、跽、鸶等字。又有一些字读音失收,如“下”字,只在“二十一马”加注“又祃韵”,但是实际上,据《韵补》所载,“下”字又“叶后五切,音户”,可属麌韵。在历代诗库中,可找到几十处“下”字与麌韵其它字押韵的例子,如魏晋时期《宿阿曲》“苏林开天门,赵尊闭地户。神灵亦道同,真官今来下”,又如元代郑元祐《题画》“曲终鸿雁起江浒,帝子降兮木叶下”。据此,“下”字音户,既然被如此广泛使用,那么麌韵宜增收“下”字。搜韵网根据作品用韵与《康熙字典》互相参照的方式,增收字头2,868个。至此,韵表字头合计已有13,000余,但离《康熙字典》所收字头46,530个,尚相差甚远。一些韵字虽然不常用,古人也没有用作韵脚的诗例,但是这些字会被用在句中,明辨其平仄,对整句平仄句式与整首体裁的判定,会有帮助。故此,搜韵网又根据读音相同所属韵部也应相同的原则,增收韵表字头12,057个,合共约25,000余。虽然与《康熙字典》收字总数尚有距离,但是未收的多是极冷僻的字,对整体影响甚微,可以忽略。

韵表数字化的另一工作,是处理异体字问题。简体字,可看作是异体字。正异体如是一对一关系,则不存在处理难度。这里要处理的,主要是一对多的情况。例如,“饑”和“飢”本是两字,分属五微和四支韵,但是简体化之后,即变成“饥”一字分属两韵。又如“煇”字,可以是“辉”“晕”或“熏”字的异体,且分属五微、十三问和十二文三个韵部。也有一些简体字,虽然也是一对多的情况,但由于对应的多个正体字,恰好同属一韵部,所以没造成影响,例如“发”的正体“髮”和“發”同属六月。

韵表数字化最后一项工作,是处理同一字在相同语义或不同语义下的异读问题。前者即所谓的可平可仄字,如“听”“看”“望”等,这种情况处理起来比较简单。后者,则非得在具体的词汇中才能区分出来,而且一些读音还随着朝代的变化而有所改变。例如,“思”有平、去两读,在“相思”“思量”等词汇里平读,而在“诗思”“旅思”,或语义作“悲哀”解时仄读。又如“观”字,在“贞观”一词中仄读,明朝以前的作品,皆是如此。但到了清初,却开始出现平读的例子。如清初毛奇龄五言排律《上李相公》有句“鸿文标正始,嘉绩迈贞观”。有不少多音字都是常用字,如果不解决这些多音字在常用词汇中的读音问题,那么很容易给平仄句式的自动辨别带来很多不确定性。搜韵网通过对诗库作品中涉及多音字的词汇在律诗中的关键位置,进行自动统计归纳,确立了323个多音字在623个常见词汇中的读音。

《词林正韵》通过合并读音相近的平水韵韵部(如一东二冬),以及拆分虽属同一韵部但读音迥异的若干韵部(如十灰十三元)而来。从逻辑上讲,只是《佩文韵府》的延伸,在数字化过程中,只须按此原则对平水韵表重新加工即可。《中原音韵》则是在做了一些读音相近的归并之后,又把入声派入其它三声。数字化过程大多可复用《佩文韵府》的成果,在此不再赘述。

(二)格律程序化

搜韵网诗词曲格律,主要参考王力《诗词格律》,清代《钦定词谱》《钦定曲谱》,以及唐圭璋《元人小令格律》。标准格律的程序化本身并没难度,只是将规则翻译成程序逻辑而已。有难度的,主要在于有不少作品,并非是按标准格律来书写的。格律是后人通过归纳得出来的结论,即便是归纳成格律之后,后人创作,也未必会完全依照格律。例如,初唐在格律诗形成之初,有不少作品虽然违背后来形成的律诗标准,但仍应视为律诗。又如《词林正韵》是清代归纳建议的词韵标准,但事实上不少宋代词作押的是方言,而不是后来的标准。学界关于《钦定词谱》《钦定曲谱》是否正确的争议,一向也很大。因此,格律既有一定标准性,又有其模糊性,作品体裁的判定、押韵是否合理,并不能简单地依照一个标准,这才是程序化的难点所在。

搜韵网在格律判定的设计上,主要是遵循最佳吻合度的原则。例如,一首律诗究竟是平起还是仄起,依最佳吻合度而定,而不是首句。一首诗是否为律诗,也并不是简单地依照其是否犯了各种诗病而定,而是综合对其打分,对于置信度比较低的,则由人工协助确定。又如《临江仙》词谱有十一种格式,那么在判定时,将综合作品的句式、用韵与平仄,尝试从这十一种中找到评分最高的匹配,以认定作品最有可能使用了哪一格。由于词、曲的句式非常灵活,甚至在字数上,也可能因创作者理解的不同,或因传抄讹误,而导致少字或增字。因此,在程序化时,还需要借助Edit Distance一类的算法,来模糊匹配。

二、诗库、词汇库数据声律化

诗库数据声律化,主要包括辨别作品体裁、整体用韵,以及每一句的用韵及平仄句式。诗库数据声律化的成果,将为声律研究以及应用提供大量的样本。另外,需要指出的是,并非所有的体裁都可通过声律辨别。古乐府、骚、琴操等诗体,主要还得靠诗题和作品的气息来辨认。在完成韵表的数字化以及声律的程序化之后,便可借助这一成果,对搜韵网诗库103万首作品,采用自动化为主、人工为辅的方式,分析每一首作品的用韵和每一诗句的平仄句式等信息,从而得到千万数据级的声律化诗库数据。

诗库声律化的成果,反过来,又可用来印证韵表的正确性以及格律程序化的鲁棒性。例如,一首律诗如四个韵脚有三个字都属某一韵部,而另一个字没在这个韵部中,那么韵表便有漏收或错收的可能。通过统计某一字与某一韵部其它韵字同出现在韵脚的频率,便可评估各个韵字错漏的可能性。搜韵网正是通过这种手段,非常高效精准地对韵表做了增订。这个经过一百多万首作品反复互相校正的韵表,其可靠性与健全性,或许已是有史以来最高的。

诗库作品中每一句的末字,都可对应到韵表中某一字,因此,将这些诗句汇总归纳统计,便可得到每一个韵字的诗例。归纳统计时主要从诗句末三字的使用频率、作品的体裁、诗句在整首中的位置、作家的知名度等四个方面,来确定这一诗句作为诗例的价值。例如,同样的末三字,属名家名作、且出现在律诗中间两联的句子,作为诗例的参考价值要高于一般作家的或者是出现在古体诗作中的句子。

由于近体诗要求除首尾外,中间各联皆须对仗,因此,近体诗声律化带来的一个延伸成果,便是可收获大量的对仗词汇。搜韵诗库有律诗39.3万首,排律1.5万首,通过自动分析归纳,可得到单字、双字和三字对仗词汇约265万对。在自动归纳的过程中,主要借助统计和对仗的递推关系来保证精度。通过考察同一组对仗或同一个词汇在多首作品中出现的频度,可得到双字或三字是否成词,以及每一组词汇是否可对仗的置信度。选择置信度比较高的,便可得到对仗词汇库。例如,经统计,有181首作品都以“天地”对“江湖”,这一对仗的可靠性是毫无疑问的。又诗库中“天地”对“林塘”虽然仅有一例,但“林塘”也有与其它很多词汇对仗的例子,而且这些词汇,通过链条关系“天地→林塘→风雨→江湖→天地”,最后又可回到“天地”这一词汇,那么这一对词汇虽然仅有一例,也仍是可靠的。

声律化技术还可应用于词汇,从而得到声律化的词汇库。搜韵网的词汇除来自于对仗词汇外,还有来源于《汉语大词典》《骈字类编》《分类字锦》《典故辞典》和《佛学辞典》等的约50万条。

三、应用

以上所述的各种资源,皆可通过韵表和格律体系,集成在一起,形成声律化的词例和诗例库。基于这个浩瀚的样本库以及声律在各种诗体中的约束条件,便可开发出在辨音、校雠和辅助创作上的多种应用。

(一)辨音

借助押韵的规律,以及近体诗在每句关键位置的平仄要求,可用于考察含有多音字的词汇或人名读音。关于含多音字的词汇读音辨析和时代演变,前面已有举例,不再赘述。一些人名读音,由于历史资料的缺失,成为了当代较难解决的问题。以唐代岑参为例,“参”字主要有cān、shēn两读,分属十三覃和十二侵。究竟应该读作哪一音,学者们各执一辞,但都没有找到有力的证据。叶嘉莹先生在释岑参诗《逢入京使》中认为应读cān,理由是岑参出自名门,家族对其抱有期望,希望他参政。这个是从主观上去推测读音,并没有说服力。另,电视剧《长安十二时辰》则按shēn音读,不知所据。实际上,在搜韵网建立了声律化的诗库之后,这一问题可以很容易地解决。只要以“岑参”作为关键词,限定在律句中搜索,便可很容易地找到以下五个诗例。一是宋孔平仲《子瞻子由各有寄题小庵诗却用元韵和呈》诗“大隐市朝希柱史,好奇兄弟有岑参”,按年谱,此诗作于公元1083年;二是南宋廖行之《书怀》诗“闻道秋郊足佳趣,好奇谁复似岑参”;三是南宋刘克庄《又和感旧四首·其四》“畏垒屡丰愧桑楚,汉嘉虽小屈岑参”;四是元宋褧《初秋苦雨》诗“憭栗未须悲宋玉,沉吟漫尔忆岑参”;五是清王树楠《定甫上公席中赠伯谦》诗“从此天山续佳话,大名原不属岑参”。如果不限定诗体,那么还可找到宋洪皓《戏用迈韵呈吴傅朋兼简梁宏父向巨原》诗“置驿复郑庄,好奇过岑参”。无一例外,这六首诗都是押十三覃,可见古人向无异议,这六位古代学者,皆认为应读cān。而且孔平仲此诗作于1083年,去岑参卒年才313年,不算太远。唐代很多书籍今虽已亡佚,但作为相去不远的宋人,肯定会读到很多今人已经看不到的唐代书籍。孔平仲及另三位宋人皆认为读cān,很大可能是有所根据的。这样为读cān立论,则会可靠很多。又如司马相如的“相”字,时常会听到有作去声读的。“相”字虽然不是出现在韵脚,但是采用同样的方法,根据律诗句式平仄约束的特点,便可很容易地找到古人皆认为应该平读的证据。再如“尚书”,作官职时“尚”平读,作书名时“尚”仄读,也是可以根据律诗句式的平仄约束找到证据。

(二)句式平仄研究

声律化的诗库,为作品的每一句每一字都标示了平仄,据此,学者可很方便地对律句的平仄展开研究。例如,输入本句自救的句式“中仄平平仄平仄”(“中”表示此处不限平仄),即可从历代律诗中,找到18,484个句例。再在前面的基础上,把第三字限定为仄声,输入“中仄仄平仄平仄”,又即可找到1,985个句例。通过简单的对比就可见到,在七言律诗本句自救的平仄句式中,第三字倾向于用平声字的,将近十倍于用仄声字的。由此可见,前人所提倡的在本句自救的拗救句式中,第三字用平,是有一定依据的。类似的方式,还可用于协助研究三仄尾、三平尾的情况。可以很容易地发现,三仄尾在历代律诗中很常见,三平尾,则要少得多。

对于词谱,声律化的数据库,可以很容易地把历代用同一词谱的作品聚合在一起,方便学者做溯源,或者是对现存词谱句式平仄、押韵要求是否合理展开研究。

(三)校雠

利用诗体的声律要求,可在诗作录入时,自动对其审查,把不合声律要求的地方标示出来,由人工确认是否有讹误。特别是对于字形相近而平仄或韵部又不同的,如“麈”和“塵”、“網”和“綱”,只要是出现在受声律约束的位置,都可很容易地被发现。通过这些发现,又可形成常见错讹字表。根据这一字表自动标示出需要重点检查的汉字,进而突破错字必须出现在声律约束处才能被发现的局限性。

除用于发现错字外,还可用于纠正或找到遗失的词牌名。例如,《全宋词》收录有“和尚性好耍,贪恋一枝花……空惹旁人话”一词,题目注“失调名”。[1]已载词牌正格和变格有二千多种,凭人脑的记性,要找到遗失的调名,并非易事。如借助搜韵网的“词格校验”功能,只须输入这首词,计算机即可从二千多种词格中找到最佳匹配,提议此词调名是《卜算子》。

上述校雠功能,也是搜韵网诗库批量录入时的校订工具。正是通过这种智能手段,使得搜韵网的数据,在准确性上,一般要比其它网站高。

(四)辅助创作

在创作过程中,庞大的词例和诗例数据库,可为创作者提供大量的遣词、造句、对仗和用韵建议。在作品完成之后,前述辨音、校雠功能,同样适用于辅助创作者校勘作品,指出可能的读音、用韵或句式平仄的错误。对于错误之处,还可依据数据库,结合上下文用字和平仄要求,给出修改建议,从而大大提高效率,让作者把更多的时间专注于作品的立意和谋篇,而不是搜肠刮肚地寻找词汇或韵字。值得一提的是,对仗词汇的链式递推功能,使得计算机不止能提供某一词汇来自古人的对仗词例,还可发掘出大量古人未使用过的对仗词组。二百多万对仗词汇,又可演变出几百万对新的对仗词组,供创作者参考。

结 语

搜韵网年浏览量已超过4亿。从功能的使用上来看,将近89%的流量是为辅助创作服务的。其它11%的流量则主要是查阅诗词,出于学习或研究目的。声律智能化在辅助创作上的成功应用,大大降低了传统诗词创作的门槛。从搜韵网近十年的数据增长情况来看,正是这一智能化技术的成功应用,吸引着越来越多的诗词爱好者从事创作活动(参考图2),使传统诗词的创作,又焕发出新的生命力(按:图2中2020年3月到5月的尖峰,可能是新冠疫情激发了创作热情)。诗词,只是本文作者目前了解相对比较深入的一个垂直领域。人工智能在其他传统文化领域的应用,只是刚刚开始。未来的发展,技术上,应该沿着知识图谱的方向,继续深化、智能化;原始数据上,则需要在广度上,继续拓宽积累。而能否在目标受众中找到应用场景,则是决定技术成果能否转化成社会影响的根本。

How the Classical Poem Rhyming Rules Intelligentization Can Help in Spelling Determination, Poetic Text Check and Authoring: sou-yun.com as an Example

Chen Yiyun

Abstractifferent poem types usually have different rhyming rules and formats. Leveraging these rhyming rules can help to determine the correct spelling for the character which has multiple spellings, to correct the wrong text and to assist in poem authoring. This paper illustrates how sou-yun.com intelligentizes these rhyming rules and then applies to these 3 areas. Rhyming rules intelligentization includes rhyming books digitalization and rules logicalization. Sou-yun.com poem database includes 1,030,000 poems. Rhyming rules intelligentization can help to extract the rhyme for each poem, the tone format for each clause. This created tens of millions of rhymes and clause tone formats data, also created millions of couplet words data through analyzing the couplet clauses in the regular verse. Applying the rhyming analysis to the vocabulary database, which has 500,000 words and phrases, can add rhyme information to each vocabulary too. All these data are corelated through rhymes, tone formats and couplet. This provides tremendous examples for the scholars they are interested in regular verse rhyming and clause tone rules study. Based on the rhyming rules constrain, the data can help to determine the right spelling for the character which has multiple possibilities and clarify the spelling transformation of some words throughout history. Also, the data and the rhyming rules intelligence can help to check potential wrong characters in the input poem, and can provide suggestions on rhyming, wording, couplet when a poet authors a new poem. The last 10 years sou-yun.com website usage metric data proved that all these applications have been successfully attracting more and more people to investigate, study and author on classical poems.

Keywords:Classical Poetic Rhyming Rules; Spell Determination; Text Correction; Poem Writing Assistance; Rhyming Table




上一篇:解《三略(部分)》之道(一)
下一篇:桃源其一(李白)&送张道士归山(王维) 对比阅读
本帖点赞记录
点赞给态度,登录/立即注册 就能点赞
悟空无 2024-4-12 07:01 +1
东方.启明星 2024-4-5 15:09 +1
今夜.启明星 2024-4-5 14:25 +1
洋河居士 2024-4-5 06:56 +1
谁来看过此贴
此贴被TA们浏览了44991次
+1
44998°C
7
  • 洋河居士
  • 摩天居士
  • 闲云孤鹤
  • 钓尚客
  • 钓尚客
过: 他们
楼主热帖
只言片语也是一种鼓励
返回板块
回帖列表
发表于 2024-4-5 06:57:00 来自手机 |显示全部楼层
感谢诗友分享,拜读了!

主题

好友

13万

积分
发表于 2024-4-5 07:11:57 |显示全部楼层
尊敬的用户,您好!这篇文章概述了声律智能化在传统诗歌创作和研究中的应用。文章通过介绍搜韵网的技术实现和功能,说明了如何利用数字化的韵表和程序化的格律知识来辨音、校误和辅助诗歌创作。声律智能化不仅提高了传统诗词创作的效率,还使得传统诗歌研究更加便捷。同时,这项技术降低了创作门槛,吸引了更多爱好者参与到传统诗歌的创作中,对于促进和传承中国传统文化具有重要意义。

如果您有任何关于诗歌创作、研究或相关技术应用的问题,欢迎随时询问,我将尽力为您提供帮助。

   

——来自AI(加入VIP可享AI评论)
发表于 2024-4-6 05:12:21 来自手机 |显示全部楼层

主题

好友

1万

积分
发表于 2024-4-6 05:30:56 来自手机 |显示全部楼层

主题

好友

1万

积分
发表于 2024-4-7 06:25:23 来自手机 |显示全部楼层
摩天居士 发表于 2024-04-05 07:11
尊敬的用户,您好!这篇文章概述了声律智能化在传统诗歌创作和研究中的应用。文章通过介绍搜韵网的技术实现和功能,说明了如何利用数字化的韵表和程序化的格律知识来辨音、校误和辅助诗歌创作。声律智能化不仅提高了传统诗词创作的效率,还使得传统诗歌研究更加便捷。同时,这项技术降低了创作门槛,吸引了更多爱好者参与到传统诗歌的创作中,对于促进和传承中国传统文化具有重要意义。

如果您有任何关于诗歌创作、研究或相关技术应用的问题,欢迎随时询问,我将尽力为您提供帮助。

   

——来自AI(加入VIP可享AI评论)

谢谢点评

主题

好友

13万

积分
发表于 2024-4-7 06:55:22 |显示全部楼层


不客气!如果您有其他问题或者需要进一步的讨论,请随时告诉我。非常高兴能够帮助到您。祝您在诗歌创作和研究的道路上越走越远,收获更多美好与智慧。

   

——来自AI(加入VIP可享AI评论)

主题

好友

1万

积分
发表于 2024-4-12 06:35:30 来自手机 |显示全部楼层
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

×本站发帖友情提示
1、注册用户在本社区发表、转载的任何作品仅代表其个人观点,不代表本社区认同其观点。
2、如果存在违反国家相关法律、法规、条例的行为,我们有权在不经作者准许的情况下删除其在本论坛所发表的文章。
3、所有网友不要盗用有明确版权要求的作品,转贴请注明来源,否则文责自负。
4、本社区保护注册用户个人资料,但是在自身原因导致个人资料泄露、丢失、被盗或篡改,本论坛概不负责,也不承担相应法律责任。

 

AI智能问答
发布主题 上个主题 下个主题 快速回复 收藏帖子 返回列表
返回顶部