国产成人精品a有声小说,在线观看亚洲网站,91最新地址永久入口,欧美精品国产第一区二区

            中國西藏網(wǎng) > 即時(shí)新聞 > 時(shí)政

            以數字映射古代文學(xué)經(jīng)典

            發(fā)布時(shí)間:2022-03-23 10:40:00來(lái)源: 光明網(wǎng)-《光明日報》

              作者:劉石(國家社科基金重大項目“基于大數據技術(shù)的古代文學(xué)經(jīng)典文本分析與研究”首席專(zhuān)家、清華大學(xué)教授),尹小林(首都師范大學(xué)中國詩(shī)歌研究中心專(zhuān)職研究員)

              大數據及其相應技術(shù)已經(jīng)對社會(huì )知識體系及思維方式產(chǎn)生重大影響。基于這一技術(shù)對古代文學(xué)經(jīng)典文本進(jìn)行深度而高效的分析,可使文學(xué)研究進(jìn)入更宏觀(guān)的視野,提高研究結論的精準性、穩定性及可驗證性,促生新的研究理念、方法與范式。信息革命以來(lái),古籍文獻數據化積累和知識庫建設卓有成效。浩如煙海的古籍,可以組成大小不等的任意文本集合,具有不同維度的數據特征。對它們進(jìn)行基于字詞、語(yǔ)句、篇體等方面的統計,可以獲得不同于紙本閱讀的認知。

              對古籍進(jìn)行散點(diǎn)透視

              谷歌與哈佛大學(xué)利用其共同開(kāi)發(fā)的數據庫對公元1800—2000年出版的近520萬(wàn)冊書(shū)籍的單詞和短語(yǔ)的使用頻率進(jìn)行統計,任意詞或詞組在過(guò)去數百年典籍中的出現頻率與變化趨勢得以清晰呈現。這一詞頻統計器廣泛應用于如探索名物的興衰沿革、話(huà)題的熱度變化、人物或群體的影響力等研究。

              同樣,大數據時(shí)代下新的技術(shù)和研究思路為彌補紙質(zhì)古籍在結構化整理、大量資料匯聚排列、關(guān)系立體化勾連呈現等方面的不足提供了可能性。我們利用《國學(xué)寶典》數據庫收錄的超一萬(wàn)種逾22億字的歷代古籍精良數據,在其中篩選出最為核心的經(jīng)典近百部,對其從用字量、用字比(TTR_H)、字頻等不同角度進(jìn)行統計,將時(shí)代與文體來(lái)源廣泛的文獻以前人不曾設想過(guò)的方式進(jìn)行關(guān)聯(lián)比較,獲得了一系列涉及漢語(yǔ)史、文體學(xué)、知識考古學(xué)、蒙學(xué)研究、近代文白轉型等眾多領(lǐng)域與交叉學(xué)科的重大命題與發(fā)現,是“數字映射經(jīng)典,技術(shù)更新人文”的有效例證。

              縱向概覽從先秦到清代典籍數據,首先可以關(guān)注到的是單部經(jīng)典總字數和用字量的漸增趨勢。顯然,前者與文獻的物質(zhì)形態(tài)的變化發(fā)展直接相關(guān),后者除了受中古漢語(yǔ)雙音化等自身發(fā)展因素的影響之外,同樣與漢代至中古以來(lái)總體書(shū)籍量的增長(cháng)及社會(huì )的知識好尚有關(guān)。用字量排名靠前的首先是知識性工具書(shū)與承擔識字教材功能的蒙學(xué)讀本,如《爾雅》(3360字)、《水經(jīng)注》(4490字)、《古文觀(guān)止》(3863字)等。漢代以降,士人逐漸重視學(xué)術(shù)與社會(huì )觀(guān)點(diǎn)的積累以及人生精華的總結,故而其著(zhù)述常有豐厚淵博的知識性特質(zhì)。“究天人之際,通古今之變”的《史記》與“言其大也,則燾天載地;說(shuō)其細也,則淪于無(wú)垠”的《淮南子》用字量分別為4730字與3900字,在參與統計的上古至中古文獻中十分突出,已可與明清長(cháng)篇章回體小說(shuō)作品比肩(四大名著(zhù)和《聊齋志異》用字量在3931~4936字之間)。

              僅依靠數據自身不能完成“智慧型”轉化,比數據更重要的是闡釋數據的方式。除了將統計分析與經(jīng)典論題相關(guān)聯(lián),數據的切分與聚類(lèi)也是至關(guān)重要的基礎環(huán)節。一項經(jīng)典研究案例是,將《紅樓夢(mèng)》以四十回為單位進(jìn)行文本切分,最后一部分在用字量方面的顯著(zhù)不同剛好佐證關(guān)于作者的疑問(wèn)。然而,以用字量直接衡量作品質(zhì)量或閱讀難度又會(huì )墮入機械的統計分析思維。例如統計中居首的幾部小說(shuō)文獻,其體量大、涉及內容廣、雅俗語(yǔ)體并包等因素共同提升了用字量。同樣,受常用漢字總量限制,文獻篇幅的增加反而會(huì )導致用字比下降。故而統計中引入計算語(yǔ)言學(xué)常用的TTR_H模型以修正用字比,最終結果顯示,用字比最高者皆為蒙學(xué)讀本:《千字文》(1)、《百家姓》(0.986)、《三字經(jīng)》(0.894)、《聲律啟蒙》(0.857)。可見(jiàn),編著(zhù)者有意識地在有限的篇幅和內容難度中增加用字量,讓學(xué)童能比較密集地習得盡可能多的漢字。蒙學(xué)讀物的編纂者選字標準是什么,是當時(shí)常見(jiàn)經(jīng)典文獻中的高頻字,還是日常生活中的常用字,還是有別的標準?這種選擇是以何種方式完成的?這些都是值得進(jìn)一步探究的話(huà)題。

              從用字特征探測經(jīng)典命題

              字頻統計中,考慮到虛字和實(shí)字的不同屬性和闡釋功能,二者通常被分別計算。虛詞在漢語(yǔ)史等領(lǐng)域的研究中經(jīng)常被作為特征數據使用,同時(shí)也是作品風(fēng)格比對的標志性參數,虛詞的使用比重本身便構成不同作者間的風(fēng)格標識。“五經(jīng)”之中,參照后世“文筆之辨”,《詩(shī)》為有韻之文,因而與其他幾部書(shū)相比,高頻詞中實(shí)詞比重更大,古人“實(shí)字多則健,虛字多則弱”的詩(shī)論觀(guān)點(diǎn)或濫觴于此。以高頻字的虛實(shí)映射“文筆之辨”的方法可推及后世,普遍而言,在詩(shī)歌與詞曲等文體中,實(shí)詞作為高頻詞的概率大于散文文體。

              作為“五經(jīng)”中成書(shū)年代最早的《尚書(shū)》,其虛字運用特征同樣保存了上古漢語(yǔ)的流變痕跡。《尚書(shū)》中頻次居首者是極具上古色彩的虛詞“惟”,這不僅與其中許多篇目的記言性質(zhì)有關(guān),也體現了早期漢語(yǔ)與后來(lái)“之乎者也于”時(shí)代的分野。以相同視角觀(guān)照近古作品,可以窺見(jiàn)漢語(yǔ)史上的另一重大變革。對話(huà)是小說(shuō)中的重要元素,表達說(shuō)話(huà)行為的動(dòng)詞自然享有高頻地位,在《三國演義》與《聊齋》中體現為“曰”,而《西游記》和《水滸傳》中則體現為“道”,這是后一組作品文言色彩減弱的重要標志。而真正的白話(huà)轉型發(fā)生在《紅樓夢(mèng)》身上,“的”首次取代語(yǔ)法功能相同的“之”而上榜,成為第二高頻詞。《紅樓夢(mèng)》中居首的高頻詞是另一個(gè)極具白話(huà)特征的虛詞“了”,這也是《水滸傳》中的第一高頻詞。

              與虛詞相反相成的實(shí)詞是文獻內容和主題的映射,其背后涉及反映觀(guān)念史演變的重大命題。同樣以“五經(jīng)”為例,《詩(shī)》《書(shū)》《禮》《易》《春秋》中的第一高頻實(shí)詞分別為“我”“王”“人”“象”“子”。《詩(shī)經(jīng)》具有最強的主體抒情色彩,恰如《毛詩(shī)序》所謂“以一國之事,系一人之本”。《尚書(shū)》為上古三代帝王典、謨、訓、誥、誓、命等文獻記載,以記錄“王”之言行為核心。孔子以“克己復禮”來(lái)約束人,“禮”是人內在品質(zhì)的外化,因此談“禮”不基于人則會(huì )失去根基。“象”作為《周易》的解讀對象是不言自明的。“古者庖犧氏之王天下也,仰則觀(guān)象于天,俯則觀(guān)法于地,觀(guān)鳥(niǎo)獸之文與地之宜,近取諸身,遠取諸物,于是始作《易》八卦,以垂憲象。”《說(shuō)文解字序》中的這段話(huà),說(shuō)明“象”不僅是《周易》的關(guān)鍵,也是漢字造字觀(guān)念及中華文化思維的體現。《春秋左傳》中首位高頻字為“子”,其中包含第二人稱(chēng)單數與諸侯國君稱(chēng)謂雙重意義。后者是《春秋》敘事的核心所在,孔子作《春秋》,正是為了以微言大義記錄“禮樂(lè )征伐自諸侯出”的非常時(shí)代,作為編年體史書(shū),各諸侯國君臣的秩序與道德選擇構成了其潛在的緯線(xiàn)。

              用數據來(lái)表征“詩(shī)分唐宋”

              錢(qián)鐘書(shū)《談藝錄》以“詩(shī)分唐宋”開(kāi)篇,影響甚廣。此說(shuō)實(shí)承續前人而來(lái),宋代嚴羽論詩(shī)便有“本朝人尚理,唐人尚意興”之說(shuō)。唐宋詩(shī)之別在于體格性分,相對較為玄妙。通過(guò)量化分析,可對其語(yǔ)言層面的特征作出細致把握。通過(guò)對《全唐詩(shī)》五萬(wàn)七千余首和《全宋詩(shī)》二十五萬(wàn)四千余首的詞頻統計顯示,居于前十位的高頻詞分別為:不知、何處、萬(wàn)里、千里、不見(jiàn)、不可、白云、今日、春風(fēng)、不得(《全唐詩(shī)》);不知、春風(fēng)、平生、不可、萬(wàn)里、千里、人間、不見(jiàn)、十年、何處(《全宋詩(shī)》。下文中詞頻位序將在括號中注出,故不再一一說(shuō)明)。

              將統計擴展至前一百位,有關(guān)唐宋詩(shī)風(fēng)之辨的許多命題都能夠在語(yǔ)詞的褶皺中被展開(kāi)。作為嚴羽論斷的例證,在前一百位中,唐詩(shī)里比興尚意的寫(xiě)景語(yǔ)匯更居前列,如排名第7的“白云”與第11的“明月”,雖只是詞匯片段,唐人氣象儼若可見(jiàn)。作為參照,這兩個(gè)意象在《全宋詩(shī)》詞頻統計中分別降至19與23位。嚴羽“本朝尚理”的觀(guān)點(diǎn)同樣能在統計數據中獲得佐證:宋詩(shī)中“平生”(第3位)、“人間”(第8位)等哲思人生的“理語(yǔ)”排位較唐代(分別居于第30、13位)又有上升。另一點(diǎn)值得玩味的是,宋人雖崇尚自守慎獨、內求于心的理學(xué),詩(shī)中卻不乏唐人所極少寫(xiě)到的“功名”(36)、“富貴”(78),而唐詩(shī)中常見(jiàn)的“惆悵”(15)、“相思”(22)等與“理語(yǔ)”相對的“情語(yǔ)”在宋詩(shī)詞頻列表中跌出了前一百位。

              唐詩(shī)偏重空間,而宋詩(shī)偏重時(shí)間。敻絕的宇宙意識和無(wú)垠的空間,從《全唐詩(shī)》詞頻前五位中(不知、何處、萬(wàn)里、千里、不見(jiàn))可見(jiàn)一斑。日本漢學(xué)家吉川幸次郎曾提出,唐詩(shī)是凝視著(zhù)人生貴重瞬間的燃燒,所注視的只是對象的頂點(diǎn)。而宋詩(shī)是時(shí)間性的,詩(shī)人視人生為漫長(cháng)的持續。以語(yǔ)詞的統計來(lái)衡量這一觀(guān)點(diǎn),唐詩(shī)排序最高的時(shí)間詞是“今日”(8),時(shí)空與情感凝注于此一點(diǎn),而宋詩(shī)中居首的是“十年”(9),繼而是“今日”(12)與“百年”(20)。吉川將“燃燒與持續”的說(shuō)法推進(jìn)至意象選用的對比方面,夕陽(yáng)是燃燒的景象,雨是持續的景象,于是有了“唐人寫(xiě)夕陽(yáng)宋人寫(xiě)雨”的經(jīng)典論斷。詞頻統計恰也驗證了這點(diǎn),《全唐詩(shī)》詞頻居于前列的“落日”(55)、“日暮”(59)、“夕陽(yáng)”(69),在宋詩(shī)中都排在九十位之后。

              不同于信息爆炸的現代,傳世文獻中的經(jīng)典文本邊界是相對清晰的,然而其體量對于專(zhuān)注于某一選題或領(lǐng)域的研究者依然難以全體掌握。基于大數據技術(shù)的古代文學(xué)經(jīng)典文本分析,既著(zhù)眼于經(jīng)典文獻,又以海量的基礎文獻為基礎,希望在較短時(shí)間內用高效、全面的數據挖掘,來(lái)進(jìn)行準確有效的文本分析。傳統古典學(xué)研究中的結論多通過(guò)個(gè)人有限閱讀過(guò)程中的觀(guān)察、思索、領(lǐng)悟等方式獲得,這類(lèi)方式往往具備一定的主觀(guān)性乃至先驗色彩。大數據的匯聚和計算分析方法的運用,能夠使既出人意表又允執厥中的結論“自動(dòng)涌現”。

              利用大數據將以往被分裂和隔絕的事物重新連接,改變了我們對文獻、文本、知識的認識路徑和把握尺度。僅從字/詞頻統計這一大數據手段的微小切面入手,我們便已初步獲得了以一種新方式探測經(jīng)史、語(yǔ)言學(xué)、文學(xué)等領(lǐng)域文獻的體驗。與用不同技術(shù)手段、不同結構化方式、不同顆粒度重構的集成式文獻知識庫相比,以上工作或許只是一份小嘗試。相信隨著(zhù)統計數據的累積、疊加和映射,古籍和傳統文化研究一定能夠煥發(fā)出更多生機和活力。

            (責編: 李雨潼)

            版權聲明:凡注明“來(lái)源:中國西藏網(wǎng)”或“中國西藏網(wǎng)文”的所有作品,版權歸高原(北京)文化傳播有限公司。任何媒體轉載、摘編、引用,須注明來(lái)源中國西藏網(wǎng)和署著(zhù)作者名,否則將追究相關(guān)法律責任。