字節(jié)跳動捐贈2500萬元助力北京大學《儒藏》數字化項目
近日,北京大學《儒藏》編纂與研究中心、北京字節(jié)跳動公益基金會、北京大學教育基金會聯(lián)合舉辦“北京大學《儒藏》數字化項目啟動儀式”,北京字節(jié)跳動公益基金會向北京大學教育基金會捐贈2500萬元,用于支持北京大學開展《儒藏》編纂與研究工作。與此同時,項目還將通過“識典古籍”智能整理平臺推進《儒藏》數字化工程。未來,相關成果將在“識典古籍”平臺上線,并向社會開放。
北大《儒藏》是重大學術文化項目,未來將成為中國歷史上第一部最齊備和完整的儒家思想文化著述的總匯,不論是從歷史還是文化傳承角度來說都具有重要價值和意義。因此,此次捐贈也引發(fā)了行業(yè)密切關注。
北京大學副校長兼教務長、《儒藏》工程首席專家、《儒藏》編纂與研究中心主任王博表示,“下一步,我們特別強調要把重點放在《儒藏》的數字化整理方案,更方便讓有興趣的讀者使用,滿足當代中國人的精神需求,對整個社會、民族、國家都有一種基礎性的塑造力量。”
在北京字節(jié)跳動公益基金會理事長張羽看來,《儒藏》工程中的很多工作其實是可以在人工智能技術的輔助下被解決和提效的。“我們將根據《儒藏》整理的需求,進一步優(yōu)化識典古籍產品功能,讓專家們可以更加高效便捷地開展工作。未來《儒藏》的相關成果也將陸續(xù)在識典古籍閱讀端上線,實現全民共享,讓中國傳統(tǒng)文化、儒家文化能夠被更多人便捷檢索和閱讀。”
一項持續(xù)多年的事業(yè)
據介紹,《儒藏》工程是新中國成立以來最大規(guī)模地系統(tǒng)整理海內外儒學典籍的一項基礎性文化建設工程。2003年,“《儒藏》編纂與研究”工程由教育部批準立項,由北京大學資深教授湯一介擔任項目首席專家,北京大學聯(lián)合國內外幾十家高校和科研機構共同承擔。2004年6月,“《儒藏》精華本”被列為國家社會科學基金2004年度重大項目;同月,北京大學《儒藏》編纂與研究中心成立,負責組織實施《儒藏》的整理編纂工作。
《儒藏》工程分兩部實施,即《儒藏》“精華編”與《儒藏》全本。其中,先期成果《儒藏》“精華編”收錄了中國歷史上最具影響力和代表性的儒學文獻——包括傳世文獻和出土文獻510種,以及韓、日、越三國歷史上用漢文著述的儒學文獻160種,編為339冊。
目前,《儒藏》“精華編”中國部分510種282冊全部整理完成,已由北京大學出版社出版,總字數近2億,中、韓、日、越四國近百所高校近500位學者參與。全本《儒藏》計劃收書3000余種(含“精華編”),總字數約10億,將基本囊括中、韓、日、越四國歷史上有價值的儒學文獻。2023年4月,全本《儒藏》編纂啟動,重點推進《儒藏》文獻的數字化整理、智能化利用和網絡化傳播。
業(yè)內人士認為,這一工程將使中國擁有一部最齊備和完整的儒家思想文化著述的總匯。
然而,要完成這樣一項艱巨的工程被不容易,其中一些基礎性的工作,如??薄它c、語義辨析等,耗費了專家學者們大量時間和精力。實際上,在項目前期,北京大學方面也曾嘗試開展古籍數字化嘗試,但由于當時相關技術尚不成熟,《儒藏》工程編纂工作仍面臨很多挑戰(zhàn)。
幸運的是,在人工智能技術快速發(fā)展的今天,一些數字化工具的出現,大大提高了古籍保護數字化工作的效率和質量。
據介紹,經過兩年多的發(fā)展,“識典古籍”平臺已經具有版式識別、自動標點、結構整理、校勘等涉及古籍整理的全流程整理功能。《儒藏》的整理者將相關文獻的影像上傳平臺后,由人工智能進行初步整理,專業(yè)人員進行校對及做出更有深度的學術判斷,這樣可以大大減少專家在基礎性工作上投入的精力。同時,“識典古籍”平臺還開發(fā)了協(xié)作整理的功能,支持以團隊的形式開展工作。“識典古籍”產品負責人王宇告訴記者,古籍保護與文化傳承一直是字節(jié)跳動公益重點關注的領域。在他看來,古籍保護項目并不同于其他公益項目,其更需要沉下心來,回歸公益本身。“企業(yè)要做好公益項目,需要結合自己的資源稟賦,同時也要關注社會需求。我們的優(yōu)勢在于技術,在于產品開發(fā),以及濃厚的公益文化氛圍。當然,這并不是一蹴而就的,從2022年上線到現在,我們根據用戶反饋和新的需求,不斷對平臺功能進行優(yōu)化。”
以科技賦能公益
事實上,在此次捐贈之前,字節(jié)跳動公益在古籍保護及數字化方面已開展了數年探索。
2021年,中國文物保護基金會、國家圖書館(國家古籍保護中心)、字節(jié)跳動公益聯(lián)合開展“字節(jié)跳動古籍保護與利用公益項目”,在古籍保護、古籍科研、古籍數字化、人才培養(yǎng)、古籍活化與利用等方面展開深度合作。字節(jié)跳動首批捐贈1000萬元,設立中國文物保護基金會字節(jié)跳動古籍保護專項基金,定向資助中華珍貴古籍修復和專業(yè)人才培養(yǎng)、古籍活化與數字化等項目,其中重點包括《永樂大典》“湖”字冊等國家珍貴典籍和特藏文獻。
2022年3月,字節(jié)跳動向北京大學教育基金會進行捐贈,全面支持“北京大學-字節(jié)跳動數字人文開放實驗室”的工作。字節(jié)跳動依托在OCR(光學字符識別)、自然語言處理、知識圖譜等領域的技術和經驗積累,以及互聯(lián)網產品設計與研發(fā)優(yōu)勢,研發(fā)古籍數字化平臺,利用人工智能技術加速中華古籍資源的數字化建設,探索借助人工智能提高古籍修復、整理工作效率。
2022年10月,由該實驗室研發(fā)的古籍數字化平臺——“識典古籍”平臺上線,進一步提高了古籍數字化進程。截至目前,“識典古籍”閱讀端已經上線超過1萬部古籍,并提供圖文對照、分詞檢索、實體百科等功能。此外,為進一步解決用戶“找不到”“不會用”等問題,“識典古籍”平臺還上線了古籍智能助手。當遇到不懂的古文時,用戶可以點擊“問AI”,就能夠看到這句話的翻譯,還可以讓智能助手總結古文的主要內容,提出可供參考的研究問題。
2023年7月,故宮博物院與中國文物保護基金會、字節(jié)跳動合作啟動“古籍保護與活化公益項目”。此次合作為期三年,致力于開展搶救性保護及資源轉化利用。合作首年,由中國文物保護基金會字節(jié)跳動古籍保護專項基金捐贈首批資金,用于籌建故宮古籍科技實驗室,進行古籍修復、古籍數字化、雕版預防性保護、專題展覽及出版等項目,用公益力量推動古籍保護和活化的可持續(xù)發(fā)展……
這一系列動作,讓我們看到了以科技賦能公益的巨大潛力。
除了古籍修復和數字化,字節(jié)跳動在古籍活化傳播方面也做了很多積極探索。如,依托抖音、今日頭條、番茄小說等平臺,聯(lián)合創(chuàng)作者、圖書館活化古籍,讓古籍以更加輕松、鮮活的方式走向大眾;通過游戲、VR等形式創(chuàng)新古籍體驗場景;通過古籍公開課、古籍紀錄片等方式,用現代的語言講述古籍里的知識……目前,每天有3000多萬人在抖音觀看古籍內容。
數據顯示,我國現存古籍約有20萬個品種,從1949年到2019年共修復整理出版近3.8萬種,而修復整理現存的全部古籍可能需要300多年時間。字節(jié)跳動古籍項目運營負責人陳景收說,“技術的發(fā)展可以解決很多問題,如果沒有資源壁壘,通過人工智能等現代技術,可能在數年內就能夠完成全部古籍的數字化工作。從這個層面來看,用技術手段造福社會就是最大的公益。”