泛语语料库

泛语语料库(Pangloss Collection)是位在巴黎的法国国家科学研究中心(CNRS)口传语言与文化研究所(LACITO)所开发的开放获取数位图书馆,旨在采集世界各种语言的录音(其中大部分为濒临灭绝的稀有语言),汇聚成一个向大众开放的数位语料库,从而为保护世界语言多样性作出贡献 [1] [2]

该语料库有丰富的语音馆藏,可免费線上存取,囊括了世界各大洲不同类型语言的语音文档(民间故事和传说、生活小品、传统艺人或工匠的口述、词汇或语音调查等等)[3]

截至2018年2月,泛语语料库已收录3559卷录音档、影像档、文字文件[4],总计囊括全球170种语言[5]

原则

配有人工转写文字档的语料库

泛语语料库收录并发布第一手录音檔(近年来也增加了一些影像档)。其中一部分音档经由专家学者人工转写成文字稿和译文,可与原始音档交互参照(包括语音、音韵、拼字)[6] 。每个文档都是根据口传语言与文化科学研究方法,通过母语人士的亲口讲述,由调查人员在该文化背景下忠实地将内容记录下来[7]

辭典

自2002年以来,除了录音跟影像资料之外,泛语语料库还收录了若干辭典[8] ,並在2017年將辭典系列命名为“ Lexica ” [9]

開放式檔案架構

泛语语料库所存档的数据採开源格式,访客可以下载资料原始档案(多数为知识共享Creative Commons许可协定),以便离线使用。资料库网站提供的各式软体工具也属开源软体(开放原始碼)。 此外,泛语语料库很早就采用诸如XML等相容性高的格式,此种格式目前为数位人文科学的主流。 [10]

泛语语料库是语言学资料库“ 开放式语言典藏组织”(OLAC[11])的一员,也是DELAMAN濒危语言资料库协会会员之一[12]

泛语语料库乃CoCoON(COllections de COrpus Oraux Numériques)数位资料馆的资料库之一。CoCoON是一个技术平台,旨在支援口语语料采集人员建立、整理、归档语料库。[13] 其典藏的数据储存在“ 数位人文资料存放平台”Huma-Num[14]上。

历史

2001年時,“ LACITO归档方案”收藏了大约20种语言,共100篇左右的长篇语料[15] 。 2011年,泛语资料库的馆藏库收录了近1000卷的长篇语料,涵盖67种语言,总计350篇语料经过转写和注释[16] 。 馆藏在2014年达到1400篇语料,其中大约有400篇已由人工转写和注释[3] 。2016年10月時,泛语资料库典藏了132种语言[17] 。 其馆藏在2018年2月达到170种语言,3559个录音档跟影像档[18] [19] 。2021年,在新一款自动转写软体的帮助下,转写和归档都方便许多,一个小时便可以抵以往上百小时的工作进度。

参考

外部链接