泛语语料库

泛语语料库（Pangloss Collection）是位在巴黎的法国国家科学研究中心（CNRS）口传语言与文化研究所（LACITO）所开发的开放获取数位图书馆，旨在采集世界各种语言的录音（其中大部分为濒临灭绝的稀有语言），汇聚成一个向大众开放的数位语料库，从而为保护世界语言多样性作出贡献 ^[1] ^[2]。

该语料库有丰富的语音馆藏，可免费線上存取，囊括了世界各大洲不同类型语言的语音文档（民间故事和传说、生活小品、传统艺人或工匠的口述、词汇或语音调查等等）^[3]。

截至2018年2月，泛语语料库已收录3559卷录音档、影像档、文字文件^[4]，总计囊括全球170种语言^[5] 。

原则

配有人工转写文字档的语料库

泛语语料库收录并发布第一手录音檔（近年来也增加了一些影像档）。其中一部分音档经由专家学者人工转写成文字稿和译文，可与原始音档交互参照（包括语音、音韵、拼字）^[6] 。每个文档都是根据口传语言与文化科学研究方法，通过母语人士的亲口讲述，由调查人员在该文化背景下忠实地将内容记录下来^[7] 。

辭典

自2002年以来，除了录音跟影像资料之外，泛语语料库还收录了若干辭典^[8] ，並在2017年將辭典系列命名为“ Lexica ” ^[9] 。

開放式檔案架構

泛语语料库所存档的数据採开源格式，访客可以下载资料原始档案（多数为知识共享Creative Commons许可协定），以便离线使用。资料库网站提供的各式软体工具也属开源软体（开放原始碼）。此外，泛语语料库很早就采用诸如XML等相容性高的格式，此种格式目前为数位人文科学的主流。 ^[10] 。

泛语语料库是语言学资料库“ 开放式语言典藏组织”（OLAC^[11])的一员，也是DELAMAN濒危语言资料库协会会员之一^[12]。

泛语语料库乃CoCoON（COllections de COrpus Oraux Numériques）数位资料馆的资料库之一。CoCoON是一个技术平台，旨在支援口语语料采集人员建立、整理、归档语料库。^[13] 其典藏的数据储存在“ 数位人文资料存放平台”Huma-Num^[14]上。

历史

2001年時，“ LACITO归档方案”收藏了大约20种语言，共100篇左右的长篇语料^[15] 。 2011年，泛语资料库的馆藏库收录了近1000卷的长篇语料，涵盖67种语言，总计350篇语料经过转写和注释^[16] 。馆藏在2014年达到1400篇语料，其中大约有400篇已由人工转写和注释^[3] 。2016年10月時，泛语资料库典藏了132种语言^[17] 。其馆藏在2018年2月达到170种语言，3559个录音档跟影像档^[18] ^[19] 。2021年，在新一款自动转写软体的帮助下，转写和归档都方便许多，一个小时便可以抵以往上百小时的工作进度。

参考

外部链接

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

Search

泛语语料库

目录

原则

配有人工转写文字档的语料库

辭典

開放式檔案架構

历史

参考

外部链接