记录和保存濒危语言的方法
自动翻译
濒危语言通常被定义为儿童和青少年在日常生活中不再使用其祖传语言的情况。虽然这种语言可能仍在家庭内部、宗教或仪式场合中使用,但它并未作为第一语言传承给下一代。
联合国教科文组织将语言的濒危程度划分为几个等级:脆弱级(儿童仅在家庭中使用这种语言)、濒危级、严重濒危级、极度濒危级,直至最后一位使用者去世后该语言消亡。教科文组织的在线地图集收录了约2500种此类语言的数据,而现存语言约有6000至7000种。
许多语言缺乏书面传统、标准化的拼写系统或稳定的教学体系。它们依靠口头传承,随着使用者语言习惯的改变,语法、词汇和语篇实践的诸多层面也随之消失。在这种情况下,语言的记录和保存需要结合田野调查、数字技术以及与社群自身的合作。
记录、描述和保存一种语言之间的区别
在现代语言学中,通常区分三种相关但又不同的研究方法:文献记录、描述和语言维护或复兴。文献记录旨在创建一个庞大的数字语料库,其中包含口述历史、对话、仪式、日常谈话以及带注释的文本、词典和语法注释。
描述性工作构成了一个更为抽象的层面:语法、词典编纂、音系学、句法学和语义学研究。这些工作依赖于文献资料,并能够进行语言间的比较。
支持和复兴与增加语言使用者数量和扩大语言使用范围密切相关。这些措施包括全沉浸式幼儿园、学校课程、成人课程、媒体项目以及语言法律地位的认可。许多社区优先考虑这些工作,并将语言文献记录视为辅助性活动。
文献语言学原理
文献语言学在20世纪末期发展成为一个独立的学科领域。其目标是创建一个持久的录音语料库,涵盖尽可能多的体裁和交际情境。
基本原则通常包括:注重自然语音、多级数据标注、对录音环境进行详尽描述,以及为用户和研究人员提供透明的访问条件。
另一个重要原则是社区参与。母语人士不仅作为信息提供者,也作为项目的共同作者:他们确定优先主题,选择哪些文本可以发表,哪些文本应该保密,并参与转录和翻译工作。
现场数据采集方法
实地调研仍然是文献记录的基础。具体方法取决于社会状况、聚落规模、人们对记录语言的态度以及该语言的普及程度。
通常采用自由记录和引导相结合的方式。自由记录用于记录故事、对话、民间传说、日常场景以及母语者对语言的评价。引导则有助于收集那些很少自发出现的特定语法现象或词汇的例子。
媒体选择和社会背景
在进行记录时,必须考虑年龄、性别、多种语言的熟练程度以及参与传统活动和仪式的程度。一个语言社群可能包含主动使用者和被动使用者,也可能包含使用不同方言的人。
研究人员指出,仅记录“最后一位使用者”的语言使用情况往往是不够的。我们需要了解语言在一个地区的分布情况、存在的语言混合类型,以及多语家庭和社区网络的结构。这种视角有助于我们理解语言衰落的原因,并评估语言复兴计划的可行性。
录制过程中的伦理问题和同意
经接收方同意,资料的记录、存储和分发条款需经协商确定。许多项目都设立了不同的访问权限级别,从完全公开的记录到仅供特定群体或家庭成员查阅的文件不等。
知识产权问题另行讨论:歌曲、故事和仪式文本的所有权归属;谁可能从其使用中获得物质或象征意义上的利益。档案馆正在制定标准许可表格和协议,并使其符合当地社区的期望。
濒危语言的音频和视频记录
数字音频和视频录制是现代文献语言学的核心工具。高质量的视频、摄像机的视角和清晰的音频使得人们能够在几十年后重新审视数据,并分析新的方面:例如手势、眼神和参与者的空间布局。
专家建议以无损格式录制音频,采样率至少为 44.1 kHz,位深至少为 16 位;视频则使用常见的高比特率编解码器。这样有利于长期存储和后续转换。
架设设备本身就是研究方法的一部分。在一些多语言村庄,摄像机有时会引起村民的怀疑,因此研究人员会先进行录音,逐步熟悉当地情况,并将录音副本分享给村民家庭。而在其他情况下,村民们则乐于接受拍摄仪式、手工艺、狩猎或捕鱼等活动的视频,因为他们将这些视频视为留给后代的珍贵资料。
录音作品的类型多样性
目标是涵盖多种文体:历史故事、童话、歌曲、祈祷文、商店对话、儿童游戏、家务指南以及语法形式讲解。本套教材提供语法、词汇和社会语言学分析方面的材料。
本书特别关注自然流畅的日常口语,这有助于识别传统语法书中很少提及的常用句式、语篇标记、停顿和自我纠正等表达方式。
转录、翻译和注释
录音之后,漫长的转录和注释工作才刚刚开始。对于许多语言来说,这需要同时创建一套便捷的字母符号系统,制定表达音长和声调的规则,并反映出发音相近的辅音和元音之间的差异。
正字法政策通常需要在语音准确性和使用者便利性之间寻求平衡,尤其是在学校教育中。研究人员会与教师、长者和活动家讨论各种方案,并参考邻近语言的现有书写传统。
ELAN、FLEx 工具和集成工作流程
处理多层注释最广泛使用的平台是 ELAN 程序:它可以将音频和视频录制与多行注释同步,您可以在其中输入转录、直译、自由翻译、语法注释和评论。
FieldWorks Language Explorer (FLEx) 广泛用于词法分析和词典维护。将这些工具结合使用可以简化工作流程:首先在 ELAN 中进行转录和初步翻译,然后导出到 FLEx 进行词法标注和词典扩充,最后将更新后的数据返回 ELAN 进行完善。
最近开发了一些额外的工具,以克服ELAN和FLEx之间文件交换的技术障碍。这些解决方案可以保留元数据、说话人数据和多种书写系统,并方便母语人士参与转录和编辑工作。
本体论和标记语料库中的搜索
为了实现对多媒体语料库更灵活的检索,人们正在创建本体标注系统,将每个手势、动作或语法现象与一个本体元素关联起来。新开发的 OntoELAN 工具展示了这种概念词典如何支持按语义类别而非仅按文本字符串进行检索。
研究人员还探讨了将ELAN用作层级标注语料库的搜索引擎。这揭示了标准搜索算法的技术局限性,从而促进了针对资源匮乏语言语料库工作的专用工具的开发。
濒危语言词典编纂
使用人数较少的语言词典具有多种用途:科学、教育和文化。与使用人数众多的国家语言不同,这类词典通常需要整合方言差异、文化现实、书面传承模式和用法示例等信息。
现代项目强调语料库的作用:词典条目与音频和视频示例、词法标注文本以及插图材料相链接。这使我们能够追踪词语在真实语境中的使用情况,而不仅仅是在人为选择的例句中。
另一个研究领域是创建带有“中间语言”的双语词典。利用从大型网络(例如 WordNet)自动迁移词汇关系的算法,即使对于使用更广泛的语言只有一个已建立的双语词典,也可以创建词典。
语法和文本集
语法描述建立了一套范畴体系:词类、时态表达方式、体、语态、格、词序以及复杂句的结构。对于濒危语言而言,语法通常基于已记录的文本语料库,而不仅仅是问卷调查中对个别问题的回答。
文本集 — — 故事、歌曲、对话、民间传说 — — 历来占据着特殊的地位。它们为风格学、话语标记、语码转换机制的分析以及口头传统的研究提供了素材。
许多项目正在制作平行出版物:一份社区语言文本、一份直译和一份自由翻译成国家语言的译文,以及详细的语法注释。这些出版物服务于母语人士、语言学家和学校课程。
归档和数字保存
语言资料的长期保存取决于高质量的归档工作。数字媒体容易出现格式过时和物理磨损,因此数据需要存储在专门的档案馆中,并定期进行格式迁移和备份。
众多知名的语言档案馆中,濒危语言档案馆(ELAR)尤为引人注目。该档案馆成立于2000年代,现隶属于柏林-勃兰登堡科学院。馆藏包括500多种语言的音频和视频录音、文字稿、词典以及教育资料。用户可通过网页界面访问,访问设置由语言使用者和研究人员自行设置。
其他重要举措包括DOBES、PARADISEC和AILLA项目,以及一些国家档案馆正在采用基于开放语言档案馆(OLAC)标准的馆藏。这些举措支持统一的元数据,便于出于研究和教育目的进行数据检索和再利用。
元数据和访问权限
元数据不仅描述文件的技术参数,还描述其社会背景:说话者是谁、录音的地点和时间、使用的语言和方言、涵盖的主题以及发行权归属。丰富的元数据能够提升馆藏资料对未来研究的价值。
档案馆正在制定访问级别、许可类型和馆藏链接方法等方面的指导方针。这使它们能够在满足开放科学需求的同时,兼顾社区期望和隐私法规。
社区作为记录和保存的参与者
许多项目的经验表明,只有母语人士积极参与,才能取得可持续的成果。这些人不仅是资料来源,还担任田野助理、翻译、转录员、教师和档案收藏管理员。
档案馆和基金会的培训项目包括记录、注释、元数据创建和档案材料准备方面的培训。这些课程由ELAR、PARADISEC、AILLA和其他机构的工作人员授课,采用线上线下相结合的研讨会形式。
在某些情况下,记录工作由社区自行发起,外部专家则作为技术顾问参与其中。这种情况在涉及土著人民权利和语言法律认可的项目中尤为明显。
语言强化课程:语言孵化器和沉浸式学校
语言复兴最广为人知的方法之一是“语言巢”模式,该模式于 20 世纪 80 年代首次在毛利语幼儿园(kōhanga reo)实施。在这些机构中,孩子们从小就只听到他们的祖先语言,课程由母语人士(通常是年长的亲戚)教授。
毛利模式的成功启发了其他社区。“语言巢”成为更广泛项目的一部分:全浸入式或半浸入式学校、夏令营、家庭俱乐部和面向家长的晚间课程。
文献记录与此类举措密切相关。录制的故事和歌曲被用作教学材料,词典和语法书为学校课程奠定了基础,而合作转录工作则增强了该语言作为后代资源的地位。
资助项目和国际倡议
各大基金会正在制定专项计划,以支持对使用人数较少的语言进行记录和保护。在美国,由国家科学基金会和国家人文基金会共同实施的“濒危语言记录”(DEL)项目,为实地考察项目、档案收藏建设和社区推广活动提供资金。
在国际层面,联合国教科文组织的各项计划已经并将继续发挥重要作用:编制濒危语言地图集、举办会议以及在文化政策中更加重视语言多样性。
像阿卡迪亚基金会这样的私人慈善基金会支持了档案馆和分校的建立。例如,正是这类捐助使得濒危语言文献项目及其相关的ELAR档案馆得以发展。
现代数字工具和语言技术
自动语音识别、机器翻译和自然语言处理技术的进步为资源匮乏和濒危语言的保护和应用开辟了新的机遇。然而,这些方法需要谨慎实施,并需要母语人士的持续参与。
研究表明,自动语音识别可以减轻转录员的工作量。针对某些语言,例如新阿拉姆语方言或米斯特克语约洛索奇特尔语,已经开发出一些实验性系统,可以加速语料库的创建。
与此同时,一些机构正致力于基于现有的双语词典和大型词汇网络,开发用于词典编纂和词库构建的工具。即使对于数据集极其有限的语言,这些解决方案也能提供额外的资源。
低资源和乌拉尔语系语言的基础设施
一些项目正在为相关语言群构建复杂的基础设施。例如,正在为乌拉尔语系语言创建 XML 格式的电子词典,这些词典将作为形态分析器和其他工具的基础。
这些基础设施将传统的实地考察方法与现代神经网络模型相结合。源数据的质量仍然至关重要:专业的标注和准确的元数据能够提升每一分钟记录的价值。
人工智能在文档语用学和语义学中的应用
多项研究表明,机器学习方法可以帮助识别文本量极少的语言中的语用标记和语义结构。例如,巴基斯坦的地区性语言几乎没有书面语料库,研究人员就对其进行了研究。结合田野调查和现代模型分析,研究人员系统地梳理了用于调节对话流程和表达说话者态度的标记。
然而,此类研究的作者们强调,语言分析、母语人士的参与以及文化背景仍然不可或缺。技术的作用在于加速实地考察和协作讨论,而非替代它们。
记录韵律和语调
对于许多语言,尤其是那些具有声调或复杂语调系统的语言而言,捕捉话语的音序和旋律同样重要。对德内-阿萨巴斯卡语系的研究表明,比较不同类型任务(阅读、复述和自由演讲)的数据有助于识别与话语类型和信息结构相关的语调模式。
这类研究利用高质量录音、精确的ELAN对齐以及专业的语音分析程序。由此构建的语料库能够研究语调、词法和句法之间的相互作用,而这在没有音频的文本数据中是难以实现的。
文档中的多语现象和语言接触
在许多地区,濒危语言与几种使用更为广泛的语言并存。人们在这些语言之间自由切换,借用语言结构,并根据话题和对话对象改变语言表达方式。
一些研究者认为,要真正捕捉一种语言的生命力,就必须记录其多语环境,而不仅仅是“纯粹”的单语文本。专门研究语言接触和多语现象的语料库有助于追踪语言转变的发生过程,哪些领域保留在母语中,哪些领域转移到了官方语言。
在对这类材料进行注释时,不仅需要考虑每句话的语言归属,还需要考虑社会因素:说话者的地位、年龄、对语言和研究的态度。
手语和双语模式的记录
手语也面临消亡的威胁。高质量的视频录制以及能够识别多通道(手部、面部、身体以及并行或交替的口语)的工具对于手语的记录尤为重要。
一些项目研究在聋哑父母家庭中成长的儿童,他们同时习得手语和口语。针对这类语料库,ELAN正在开发特殊的标注规范,其中每种语路都有其专属的标注字符串,并且它们之间的关系会用精确的时间戳记录下来。
然后,处理此类数据的方法被推广到其他社区,在这些社区中,手语也面临着来自主流语言和习俗的压力。
自动化记录和辅助田野语言学家
目前的研究正在探索机器学习模型是否可以建议哪些形式尚未被记录,以及应该向说话者提出哪些问题,以便更有效地收集形态范式。
本文提出了一些系统,这些系统能够分析现有数据并提供示例以加以说明,从而最大限度地减少重复提问并填补范式上的空白。这种方法可以更有效地利用有限的实地考察时间,并减轻研究人员的负担,他们常常会因长时间的访谈而感到疲惫。
同时,作者强调这些模型是基于现有数据进行训练的,因此收集的语料库的丰富性仍然取决于初始阶段,在这个阶段,实地研究人员的直觉和与社区的联合规划非常重要。
项目方法示例:莫克伦语、科米语和梅格雷尔语
莫克伦语文献记录项目展示了专门的系统 LangDoc 如何帮助组织对一种没有既定书面系统的语言的研究工作。研究人员以词汇表为基础进行记录,然后为每个词素添加音频、转录、语音和文化注释。
该系统集成了项目管理、记录、质量控制和标注功能,并为后续的词典和语法创建准备数据。这种方法减少了分散的文件数量,并有助于监控词汇覆盖率。
伊热姆科米语项目专注于自动化标注:该项目开发了一个脚本,将ELAN与为乌拉尔语系开发的形态分析器和句法标注器连接起来。这使得对大量口语和书面文本语料库的标注速度更快,并使这种资源匮乏语言的标注工作更接近于国家级语言的标注水平。
对于卡特维尔语族中的明格列里安语来说,词典编纂依赖于文献资料和对优先事项的重新思考:关注点从简单的翻译列表转移到反映方言差异、来自现代口语的例子以及与其他卡特维尔语族语言的联系。
印刷版词典和“过时”资源的数字化
几十年来,许多传教士、教育家和研究人员在纸卡上制作词典,用机器印刷,并小批量出版。这些作品往往是许多语言词汇的唯一记录证据。
此类词典的数字化项目采用光学字符识别技术,然后自动或半自动地将词典条目结构转换为机器可读格式。这需要制定规则来识别词条、译文、例句、语法注释和风格注释。
数据结构化后,即可与新的语料库关联,与其他词典进行比较,并作为进一步扩展的起点。由此,前数字时代数十年的工作成果在现代基础设施中焕发新生。
专业人才的教育和培训
实地记录和档案工作对研究人员提出了特殊的要求。他们必须掌握录音技术、录音工程基础知识、注释原则、伦理标准,并了解信息标准和许可协议。
许多大学和档案馆提供专门课程和暑期学校,将理论课程与使用 ELAN、FLEx、档案界面和撰写拨款申请书的实践培训相结合。
数字课程和开放学习材料不仅能让语言学专业的学生参与培训,还能让语言活动家、教师和社区代表参与培训,从而增强文献记录的实际影响。
评估语言保护项目有效性的方法
在探讨语言保护问题时,一个重要的问题是评估特定项目对语言活力的影响。一些研究建议将语言使用者数量的动态变化、年龄结构的变化、语言使用范围的扩大以及媒体、数字平台和官方活动等新兴领域的出现纳入考量。
从文献角度来看,一个指标是语料库的完整性和可用性:不同体裁的音频和视频录音、语法、词典、教学材料的存在情况,以及社区参与其创建和使用的程度。
研究人员强调,目前尚无评估此类项目的通用标准。评估方法必须根据当地情况、人口结构、语言的政治地位以及使用者自身的期望进行调整。
在数字空间中锚定语言
文献资料的积累为濒危语言的数字化呈现打开了大门。语料库被用于开发键盘布局、字体、拼写标准和电子词典。档案收藏正逐渐成为播客、视频频道和移动应用程序的音频素材来源。
为资源匮乏语言创建生成模型的研究项目引发了关于数据保护以及使用特定社群创建和拥有的材料训练模型的伦理问题。目前正在开发一些举措,旨在利用新技术帮助语言使用者掌控其语言和知识的使用。
通过精心设计的访问权限架构和透明的协作条件,数字工具成为文档与复兴计划和日常语言使用实践相联系的另一种途径。
法律框架和语言权利
语言的记录与法律认可密切相关。联合国教科文组织和联合国发布的国际文件强调,使用母语是一项人权,文化多语现象被视为一种需要保护的资源。
各国法律对语言地位的定义各不相同。一些国家保障以当地语言进行教学,而另一些国家则仅允许在文化语境中使用当地语言,不予法院和政府机构的官方认可。这些差异影响着语言获取资金和文献记录项目的规模。
法律规范也影响着档案馆。许可协议正在涌现,这些协议规定了谁可以复制录音、在何种条件下允许商业用途以及需要何种形式的署名。档案馆正在制定自己的同意模式,以兼顾社群的集体权利,而不仅仅是发言者的个人权利。
跨学科文档链接
濒危语言的相关资料不仅对语言学家有意义。人类学家利用这些资料分析仪式、亲属关系和行为规范。民族学家通过口述历史研究经济实践和空间概念。音乐学家研究歌曲类型和语言节奏。
这些学科各自贡献了独特的研究方法。例如,对仪式背景的详细描述有助于阐明称谓的含义;而对仪式歌曲的音乐分析则能揭示对音系学和词法学至关重要的重复出现的音节结构。合作研究有助于统一术语和注释格式,从而使这些材料能够应用于不同的研究领域。
音乐和诗歌素材
歌曲、吟唱和诗歌形式需要特殊的记录方法。它们通常与神圣的仪式相关,录制必须获得长老会或宗教领袖的许可。有时,只允许录音,不允许录像,或者存档传播范围有限。
在对这类材料进行注释时,研究人员会与熟悉该传统的讲述者合作:他们阐明诗句的结构、重复诗句的功能以及旋律与重音模式之间的关系。对于歌曲,则会创建多层次的注释:歌词、旋律线、节奏标记以及对内容和表演情境的评注。
音乐素材常用于教育项目中。录制的歌曲成为学校音乐会、广播节目和家庭聆听合辑的基础。与传承者协调分发方式至关重要,以免违反当地对特定音乐类型的访问规定。
民间知识和环境术语
在许多社区,人们对当地动植物、地貌特征和季节现象的了解与本族语言息息相关。相关文献包括植物、动物和地形名称的列表,以及对其用途和相关故事的描述。
民族生物学家和语言学家记录了哪些特征对分类至关重要:颜色、形状、行为、味道和药用价值。对话记录、实地考察和合作研究表明,这些术语是如何被纳入固定表达和谚语中的。
这些资料随后被用于区域教育项目和环保项目中。重要的是避免将其浪漫化:对于掌握这些资料的人来说,这些知识与日常生存和经济策略息息相关,而不仅仅是象征意义。
城市和侨民社区
有些濒危语言并非在乡村社区得以幸存,而是在大城市和海外侨民社区中得以延续。在这些地区,语言记录面临着不同的挑战:家庭成员可能每天通过手机和即时通讯软件往返于多个国家之间,而祖语也仅在特定的交流场景中才能听到。
一位田野语言学家在公寓、庆典和公共机构等场所记录对话。多语现象尤为明显:同一短语中会出现语码转换,儿童会在与祖母的对话中融入官方语言的元素,而成年人则会根据城市实际情况调整词汇。
在这种情况下进行记录需要灵活的伦理抉择:人们可能因为移民身份、侨民内部的冲突或祖国的政治局势而对被录音心存顾虑。因此,事先讨论资料的存储地点和方式、谁可以查阅这些资料以及如何将录音归还给参与者至关重要。
文献语言学中的方法论之争
专业领域内一直存在一些争论不休的问题。其中一个问题是自然口语和常规引语方法之间的平衡。一些研究者强调自由对话和民间口语,而另一些研究者则认为有必要通过问卷调查系统地收集样本,以避免遗漏罕见的语法结构。
另一个问题涉及随附数据的数量。一些项目投入大量精力描述文化背景、经济实践和谱系,而另一些项目则侧重于语言结构,仅提供最基本的注释。争论的焦点在于,在资源和时间有限的情况下,哪些优先事项才是合适的。
质量标准也得到了讨论:我们是否应该追求录音中最高的技术精确度,即使这会降低交流的自然性?转录中语音细节达到什么程度才算合理?当母语人士和研究人员都忙于其他工作时,检查每份文本应该花费多少时间才算合理?
数据标准和资源互操作性
对于语料库的长期应用而言,标准格式和描述至关重要。OLAC 项目和其他联盟正在开发元数据集,以便使用标准参数(语言、地区、体裁、技术特征和访问条件)来描述语料库。
通用的文本和注释交换格式基于 XML 及相关标准。这便于档案馆之间馆藏资料的转移、软件更新以及新型搜索和可视化工具的开发。每个社区和项目也可以根据自身需求添加额外的字段。
对于词典编纂数据,采用词条描述标准,从而可以将不同的词典链接起来,并与语料库和机器翻译工具进行匹配。即使词典收录的词条数量有限,此类解决方案也能提升其价值。
基于文献的教育材料
许多项目旨在利用录音和标注的结果来教授儿童和成人。语料库被用于制作阅读书籍、音频课程、游戏用闪卡以及俱乐部和学校的教学材料。这些资源均基于真实语音,而非虚构示例。
文献资料有助于识别最常用的词汇和表达方式,以及对初学者有用的典型句型。教师和活动家从语料库中选取短篇小说、对话和歌曲,调整拼写并配上插图。这种方法缩小了“学术”语料库与日常语言使用之间的差距。
一项重要任务是培训社区成员如何使用这些资料。培训内容包括如何使用档案界面、语料库检索技巧,以及如何根据学生的年龄和语言水平调整文本。
濒危语言的媒体和数字内容
纪录片促进了媒体项目的涌现。播客、短视频、广播节目,甚至有时还有以当地语言制作的剧集,都是基于录制的故事和歌曲而创作的。这些形式吸引了习惯于数字环境的年轻受众。
语音语料库有助于字幕和配音的制作。母语人士录制自己的故事,语言学家则协助进行拼写、标记和技术方面的调整。最终制作出的作品既能娱乐观众,又能提升他们母语的听力和阅读能力。
一些项目正在尝试开发交互式应用:例如词汇游戏、短语记忆训练器和本地语音导览。在这些案例中,文档提供了基础,没有文档,这些产品就无法存在。
利用档案历史记录
除了新的实地考察之外,旧馆藏的数字化也至关重要。这些馆藏包括20世纪人类学家和音乐学家制作的留声机圆筒唱片、磁带和早期视频录像。对于许多语言而言,这些是唯一可用的资料。
修复过程包括将音频转换为现代媒体格式、过滤噪声和提高语音清晰度。之后,会像处理现代录音一样,生成转录文本、翻译文本和注释文本。保存原始文件并记录所使用的处理方法至关重要。
通过对比同一种语言的新旧录音,我们可以追踪词汇、语音和语速的变化。这不仅是重要的历史资料,也是现代语言复兴计划的基准,这些计划有时会尝试恢复已消失的词汇或语法形式。
记录“最后的承运人”
在极端情况下,研究人员会遇到只剩下少数几位,甚至只有一位老年受访者仍然在世的情况。此时,研究方法需要调整:重点转移到尽可能让受访者感到舒适,并寻找可能提供更多线索的旧录音、信件和笔记。
这样的人工作量很大,所以录音过程会被分成许多小段,交替进行对话、朗读旧文本、讨论照片和其他视觉刺激。家人和朋友通常也会参与其中,即使他们不再精通这种语言,目的也是为了支持对话并缓解情绪紧张。
伦理层面尤为明显:必须避免成为“最后的见证人”或沦为“最后的传承者”。共同规划录音,讨论想要的主题和素材的使用方式,有助于在一定程度上缓解这些紧张情绪。
项目面临的财务和组织困难
濒危语言的记录工作往往面临资源有限的困境。前往偏远地区的旅费昂贵,而且资助项目与其他的人道主义援助项目存在竞争。短期合同也使得长期规划难以实施。
项目组织工作包括与地方政府协调、获取许可、设备后勤以及招募翻译和助理人员。为了项目的可持续性,与当地学校、社区组织和文化中心建立合作关系至关重要,以便它们在项目资助结束后能够继续开展工作。
政治动荡、自然灾害、疫情和边境关闭等情况会带来额外的挑战。在这种情况下,一些工作会转移到线上,媒体则利用现有的记录设备充当独立的数据收集者。
批评、风险及应对措施
一些研究人员和活动家批评文献记录可能存在“掠夺性”做法,即外部专家获得数据、资助和出版物,而社区本身却无法从中受益。对此,档案馆和相关项目支持合作规划、为档案员提供公平报酬以及共享资料所有权等原则。
隐私和敏感信息问题正在讨论中。档案馆正在实施灵活的访问设置,包括时间限制和用户限制。伦理准则正在制定中,要求研究人员尽可能与社区分享研究成果并采纳反馈意见。
学术界也提出了质量问题:并非所有馆藏都同样详尽,元数据也并非总是符合高标准。继续教育课程、档案馆之间的经验交流以及方法论指南和良好实践案例的出版都能有所帮助。
青年参与和研究演讲者培训
近年来,人们越来越关注青年媒体参与纪录片制作项目。中小学生和大学生接受录音机、摄像机、注释软件的使用培训,并学习语言学和档案学的基础知识。
这种方法可以同时实现多个目标。年轻人可以获得可应用于其他领域的技能,社区可以获得能够独立领导新项目的人才,研究人员可以获得精通社区文化背景和社会网络的合作伙伴。
一些项目专门为母语人士提供奖学金和小额资助,用于开展研究,例如记录家族史、研究当地地名以及收集工艺术语。档案馆则为这些项目提供技术和方法论支持。
许多专家分享的实用指南
尽管项目和方法多种多样,但在对成功记录和保护濒危语言的举措进行描述时,经常会发现一些共同的原则:
- 对社区抱有尊重和合作的态度,共同确定录制的目标和主题。
- 希望捕捉自然的语言,而不仅仅是问卷调查的回答,同时保持所收集数据的语法完整性。
- 长期存储是首要任务:选择可靠的格式、详细的元数据,并将其存储在专门的存档中。
- 尽可能让母语人士参与工作的各个阶段 — — 从录音和转录到词典和教育材料的创建。
- 注重数据重用:开放格式、清晰描述、附带文档解释数据集的结构。
这些指导原则并不能涵盖所有不同的情况,但它们通常被用作规划新项目和讨论已完成工作的起点。
您无法评论 为什么?