您正在浏览: 英语 >> 通用语料库 >> 英国国家语料库(BNC)

英国国家语料库(BNC)

  • 网站链接点击跳转到资源链接

    简介

    英国国家语料库(BNC)是一个包含1亿单词的书面和口语样本集合,这些样本来自广泛的来源,旨在代表20世纪后期英国英语的广泛横截面,包括口语和书面语。最新版本是2007年发布的BNC XML版。

    BNC的书面部分(90%)包括,例如,来自地区和全国性报纸、专业期刊和杂志、适合所有年龄和兴趣的学术书籍和流行小说、已发布和未发布的信件和备忘录、学校和大学论文等各种文本的摘录。口语部分(10%)由未经脚本的非正式对话的正字法转录组成(由不同年龄、地区和社会阶层的志愿者以人口统计学平衡的方式录制),以及在不同上下文中收集的口语语言,范围从正式的商业或政府会议到广播节目和电话采访。

    该语料库根据文本编码倡议(TEI)的指南进行编码,以表示CLAWS(自动词性标注器)的输出和文本的其他各种结构属性(例如,标题、段落、列表等)。每个文本还以符合TEI标准的头部形式包含了完整的分类、上下文和书目信息。

    构建该语料库的工作始于1991年,并于1994年完成。项目完成后没有添加新的文本,但在发布第二版BNC World(2001年)和第三版BNC XML版(2007年)之前对语料库进行了稍微修订。自项目完成以来,已经单独发布了两个子语料库,包含来自BNC的材料:BNC Sampler(一个包含一百万书面单词和一百万口语单词的通用集合)和BNC Baby(来自四个不同体裁的四个一百万单词样本。

    关于BNC的所有方面的完整技术文档,包括其设计、标记和内容,由《英国国家语料库(XML版)参考指南》提供。对于参考指南的早期版本和其他文档,请参阅BNC档案页面。

    BNC是什么样的语料库?

    单语种:它处理现代英国英语,而不是在英国使用的其它语言。然而,非英国英语和外语单词确实出现在语料库中。

    共时性:它涵盖了二十世纪末的英国英语,而不是产生它的历史性发展。

    通用性:它包括许多不同的风格和变体,并不局限于任何特定的主题领域、体裁或注册。特别是,它包含了口语和书面语言的例子。

    样本:对于书面来源,从单一作者文本的各个部分抽取了45,000个单词的样本。最多45,000个单词的较短文本或多作者文本,如杂志和报纸,被完整包含。抽样允许在1亿的限制内覆盖更广泛的文本,并避免过度代表特异文本。