您正在浏览: 多语种 >> 通用语料库 >> 美国国家语料库(ANC)

美国国家语料库(ANC)

  • 网站链接点击跳转到资源链接

    简介

    美国国家语料库(ANC)项目正在促进一个与英国国家语料库(BNC)相当的语料库的发展,覆盖美国英语。语料库分析工作已经证明,由于语言使用的众多差异,BNC不适合研究美国英语。

    自2005年通过语言学数据联盟(LDC)发布了2200万单词的数据以来,ANC项目承诺只包含完全开放的数据,并通过我们的网站以及通过LDC自由分发所有数据和注释。ANC第二次发布的1500万单词子集现在构成了开放美国国家语料库,可以从本网站下载用于任何用途。ANC项目目前持有约4000万额外的开放数据单词,当其生产资金可用时,这些数据将被处理以包含在OANC中。

    OANC是一个依赖于来自语言学和自然语言处理社区以及广大公众的数据和注释贡献的合作开发项目。

    OANC的目标是包含至少1亿单词的核心语料库,包括书面和口语(转录)数据,其体裁与BNC相当。OANC中的体裁还包括近年来可用的“新”类型的语言数据,如网络博客和网页、推文、聊天、电子邮件和说唱音乐歌词。除了核心的1亿单词外,OANC还将包括一个额外的组件,可能有数亿单词,旨在提供最广泛和最大的数据选择。

    与BNC不同,OANC针对多种语言现象进行了注释,包括逻辑结构、单词和句子边界、词形和词性(对于几种不同的标签集)、浅层解析(名词和动词块)以及命名实体(人、组织、地点、日期)。所有注释都是自动生成且未经验证的。OANC的一个500,000单词子集,即手动注释子语料库(MASC),包括了这些和其他一些已手动生成或手动验证的广泛语言现象的注释。