您正在浏览: 汉语 >> 专门语料库 >> 中国传媒大学有声媒体文本语料库

中国传媒大学有声媒体文本语料库

  • 网站链接点击跳转到资源链接

    简介

    中国传媒大学有声媒体文本语料库是一个开放、免费使用的语料库,由中国传媒大学 国家语言资源监测与研究有声媒体中心开发。该语料库2003年开始建设,2005年上线,其后不断扩大语料规模,一直为研究者提供免费服务。为方便广大研究者使用,2016年语料库进行了第三次改版。这次改版主要加进了与原来语料规模相等、内容相同的熟语料,可以进行以词为单位或以词性及词性串为单位的词串检索。

    本语料库包括2008至2013六年的34,039个广播、电视节目的转写文本,总字符数为241,316,530个,总汉字数为200,071,896字次。所有文本都进行了分词和词性标注,共计135,767,884词次。为保证语料的典型性和代表性,每年都尽可能选择那些流通度大、年度间又有一定连续性的节目文本;为便于研究者做6年间的历时语言调查,各年度的语料规模尽可能平衡。