语料库搜索引擎服务是国家语委 “十四五” 科研规划重点项目“面向大数据时代的中文语料库引擎”(项目编号:ZDI145-22)的研究成果。该搜索引擎支持语料库查询语言CQL,为用户提供了灵活且高效的语料检索和统计分析功能。

功能列表
类型 查询 说明
单词查询 [t="健康"] 查找词语"健康"
词性查询 [pos="NOUN"] 查找所有名词
复合查询 [t="健康" & pos="NOUN"] 查找所有作为名词使用的"健康"
序列匹配 [pos="ADJ"] [pos="NOUN"]{2} 查找一个形容词后面跟两个名词的序列
位置匹配 [#0 & t="中国"] 查找第 0 个词为"中国"的文档
逻辑关系 [t="北京"] | [t="上海"] 匹配单词"北京"或"上海"
逻辑关系 [t="健康" & pos="ADJ"] 匹配所有作为形容词的"健康"
逻辑关系 [!t="中国"] 匹配所有除"中国"之外的单词。
包含关系查询 <s/> containing ([t="中国"]) 匹配所有包含"中国"的句子,其中 <s/> 表示句子的 XML 标签
位置关系查询 [t="中国"] followedby [pos="VERB"] 匹配后续词项为动词的"中国"
位置关系查询 [pos="NOUN"] precededby [t="的"] 匹配所有前面有"的"的名词
频率统计 [pos="VERB"] [pos="NOUN"] 统计匹配这一序列模式的不同实例的出现频次,并按频次降序排列
上下文统计 [pos="VERB"] [pos="NOUN"] 统计这一序列模式结构的上下文中出现的词
词性列表
POS 中文词性名称 解释 案例
ADJ 形容词 描述事物的性质或特征 美丽的
ADP 介词 在句子中引导宾语
ADV 副词 修改动词、形容词等,表程度或方式 非常
AUX 助动词 与主动词搭配,形成时态、语态等
CCONJ 并列连词 连接两个相等的结构
DET 限定词 修饰名词,给出信息量
INTJ 感叹词 表达情感或反应
NOUN 名词 人、地点或事物的名称
NUM 数词 表示数量或序号
PART 助词 对句子中的其他成分进行修饰或限制
PRON 代词 代替名词
PROPN 专有名词 特定的人名、地名等 北京
PUNCT 标点符号 句子的停顿和语调
SCONJ 从属连词 引导从句 如果
SYM 符号 用于表达数学或货币等符号
VERB 动词 表示动作或状态
X 其他 难以归类的其他词 啊哈