语料库搜索引擎

语料库搜索引擎服务是国家语委 “十四五” 科研规划重点项目“面向大数据时代的中文语料库引擎”（项目编号：ZDI145-22）的研究成果。该搜索引擎支持语料库查询语言CQL，为用户提供了灵活且高效的语料检索和统计分析功能。

类型	查询	说明
单词查询	[t="健康"]	查找词语"健康"
词性查询	[pos="NOUN"]	查找所有名词
复合查询	[t="健康" & pos="NOUN"]	查找所有作为名词使用的"健康"
序列匹配	[pos="ADJ"] [pos="NOUN"]{2}	查找一个形容词后面跟两个名词的序列
位置匹配	[#0 & t="中国"]	查找第 0 个词为"中国"的文档
逻辑关系	[t="北京"] \| [t="上海"]	匹配单词"北京"或"上海"
逻辑关系	[t="健康" & pos="ADJ"]	匹配所有作为形容词的"健康"
逻辑关系	[!t="中国"]	匹配所有除"中国"之外的单词。
包含关系查询	<s/> containing ([t="中国"])	匹配所有包含"中国"的句子，其中 <s/> 表示句子的 XML 标签
位置关系查询	[t="中国"] followedby [pos="VERB"]	匹配后续词项为动词的"中国"
位置关系查询	[pos="NOUN"] precededby [t="的"]	匹配所有前面有"的"的名词
频率统计	[pos="VERB"] [pos="NOUN"]	统计匹配这一序列模式的不同实例的出现频次,并按频次降序排列
上下文统计	[pos="VERB"] [pos="NOUN"]	统计这一序列模式结构的上下文中出现的词

类型

查询

说明

单词查询

[t="健康"]

查找词语"健康"

词性查询

[pos="NOUN"]

查找所有名词

复合查询

[t="健康" & pos="NOUN"]

查找所有作为名词使用的"健康"

序列匹配

[pos="ADJ"] [pos="NOUN"]{2}

查找一个形容词后面跟两个名词的序列

位置匹配

[#0 & t="中国"]

查找第 0 个词为"中国"的文档

逻辑关系

[t="北京"] | [t="上海"]

匹配单词"北京"或"上海"

逻辑关系

[t="健康" & pos="ADJ"]

匹配所有作为形容词的"健康"

逻辑关系

[!t="中国"]

匹配所有除"中国"之外的单词。

包含关系查询

<s/> containing ([t="中国"])

匹配所有包含"中国"的句子，其中 <s/> 表示句子的 XML 标签

位置关系查询

[t="中国"] followedby [pos="VERB"]

匹配后续词项为动词的"中国"

位置关系查询

[pos="NOUN"] precededby [t="的"]

匹配所有前面有"的"的名词

频率统计

[pos="VERB"] [pos="NOUN"]

统计匹配这一序列模式的不同实例的出现频次,并按频次降序排列

上下文统计

[pos="VERB"] [pos="NOUN"]

统计这一序列模式结构的上下文中出现的词

POS	中文词性名称	解释	案例
ADJ	形容词	描述事物的性质或特征	美丽的
ADP	介词	在句子中引导宾语	在
ADV	副词	修改动词、形容词等，表程度或方式	非常
AUX	助动词	与主动词搭配，形成时态、语态等	被
CCONJ	并列连词	连接两个相等的结构	和
DET	限定词	修饰名词，给出信息量	这
INTJ	感叹词	表达情感或反应	哎
NOUN	名词	人、地点或事物的名称	猫
NUM	数词	表示数量或序号	三
PART	助词	对句子中的其他成分进行修饰或限制	的
PRON	代词	代替名词	他
PROPN	专有名词	特定的人名、地名等	北京
PUNCT	标点符号	句子的停顿和语调	，
SCONJ	从属连词	引导从句	如果
SYM	符号	用于表达数学或货币等符号	＄
VERB	动词	表示动作或状态	跑
X	其他	难以归类的其他词	啊哈

POS

中文词性名称

解释

案例

ADJ

形容词

描述事物的性质或特征

美丽的

ADP

介词

在句子中引导宾语

在

ADV

副词

修改动词、形容词等，表程度或方式

非常

AUX

助动词

与主动词搭配，形成时态、语态等

被

CCONJ

并列连词

连接两个相等的结构

和

DET

限定词

修饰名词，给出信息量

这

INTJ

感叹词

表达情感或反应

哎

NOUN

名词

人、地点或事物的名称

猫

NUM

数词

表示数量或序号

三

PART

助词

对句子中的其他成分进行修饰或限制

的

PRON

代词

代替名词

他

PROPN

专有名词

特定的人名、地名等

北京

PUNCT

标点符号

句子的停顿和语调

，

SCONJ

从属连词

引导从句

如果

SYM

符号

用于表达数学或货币等符号

＄

VERB

动词

表示动作或状态

跑

其他

难以归类的其他词

啊哈