各位领导、各位专家大家好,非常高兴有这个机会跟大家分享一下拓尔思公司在大规模知识体系构建、大数据管理方面的工作。
首先我给大家介绍一下拓尔思公司。公司成立于1993年,目前注册资本是两个亿,净资产是8个亿。我们去年6月在创业板上市,号码是300229,目前有600名员工,技术员工有400名。我们是中国目前最大的搜索和内容管理技术提供商。
下面介绍一下我们公司的基础产品布局情况。我们的方向是大数据、云计算、移动互联网、社会化计算。
最核心的技术包括信息检索、自然语言理解及文本挖掘、多媒体检索、信息采集。
我们会针对大数据推出大数据管理系统。还有TRS内容管理平台、身份服务器系统等等。
随着文化产业向数字化和知识服务转型,对知识体系构建技术和语义检索的要求越来越高。那么仅仅有大数据管理技术是不够的。
传统知识库构建技术的局限有很多方面。我们知道Google的知识图谱,它是不管用户输入任何一个关键词都能获得一个完整的知识体系,并即时发现更多的相关信息。
下面介绍一下我们TRS大规模知识体系构建技术。
采用文本挖掘、信息检索、自然语言处理技术的最新研究成果。对领域文本库进行大规模知识库的自动与半自动化构建。结合TRS公司多年的知识工程能力与项目建设。
知识体系构建策略,我们采用自下而上的构建策略。采用自动化方法从大规模用户进行实体收取,再从文本库大众挖掘语义关系。自动从维基百科等资源中获取概念及语义关系作为补充。将概念及语义关系映射到已有的语义资源上,还有专家梳理。
概念收取和新词识别。主要采用统计与规则相结合的方法,从领域文本库中自动识别领域主题词,形成一部领域主题词典、供领域专家筛选。自动发现新词,对已有的领域辞典进行补充。
两种应用场景,一种是从无到有地建立领域词典。另外可以有增量式补充领域词典。
我们构建概念词典基础上还需要语义关系发现。采用统计与规则相结合的方法,在领域文本库中自动挖掘主题词之间的语义关系:同义词关系、部分包含关系、同现关系。
实体识别。可以自动识别领域文本库中出现的人名、地名、电话号码等等方面。
实体关系抽取。在实体识别基础上挖掘实体的属性、实体之间的关系,实体属性包括人物的年龄、职业、籍贯等等。实体之间的关系:上下级关系、人物与机构关系等等。
我们的领域文本往往包含的概念不是特别的完整,所以我们需要借助一下外部的资源,例如维基百科、百度百科这样的一些资源,里面蕴含了丰富的人工加工的知识,可以采取其信息对我们进行补充和丰富。
现在有的领域已经有了一种语义资源,比如行业主题词表、领域分类法。
知识体系构建最后一步需要专家进行参与。主要是梳理概念及语义关系。构建大规模知识体系之后,下面就是我们如何对知识进行知识点的拆分、知识点的标注。知识点首先要做片段化,可以按照章节段落进行拆分,也可以在自然结构基础上拆分成一些知识点。
经过上面的工作下面就可以提供语义检索及可视化的服务。比如实现基于知识点的检索,知识点的浏览与语义关联导航。经过知识点标引之后,会更加符合我们的需要。左边是分类数,右边是基于分类数可以看到一些更有针对性的知识点。浏览知识点的时候可以相关知识点信息,例如相关症状、体征等等方面。
数据的爆发式增长和社会化趋势,新摩尔定律。大数据已经成为一种自然资源。目前大数据它产生的背景是现有商业软件对于处理大数据还存在一定困难,比如获取、存储、搜索、分享、分析、可视化等方面都存在一些问题。
对文化产业而言,文化产业每时每刻生产着图书、音视频等内容,那么它们经过知识点拆分一本书可以变成几十本甚至上百本书。我们文化产业可以理解为跨媒体的大数据类型。
TRS现在正在推出一个新的产品“大数据管理系统V7.0”,首先可以支持海量数据管理。支持分布式并行计算,多副本机制、没有单点的高可靠体系架构,兼容Hadoop标准。创新的跨媒体、多检索引擎机制、提供开放的二次开发接口等等。
我们认为在大数据里面还有另外一个分支,我们称之为机器数据。这和之前提到的不一样。具体到文化产业,包括用户行为信息(浏览、检索、购买、点评信息)。版权传播与追踪信息。服务质量监测信息。所以这些也需要我们进行处理。
“TRS机器数据挖掘引擎”会提供一个完整的解决方案,特性是支持机器数据实时采集、搜索分析、大规模部署的自动化和运行状态监控等等。
新华社多媒体数据库系统。这是新华社的核心业务支撑。全面整合新华社的文字、图片、图表、音视频、报刊等全部资源和社会上有价值的新闻信息资源。里面包含多语种,比如有1.5亿条原创新闻资讯。
还有一个例子是国家知识产权局专利检索服务系统。因为数据量大、比较复杂。值得一提的是,这是一个基于图象内容的检索服务,根据图象纹理、颜色等特征进行检索。
谢谢大家!
来源:中国图书出版网