研究Freebase

July 26th, 2008

什么是域,类型,属性和话题
我最近突然对Freebase.com非常感兴趣,我一直在思索科研信息的组织方式,虽然分类是一个非常不错的办法,但是单纯的分类,似乎并没有充分利用计算机技术。而且,分类最为头疼的是你先要知道自己找的东西在哪一类,虽然搜索技术可以解决这个问题,但是缺少信息之间的互相连接性。我是在ruanyifeng.com那里看到freebase.com的。阮写了Freebase.com 介绍Freebase再研究,但是我还是没太搞明白信息是如何连接到一起的。于是自己去看freebase的帮助,其中有一项是:What Are Domains, Types, Properties, and Topics?我翻译出来,方便学习。

本文包含Freebase数据结构的基本组成和概念,并试图说明,他们是如何组合到一起的。

基本的数据组分:域,类型,属性和话题,或者叫条目

在Freebase有四种基本的数据组分,涵盖了从普通到特殊的所有分类。他们是:

类型
属性
话题,或者叫条目
域,在Freebase,域是一个总的信息类别,例如电影,宗教,计算机等。用户也能够根据自己感兴趣的领域,创建个人域,也就是自己的信息类别。域背后的最重要的概念就是为一组或者称为一类具有共同类型的事物提供一个广泛的分类信息。

类型,类型是Freebase数据结构的基本构成单位,用来区分域中的信息。例如,电影域中包括下面几个类型:电影演员,电影节,电影发行人,电影登记以及电影格式。如果你查看一个域,你就可以看到此域下的所有类型。比如查看food域,就可以看到food下面有干酪,啤酒,茶,茶类型,啤酒类型,啤酒品牌,酿造厂拥有者,干酪质地等类型。浏览类型,如果你继续查看类型,你就能看到包含这些类型的话题(或叫条目)。目前,在电影演员类型下,已经有30596个话题(或叫条目)。类型中最重要的概念是可以将新的或者已经存在的类型加入到话题(或叫条目)中,这样可以给话题提供更为详尽的信息,也可以通过将这一话题添加倒另外一个域中来实现。

属性,是类型里的一个特殊信息元素,如,电影演员类型就有三个属性,电影演员,配音演员及IMDB分类。当将电影演员类型加入到一个话题中,属性也就自然变成了这个话题信息的一项,用户可以为这个话题添加属性。
话题,也称条目。是类型特殊实例。添加一个类型到一个话题,就像说,话题是某类型的实例。这里面的一个重要概念就是,不像那些传统的数据库,每个话题,或条目都是独立的,在Freebase,话题是一个信息集散地,能连接倒其他的域或者话题,他们之间的连接纽带,就是类型。

实例剖析

比如以cheddar Cheese为例,他属于food域内,有人为它添加了cheese类型,而cheese类型下,自然包括四个属性,这四个属性,是cheese类型自带的,只要你为任何一个话题添加了cheese类型,那么cheese类型下面的属相就自然添加上了。

原文利用Arnold Schwarzenegger 做例子,你可以自己进去看看。

到此,我明白了freebase是如何规范信息,及如何让各个信息连接到一起的了。domain,域,起到分类的作用,然后类型,类似一个容器,是对同一域内信息的进一步分类,而每个类型拥有的属性,就是对类型的描述。而话题,或称为条目,某一域下,具有某种类型的实例,比如,上面在food域的具有cheese类型的cheddar Cheese。就是一个话题,一个条目。这样,具有同一类型的信息,就自然的通过类型连接到一起了。而每一个类型的属性的值,又可以成为一个话题,或者条目,具有他自己的类型。比如上面,Cheddar Cheese的Cheese类型的Country Of Origin属性的值England,又有他的类型和所属的域,属于Location域,Film域,当然,还用户还可以自己添加域,每个域下,有自己的类型。这样就形成一个网状结构。就可以实现复杂的查询。

Entry Filed under: IT技术

Leave a Reply

最新文章

分类

最新评论

存档

标签云

Blogroll