深入double array trie

什么是Double Array Trie

Double Array Trie是TRIE树的一种变形，它是在保证TRIE树检索速度的前提下，提高空间利用率而提出的一种数据结构，本质上是一个确定有限自动机(deterministic finite automaton，简称DFA)。
所谓的DFA就是一个能实现状态转移的自动机。对于一个给定的属于该自动机的状态和一个属于该自动机字母表Σ的字符，它都能根据事先给定的转移函数转移到下一个状态。
对于Double Array Trie（以下简称DAT），每个节点代表自动机的一个状态，根据变量的不同，进行状态转移，当到达结束状态或者无法转移的时候，完成查询。

1 什么是Double Array Trie
2 DAT结构
2 参考资料

什么是Double Array Trie

Double Array Trie是TRIE树的一种变形，它是在保证TRIE树检索速度的前提下，提高空间利用率而提出的一种数据结构，本质上是一个确定有限自动机(deterministic finite automaton，简称DFA)。

所谓的DFA就是一个能实现状态转移的自动机。对于一个给定的属于该自动机的状态和一个属于该自动机字母表Σ的字符，它都能根据事先给定的转移函数转移到下一个状态。

对于Double Array Trie（以下简称DAT），每个节点代表自动机的一个状态，根据变量的不同，进行状态转移，当到达结束状态或者无法转移的时候，完成查询。

DAT结构

DAT定义

DAT是采用两个线性数组(base[]和check[])，base和check数组拥有一致的下标，（下标）即DFA中的每一个状态，也即TRIE树中所说的节点，base数组用于确定状态的转移，check数组用于检验转移的正确性。因此，从状态s输入c到状态t的一个转移必须满足如下条件：

  base[s] + c == t
  check[base[s] + c] == s

DAT也可如下描述：
1. 对于给定的状态s，如果有n个状态（字符c₁,c₂,...,c_n）的转移，需要在base数组中找到一段空位t₁,t₂,...,t_n，使得t₁-c₁,t₂-c₂,...,t_n-c_n都为base数组中下标为s的值，注意此处的t₁,t₂,...,t_n不一定在base数组中连续；
2. 对于转移的状态t₁,t₂,...,t_n，其作为下标时，check[t₁],check[t₂],...,check[t_n]的值都为状态s；
为了便于理解，这里有一个256叉树的图（准确的说是26叉树，但是图画得不好，暂且我们把它当作256叉树吧）。

图中最顶端有256的父节点，每个父节点都有256个子节点；那么无论汉字和字母，都可以分布在256个子节点上，但是如果词语只有app和apple以及banana三个词语，那么256个父节点显得有些浪费，实际上只需要2个父节点就可以了。
- 如果节点的类型为整型，我们把所有的节点进行编号的话，且直接采用词语的首字母ascii码来直接作为节点，97,98这两个父节点会使用到，其余的父节点是多余的，使用一个空指针即可。
- 根据256叉树的定义，97和98也会有256个子节点，但是词语的第二个字母显示，97的下一个节点只有一个p(112)节点，98的下一个节点只有一个a(97)节点，则其余的节点仍然为空，这样，由于树型的算法的复杂度为O_n，即最多n次匹配即可完成一次查找，而我们可以省略不用的节点，降低空间的空闲率。

DAT匹配

基于上述定义，DAT的匹配过程如下：假设当前状态为s，对于输入的字符c有：

  t = base[s] + c;
  if check[t] = s then
       next state = t;
  else
       fail;
  endif

DAT匹配的过程相对简单，很容易理解。

DAT构造

首先我们需要了解一下DAT的内存管理
- 在DAT的构造过程当中，一般有两种构造方法：
  1. 已知所有词语，静态构造双数组；
    - 此方法构建时，是将所有词语全部放入到内存，对词语中所有的父节点和其下的子节点分别进行排序（一般为ASCII码排序），找出最初的父节点数目和有多少个不同的子节点数，方便对内存进行分配。这样的优点是找到放置子节点空间完全能够容纳子节点，以后不需要进行扩充，相对复杂度较低，且构建速度相对很快。缺点是以后添加词语不太灵活，每次需要重新构建；
  2. 动态输入词语，动态构造双数组。
    - 当n条词语准备构建双数组时，先以添加一条词语cat为例，双数组中base[1024]数组根节点为0（默认值，当然根据“个人爱好”可以随意指定），下标为0，为词语cat的首字符"c“(99)找一个合适的位置，比如位置100，即：
    - ```
       base[0] = 100;
```
- 此处那么在base[100]的位置下，加上字符"c"的ascii值得到下一个状态(t)的位置(199)，然后在一个合适的位置（空闲的位置）197，使得
- ```
   base[199]+'a'=197;
```
    - 那么状态(t)，即base[199]的值可以通过上述公式得到仍然为100
    - 值得注意是，在状态(f)，目前即字符"t"，结束时，其value值可以做如下处理，如果状态(f)结束，没有子节点，则
    - ```
       base(f)=-1 * f;
```
- 如果状态(t)结束，仍然有多个子节点，那么其base数组标记为
- ```
   base(f)=-1 * base(f);
```
    - 当输入第二条词语camera时，仍然按照上述方式进行，当进行到字符a时，字符a位置的下标为197，检查check[base[197]+'m']是否为空位。
      - 如果为空位，则base[197]的值仍然可以为100；
      - 否则需要重新寻找两个空位位置Ψ(base[197]+'m')，λ（base[197]+'t'），使得 base[base[197]+'m']=-1(-1标记为空位状态，"m"为camera的第三个字符)和 base[base[197]+'t']=-1（"t"为cat的第三个字符），即第二级节点a后面的两个新节点能有位置存放新的偏移量，并使得 check[base[197]+'m']=197和check[base[197]+'t']=197即可，那么base[197]的值需重新指向到新的位置(Ψ+λ-'m'-'t')/2。
    - 接着继续重新构建下面新两个节点的DAT结构，且第一个节点的结构构造完成后，需要清除原来的构建。
    - 动态构造双数组能够很方便的动态插入词语，不需要重新构造整个TRIE树，但是实现的逻辑相对复杂一些。
- 若初始状态申请的数组大小不足时，需要进行扩充，并将原来的数组拷贝到新增大的数组上，且原来的数组一般需要进行内存释放，如下图：

DAT构造中，check数组需要指向父节点，即base数组中父节点的下标即可，这里有一副简图，描述了构造DAT双数组的方式：

DAT改进方案

DAT相对普通TRIE树来说，提高了空间的利用率，但是空间利用率还不是最好的。
比如单词elephant(8个字符)，如果所有词语当中只有一个以e开头的词语，一般我们实现trie的结构写成

   struct BC_st
   {   
       int base;
       int check;
   };

那么整个词语在DAT中占用的空间是4*2*8=64字节。其实存储没有必要浪费那么多空间，在DAT结构里面，完全可以以7个字节来存储lephant，查询的时候lephant实现字节查找就可以了。
DAT是一个树型的结构，不断发散的结构，如果在对面实现一个同样的结构，相对来说，会减少一半的空间体积，如图所示：

当然上述的结构已经有人实现过，实现比较复杂。
另外，在DAT双数组当中，有很多的空闲空间未得到充分利用，可以通过链表将未使用的空间串联起来，更加合理的利用，提高数据密集程度。

参考连接

http://linux.thai.net/~thep/datrie/datrie.html

发表评论

姓名

Email地址

您的网站

记住我？

评论 (您可以使用HTML标签格式化评论)

日	一	二	三	四	五	六
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

深入double array trie

什么是Double Array Trie

什么是Double Array Trie

DAT结构

DAT定义

DAT匹配

DAT构造

DAT改进方案

参考连接

Categories

Tags

评论(6)

发表评论

August 2012

关于此日记

Friend Links

搜索

最新日记

深入double array trie

什么是Double Array Trie

什么是Double Array Trie

DAT结构

DAT定义

DAT匹配

DAT构造

DAT改进方案

参考连接

Categories

Tags

评论(6)

发表评论

August 2012

关于此日记

归档

Friend Links

登录

搜索

最新日记

标签