2010年3月6日 星期六

手工打造算式計算機

前面已經對(E)BNF表示式作過一個簡介,現在要來看看怎麼樣實作一個可以處理簡單的整數四則運算的Parser。因為我們的重點將放在Parser的語法器(syntax analyser)上,所以忽略字彙剖析器(lexical scanner)不談,雖然一個Parser是由這二部份構成。

;

許多Parser或Compiler相關的書籍資料上,都會拿簡單的算式計算機作為範例,可以找的到算式計算機的EBNF表示式,底下我們直接引用:

expression = term ('+' term | '-' term)*
term = factor ('*' factor | '/' factor)*
factor = integer | group
group = '(' expression ')'

上面的語法可以使用來解析如下的算式:

1+2-3*4
5*(6-(7+8)/9)

;

那麼要如何實作出能夠解析符合我們定義好的規則語法的資料的剖析器呢?

一個剖析器的轉換工作主要分成二個部份:將讀入的資料串流分解為有意義的小單位 token,及處理這些token間的關係。將資料串流分解成小單位 token的工作我們不多作說明。我們現在直接假設我們已經能夠得到分解完畢的 token了,接下來的工作就是分析這些 token之間的關係,檢查它們是否符合我們定義的規則語法。

作法相當的直接。首先,我們從資料串流中獲取一個token,接著檢查這個token是否符合我們正在檢查的語法的第一個符號,如果比對結果是符合的話,那麼我們就把當前的 token 給丟棄並再讀入下一個token,接著再繼續拿這個token和規則的下一個符號作比對。在比對規則時,如果中間遇到了非終端符號,則這個非終端符號會再展開。一直重複這個動作直到讀完所有資料為止,比對的程序才結束。

拿我們定義的group規則來作說明,以下為虛擬碼。
// 檢查當前的token是否是我們所期望匹配的符號
void match(token)
{
  if (current_token == token)
    current_token = get_next_token(); // 如果匹配成功則再讀入下一個符號
  else
    error(token + “ token expected); // 比對失敗報出錯誤
}

// group規則
void group()
{
  match('('); // 第一個符號需匹配 '(' 字元 (終端符號)
  expression(); // expression是另一條規則需在往下展開 (非終端符號)
  match(')'); // 最後一個符號需匹配 ')' 字元 (終端符號)
}
使用這樣的方法我們可以很容易的把(E)BNF描述句轉成程式碼實作出來。

;

我們已經知道要怎麼把我們的算式計算機給實作出來,所以接下將前面定義的EBNF表示式轉換成如下的C/C++程式碼。
// 規則:group := '(' expression ')'
float group()
{
  float val;
  match('('); // 第一個符號需匹配 '(' 字元
  val = expression(); // expression是另一條規則需要往下展開
  match(')'); // 最後一個符號需匹配 ')' 字元
  return val;
}
接著是factor。
// 規則:factor := integer | group
float factor()
{
  if ('(' == current_token) // 是group規則的開始符號嗎?
    return group(); // 以group規則展開
  else
    return get_number(); // 讀解出一個數字
}
factor這條規則是由integer或group這樣的規則組成,其中 integer是個終端符號而group是非終端符號,所以我們一開始先作一個檢查來判定目前讀到的 token是不是group規則的開始符號,如果是的話就再以group規則展開,否則就直接讀取出一個數字來。

接著來看term這條規則。
// 規則:term := factor (('*' factor) | ('/' factor))*
float term()
{
  float val = factor();
  while ('*' == current_token || '/' == current_token)
  {
    if ('*' == current_token)
    {
      match('*');
      val *= factor();
    }
    else
    {
      match('/');
      val /= factor();
    }
  }
  return val;
}
最後是expression。
// 規則:expression := term (('+' term) | ('-' term))*
float expression()
{
  float val = term();
  while ('+' == current_token || '-' == current_token)
  {
    if ('+' == current_token)
    {
      match('+');
      val += term();
    }
    else
    {
      match('-');
      val -= term();
    }
  }
  return val;
}
大功告成!

;

因為我們實作的是簡單的算式計算機,所以用的方法很直接,對於錯誤的處理是直接中斷跳出,在更複雜的Parser就必須再配合roll back的機制,這樣才能處理option的情況,基本概念如下的虛擬碼。
bool ab()
{
  char* save = p;
  if ('a' == *p ++ && 'b' == *p++)
    return true;

  p = save; // roll back
  return false;
}
這樣子的實作手法會更一般化。

p是輸入串流也是我們讀取token的來源,在進入點我們一律會先把目前串流的位置記錄下來,以便當這條規則不符合時可以回覆原來的狀態,讓上一層規則可以繼續嘗試其它規則。

沒有留言:

張貼留言

Related Posts Plugin for WordPress, Blogger...