生成言語学をこっそり学ぶ(その3)

(factorの定義を修正-2013/05/02)
第1節の前半は句構造規則はさらっと飛ばした変換規則のざっくりとした説明です。後半には、変換規則を適用する前提である構造条件(structural condition)と基本変換(elementary operation)の定義があります。例として "they are flying planes" という謎の文がひとつのみというショボさに比較して、構造条件と基本変換の定式がいきなり一般的で度肝を抜かれました。
今まで読んできた入門書では確かに変換規則の適用条件についてはかなり直感的な(主語、動詞、目的語などの文の意味を使う)記述が多かったような気もします。


まず、解析木をラベル付きカッコを含む文字列を使って表現し、この文字列を区切っていくつかのfactorに分けます(factorization)。このとき分け方にはルールがあるのですが、詳細は第2節にて。


構造条件は述語(predicate)で記述され、factorization が与えられたときに、その真偽が確定する論理式のようなものです。predicateは文法用語の述語とまぎらわしいのですが、ここは論理記号としての述語記号(predicate symbol)の意味です。


構造条件は3タイプの条件の組み合わせであると述べています。
(a) 任意の非終端記号Aに対して、A^n_{i\to j}と記述されるもの。
 このタイプの条件が真になるのは、

      • 1\le i\le j\le n かつ
      • factorizationはn個の分割を持ち、かつ
      • ある一つの非終端記号Aがあって、i から j までのfactorを支配(dominate)している

場合だけと定義されます。支配については、論文中には定義がありませんが、ある一つの非終端記号Aの下にi から j までのfactorの終端記号が全てぶら下がっているという意味です。んーしかしこの定義ちょっと違和感が...たとえば終端記号Sの場合だと数だけあってればどんなfactorizationでも真になりますが、複文で従属文だけを選びたい場合はどうするんでしょうか。ちょっと謎です。


(b) h\to i \equiv^n j\to kと記述されるもの。
 このタイプの条件が真になるのは、

      • 1\le h\le i\le n かつ 1\le j\le k\le n かつ
      • factorizationはn個の分割を持ち、かつ
      • h から i までの factorの(文字列としての)結合とj から k までの factorの結合が一致する場合のみ。

くっつけた文字列が同じならばいいので、右辺と左辺のfactorの数は同じでなくてもかまいません。


(c) 任意の終端記号の列 x に対して、i\to j \equiv^n xと記述されるもの。
 このタイプの条件が真になるのは、

      • 1\le i\le j\le n かつ
      • factorizationはn個の分割を持ち、かつ
      • i から j までの factorの結合から終端記号の列を取り出したものが x と一致する場合のみ。


次に基本変換ですが、これも3タイプあります。
(i) 削除 [T_d,(i,j)]
i から j までのfactorを削除


(ii) 置換 [T_s,(h,i),(j,k)]
j から k までのfactorが部分木のときに、それらを h から i までのfactorにコピーする。


(iii) 付加 [T_r,(h,i),(j,k)][T_l,(h,i),(j,k)]
j から k までのfactorのコピーをh から i までのfactorのそれぞれ右、左に付加する。


うーむ、まあ、上の操作が解析木から解析木への写像になっているためには他にも条件が必要そうです(ラベル付きカッコの対応が壊れないために)。次節を待てでしょうか。


最後に削除に関してですが、変換規則は削除された情報を復元できないといけないという条件が付けられています。ある意味、可逆なんですね。なんでだろ。
Aspects of the Theory of Syntaxを読まずにこれ読んでるという無謀さが徐々に...