規則運算式

下表列出可用於建立自訂語言字典的規則運算式。

項目名稱 傳統規則運算式符號 使用範例和說明
任何字元 . c.t — 代表「cat,」「cot,」等。
群組中的字元 []

[b-d]ell — 代表「bell,」「cell,」「dell,」等。

[ty]ell — 代表「tell」與「yell」

非群組中的字元 [^]

[^y]ell — 代表「dell,」「cell,」「tell,」但禁止「yell」

[^n-s]ell — 代表「bell,」「cell,」但禁止「nell,」「oell,」「pell,」「qell,」「rell,」和「sell」

| c(a|u)t — 代表「cat」和「cut」
0 筆或更多相符 * 10* — 代表數字 1、10、100、1000 等
1 筆或更多相符 + 10+ — 允許數字 10、100、1000 等,但禁止 1
字母或數字 [0-9a-zA-Zа-яА-Я]

[0-9a-zA-Zа-яА-Я] — 允許任何單一字元

[0-9a-zA-Zа-яА-Я]+ — 允許任何字詞

大寫拉丁字母 [A-Z]
小寫拉丁字母 [a-z]
大寫斯拉夫字母 [А-Я]
小寫斯拉夫字母 [а-я]
數字 [0-9]
@ 保留。

注意:

  1. 若要將規則運算式符號當作一般字元使用,必須在前面加上反斜線。例如,[t-v]x+ 代表 tx、txx、txx、ux、uxx 等,而 \[t-v\]x+ 代表 [t-v]x、[t-v]xx、[t-v]xxx 等
  2. 若要將規則運算式元素組成群組,請使用括弧。例如,(a|b)+|c 代表 c 或任何像 abbbaaabbb、ababab 等的組合。(可能有 a 和 b 的任何序號的任何非零長度的字詞),而 a|b+|c 代表 a、c 和 b、bb、bbb 等。

範例

假如您在辨識一個包含三欄的表格:出生日期、姓名、電子郵件位址。在這種情況下,您可以建立兩種新語言、資料和位址,並為它們指定以下規則運算式。

日期的規則運算式:

數字代表可能由一位數字 (1、2 等) 或兩位數字 (02、12) 組成的日期,但不可為零 (00 或 0)。然後,日期的規則運算式應看起來像:((|0)[1-9])|([1|2][0-9])|(30)|(31)。

月份的規則運算式應看起來像:((|0)[1-9])|(10)|(11)|(12)。

年份的規則運算式應看起來像:([19][0-9][0-9]|([0-9][0-9])|([20][0-9][0-9]|([0-9][0-9])。

現在,我們需要將所有這些組合起來並用句點隔開數字 (如 1.03.1999)。句點為規則運算式符號,因此必須在之前放置反斜線 (\)。

然後,完整日期的規則運算式應看起來像:

((|0)[1-9])|([1|2][0-9])|(30)|(31)\.((|0)[1-9])|(10)|(11)|(12)\.((19)[0-9][0-9])|([0-9][0-9])|([20][0-9][0-9]|([0-9][0-9])

電子郵件地址的規則運算式:

[a-zA-Z0-9_\-\.]+\@[a-z0-9\.\-]+

02.11.2018 16:20:12

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.