C# 词法分析器（七）总结

系列导航

（一）词法分析介绍
（二）输入缓冲和代码定位
（三）正则表达式
（四）构造 NFA
（五）转换 DFA
（六）构造词法分析器
（七）总结

在之前的六篇文章中，我比较详细的介绍了与词法分析器相关的算法。它们都比较关注于实现的细节，感觉上可能比较凌乱，本篇就从整体上介绍一下如何定义词法分析器，以及如何实现自己的词法分析器。

第二节完整的介绍了如何定义词法分析器，可以当作一个词法分析器使用指南。如果不关心词法分析器的具体实现的话，可以只看第二节。

一、类库的改变

首先需要说明一下我对类库做的一些修改。词法分析部分的接口，与当初写《C# 词法分析器》系列时相比，已经发生了不小的改变，有必要做一下说明。

1. 词法单元的标识符

词法单元（token）最初的定义是一个 Token 结构，使用一个 int 属性作为词法单元的标识符，这也是很多词法分析器的通用做法。

但后来做语法分析的时候，感觉这样非常不方便。因为目前还不支持从定义文件生成词法分析器代码，只能在程序里面定义词法分析器。而 int 本身是不具有语义的，作为词法单元的标识符来使用，不但不方便还容易出错。

后来尝试过使用字符串作为标识符，虽然解决了语义的问题，但仍然容易出错，实现上也会复杂些（需要保存字符串字典）。

而既简单，又具有语义的解决方案，就是使用枚举了。枚举名称提供了语义，枚举值又可以转换为整数，而且还能够提供编译期检查，完全避免了拼写错误，所以现在的词法单元便定义为 Token 类，与之相关的很多类也同样带上了泛型参数 T。

2. 命名空间

之前的命名空间是 Cyjb.Compiler 和 Cyjb.Compiler.Lexer，现在被改成了 Cyjb.Compilers 和 Cyjb.Compilers.Lexers，毕竟命名空间名称还是比较适合使用复数。

3. 词法分析器上下文

之前对词法分析器上下文的切换，可以使用上下文的索引、标签或 LexerContext 实例本身。但现在只能够通过标签进行切换，这样实现起来更简单些，使用上也不会受到过多影响。

4. DFA 的表示

原先 LexerRule 类中对 DFA 的表示有些简单粗暴，对于不了解具体实现的人来说，很难理解 DFA 的表示。现在重新规划了 LexerRule 类中的接口，理解起来会更容易些。

二、定义词法分析器

这一节是 Cyjb.Compilers 类库中词法分析器的使用指南，包含了完整的文档、实例以及相关注意事项。类库的源码可以从 Cyjb.Compilers 项目找到，类库文档请参见 wiki。

1. 定义词法单元的标识符

前面说到，目前是使用枚举类型作为词法单元的标识符，这个枚举类型中的字段可以任意定义，没有任何限制。不过，为了方便之后的语法分析部分，特别要求枚举值必须是从 0 开始的整数，枚举值最好是连续的，因为不连续的枚举值会导致语法分析部分浪费更多的空间。

使用特殊的值 -1 来表示文件结束（EndOfFile），该值可以从 Token.EndOfFile 字段得到，也可以通过 Token.IsEndOfFile 属性获取词法单元是否表示文件结束。

这里仍然使用计算器作为示例，以下代码便定义了作为标识符的枚举：

在使用的时候，显然会比整数更加方便。

2. 定义词法分析器的上下文

词法分析器的所有定义都是从 Cyjb.Compilers.Grammar 类开始的，因此首先需要实例化一个 Grammar 类的实例：

词法分析器的上下文，可以用来控制规则是否生效。上下文有两种类型：包含型或者排除型。

如果当前是包含型上下文，那么会激活当前上下文的所有规则，同时会激活所有没有指定任何上下文的规则。
如果当前是排除型上下文，那么只会激活当前上下文的所有规则，其它任何规则都不会被激活。

使用以下的方法来分别定义排除型和包含型的词法分析器上下文，label 参数即为上下文的标签：

默认的词法分析器上下文是 "Initial"，通过该标签可以切换到默认的上下文中。需要特别注意的是，由于实现上的原因，上下文必须先于所有终结符定义。

例如，以下的代码定义了一个包含型上下文 Inc，以及一个排除型上下文 Exc。

3. 定义正则表达式

使用以下的方法来定义正则表达式：

正则表达式可以通过 Cyjb.Compilers.RegularExpressions.Regex 类的相关方法构造得到，也可以直接使用表示正则表达式的字符串，相关定义的规则可以参考《C# 词法分析器（三）正则表达式》。

注意，这里定义的正则表达式仅仅用于简化终结符定义，方便重复使用一些通用或复杂的正则表达式，并没有其它的作用。这里定义的正则表达式也不可以包含向前看符号（/）、行首限定符（^）、行尾限定符（$）或者上下文（）。

例如，以下代码定义了一个名为 digit 的正则表达式，以后需要表示数字的时候，就可以直接通过 “{digit}” 来引入，而不需要每次都写 “[0-9]+”。

4. 定义终结符

使用 Grammar.DefineSymbol 方法的相关重载来定义终结符，如以下代码所示：

这些重载被分成了三组。第一组重载，接受 T id 作为与词法单元对应的标识符，和相应的正则表达式及其上下文。当相应的终结符被匹配后，自动返回标识符为 id 的 Token 实例。

第二组重载，具有额外的参数 action，这是只包含一个 ReaderController 参数的委托，当匹配了相应的终结符时，就会被调用。通过 ReaderController 的相应属性和方法，可以对词法分析过程进行一些控制。

最后一组重载，缺少了标识符 id，也就无法自动返回 Token 实例，因此必须指定匹配到相应终结符时要执行的方法。

终结符的动作

在成功匹配某个终结符时，就会执行相应的动作，该动作是一个 Action> 类型的委托。

ReaderController 类包含了与当前匹配的终结符相关的信息，包括上下文、标识符、源文件和文本。主要的方法有 Accept、More、Reject 以及操纵上下文的方法 BeginContext、PopContext 和 PushContext。

Accept 方法会接受当前的匹配，词法分析器会返回表示当前匹配的 Token 实例。

More 方法会通知词法分析器，保留本次匹配的文本。假设本次匹配的文本是 "foo"，下次匹配的文本是 "bar"，如果本次匹配时调用了 More 方法，下次匹配的文本就会变成 "foobar"。

Reject 方法会拒绝当前的匹配，转而使用次优的规则继续尝试匹配。详细信息请参考《C# 词法分析器（六）构造词法分析器》的 2.4 节“支持 Reject 动过的词法分析器”。

Accept 方法和 Reject 方法不能够在一次匹配中同时调用，因为它们是互斥的动作。如果在一次匹配中两个方法都没有调用，那么词法分析器会什么都不做——丢弃本次匹配的结果，直接进行下一次匹配。

对于词法分析器上下文的控制，简单的用法就是利用上下文来切换匹配的规则集，以实现一些“次级语法”，可以参考《C# 词法分析器（六）构造词法分析器》的 3.3 节给出的示例“转义的字符串”。

下面给出计算器的终结符定义。其中，Id 的定义是通过引入正则表达式 digit 来完成的，而且它定义了自己的动作，会将自己对应的文本转换为 double 类型，并保存到 Token.Value 属性中。最后一条语句，通过定义空的动作，使得匹配到的空白被丢弃。

5. 构造词法分析器

以上四步便完成了词法分析器的定义，接下来就是构造词法分析器。使用以下四个方法，就可以直接构造出相应的词法单元读取器（TokenReader 的子类的实例）：

如果调用的是 GetReader 方法重载，则认为动作中不包含拒绝（Reject），会返回比较简单但更高效的词法分析器实现。如果调用的是 GetRejectableReader 方法重载，则认为动过中包含拒绝（Reject），会返回功能更强大但效率略低的词法分析器实现。

其规则是：

如果不包含向前看和拒绝动作，则返回 SimpleReader 的实例。
如果只包含定长的向前看（不包含变长的向前看或拒绝动作），则返回 FixedTrailingReader 的实例。
如果只包含拒绝动作（不包含向前看），则返回 RejectableReader 的实例。
如果包含变长的向前看，或者同时包含拒绝动作和向前看（无论是否变长），则返回 RejectableTrailingReader 的实例。

关于其中实现的细节，请参考《C# 词法分析器（六）构造词法分析器》。

所有的词法单元读取器，都继承自 TokenReader 类，主要包含两个方法：PeekToken 和 ReadToken，与字面意义相同，就是读取输入流中的下一个词法单元，不更改（Peek）或提升（Read）输入流的字符位置。

TokenReader 类还实现了 IEnumerable 接口，因此可以使用 foreach 语句从中读取词法单元。但是，TokenReader 本身并不会储存之前读取过的词法单元，在被枚举的时候，实际上还是会调用 ReadToken 方法，因此只能在一个位置枚举 TokenReader，而且只能枚举一次，枚举完毕后，TokenReader 也同样到达了流的结尾。如果希望多次枚举，还请缓存到数组中再进行操作。

以下是构造出计算器的词法单元读取器，并输出所有读取到的词法单元的代码：

最后是完整的构造计算器的代码：

代码的输出结果如下图所示：

可以看到，最后总是会以特殊值 -1 结束，表示文件结束。

三、自定义词法分析器

Cyjb.Compilers 项目中，提供了完整的词法分析器实现。但是，在实际的使用中，难免会遇到各种各样的需求，可能已实现的词法分析器是无法满足的，此时就必须自己完成词法分析器了。

在完成定义词法分析器后，可以从 Grammar.LexerRule 属性获取到一个 Cyjb.Compilers.Lexers.LexerRule 对象，该实例中存储了一个词法分析器所需的全部信息，并且不会依赖于原始的 Grammar 对象。它就是自定义词法分析器的核心。

下图是与 LexerRule 对象相关的类图。这四个类表示了词法分析器的核心信息，即生成的 DFA 的数据。

图 1 与 LexerRule 相关的类图

LexerRule.CharClass 属性保存了与字符类相关的数据，这是一个长度为 65536 的数组，保存了每个字符所属的字符类。使用从 0 开始的连续整数表示不同的字符类，所有包含的字符类的数量可从 LexerRule.CharClassCount 属性获取。关于字符类的详细信息，请参考《C# 词法分析器（四）构造 NFA》的第三节“划分字符类”。

LexerRule.Contexts 属性保存了与词法分析器的上下文相关的数据，这是一个字典，其键为上下文的标签，值为相应的 DFA 头节点索引。LexerRule.ContextCount 属性表示了上下文的数量。

LexerRule.Symbols 属性是定义的终结符的列表，列表的每一项都是一个 SymbolData 结构，包含终结符的标识符、动作和向前看信息。

LexerRule.States 属性是词法分析器的 DFA 状态的列表，列表的每一项都是一个 StateData 结构，包含相应 DFA 状态的转移和对应的终结符索引。这个列表中实际上包含 ContextCount×2 个 DFA，这些 DFA 的首节点索引是从 0 到 ContextCount×2-1，其中每个上下文对应 2 个 DFA，前一个 DFA 对应于当前上下文中的所有非行首规则，用于从非行首位置进行匹配；后一个 DFA 对应于当前上下文中的所有规则，用于从行首位置进行匹配。索引为 i 的上下文，对应的两个 DFA 就是 i*2 和 i*2+1。关于行首和非行首规则的详细信息，请参考《C# 词法分析器（四）构造 NFA》的第四节“多条正则表达式、限定符和上下文”。

以上就是词法分析器所需的信息，只要获取了这些信息，就可以根据需要，构造自己的词法分析器。详细的实现，请参考《C# 词法分析器（六）构造词法分析器》中提供的算法，甚至可以将数据写入 .cs 文件中（甚至可以使用其它语言实现，因为数据本身是不影响实现的），实现词法分析器的生成（虽然现在我还仍未实现这点）。

以上的数据，全部是以比较容易理解的形式存储的，未进行压缩，所以可能会占用比较多的空间。在具体的实现中，可以根据需要改变数据存储格式，或选用一些压缩算法（如使用四数组压缩 DFA 状态）。

.Net Compiler Lexer 编译原理

C# 词法分析器（七）总结

一、类库的改变

1. 词法单元的标识符

2. 命名空间

3. 词法分析器上下文

4. DFA 的表示

二、定义词法分析器

1. 定义词法单元的标识符

2. 定义词法分析器的上下文

3. 定义正则表达式

4. 定义终结符

终结符的动作

5. 构造词法分析器

三、自定义词法分析器

相关

一、Asp.Net Core WebAPI——修改默认监听端口

.net mvc 获取acion 返回类型

.NetCore简单封装基于IHttpClientFactory的HttpClient请求

基于java.net.socket包的对象传递

.net core 2.2 部署CentOS7（3）安装Xshell操控CentOS7

Centos 8.x 安装.net 6 sdk/runtime

.net core 部署在Centos 7/8 的几个小坑

甲骨文ARM架构云服务器部署宝塔+.net 5.0

通俗易懂，什么是.NET?什么是.NET Framework？什么是.NET Core?

ASP.NET中WebService的两种身份验证方法

.NET Core3.1 Dotnetty实战第二章

C# string 加号与StringBuilder .netCore3.1与 .netCore5.0速度测试

标签