法律推理的人工智能建模

山中物多 · 发表于 2023-3-10 20:16:39

大家辛辛苦苦听了一天的演讲，会发现有很多关键词，特别是“法律人工智能”或者“人工智能+法律”。我们知道现在有很多相关概念，但有两个词我最喜欢：一是法律人工智能，二是人工智能+法律。大成的赵斌律师刚刚讲的正是法律人工智能，而前面上海市高院团委书记李则立谈到了一个公式，那就是：法律+AI不等于法律AI。这个公式也是我喜欢的。所以，我今天讲的题目是：法律推理的人工智能建模。
20天前，我在北京香山开了香山科学会议（S36）。这个会议编号是S开头，这表明那是一个特别会议。一般说来，国家有关部门认为比较重要，但之前并没有香山科学会议计划，故会用特别方式处理一些会议。在这个会议上，专家们讨论了三个关键词：人工智能技术、伦理和法律。
当然，我今天关心的是人工智能技术和法律，或者说如何让人工智能服务于法律。
讲到人工智能技术，大家知道目前最火的就是索非亚。说到人工智能、法律与伦理的关系，这里可以理解为两种情形：
一是从伦理上讲，人工智能能做哪些事，不能做哪些事，或者说，哪些事情应当做，哪些事情不应当做；
二是从法律上讲，哪些事情是禁止人工智能做的，哪些事情是允许做的。换句话说，就是要用伦理与法律去规制人工智能。
当然，今天在这里我要讨论的不是人工智能应当或不应当做的伦理论题，而是要讨论怎么样用人工智能为我们的法律服务，这也应当是我们今天在座的诸位法律人士特别关心的论题。
要想充分利用人工智能来为法律服务，我们首先必须关注法律推理的人工智能建模，因为那是法律人工智能的基础与核心论题，或者说是底层技术问题。我这里列出了当代人工智能与法领域研究的十大论题。这十大论题来自维基百科全书英文版，也是1987年国际人工智能与法协会（IAAIL）一直在研究的基本论题。其实，维基百科全书的十个论题源自基于知识的Wolfram编程语言网站。Wolfram语言被认为是当今世界上最高效的编程语言。根据该网站的描述，人工智能与法研究涉及三大关键词，即：计算法律、符号话语以及人工智能构成。
十大论题是什么呢？它们是：
（1）法律推理的形式模型；
（2）论证与决策的计算模型；
（3）证据推理的计算模型；
（4）多智能体系统中的法律推理；
（5）可执行的立法模型；
（6）法律文本的自动归类与概述；
（7）从法律数据库与文本中自动提取信息；
（8）面向电子取证和其他应用的机器学习与数据挖掘；
（9）概念的或基于模型的法律信息检索；
（10）自动执行不重要的重复性法律任务的法律机器人。
其中，作为实务界人士，大家最关心的论题应当是最下面的这个，即法律机器人。
那么，法律机器人能干什么呢？根据这里的描述它们只能够做一些不重要的重复性法律任务。在这十个论题中，前面五个论题是最基础的，是难点，也是我们一般法律人不太关心的论题。他们的共同特点是与模型有关。第一、二、三、五个论题都包含有“模型”二字，而第四个虽然没有“模型”一词，但多智能体系统必须要建立在模型基础之上，换句话说，其中藏得有模型。
讨论法律推理的形式模型，必须从法律三段论开始讲起，因为法律三段论是我们大家所熟知的法律推理基本模型。法律三段论由三个部分构成，故称为“三段论”。其中，“三段”分别是法律规范、法律事实和裁判结论。法律三段论的两个前提即法律规范（常常称之为大前提）和法律事实（常常称之为小前提）恰好体现了人们常说的“以事实为依据，以法律为准绳”的司法原则。然而，我们可以发现其中有一个问题，那就是结论为“裁判结果”。这意味着，谁才有资格做出裁判呢？那当然只能是法官。因此，传统法律三段论又称被为“司法三段论”（见图1）。

显然，传统法律推理强调的是以司法为中心或以审判为中心，有人喜欢分别将其称为“司法中心主义”或“审判中心主义”，那是围绕法官转的。作为国家层面的司法改革方案，以审判为中心，绝对是正确的。但是，就法律诉讼而言，特别是法律人工智能的研发来讲，绝不能以审判、司法或法官为中心，因为我们需要维护司法公正，通达法律理性。鉴于此，我们首先有必要把“裁判结论”变更为“法律结论”。经过修改之后，法律推理不仅法官在使用，而且律师和当事人均可使用。
然而，即便在修改后的法律三段论中，还是有一个关键要素——证据被忽略了。
人们常说“打官司就是打证据”。这种说法可能绝对了一些，但它至少表明在法律诉讼中证据的重要性。可是在法律三段论中，我们找不到证据要素所在的位置，事实上它被混在法律事实之中了，即把证据与事实混为一谈，完全忽略了证据推理的存在。假如我们根据基于法律三段论的“以事实为依据，以法律为准绳”原则去审视聂树斌、赵作海、呼格吉勒图、佘祥林等案的判决书，我们会发现其中均有事实依据，也有法律准绳。但这些判例都是已被雪冤了的错案，究其根源，关键在于其中的法律推理忽略了证据。
同时，我们会发现，目前法律人工智能系统主要是基于法律三段论的法律推理模型来研发的，或许有些所谓法律机器人根本就没有法律推理模型，只不过是在进行大数据分析或某些程序性分解。在依照法律三段论建模的法律人工智能系统中，首先会从法律事实分析，然后分析相关证据以及所使用的相关法律规范。但是，证据与事实之间的证据推理往往被忽视了，因此，我们这里用虚线表示。不仅如此，从法律事实与法律规范到法律结论之间的推理我们也用虚线表示，因为系统研发者几乎不关心到底能否根据相关事实与法律规范推出这个法律结论。他们都是假定所有判例的法律推理都不存在任何问题。但事实上，类似判例可能不同甚至有完全相反的法律结论存在。
在传统法律三段论模式中，还有一个问题：法官在办案和律师在打官司时，是根据法律规范本身来进行法律推理的吗？当然不是，他们实际上是根据他们对法律规范的解释来进行法律推理的。因此，我们有必要对法律规范这个前提进行进一步扩充，也是增加一个规范解释层，或者引入法律解释推理环节。因为同一个法条，不同的法官、不同的律师可能会作出不同的解释，从而推出不同的法律结论。
我把扩充后的法律推理模型称为“法律五段论”（见图2）。

与传统法律三段论相比，我们在法律推理模式中添加了证据推理或事实论证以及规范推理或解释推理环节。我很高兴地看到，华宇邹总今天的分享表明他们在证据推理方面已经做了很多有益的工作，而且大成在合同审查方面做了很多规范解释性工作。他们的分享让我今天有一种眼睛一亮的感觉，因为我之前接触到的一些所谓法律机器人程序似乎根本没有触及这个问题。
在建模法律人工智能系统时，我们还需要把法律五段论的五个构成要素看成五个集合，并要求这些集合满足【极小一致性】。
极小性要求排除冗余信息，而一致性要求排除冲突信息。不仅如此，我们还应当在诉讼论证博弈框架之下来建模我们的法律人工智能平台。如前所述，法律人工智能研发不会面向以审判为中心，而是要以司法公正与法律理性为中心，因此，我们需要在起（诉）、应（诉）和审（判）三方两两之间进行诉讼论证博弈的框架（见图3）下来搭建法律人工智能平台，这样能够确保司法公正与法律理性的实现。

在真实诉讼论证博弈中，诉讼论证博弈总是从事实开始。所有官司首先要看的就是事实。没有事实，不可能立案，不可能有诉讼。鉴于我们是在诉讼论证博弈框架下讨论问题，因此，事实有起方事实、应方事实和审方事实之别。
从法律推理建模角度来看，基于法律五段论，我们需要建模五类面向法律推理的知识库：
一是法律规范知识库。这类知识库已经有现成的了，如北大法宝。
二是法律规范解释库。这个目前还没有，需要给出一些算法来对法律规范知识库再次加工，使其变成面向自动法律推理的加标知识库。但这是一项耗资巨大的工程。
三是法律证据库。该库的构建事实上建立在已有判例基础之上。中国裁判文书网已经提供了原始资料库，法律人工智能研发者们需要给出某些算法对这些进行二次加工，使之成为面向自动法律推理的法律证据库。
四是法律事实库。这个库的构建也要建立在已有判例基础之上，并还需要与法律证据库关联起来。
五是法律结论库。这个库的建构看来比较简单，但实际上并不简单。我们要建模的是已有判例中法律结论是如何从法律规范库到规范解释库以及法律证据库到法律事实推导出来的。
法律推理人工智能建模还需要考虑法律推理的不同类型。到目前为止，法律推理有三种类型：
一是规则推理或基于规则的推理（Rule-Based Reasoning, 简称RBR）；
二是判例推理或基于判例的推理（Case-Based Reasoning，简称CBR）；
三是大数据推理或基于数据的推理（Data-Based Reasoning, 简称DBR）。
我们目前大多数所谓法律机器人都是基于判例和大数据推理的，但今天我看到了华宇已经在规则推理方法做了一些不错的工作。
基于这三种推理类型，法律人工智能建模的核心是要建立这样一些知识库，比如：
（1）面向规则推理的规范解释库和法律事实库；
（2）面向判例推理的法律规范解释库和法律事实库；
（3）面向数据推理的法律解释库与法律事实库。
一个新的法律事实出现后，我们的工作分两个环节六步来做：
第一个环节是寻找类似法律事实：
1.从面向数据推理的法律事实库去寻找相似法律事实；
2.从面向判例推理的法律事实库中寻找最相似法律事实；
3.从面向规则推理的法律事实库寻找最合法的可能法律事实。
第二环节是寻找相关法律解释：
4.从面向数据推理的规范解释库寻找相关法律依据；
5.从面向判例推理的规范解释库中寻找相关法律依据；
6.从面向规则推理的法律解释库中寻找相关法律依据。
法律人关心的是如何进行诉讼论证博弈。
在法律诉讼中，证据的显然是有先后顺序的，不同的呈现顺序，其论证说服效果是不一样的。同时，在法庭上，律师还有呈现证据的策略问题，并非自己所拥有的证据都要呈现出来。其实，律师们只需要达到说服审判方的目的即可。为此，诉讼论证博弈应有两条可能进路：
一是从法律证据集开始。当我们往法律证据集中添加不同的证据时，法律事实会发生改变，法律结论也会有所不同。
二是从法律规范集开始，采用不同的法律规范，法律解释集也会发生改变，从而法律结论也会随之改变。
对于律师来讲，最终采取何种博弈策略，取决于如何为其当事人谋取最大的合法权利与义务；对于法官来讲，采用何种博弈策略，这取决于司法公正和法律理性的维护。
最后，让我们来谈谈法律人工智能建模的算法问题。算法是人工智能的核心问题。没有算法的人工智能是不存在的。到目前为止，虽然有很多算法的名称，但归结起来无非两种：
一种是数值算法，另一种是神经网络算法。
基于数值算法的编程，每一环节都很清楚，换句话说，其算法是可以公开的。但是，基于神经网络算法的编程，其中机器学习部分是如何运行的，我们根本不知道。这个运算过程是隐性的，程序设计者也不知道其中是如何运行，程序设计者只能根据输出结果是否满足预期结果来调整输入口的显性算法部分。因此，神经网络算法是没有办法公布的。基于数值算法的编程，其好处是错在哪里很容易弄清楚；但是基于神经网络算法的编程，错在哪里，我们可能根本不知道，只能从输入端调整可见的算法部分。
在人工智能应用上，两种算法各千秋，但对法律人工智能来讲，最佳的途径应当是把两种算法结合在一起。
现在让我们回到一开始展示的人工智能与法研究的十大论题。前五个是理论问题，而且法律推理的形式模型又是基础中的基础问题。弄清了法律推理的形式模型，我们就可以进行法律推理的人工智能建模，也就是转向第2-5个论题。只有把前五个问题弄清楚了，第6-10个议题才能真正实现人工智能。
把法律推理的人工智能建模弄好，法律人工智能的深层技术就搞定了，法律人工智能的明天才真正到了。

（本文转自智合法律新媒体，已获得作者授权）

海中水 · 发表于 2023-3-10 20:17:27

和我想象中的法律系统不一样，如果上面的这些设计最终实现了的话，其结果一定、且仅有参考价值，法官的作用是不会被取代的。我理解的未来的司法体系是一个由动态维护的规则库所驱动的评估系统，博弈由评估系统来完成，输出是可以作为结果来执行的，当然让规则库完善起来需要走的路还很长。

南天宾馆 · 发表于 2023-3-10 20:18:25

规则库，这个概念本身需要做明确的。在法律中，我们可以说法律条款本身就是规则，也可以说在法律条款基础上衍生出的法律解释是一种规则，将法律解释与案件事实相互融合形成的司法判例也是一种规则。这三种规则分别对应不用的法律数据集，正如文章中提到的法律法规集、法律解释集、司法案例集。而对这些数据如何做评估，这点涉及到价值判断的问题，司法实务中不是由当事人双方博弈完成的，而是借助法官的价值判断完成的，至于所谓的输出结果可执行，本身又会受限于当前的司法执行系统，需要和银行、房产、交管、消费、出行等多个领域做融合。这一阶段的电子法院走的就是这个路径，但也是刚刚起步。

若雨凯杆 · 发表于 2023-3-10 20:18:38

你说的大致对，恰好我比较熟悉金融、人工智能，对司法也有些认知。规则库是重点，三种范围都涵盖，所以我反而不希望明确它，就当梯度吧。另外规则不是数据集，是数据加工方法。加工方法会自然分化成两个象限，一个是固化的，一个是灵活的，固化的形成了我们的法典，灵活的部分就是所谓的三方博弈。这是宏观来看，从微观来看每一个人也具备这种架构，也就是说无论你是不是法官，你都有一套自己的价值判定，这个判定也是博弈的产物。可执行的是结果，至于能不能执行、执行的是否顺利就是另一回事儿了。

湖南爱格巨创家居有限公司 · 发表于 2023-3-10 20:18:50

这里为什么把规则【等同于】数据集，理由在于做智能法律需要【规则的数据化】。诚然，我们日常理解的规则显然不是静态的，而是动态的，且千人千面，人们内心都有一套规则标准。现实中的规则【等同于价值判断】，这种价值判断很难固定下来，也不可能作为智能法律的基础。而现在的智能法律实际上建立在【数据基础上】，通过深度学习等算法去【构建模型】。这样的基础条件要求【规则数据化】。我们不能把生活中的规则和智能法律所需要的【规则】划等号。

一直微笑就好啦 · 发表于 2023-3-10 20:19:22

最重要的一点，当前国内的裁判机制还是【庭审中心主义】，居于中心地位的是法官，三方博弈实际上是当事人双方辅助法官的博弈，所以实务中目前我们都是现做法院系统的审判辅助系统，目的还是更好、更高效地帮助法官完成对案件的裁判。

空虚 · 发表于 2023-3-10 20:20:04

你说的现实中的规则很难固定下来等等，这就是咱俩理解上的差异了，法典的制定本身就是一种固定的规则。另外扩展一下，大数据技术其中的一项应用就是做宏观统计分析，这种宏观上总结出来的因果关系，是公共价值判定的体现，也是制定法律条文的重要依据，相对于传统法典的这种固定，它又具有了一定的维护灵活性，应该是一个发展方向。
每个人的心中是有一套规则标准，这也是我说的每个人都有一套自己的价值判定架构（它有静有动）。这种架构是可以通过数据分析提取出其共同点的，形成公众价值取向，也就是需要固定的部分。这是为了制定法典提供真正的科学依据，改变以往大法官们通过分析案例、拍脑袋、猜测公众意图、再用民主集中的方式产生法律条文。传统的律法一旦确定，修定起来非常的麻烦，其阻力之一就是在否定其前任制定者，而基于大数据制定的规则，则不存在这个问题。

另外，规则数据化这种提法太不专业了，规则是规则，数据是数据，通过数据建立规则没问题，但是把规则变成数据就太……太死板了。

说的好听是三方博弈，你说的对，其实是辅助法官自己内心的博弈，这里面必定会带入法官自己的价值取向，虽然他们都代表了公众意识，但是不同的法官的价值取向不可能完全一致，这也就成了滋生司法腐败的温床。

我觉得可能你想的是怎么能用好以前的案例知识，辅助法官判案，而我想的是怎么建立起一套科学的司法体系，最终能替代法官判案，所有分歧比较大吧。

刘德平 · 发表于 2023-3-10 20:20:09

我能不能这样设想,用熊先生的思路做一个推理机,把案例,法规,和事实,做成一个知识库,两者集合做成一个专家系统?

是传奇 · 发表于 2023-3-10 20:20:15

【建立一套科学的司法体系，最终代替法官判案】，目前技术方面有障碍，不过可以交流

数学朱老师 · 发表于 2023-3-10 20:20:47

不限于专家系统，熊老师的五个集合更多是在做数据基础工作，在数据基础上专家系统是一种路径，机器学习、知识图谱也是一种路径。但从目前来看，专家系统的弊端已经很明显了，存在【获取知识的瓶颈、自适应能力差、没有自我学习能力、实时性差】等问题，对专家系统和机器学习的介绍，参见 @元典法律大数据《听专家的还是听计算结果的，人工智能的双面历程》

		自动登录	找回密码
密码			立即注册

法律推理的人工智能建模

浏览过的版块