@袁毓林:《描写还是解释:由ChatGPT反思语言学的两种目标》

(1)ChatGPT等现代大语言模型基于深度神经网络,在词语的嵌入式向量表示和转换器的注意力机制等的加持下,能够超越马尔可夫过程模型的有限状态的转移网络,来捕获语句中不同词语之间长距离的依存关系,从而达到接近于人类水平的语言生成与理解。

(2)ChatGPT等现代大语言模型基于海量文本语料的训练,通过词向量进行语言上下文关系等知识的压缩,能够隐式地学习基本的句法和语义知识,从而能够理解、识别和生成“Colorless green ideas sleep furiously。”之类经典的句法合格但语义异常的句子。

(3)对语言的“精确描写”和“科学解释”并不对立,并且前者比后者更加重要,因为对语言的科学解释必须建立在对语言的精确描写的基础上。

(4)人类自然语言由众多的社会成员使用,内部难免参差不齐,对于有关句子的合语法性和可接受性也不会有整齐划一的标准。因此,生成语法学的“原则与参数”范式下的范畴语法,对于描写人类自然语言肯定有不可克服的困难

Norvig(2011)还指出,语言学中的传统模型往往是离散的、范畴化的、定性描述的。比如,一个词要么是动词,要么不是,并没有关于它的“动词性”(verbiness)的量化程度的描述。
(可见,概率化的训练模型可以比范畴化的无训练模型更好地表示自然语言。正因为合语法性并不是范畴化的、确定性的判断,而是概率性的)
语言是复杂的、随机的、不确定的生理过程,受到进化和文化变迁的影响。构成语言的不是一个外在的理想实体(由少量的参数设定),而是复杂处理过程的不确定的结果。因其不确定性,用概率模型来分析语言就是必然的选择。

(5)从语言的交际功能这种实际用途出发,无论是语言生成还是语言理解,都是以意义为中心的;相应地,语法学的研究取向可能不应该是“句法优先”,而应该是“语义优先”。只要想一下在人类进化的漫长征途中语言的形成过程,就可以明白:首先得有一批人类文化所创造的概念(意义)跟社会认同的形式(语音)相结合的象征符号,然后才有怎样让多个象征符号合并和组合成符号串的句法。

(6)语言学家从语言大模型的成功中获得的最大经验与教训是:对能够直接观察的语言事实(我们每天都说的单词、句子等)的准确描写,远比对不能直接观察的语言能力及其本质(一种特定于语言和人类的抽象特性等)的解释更为基本。前者可以用语料和大语言模型来验证并且支持有关的教学和工程应用,后者则不容易证伪并且容易陷于“确认偏差”证实偏见)(confirmation bias,即倾向于发现有利于自己先前所持的信念、假设或理论的证据,而忽略对自己不利的证伪性数据、事实或理论)。

补充知识点

有限状态模型(Finite State Model)
就像一台自动售货机,它有固定的几个状态(比如"待机→选商品→投币→出货")。每一步只能根据当前状态做有限的操作。在语言处理中,它可以用来表示简单的语法规则,比如:

不管中间插入了多少层"ever",这台机器始终记得前面主语的类型,最终能正确匹配动词形式。就像你绕操场跑100圈,但售货机依然记得你最初选的是可乐而不是雪碧。

概率上下文无关语法(PCFG)
这像是一个会拆乐高的机器人。它有一套拆解规则,比如:

  1. 句子可以拆成【主语+动词短语】(概率90%)
  2. 动词短语可以拆成【副词+动词】(概率70%)

每条规则都有概率值。遇到句子时,它会尝试所有可能的拆法,算出哪种拆法概率最高。比如处理"She ever ever... fiddles"时,它会根据主语"She"锁定动词必须是三单形式,即使中间有一万个"ever",就像隔着人群也能准确把钥匙扔给正确的人。

有限状态模型 PCFG
实现复杂度 简单(手写规则) 较复杂(需要规则库+概率计算)
处理能力 线性规则(如主谓一致) 层次化结构(如从句嵌套)
训练方式 人工编写状态转移规则 可以从语料库自动学习规则概率
典型缺陷 无法处理"主语[长从句]动词"的结构 遇到"花园小径句"可能选错解析路径