人类的言语知觉是一个多通道的感知过程,主要包括两个部分:声音线索的听觉知觉和图像线索的视觉知觉,它们都对人类的交流沟通起到了至关重要的作用。聋人因听觉缺陷,部分或完全失去了听觉信号的输入和反馈,主要借助唇语和手语这类视觉信号进行交流。尽管逊于受训过的聋人,但正常人也具备这项能力。
唇读(Lip-reading)是人类言语活动中非常特别的一种现象。对于聋人来说,唇读是指“聋人利用视觉信息,感知言语的一种特殊方式和技能。看话人通过观察说话人的口唇发音动作、肌肉活动及面部表情,形成连续的视知觉,并与头脑中储存的词语表象相比较和联系,进而理解说话者的内容”(朴永馨, 1996, 第203页)。对于正常人来说,唇读起到的更多是一种视觉上的辅助作用。人们在理解他人讲话内容时不仅通过声音来感受信息,而且还用眼睛观察对方嘴型、表情等的变化,以期更准确地理解对方讲话的内容(Dodd & Campbell, 1987)。唇读亦作“读话”(Speech-reading),因为相较于纯粹的嘴唇运动,视觉信号更遍布于说话人的整个说话过程和面部运动。唇读能力通常对听觉障碍者极为重要,但只要考虑一下看音轨延迟的电影时由于声音与唇动的不同步对言语理解所产生的干扰就可以知道,唇动的视觉线索对正常人的言语知觉也颇有影响,且当声音质量较低或噪音较大时尤其如此(威肯斯 & 霍兰兹, 2003, 第277页)。
言语知觉的视觉信号研究中,大多关注不同程度听觉受损的聋人或者聋人与正常人在文字阅读辨别和理解能力上的差异,而对同样作为视觉信号的唇动则涉足较少。故而,对于唇读的言语知觉研究不仅有助于从一个独特的角度探索人类言语的认知加工过程,还可以了解如何借助视觉通道的信息补充听觉通道的信息,以此提高人在生理缺陷(坂本幸, 1990)或者噪音环境(Sumby & Pollack, 1954)下对言语信息的辨别和理解能力。
二、作为视觉信号对聋人或正常人言语知觉的影响1.对聋人听觉的补偿作用
鉴于唇读对聋人言语知觉的重要作用,许多研究以聋人为被试,以期了解聋人通过手语之外的视觉信号作为言语知觉途径的特点,探讨言语知觉的加工机制和聋人的康复训练。
聋人唇读的效果至少受以下几个因素影响:(1)个体的认知能力,如工作记忆、语音编码水平、视觉加工能力、补偿机制、词汇存储系统等(Rönnberg et al., 1998);(2)情景因素,如句子中的情绪表达、句子长短、谈话情景、照明情况等(MacEachern, 2000);(3)谈话者因素,如谈话者的生理特征、语速、唇读者与谈话者的距离、观看的角度,以及与谈话者的熟悉程度等(MacEachern, 2000; 雷江华, 2005);(4)语言经验,包括词汇量的多少、语言的种类,以及因听觉损失程度和类型、佩戴助听器与否等方面导致的手语及口语的应用程度(De Filippo & Gottermeier, 1995);(5)音素的可见性程度。为了区别唇读过程中嘴型的视觉变化,Fisher(1968)用视素(Viseme)来表示语音的视觉特征,分为元音视素和辅音视素。元音视素的可见性较高,而辅音视素是根据发音部位确定,比元音模糊(汤盛钦, 曾凡林 & 刘春玲, 2000, 第170页)。
当然,元音和辅音视素是对英语的划分方法,对于汉语而言,视素一般由声母、单韵母、复韵母组成。雷江华等人(2003, 2004, 2005a, 2005b, 2006, 2008)以此为基础对聋人学生进行了一系列研究。以字词和视素为两个因素,雷等人(2004)发现单字条件下唇读语音的正确率显著高于词语条件下唇读首字语音的正确率,并且在唇读过程中单韵母成绩优于复韵母,复韵母优于声母,证明词长效应在汉语中存在,且不同视素对唇读效果的影响显著。在探讨助听器对于聋人唇读汉语的作用中,其结果与Berstein(1998)一致:听力辅助设备使用的频率与唇读技能显著相关,越是经常使用听觉辅助设备其唇读能力就越好。但这种影响只显著表现在单韵母、复韵母识别上,说明助听器的使用对聋人唇读语音识别的影响受到视素与语音清晰度的制约(雷江华, 甘琳琳 & 方俊明, 2006)。为研究视听通道对于提高聋人言语理解能力的作用,雷等人(2008)又对佩戴助听器的听觉障碍儿童在视觉、听觉和视听条件下进行了唇读汉语的实验,结果发现视听条件下的成绩优于视觉条件,视觉条件优于听觉条件,说明视听通道效应与视觉代偿作用的存在。这与Summerfield(1992)的研究结果一致,即听力障碍者能从视觉中得到更多线索,甚至可以达到等同听觉的程度。
2.以正常人为对象的跨通道信息整合研究
在正常人的言语交流中视觉信号的使用(包括唇语和手势)也非常必要。唇动的视觉信号常常携带可供区分的信息以加强言语信息的正确理解,这点在较强的噪音环境中尤为明显(Sumby & Pollack, 1954)。正因如此,在现代计算机语音的识别系统中,唇读作为语音识别的辅助手段引起了越来越多研究者的关注。Stork等人(1992)的研究表明,将唇读辅以语音能有效地改善其TDNN系统的识别率,在噪声环境下效果更明显。
在针对听力正常者的唇读研究中,最著名的研究之一当属McGurk和MacDonald(1976)发现的McGurk效应。McGurk效应是言语知觉中的一种幻觉,研究者指出这种听觉与视觉的交互作用能发生在一个发音看起来和听起来不协调的条件下。例如,让被试在看/ga/的唇动视频的同时听/ba/的声音刺激,然后报告实际听到了什么发音。结果是,当这两种不一致的视听刺激混合之后常常使人误以为听到的声音是/da/。类似的,如果被试接受到的是/ka/的视频和/pa/的声音时,很容易将其误认为是/ta/的声音。这项研究的重要意义在于,它以简单明了的方式直接展示了在正常人多感觉通道的信息整合过程中,各个通道的刺激信息是可以相互影响、相互作用的。在该实验中则体现为视听通道信息之间的干扰作用,以至于生成了原先没有的新的信息。
McGurk效应常被用于研究言语信息的加工机制和跨通道信息整合。例如Michael等人(2004)的一项实验中,被试被要求观看一些处理过的视频,片中人物只有左半或右半嘴唇被一小块白色方块遮蔽。结果,当右半嘴唇被遮蔽时McGurk效应减弱,表明右半嘴唇对唇读起到的作用更大,可能承载了更多言语的视觉信号。Vroomen和Stekelenburg(2011)则用McGurk效应来研究被试是否将声音辨别为人声对不匹配视听刺激信息整合的影响。声音刺激材料由人声录制后经计算机处理生成,一半被试被告知该声音为人声,另一半被试被告知该声音为计算机生成的非人声。结果相信其是人声的被试在McGurk效应中的整合效果要显著高于将其认为是非人声的被试。
另一个著名的发现被称为腹语术效应(Ventriloquism Effect)。该效应分为两种,其一是空间腹语术效应(Spatial Ventriloquism)(Bertelson, 1999)。顾名思义,当人们看到一个被腹语术师操纵的人偶做出说话动作时,即使声音是从其他方向传来的,人们也会同样认为声音确实是人偶发出的。再比如电影院的屏幕和音响在放置的位置上并不一致,但这并不影响人们正常观看。该效应提出在视觉和听觉刺激信息的整合过程中,视觉信息占主导作用,削弱了听觉信息对言语知觉的影响。其二被称为时间腹语术效应(Temporal Ventriloquism),指当视觉和听觉刺激在时间上非同时呈现,即以约50~100ms的间隔先后出现时,人们在主观上仍会认为它们是同时发生的(Gebhard & Mowbray, 1959)。感觉适当性假设认为,相对于在处理空间信息上的视觉主导作用,个体在处理时间信息上则是听觉占了主导作用(Welch & Warren, 1980)。
三、唇读的神经机制和理论模型目前有关聋人唇读的神经生理学研究主要通过脑功能成像等技术来探讨聋人唇读的神经生理机制以及和正常人的比较。MacSweeney等人(2000, 2001, 2002)对先天聋人和正常人的fMRI研究表明,正常被试在唇读过程中持续激活左颞区,包括主次听觉皮层的联结处(BA41/42)。而聋人被试并不系统地使用以上区域。研究者认为,由于言语经验的不同,正常人的左颞上沟负责管理和调节视听言语整合。而对于先天聋人而言,因其从未处于同时性视听言语情境中,所以他们可能不具备这种跨通道的整合系统。此外,在聋人的唇读过程中,后部扣带皮层负责将已存储的语言知识与外部输入的言语视觉信号刺激整合。记忆在聋人唇读过程中起重要作用,聋人由于缺乏听觉信号的输入和反馈,因而在任何难度水平的任务中都使用自上而下的加工系统以提高言语知觉和理解的精确度。相对的,正常人可能只在更困难的言语加工情境下,如处于噪音环境中才使用这个系统。
雷江华、方俊明(2005)分析了唇读的两个代表性理论:特定区域整合模型和信息传输接替模型。特定区域整合模型强调了聋人唇读是由特定大脑皮层加工(如STS、后扣带回等)的结果,听觉皮层并没有参与视觉语言认知加工过程。上述MacSweeney等人(2002)的研究结果支持这一点,即正常人唇读时在左侧颞皮层的听觉语言加工感受区有着广泛激活,聋人则没有。信息传输接替模型强调了加工单一感觉刺激(如单通道刺激)的神经中枢与加工多通道刺激信息的区域一样,且每一种感觉刺激通过皮下层的连接区域(subcortical relay area)可以到达其他感觉皮层。Hirano等人(2000)研究发现,尽管语前致聋聋人的A2区域能被激活,但使其激活的刺激通道有差别。两名儿童期掌握了唇读的语前致聋聋童在植入人工耳蜗后并未发展A2区对听觉刺激的加工功能,但唇读能激活A2区域。一名10岁时植入人工耳蜗的语前致聋聋童,此前并没有掌握唇读或手语这类视觉语言,运用人工耳蜗培训其听觉能力1年零1个月后,A2区域获得了口语的听觉加工功能,但唇读能力并没有得到提高。这表明皮层修复发生了,且通过运用人工耳蜗,该聋人A2区域成功地获得了听觉加工功能。可见,聋人的听觉皮层具有可塑性,早期的语言经验对言语加工神经通路的建立具有很大的影响。雷江华等人(2005)认为,已有研究成果对聋人唇读大脑机制存在分歧,但越来越多的研究证据支持信息传输接替模型。聋人听觉皮层的功能差异说明大脑神经回路的形成与语言环境有密切的关系,表明听觉皮层具有可塑性。
四、简评与展望1.聋人和正常人唇读研究的区别与联系
因唇读对聋人和正常人起到的作用不同,针对这两个群体进行的唇读研究也各有倾向。对聋人而言,唇读是有效提高沟通交流和社会适应能力的重要手段,唇读的训练将大大弥补其听觉损伤带来的不便。因此在主要以聋人为被试的研究中更注重研究结果的应用性,侧重于找出可能影响聋人唇读能力的各种因素,比较各种条件下聋人唇读的效果,从而找到最佳方法以提高聋人辨别和理解他人信息的能力,促进聋人融入社会。例如雷江华等人(2008)发现佩戴助听器的轻度或中度听觉障碍被试,在视听条件下唇读汉字的成绩显著高于只有听觉条件或只有视觉条件下的成绩。该结果提示了在对轻度或中度听觉障碍人群进行语言训练时,除了使用助听器等听觉辅助设备,还应使用视听结合的教学方式,而非传统单一的听语或手语教学模式,以此充分利用聋人残存的听力进行交流并提高其听力水平。而对于重度听觉障碍人群,由于其听觉损伤较重,听力的再康复训练可能较难,因此应提高唇读训练在聋教育界的重视和应用,在训练中以视话教学为主,着重培养其唇读能力。事实上,也确实不乏此类成功事例(雷江华, 2009, 第258页)。
对正常人而言,唇读仅作为日常交流中的辅助手段而起到作用。但因正常人具备完整的视觉和听觉系统,而唇读这种获取言语信息的特殊过程恰恰可以同时包含具有相同言语信息的视觉信号和听觉信号,因此被作为一种优秀的实验工具以研究人类跨通道的认知加工,特别是视觉和听觉这两大对人类而言最为重要的感觉通道。研究主要侧重于视听双通道在知觉加工过程中的特征和联系,进而试图构建视听通道信息加工的理论模型。McGurk效应证实了视听双通道在信息整合过程中存在的一种独特的相互干扰现象,展示了两种信息整合的结果,为后续研究者提供了多感觉通道认知中的重要实验范式。腹语术效应揭示了人们在不同空间或时间条件下由于视觉或听觉主导产生的主观错觉,指出在人类视听双通道的信息整合过程中,视觉信息和听觉信息的加工可能是不对称的。以正常人为对象的此类研究使人们对人类自身的跨通道感知觉特点产生了新的认识。
当然,以这两类人群为对象的研究并非都是各自独立的。聋人因其听觉受损程度、语言经验等维度的差异,可从多个方面与正常人的表现进行比较,在跨通道认知加工模型和神经机制的研究中可从反面角度对结果进行补充。因而在实验中,聋人和正常人经常互为对照组同时出现。例如,先天重度听力损伤的聋人由于从未暴露于有声环境中,经过后天学习的言语视觉信号无法与原本存在的听觉信号匹配。在这种情况下,正常人阅读中存在的由视觉信号激活字音和字义两个系统的现象对于先天聋人唇读时又是如何运作的,表现出的结果又有何不同?理解这点有助于更深入认识人类的语音编码系统。又如轻度或中度听力损伤的聋人因训练使其本身的听力或唇读能力得到了提高,在比较正常人的结果后将有助于研究大脑在视皮层和听皮层的可塑性,并了解听觉辅助仪器的使用情况、早期的语言经验等条件对其可塑性产生了何种影响。
2.现存的三点问题和今后的研究展望
目前唇读相关的研究存在几个问题和难点。第一,在以聋人为被试的实验中,由于聋人听力损伤的个体差异较大,在聋人被试的筛选上缺乏标准化的操作过程或工具。目前的研究报告中主要汇报聋人听力损失的分贝数、年龄以及佩戴听力辅助设备的时间等信息,而聋人的唇读效果实际上受到许多因素影响:如耳聋的病因、耳聋出现的年龄、习得手语的年龄、听觉损失的程度和性质以及语言掌握的熟练程度等(张明 & 陈骐, 2003)。为使各项研究之间具有更好的可比性,标准化的筛选和汇报过程就尤为重要。今后应考虑设计能从多个维度有效评价聋人听觉损伤情况、语言等能力的工具,在功能性成像研究中设置更加精细的基线控制条件,在报告中汇报多个有效的评估指标,从而使研究结果更具可比性。第二,作为唇读材料使用的主要是单个音素,或字、词这类简单的刺激材料,较少也很难使用句子这类更符合真实情况的材料,因而即使在实验中得出了较好的唇读效果,距离聋人在日常生活中实际运用唇读的真实能力还有一定差距。使用长句作为材料的难点在于难以在实验中精确的控制各个可能由句子带来的影响变量,例如句子的长度、语义的复杂程度、句子的句式结构等,同时对重度听障者而言要唇读长句也有较大难度。因此,可考虑制作标准化的语句材料的可能性,并且将之运用在针对轻度或重度听障者的研究中。第三,对于唇动材料的编码和记录手段方面缺少和计算机科学中的唇读研究进行接触和互补,缺少足够的跨学科交流。目前在计算机科学中对唇部的变化有许多精确的测量手段(姚鸿勋, 高文, 王瑞 & 郎咸波, 2001),例如齐藤刚史等人(2007)使用口唇面积的两种特征量为指标,记录这两项指标随时间的变化以编码嘴唇运动的轨迹。值得一提的是该研究中对于发声频率的实验方法和讨论相信会对今后更为复杂的唇读研究有所帮助。使用更好的算法对唇读材料进行分析记录的作用不仅在于可以使结果更精确,也可以在上述长句材料的使用上发挥作用。
就目前而言,如何利用唇读更好地提高聋人交流理解能力的研究正逐渐发挥作用,但无论是负责唇读的大脑区域还是其认知加工模型都尚未明晰。今后的研究应更注重从跨通道信息整合和处理的角度出发,改进记录唇动变化的方法,继续深入探索跨通道信息加工的模式,同时为计算机的语音识别技术提供参考。另一方面,由于使用的唇读材料所限,现有的唇读研究仍在很大程度上局限于初步的言语知觉过程,被试所做的多是简单的辨别发音任务。但现实是,由于言语信息和环境的高度复杂性,唇读过程往往涉及到更加复杂的认知加工过程,比如语义的辨析、逻辑的推理、上下文的联系等等。故而,在改善使用材料和记录手段的同时,唇读过程中的高级认知加工过程也将是今后研究的重要发展方向之一。
| 坂本幸. (1990). 中途失聴者のための読唇プログラム学習法について. 東北大学教育学部研究年報. |
| C. D. 威肯斯, J. G. 霍兰兹, 著. (2003). 工程心理学与人的作业(朱祖祥译). 上海: 华东师范大学出版社. |
| 雷江华, 张凤琴, 方俊明. (2004). 字词条件下聋生唇读汉字语音识别的实验研究. 中国特殊教育, 53(11), 37-39. |
| 雷江华, 方俊明. (2005a). 聋人唇读的大脑机制研究. 心理科学, 28(1), 3. |
| 雷江华, 王庭照, 方俊明. (2005b). 聋生唇读语音识别中熟悉效应的实验研究. 心理科学, 28(5), 3. |
| 雷江华, 甘琳琳, 方俊明. (2006). 助听器对听障学生唇读汉字语音识别的作用. 心理科学, 29(6), 3. |
| 雷江华, 方俊明, 王伟忠, 梅艳红. (2008). 听障学生唇读语音识别视听通道效应的实验研究. 心理科学, 31(2), 3. |
| 雷江华. (2009). 听觉障碍学生唇读的认知研究. 北京: 中国社会科学出版社. |
| 朴永馨. (1996). 特殊教育词典. 北京: 华夏出版社. |
| 齊藤剛史, 小西亮介. (2007). トラジェクトリ特徴量に基づく単語読唇. 信学論, 90, 1105-1114. |
| 汤盛钦, 曾凡林, 刘春玲. (2000). 教育听力学. 上海: 华东师范大学出版社. |
| 姚鸿勋, 高文, 王瑞, 郎咸波. (2001). 视觉语言——唇读综述. 电子学报, 29(2), 8. |
| 张明, 陈骐. (2003). 听觉障碍人群的言语机制. 心理科学进展, 11(5), 8. |
| Bertelson P. (1999). Ventriloquism: A case of crossmodal perceptual grouping. Advances in psychology, 129, 347-362. DOI:10.1016/S0166-4115(99)80034-X |
| De Filippo C. L., Gottermeier L. (1995). Linking visual and kinesthetic imagery in lipreading instruction. Journal of speech and hearing research, 38(1), 244-256. DOI:10.1044/jshr.3801.244 |
| Dodd, B. E., & Campbell, R. E. (1987). Hearing by eye: The psychology of lip-reading. England:Lawrence Erlbaum Associates, Inc. |
| Fisher C. G. (1968). Confusions among visually perceived consonants. Journal of Speech, Language and Hearing Research, 11(4), 796. DOI:10.1044/jshr.1104.796 |
| Gebhard J., Mowbray G. (1959). On discriminating the rate of visual flicker and auditory flutter. The American journal of psychology, 72(4), 521-529. DOI:10.2307/1419493 |
| Hirano S., Naito Y., Kojima H., Honjo I., Inoue M., Shoji K., Konishi J. (2000). Functional differentiation of the auditory association area in prelingually deaf subjects. Auris Nasus Larynx, 27(4), 303-310. DOI:10.1016/S0385-8146(00)00072-9 |
| MacEachern M. R. (2000). On the visual distinctiveness of words in the English lexicon. Journal of Phonetics, 28(3), 367-376. DOI:10.1006/jpho.2000.0119 |
| MacSweeney M., Amaro E., Calvert G. A., Campbell R., David A. S., McGuire P., Brammer M. J. (2000). Silent speechreading in the absence of scanner noise: an event-related fMRI study. Neuroreport, 11(8), 1729. DOI:10.1097/00001756-200006050-00026 |
| MacSweeney M., Calvert G. A., Campbell R., McGuire P. K., David A. S., Williams S. C. R., Brammer M. J. (2002). Speechreading circuits in people born deaf. Neuropsychologia, 40(7), 801-807. DOI:10.1016/S0028-3932(01)00180-4 |
| MacSweeney, M., Campbell, R., Calvert, G. A., McGuire, P. K., David, A. S., Suckling, J., Brammer, M. J. (2001). Dispersed activation in the left temporal cortex for speech-reading in congenitally deaf people. Proceedings of the Royal Society of London. 268(1466), 451. |
| McGurk H., MacDonald J. (1976). Hearing lips and seeing voices. Nature, 264, 746-748. DOI:10.1038/264746a0 |
| Michael E. R. N., Dara A. S., John L. B. (2004). Read my lips: Asymmetries in the Visual Expression and Perception of Speech Revealed Through the McGurk Effect. Psychological science, 15(2), 4. |
| Rönnberg J., Andersson J., Andersson U., Johansson K., Lyxell B., Samuelsson S. (1998). Cognition as a bridge between signal and dialogue: Communication in the hearing impaired and deaf. Scandinavian Audiology, 27(4), 101-108. DOI:10.1080/010503998420720 |
| Stork, D. G., Wolff, G., & Levine, E. (1992). Neural network lipreading system for improved speech recognition. In IJCNN, Proceedings of the International Conference on Neural Networks (vol.2; pp. 289-295). America, Baltimore, MD: IEEE |
| Sumby, W. H., & Pollack, I. (1954). Visual contribution to speech intelligibility in noise. The journal of the acoustical society of america, 26, 212. |
| Summerfield, Q. (1992). Lipreading and audio-visual speech perception. Philosophical Transactions: Biological Sciences, 71-78. |
| Vroomen J., Stekelenburg J. J. (2011). Perception of intersensory synchrony in audiovisual speech: Not that special. Cognition, 118(1), 75-83. DOI:10.1016/j.cognition.2010.10.002 |
| Welch R. B., Warren D. H. (1980). Immediate perceptual response to intersensory discrepancy. Psychological bulletin, 88(3), 638. DOI:10.1037/0033-2909.88.3.638 |