![中国语音学报(第11辑)](https://wfqqreader-1252317822.image.myqcloud.com/cover/438/34866438/b_34866438.jpg)
2.实验一:能量包络对普通话声调感知的影响研究
2.1 研究背景
Syrdal-Lasky[12]考察了辅音b-d-g和p-t-k在音强为75 dB、92 dB无噪音以及92 dB音强时含有60 dB言语噪音等三种情况下的范畴感知情况。结果表明,在音强为92 dB时,辨认表现和范畴间区分表现均有所下降,从而指出较高的能量对辅音的范畴感知有一定的抑制作用。
高云峰[20]初步探究了音强特征的辨调功能。其合成了一个音长 500ms、基频为135Hz 的音节/i/,保持音高和调长不变,通过加入不同模式的音强层改变音强模式,进行普通话“一”、上海话“亿”和普通话“移”之间的绝对辨认实验。实验结果表明,在加入先平后升的音强层后,普通话“一”的辨认率为100%;改为先升后平的音强层后,普通话“一”的辨认率降为63%,上海话“亿”的辨认率升至37%。因此,在音长和音高参数不变的前提下,音强的增大会导致听感上音高的增加,即音强模式对音高模式有补偿作用。
本实验共采用三组不同能量包络的阴平—上声语音刺激连续统,通过对比探究能量包络对声调感知的影响。其中第一组连续统内每个刺激音的能量包络固定为阴平的能量包络,第二组连续统内每个刺激音的能量包络固定为上声的能量包络,第三组连续统内不同刺激音的能量包络从阴平向上声的能量包络渐变。选取阴平—上声连续统进行实验,一方面是由于阴平和上声的音强曲线和其基频曲线之间存在一致性,且两者差异较大(见图2);另一方面上声可视为一个低平调[18][22][24],与阴平这一高平调形成一组平调对比。
2.2 实验设计
2.2.1 被试者
实验被试者为中国科学院深圳先进技术研究院的18名汉语母语者(11男7女),平均年龄24.7岁(SD=2.18)。所有被试者均来自北方官话区,视听能力正常,无阅读或听力障碍,没有接受过正规的音乐训练,且为右利手。
2.2.2 实验语料
实验语料取自一位男性发音人,24岁,来自北方官话区。要求发音人多次发阴平和上声的/i/音节,然后选择发音比较自然、稳定的音节截取其中的稳定段,使音节时长为300ms。运用Praat[1]软件合成两组基频曲线从“衣”(阴平)过渡到“以”(上声)的语音连续统,其中第一组连续统的能量包络固定为阴平的能量包络,第二组连续统的能量包络固定为上声的能量包络。运用TANDEM-STRAIGHT[10]合成第三组连续统作为对照组,其基频曲线和音强曲线均从阴平过渡到上声。三组语音连续统的基频曲线如图1所示,三组语音连续统的能量包络模式如图2所示。
图1 三组语音连续统基频曲线示意
图2 三组语音连续统能量包络曲线示意
三组语音连续统的基频范围均为71.41—192.98Hz;每个刺激音音长为300ms,音强为70 dB;三组语音连续统的1号刺激音为阴平,11号刺激音为上声,2—10号刺激音从阴平到上声渐变,基频曲线起始点步长约为6Hz,上声拐点处的步长约为11Hz,终点步长约为8Hz。
2.3 实验任务
采用范畴感知实验经典范式——辨认实验和区分实验,所有实验任务均在同一台电脑上通过E-prime程序呈现。
辨认实验采取2AFC(two-alternative forced choice)模式。每次随机呈现一个刺激音,要求被试根据所听到的语音刺激在两秒内作出反应,若判断为阴平“衣”,则按键盘上的数字1键;若判断为上声“以”,则按键盘上的数字2键。每个刺激音重复5次,共需判断165个刺激音(3组连续统×11个刺激音×5次重复=165)。
区分实验采取AX模式,语音刺激以两个为一组的形式随机呈现,要求被试在两秒内判断两个刺激音的声调听起来是否相同,若两者声调相同(都为“衣”或都为“以”)则按键盘上的数字1键,若声调不同(一个为“衣”,一个为“以”)则按数字2键。实验共有5个单元,每个单元结束休息15秒,第三单元结束休息30秒。不同刺激音音对中两个音间隔2个步长,即有1—3、3—1、2—4、4—2、3—5、5—3、4—6、6—4、5—7、7—5、6—8、8—6、7—9、9—7、8—10、10—8、9—11、11—9 18对不同刺激音音对,另有11对相同刺激音音对(1—1、2—2、3—3、4—4、5—5、6—6、7—7、8—8、9—9、10—10、11—11),故每个连续统有29组音,每组音重复5次,共需判断435组刺激音(3组连续统×29组刺激音×5次重复=435)。
每次任务正式开始前均有练习环节,确保被试者理解实验任务并熟悉按键,以此保证实验数据的严谨性和可靠性。
2.4 数据处理
计算出18位被试者对三组不同的语音连续统的感知数据,包括范畴感知边界位置及边界宽度、区分正确率以及峰度(peakedness)[9]。
范畴感知边界位置及边界宽度:通过Probit分析拟合[6]得到上声辨认率达到25%、50%和75%处的值,其中,50%处的值为范畴感知边界位置,75%处与25%处的差值为边界宽度。
区分正确率及峰度:本实验的每组语音刺激连续统都有9个刺激音音对,每个刺激音音对的区分正确率按照Xu、Gandour和Francis[16]所提出的公式计算得出:每个音对有4种配对组合情况,如1—1、3—3、1—3、3—1。其中,1—1和3—3为相同刺激音音对,1—3和3—1为不同刺激音音对;每个音对的区分正确率P计算公式为:
P=P(S′|S)×P(S)+P(D′|D)×P(D)
其中,P(S′|S)表示将相同刺激音对判断为相同的百分比,P(D′|D)表示将不同刺激音对判断为不同的百分比;P(S)表示相同刺激音对在所有音对中所占比例,P(D)表示不同刺激音对在所有音对中所占比例。
根据范畴感知边界位置,将区分正确率分为范畴间区分正确率与范畴内区分正确率。跨边界位置的两组刺激音音对的区分正确率取均值,即为范畴间区分正确率,其余各组区分正确率取均值为范畴内区分正确率;范畴间区分正确率与范畴内区分正确率的差值为峰度。
2.5 实验结果与分析
2.5.1 范畴感知边界位置及边界宽度
三组语音刺激连续统的辨认曲线如图3所示,其中横坐标表示1—11号刺激音,纵坐标表示上声的辨认率。
通过计算,三组语音刺激连续统的平均边界位置分别为6.389(SD=1.478),5.411(SD=1.657)和5.867(SD=1.384)。单因素方差分析的统计结果表明,三组不同的能量包络模式对范畴边界位置有显著性影响[F(2,34)=6.915,p=0.003]。从成对比较的结果来看,第一组与第二组的边界位置存在显著性差异(p=0.021),第一组与第三组、第二组与第三组之间无显著差异(ps>0.05):固定为阴平能量包络的连续统边界位置明显靠后,更靠近上声一端;固定为上声能量包络的连续统边界位置明显靠前,更靠近阴平一端。
同样,计算可知,三组语音刺激连续统的平均边界宽度分别为1.101(SD=0.657),1.080(SD=0.472)和0.968(SD=0.404)。单因素方差分析的统计结果表明,三组不同的能量包络模式对边界宽度无显著影响[F(2,34)=0.457,p=0.637]。
图3 三组语音刺激连续统的辨认曲线
2.5.2 区分正确率及峰度
三组语音连续统的区分准确率见图4,横坐标表示9个刺激音对,纵坐标表示平均区分正确率。通过观察图4可以发现,对于三组不同的能量包络模式的声调连续统,区分正确率曲线均有较为明显的峰值:第一组位于4—6号音和5—7号音处,第二组和第三组都位于3—5号音处,这与各组的边界位置也大致相对应。
将每个刺激音对的区分正确率归为范畴间区分正确率和范畴内区分正确率进行比较,见图5。三组的范畴间区分正确率分别为73.06%(SD=0.113),74.03%(SD=0.146)和80.83%(SD=0.613);范畴内区分正确率分别为62.10%(SD=0.079),61.76%(SD=0.078)和61.31%(SD=0.070):三组的范畴间区分正确率均高于范畴内区分正确率。双因素(3组语音连续统×2种范畴)重复度量方差分析统计结果表明,组别的主效应显著[F(2,34)=3.660,p=0.036],范畴种类的主效应显著[F(1,17)=48.150,p<0.001],组别和范畴种类之间存在显著的交互效应[F(2,34)=4.514,p=0.018]。进一步进行简单主效应分析,结果表明,首先,三组的范畴间区分正确率与范畴内区分正确率均存在显著性差异(第一组:p<0.001;第二组:p=0.003;第三组:p<0.001)。其次,三组间范畴内区分正确率不存在明显差异(ps>0.05);第一组与第三组的范畴间区分正确率存在显著性差异(p=0.016),第一组与第二组、第二组与第三组之间不存在显著性差异(ps>0.05):能量包络从阴平能量包络向上声过渡变化的连续统的范畴间区分正确率最高,固定为阴平能量包络的连续统的范畴间区分正确率最低。
图4 三组语音刺激连续统区分正确率曲线
图5 三组语音刺激连续统范畴间区分与范畴内区分正确率对比
通过计算,三组语音刺激连续统的峰度分别为0.110(SD=0.093)、0.123(SD=0.145)和0.195(SD=0.089)。单因素方差分析的统计结果表明,三组不同的能量包络模式对峰度影响显著[F(2,34)=4.494,p=0.019]。从成对比较的结果来看,第一组与第三组之间存在显著性差异(p=0.021),第一组与第二组、第二组与第三组之间无显著差异(ps>0.05):固定为阴平能量包络的连续统的峰度较小,能量包络过渡变化的连续统的峰度较大。这也与三组范畴间区分正确率情况基本一致。
图6 三组语音刺激连续统峰度值散点图
18名被试者在三组不同语音连续统中的峰度值分布如图6所示,横坐标表示18名被试者编号,纵坐标表示峰度值。从图6中可以看出,在第一组连续统中,有1名被试者的峰度为负值;在第二组连续统中,有5名被试者的峰度为负值;在第三组连续统中,所有被试者的峰度均为正值。说明当能量包络从阴平能量包络向上声过渡变化时,阴平和上声的区分峰值最高,即声调的范畴化感知程度最高。
2.6 讨论
2.6.1 范畴感知边界位置及边界宽度
从实验结果看,能量包络对范畴感知边界位置有显著影响,对边界宽度无显著影响,具体表现为:
能量包络会影响阴平和上声感知的边界位置:固定为阴平能量包络的语音连续统的边界位置更靠近上声一端,即有更多的音被感知为阴平;固定为上声能量包络的语音连续统的边界位置更接近阴平一端,即有更多的音被感知为上声;能量包络从阴平能量包络向上声过渡变化的语音连续统的边界位置位于两种固定能量包络模式之间。
边界宽度的大小反映了范畴化感知程度的高低。实验结果表明,能量包络对范畴感知的边界宽度无显著性影响,但从平均边界宽度看,在三组语音连续统中,固定为阴平能量包络的语音连续统的边界宽度最大,能量包络从阴平能量包络向上声过渡变化的语音连续统的边界宽度最小。
2.6.2 区分正确率及峰度
从实验结果看,能量包络对区分正确率及峰度均有显著影响,具体表现为:
在三组语音连续统中,范畴间与范畴内的区分正确率之间均存在显著性差异,且范畴间区分正确率高于范畴内区分正确率,这表明在三种不同的能量包络模式下,阴平和上声的感知均表现出范畴性特征。
不同的能量包络模式对范畴内区分准确率无显著影响,对范畴间区分准确率影响显著:范畴内区分准确率无明显差异可能是出现了“地板效应”,即相对于跨范畴的区分任务而言,同一范畴内的音位区分任务难度更大,故而在不同情况下并未表现出显著差异;在范畴间区分正确率方面,第一组与第三组之间存在显著性差异,结合均值,可以发现,当连续统的能量包络从阴平向上声过渡变化时,范畴间区分正确率最高,固定为阴平能量包络时的正确率最低。第一组与第三组的峰度同样存在显著差异:固定为阴平能量包络的连续统的峰度较小,能量包络从阴平向上声过渡变化的连续统的峰度较大。这与区分正确率的结果一致。峰度越大,意味着范畴化程度越高。这说明当能量包络从阴平向上声过渡变化时,阴平和上声的范畴化感知程度高于固定为阴平能量包络的情况。
当能量包络固定为上声的能量包络时,相比能量包络从阴平向上声过渡变化的情况,在边界宽度、范畴间区分正确率和峰度等方面,存在范畴感知程度下降的趋势:虽然均未达到统计上的显著性,但从个体峰度值的差异性来看,峰度值为负,意味着范畴感知程度较差,因此,从具体峰度分布情况看,当能量包络从阴平向上声过渡变化时,范畴感知程度高于固定为上声能量包络的情况。
2.7 小结
实验一中,第一组与第二组的语音刺激连续统的范畴感知边界位置存在显著性差异,表明当连续统的能量包络固定为某种模式时,声调感知表现倾向于感知为具有该种能量包络的声调。
第一组与第三组在范畴间区分正确率与峰度方面均具有显著性差异:范畴间区分准确率的明显差异导致了峰度的显著区别,且固定为阴平能量包络时,范畴间感知正确率明显低于能量包络从阴平向上声过渡变化的情况。从三组连续统的个体峰度值分布情况来看,第三组的峰度值均为正,而第二组中有5名被试存在峰度值为负数的情况,这表明能量包络从阴平向上声过渡变化时的范畴化感知程度要强于固定为上声能量包络的时候。进一步说明能量包络从阴平能量包络向上声过渡变化时阴平与上声的范畴化感知表现最好,而当能量包络固定为阴平或上声模式时,范畴化感知程度会有所下降。