1,原音共振峰与舌位有什么关系
人类说话或唱歌产生的声音包含许多不同的频率,共振峰是这些频率中较有意义的部份。定义上,人类若想分辨几个不同的元音,我们所需要的资讯是完全可以被量化的。共振峰是使听者能够区分元音的关键泛音。大部份的这些共振峰是由管内或腔体的共振产生,but a few whistle tones derive from periodic collapse of 文丘里效应 low-pressure zone.频率最低的共振峰频率称为f1,第二低的是f2,而第三低的是f3。绝大多部分的情形是,前两个共振峰,f1 和 f2就足以划分不同元音。这两个共振峰可以描述元音的开/闭、前/后两个维度(过去传统上把这和舌头的位置联结在一起,不过这不是完全精确)。因此开元音(例如[a])有比较高的第一共振峰频率f1,而闭元音(例如 [i] 或 [u])的则比较低;前元音(例如[i])的第二共振峰频率f2较高,后元音(例如[u])的则比较低。[2][3]元音几乎都有四个以上的共振峰,有时还会超过六个。然而,前两个共振峰还是最关键的。通常我们会用第一共振峰对第二共振峰的 关系图描述不同元音的性质。[4] 但这不足以描述某些元音的性质,例如圆唇与否。[5]
鼻音通常在2500Hz附近会有额外的共振峰。流音[l]则通常在1500Hz附近会有额外的共振峰。而英语的"r"音([ɹ])则是用非常低的第三共振峰分辨(低于2000Hz)。
塞音(在某种程度上,擦音也是)会改变周围元音的共振峰位置。双唇音(例如“ball”和“sap”中的“b”和“p”)使共振峰降低;软腭音(英文的'k'和'g')发音之前f2 和 f3几乎都会互相接近,在软腭音结束后才再分开。齿龈音所造成的共振峰变化则比较不规律,部份视元音种类而定。这种元音共振峰频率随时间的变化称为“共振峰转变”(formant transition)。
2,法律共振峰的解释
意大利比较法学家萨科(R.Sacco)在其《比较法导论》1992年第五版中提出了一个他命名为“法律共振峰”(Legal formants)的学说。“共振峰”一词引自语音学,指声腔的共振频率。“法律共振峰”即指影响法律的各种成分。他认为人们往往讲法律是一种规则,但事实上,法律不仅由制定法规则、判例和法学家论述构成,而且还由立法者、法官、法学家所作出的各种非行为规则(如法律解释等)构成。再有,同一国家或不同国家的这些成分往往是可变的,不协调的。
3,语音合成的共振峰
语音合成的理论基础是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下,声波经谐振腔(声道),由嘴或鼻辐射声波。因此,声道参数、声道谐振特性一直是研究的重点。习惯上,把声道传输频率响应上的极点称之为共振峰,而语音的共振峰频率(极点频率)的分布特性决定着该语音的音色。音色各异的语音具有不同的共振峰模式,因此,以每个共振峰频率及其带宽作为参数,可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性(频率响应),对激励源发出的信号进行调制,再经过辐射模型就可以得到合成语音。这就是共振峰合成技术的基本原理。基于共振峰的理论有以下三种实用模型。 在级联型共振峰合成模型中,共振峰滤波器首尾相接;而在并联型模型中,输入信号先分别通过幅度调节再加到每一个共振峰滤波器上,然后将各路的输出叠加起来。将两者比较,对于合成声源位于声道末端的语音(大多数的元音),级联型合乎语音产生的声学理论,并且无需为每一个滤波器分设幅度调节;而对于合成声源位于声道中间的语音(大多数清擦音和塞音),并联型则比较合适,但是其幅度调节很复杂。基于此种考虑,人们将两者结合在一起,提出了混和型共振峰模型。共振峰模型是基于对声道的一种比较准确的模拟,因而可以合成出自然度比较高的语音,另外由于共振峰参数有着明确的物理意义,直接对应于声道参数,因此,可以容易利用共振峰描述自然语流中的各种现象,并且总结声学规则,最终用于共振峰合成系统。但是,人们同时也发现该技术有明显的弱点。首先由于它是建立在对声道的模拟上,因此,对于声道模型的不精确势必会影响其合成质量。另外,实际工作表明,共振峰模型虽然描述了语音中最基本最主要的部分,但并不能表征影响语音自然度的其他许多细微的语音成分,从而影响了合成语音的自然度。另外,共振峰合成器控制十分复杂,对于一个好的合成器来说,其控制参数往往达到几十个,实现起来十分困难。基于这些原因,研究者继续寻求和发现其他新的合成技术。人们从波形的直接录制和播放得到启发,提出了基于波形拼接的合成技术,LPC合成技术和PSOLA合成技术是其中的代表。与共振峰合成技术不同,波形拼接合成是基于对录制的合成基元的波形进行拼接,而不是基于对发声过程的模拟。
4,驻波共振原理
驻波共振原理是当一束波在腔体传播时(腔长为半波长的整数倍则会产生驻波),入射波被腔体反射发生半波损失(相位反转)变成反射波,二者在腔体发生叠加,振幅变为原来的2倍。在实践中一般是利用了波的反射。比如说弦上的驻波,当声波传播到固定端时会发生反射,反射波与入射波传播方向相反,振幅和频率都相同。因此,入射波和反射波的叠加形成驻波。对于管中的驻波,当声波传播到闭口端时同样发生反射,入射波和反射波叠加形成驻波。由于弦的固定端和管的闭口端相当于波在传输过程中遇到的障碍物,因此对于波在弦的固定端和管的闭口端发生反射是比较容易接受的。 然而,对于管中的驻波,还有另外一种情况是两端开口的管中形成的驻波。这样一来,驻波的形成原理解释为波源在一个开口端发生振动产生入射波。入射波传播到另一个开口端时发生反射,入射波和反射波叠加形成驻波。扩展资料当波面处于最高和最低位置时,质点的水平速度为零,波面的升降速度也为零;当波面处于水平位置时,流速的绝对值最大,波面的升降也最快,这是驻波运动独有的特性。特点:①电压和电流不但在时间上相差90°。在空间上也相差90°;②平均功率为零,因此不能用来输送电磁能;③具有位置不随时间而变化的波腹和波节,相邻波节波腹之间的距离为λ/2④输入阻抗为纯虚数,阻值随传输线长度而变化。参考资料来源:百度百科-驻波
5,语音合成的TTS结构
自八十年代末期至今,语言合成技术又有了新的进展,特别是基音同步叠加(PSOLA)方法的提出(1990),使基于时域波形拼接方法合成的语音的音色和自然度大大提高。九十年代初,基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于LPC方法或共振峰合成器的文语合成系统的自然度要高,并且基于PSOLA方法的合成器结构简单易于实时实现,有很大的商用前景。国内的汉语语音合成研究起步较晚些,但从八十年代初就基本上与国际上研究同步发展。大致也经历了共振峰合成、LPC合成至应用PSOLA技术的过程。在国家863计划,国家自然科学基金委,国家攻关计划,中国科学院有关项目等支持下,联想佳音(1995);清华大学的TH_SPEECH (1993);中国科技大学的KDTALK(1995)等系统。这些系统基本上都是采用基于PSOLA方法的时域波形拼接技术,其合成汉语普通话的可懂度、清晰度达到了很高的水平。然而同国外其它语种的文语转换系统一样,这些系统合成的句子及篇章语音机器味较浓,其自然度还不能达到用户可广泛接受的程度,从而制约了这项技术的大规模进入市场。
6,哪位大神帮小弟写一段MATLAB提取语音信号共振峰程序
function [fmt] = seekfmts1(sig,Nt,fs,Nlpc)
if nargin<4, Nlpc = round(fs/1000)+2; end;
ls=length(sig); % 数据长度
Nwin = floor(ls/Nt); % 帧长
for m=1:Nt,
lpcsig = sig((Nwin*(m-1)+1):min([(Nwin*m) ls]));% 取来一帧信号
if ~isempty(lpcsig),
a = lpc(lpcsig,Nlpc); % 计算LPC系数
const=fs/(2*pi); % 常数
rts=roots(a); % 求根
k=1; % 初始化
yf = [];
bandw=[];
for i=1:length(a)-1
re=real(rts(i)); % 取根之实部
im=imag(rts(i)); % 取根之虚部
formn=const*atan2(im,re); % 计算共振峰频率
bw=-2*const*log(abs(rts(i))); % 计算带宽
if formn>150 & bw <700 & formn<fs/2 % 满足条件方能成共振峰和带宽
yf(k)=formn;
bandw(k)=bw;
k=k+1;
end
end
[y, ind]=sort(yf); % 排序
bw=bandw(ind);
F = [NaN NaN NaN]; % 初始化
F(1:min(3,length(y))) = y(1:min(3,length(y))); % 输出最多三个
F = F(:); % 按列输出
fmt(:,m)=F/(fs/2); % 归一化频率
end;
end;
from 《matlab在语音信号分析与合成中的应用》