> 文章列表 > 基频抖动学习

基频抖动学习

基频抖动学习

基频抖动(Jitter)

之前只是听过这个词,但是什么是基频抖动,为什么要基频抖动,怎么抖动都还不是很了解,今天总结一下。

概念

声源类型(Voice Quality)

声源类型是人们言语交流传输信息的一个重要手段,表现在:
1)在某些语言内有区分音节意义的作用;
2)包含了丰富的副语言层的信息,被认为和情感的变化密切相关;
3)声源类型是超语言层信息的载体。
对其的分析可以找出和情感之间的关系,区分各情感中的声源分布模式,并应用在实际的情感语音合成中,从而可以提升合成语音的表现力;并能作为情感通过大脑控制生理器官运动的参数,对情感的生理研究起到辅助作用。

声源类型指的是人说话时声带振动的不同方式。
常见的声源类型有:正常嗓音(Modal voice)、吱嘎音(Creaky voice)、假声(Falsetto)、耳语(Whisper voice)、气嗓音(Breathy voice)等。

声带振动频率的不同,发出的声音高低也不一样。汉语中声调的高低升降变化,就是通过控制声带松紧来实现的。

基频抖动(Jitter)

基频抖动(Jitter)是衡量某基频预期发生的时间与实际测量到的时间之间的差值。

产生基频抖动的原因有很多种,主要有:人的声带肌肉上粘液分布的改变、声带肌肉紧张度,通过声门气流的体积速度等等。

基频抖动语音合成上的作用很重要,如果在合成出来的语句中没有抖动,听上去有很大的机器味。

语音中的情感信息

一般来说,语音中的情感特征往往通过语音韵律的变化表现出来。例如,当一个人发怒的时候,讲话的速率会变快,音量会变大,音调会变高等,同时一些音素特征(共振峰、声道截面函数等)也能反映情感的变化。为了便于处理,通常将情感语音的声学特征直接分为三类:韵律类、音质类和清晰度类。

韵律类:
包括平均基频,基频范围,重音的突变特性,停顿的连贯性,语速,重音频度,音强,音节基频高线倾斜程度,音节基频低线倾斜程度,基频抖动等。

  • 平均基频:整个语句的基频(F0)平均值,根据语音信号分析声带的共振频率。
  • 基频范围:整个语句的基频范围,基频范围在很大程度上能够反映人的情绪状态。
  • 重音的突变特性:在情感语句中,重音多体现情感焦点特性,经常由情感关键词承载。
  • 重音频度:重音的频度在一定程度上能够体现情感状态的持续性。
  • 停顿的连贯性:用以表示语句的停顿是否连贯。人在情绪受到压抑或快速膨胀时,有时会出现由于概念表述不清而导致的语气断续特征。
  • 语速:用以表征语气的缓急程度,人在焦急、恐惧时多出现语速加快的现象,有时欢快的语气也能带来类似效果。
  • 音强:实验证明在情感语音中,音强的变化往往表现出与基频范围变化的一致性。但是相对基频变化来说,大部分音强变化并不明显。
  • 音节基频高线倾斜程度:语句中音节基频高点连线的变化情况(上升、水平和下降)。
    -音节基频低线倾斜程度:语句中音节基频低点连线的变化情况(上升、水平和下降)。
  • 基频抖动:焦虑语音会出现“F0抖动”现象,这一现象描述了基频从一个区域到另一个区域之间快速和反复的变化。在此情况下,有时音节会失去其固有调型。

音质类:
来表征不同情感状态下语音音质发生的变化。

  • 呼吸声:在语音流中,出现呼吸气等声音。当一个人处于紧张或欢快状态时会出现的快速呼吸停顿,或一个人由于恐惧而牙齿紧压会产生的回旋气流噪声。
  • 明亮度:低频能量和高频能量的比值,用以反映语音的清亮特性。
  • 喉化度:发音时声门出现不连续的脉冲震动特性,经常出现在极度恐惧的情感状态中。

清晰度类:
可分为正常、焦急、模糊和准确。清晰度描述了元音质量的变化和清辅音是否变化为相应的浊辅音。
情感信息与人的声道同样具有一定的关联。清晰度可分为正常、焦急、模糊和准确。清晰度描述了元音质量的变化和清辅音是否变化为相应的浊辅音。比如:人在厌恶时,有时说话“嘟嘟囔囔”,表达不清。

以上这些声学上的参数都是从一个侧面反映了语音的情感特性,在实际应用中(情感语音合成,语音的情感识别等)需要将这些参数统一整合起来才能正确的反映情感的整体性质。

基频抖动在情感语音合成中的作用

从情感的角度来说,影响jitter分布的因素有基频值的强烈变化,声源类型的不同,重音模式的变化等等。这些因素的实现是靠着生理器官的作用才得以完成,比如情感的变化通常会使大脑产生导致声带肌肉紧张度,气流的体积速度,声道表面的坚硬或柔软的变化的命令。

本文认为,在不同的说话模式下(情感、声源类型乃至汉语中的声调),都有其特有的基频抖动分布模式。统计本文所用到的语料库中的语料,得出如下的结果:

  • 在不同的情感中,基频抖动大小的方差按从大到小的顺序排序为:
    难过〉害怕〉生气 〉愉快 〉中性
  • 在不同的声源类型中,基频抖动大小的方差按从大到小的顺序排序为:
    Breathy> Whisper> Creaky> Lax Creaky> Tense> Bright> Modal
  • 在汉语不同的声调中,基频抖动大小的方差按从大到小的顺序排序为:
    上声 〉去声 〉阳平 〉阴平

由此可见,在不同的讲话模式中,基频抖动的分布类型也是不同的,在语音合成中,如果没有基频抖动的作用,听上去会有很大的机器味。为了增加合成出的语音的表现力和自然度,基频抖动是必不可少的参数之一。