本文目录一览

1,如何对声音文件提取MFCC特征和LPC特征

ygfgyh

如何对声音文件提取MFCC特征和LPC特征

2,MATLAB中提取MFCC特征

利用函数melcepst.m可以得到直接计算语音信号s的MFCC参数:c = melcepst(s, fs。这一命令默认地以256点为帧长计算12阶MFCC参数,如果s比较长,将会按照128点的间隔将s分为若干帧,再分别计算。即s为你定义的信号,不是长度,fs可以取8000。

MATLAB中提取MFCC特征

3,MATLAB中提取MFCC特征

利用函数melcepst.m可以得到直接计算语音信号s的MFCC参数:c = melcepst(s, fs。这一命令默认地以256点为帧长计算12阶MFCC参数,如果s比较长,将会按照128点的间隔将s分为若干帧,再分别计算。即s为你定义的信号,不是长度,fs可以取8000。

MATLAB中提取MFCC特征

4,plp特征提取方法可mfcc有什么区别

MFCC:Mel频率倒谱系数的缩写。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。MFCC参数的提取包括以下几个步骤:预滤波:CODEC前端带宽为300-3400Hz的抗混叠滤波器。A/D变换:8kHz的采样频率,12bit的线性量化精度。预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理,实验中选取的语音帧长为32ms,帧叠为16ms。加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响。快速傅立叶变换(Fast Fourier Transformation, FFT):将时域信号变换成为信号的功率谱。

5,plp特征提取方法可mfcc有什么区别

MFCC:Mel频率倒谱系数的缩写。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。MFCC参数的提取包括以下几个步骤:预滤波:CODEC前端带宽为300-3400Hz的抗混叠滤波器。A/D变换:8kHz的采样频率,12bit的线性量化精度。预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理,实验中选取的语音帧长为32ms,帧叠为16ms。加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响。快速傅立叶变换(Fast Fourier Transformation, FFT):将时域信号变换成为信号的功率谱。
期待看到有用的回答!

6,如何提取特征三类韵律特征音质特征mfcc参数

特征提取 一、 low-level,主要是MFCC,以及基于MFCC并对其优化的一些方法。 1、 MFCC 2、 抗噪声较优的方法: WMVDR:warped minimum variance distortionless response Multitaper MFCC:思想是用multiple windows(tapers)来代替汉明窗。 MHEC:mean Hilbert envelope coefficients.此方法对抗汽车噪声很有用。 3、 对抗回声较优的方法(reverberant robustness): FDLP: frequency domain linear prediction 4、 融合MFCC的方法(fusion with MFCC): SCF/SCM: spectral centroid frequency/magnitude 该方法的提出,是考虑到MFCC子带中无法体现能量分布,而FM(frequency modulation)计算量太大。 FFV: fundamental frequency variation,该方法同时考虑到了MFCC和韵律(prosodic)信息. HSCC: Harmonic structure cepstral coefficient,该方法体现了能量分布,实现用到了LDA。 二、 high-level,主要是基于phone ,syllable ,word 一级。 1、 韵律特征(prosodic features) 目前研究的有 pitch distribution和non-uniform extraction region features(NERFs) 2、 音素特征(phonetic features) 建模可以用N-gram,也可以用SVM建模。 3、 语法特征(lexical features) 词一级的N-gram,建模的方法有LLR(log likelihood ration)和SVM.SVM的效果应该更好一些。 4、 cepstral-derived features 实现用最大似然线性回归MLLR(maximum likelihood linear regression) 一些特征: MFCC PLP 感知线性预测 LPC 线性预测系数 过零率 LSP 短时能量 子带流量比 亮度 基频 频谱峰值点 SDC CEP 线谱对 频谱能量 Delt(MFCC)

7,语音信号特征提取用mfcc提取完后的图看不懂matlab程序求解释一下图

MFCC是一种语音特征提取技术,它产生与20世纪80年代。MFCC为了从人发出的音频中去除噪音和情感的影响,提取特征值便于我们进行进一步的分析。人的发声由很多部位共同影响的结果,如嘴形、牙齿等因素,这种形状可以决定声音的输出。如果我们可以精确的确定形状,那么我们就可以对发出的因素进行科学的表示。这篇文章将带你走进MFCC技术,解释它为什么能够很好的用于语音识别领域以及如何实现它。首先我们来确定一下如何进行MFCC的步骤:-----1.将音频分解为帧;-----2.对于每一帧,计算周期功率谱;-----3.将mel滤波器应用到功率谱中,计算每个滤波器的能量和;-----4.计算能量的对数值;-----5.对每个对数能量进行离散余弦变换(DCT);-----6.保留DCT的2-13个系数,其余系数舍去;现在我们来探讨一下每一步的细节以及为什么要这么做。一个音频信号通常是不断变化的,为了简化,我们通常假设一个较短时间内音频信号不会有较大的变化(我们指统计上),所以我们把每一帧划分成20-40ms为宜,若该时间太短,则没有足够的信号来进行功率估计;方之,若太长,则每一帧信号变化太多。下一步是计算每一帧的周期功率谱,这个源自人的耳锅,它随声音的大小而发生不同频率的振动。通过耳锅的不同位置上的振动,不同的神经元将会通知大脑现在听到的音频频率。我们的周期图同样为我们做出这种工作,确定帧中存在哪些频率。周期图同样存在一些ASR(Automatic Speech Recognition)不需要的信息。实际上耳锅无法辨别两个空间上相近的频率。当频率变大时,这种影响更明显。因此,我们采取周期图块,并且将它们进行累加来得知在不同频率区域的能量是多少。这个是有我们的mel滤波器完成的,第一个滤波器非常狭窄,可以告诉我们频率为0Hz附近的能量是多少,当频率渐渐变高时,我们的滤波器也会越来越宽,我们只关心每一个点能量是多少。mel级别告诉我们如何去划分滤波器以及滤波器的宽度如何选择。一旦我们有了滤波器的能量,我们对它取对数,这也是受人类听力启发的;通常我们无法听出线性级别的音量,通常若声音扩大两倍,我们需要放入8倍的能量进去。这就意味着能量上有较大的变化并不代表声音大小变化很大,为什么这里我们使用对数而不是取平方根,那是因为我们可以使用cepstral mean subtraction,它是一个频道归一化的技巧。最后一步是计算对数能量的DCT,关于这个有两点原因:因为我们的滤波器通常都有交叠,因此滤波器能量彼此相关;DCT对能量进行去相关,意味着协方差的对角矩阵可以用来对HMM分类器进行建模。但是注意,DCT中26个系数只有12个被保留下来,这是因为DCT的高阶系数代表滤波器能量的快速变化,事实证明这些快速变化影响ASR的表现,所以我们去除高阶系数。什么是mel scale(梅尔规模)?mel scale将感知频率与音频的实际频率相联系起来,人们更容易区分低频中的微小频率变化,而对高频中的微小频率变化则难以区分。使用mel scale可以帮助更加模拟人的听觉。从频率到mel scale的计算公式为反过来,从mel scale回到频率的公式为实现步骤:我们从一段语音信号开始,假设该信号的采样频率为16KHz。1.将信号以20-40ms为一帧进行划分,25ms较为标准。这意味着对于一个16KHz的信号,共有0.025*16000=400个样本。帧的间隔通常为10ms,即160个样本,即第一帧400个样本从样本0开始,第二帧400个样本从样本160开始,帧之间具有交叠部分,直到达到语音文件结尾为止。如果语音文件不能划分成偶数个帧,用0填满它。下一步是进行对每个单一帧进行提取12个MFCC系数,我们约定为我们的时域信号,为第i帧的时域型号,n的取值为1-400,但我们计算复数离散傅立叶变换,我们得到,i表示第i帧,是第i帧的功率谱。2.为了计算每一帧的DFT,执行下面的运算:其中,h(n)为样本分析的汉明窗,K是DFT的长度。接下来每一帧的功率谱估计即这就是功率谱的周期图估计,我们将会进行512个点的FFT,只保留开始的257个系数。3.计算梅尔间距滤波器。这里一般有20-40(26最好)个三角形滤波器,应用到第2步的功率谱上面,我们的滤波器有26个向量组成,每个向量元素个数为257,每个向量大部分为0,但是有一部分频率的值非零。为了计算滤波器的能量,我们把每一个滤波器与功率谱进行相乘,然后系数相加,最后这就给了我们26个数值,它们代表每一个滤波器上面的能量。下图说明了这些细节:4.分别计算第3步中26个能量的对数值。5.对26个对数能量进行DCT,得到26个系数,我们只取前12个。这样,我们对于每一帧得到的12个数称为Mel Frequency Cepstral Coefficients,即梅尔频率倒谱系数。关于计算梅尔间距滤波器的细节部分:这一部分为了方便讲解我们使用10个滤波器,实际中应该使用26-40个滤波器。我们首先要选择频率上下限,一般取300Hz为最小频率,8000Hz为最大频率。当然如果语音的采样频率为8000Hz,那么我们的最大频率修改为4000Hz。然后进行如下步骤:1.使用方程1,将频率转化为梅尔频率,即300Hz变为401.25Mels,8000Hz变为2834.99Mels。2.对于这个例子,我们需要10个滤波器,因此需要找到12个点。意味着我们要在梅尔最大最小频率之间再插10个等间隔频率,即m(i) = 401.25, 622.50, 843.75, 1065.00, 1286.25, 1507.50, 1728.74,1949.99, 2171.24, 2392.49, 2613.74, 2834.993.我们使用方程2将梅尔频率还原成频率h(i) = 300, 517.33, 781.90, 1103.97, 1496.04, 1973.32, 2554.33, 3261.62, 4122.63, 5170.76, 6446.70, 80004.由于我们不知道每个频率应该放在FFT过后的哪个点处,所以我们需要对这些频率进行转为相应的FFT过后的点, f(i) = floor((nfft+1)*h(i)/samplerate)然后我们计算出结果 f(i) = 9, 16, 25, 35, 47, 63, 81, 104, 132, 165, 206, 256注意这里我们之前说了采样频率为16KHz,然后nfft=512。5.现在我们可以来建立滤波器了,第一个滤波器应该从第一个点开始,在第二个点处到达峰值,在第三个点处为0......同理可得其他,公式如下所示:最后,10个滤波器的图像如下所示:(工作时,频率从300Hz开始)最后一点:Deltas and Delta-Deltas又名差和加速系数,MFCC特征系数仅仅概括单一帧的功率谱,但是语音信号似乎是动态的,例如MFCC特征系数随时间变化的轨迹如何,实践表明,计算MFCC后,再加上一些原始的特征向量能够提高ASR的表现。(如果我们有12个MFCC,又有12个delta系数,这样一共得到24个系数)计算delta系数的公式如下:其中是一个delta系数,由和计算而来,N的典型值一般取2,差和加速系数计算方法类似,不过它们的是对delta来求的,而不是c。

文章TAG:特征  特征提取  提取  如何  mfcc特征提取  
下一篇