При решении задач по обработке речи средствами искусственных нейронных сетей важной деталью программной системы является модель звукового сигнала. На текущий момент одним из наиболее распространенных методов (если не сказать стандартом) является представление звукового сигнала в виде спектрограммы и/или ее производной MFCC (Mel Frequency Cepstral Coefficients). В данном вебинаре мы заглянули «под капот» этому методу и на примерах увидели что он в себе несет. В качестве потенциальной альтернативы устоявшемуся стандарту мы поговорили о Linear Predictive Coding (LPC) подходе, который отталкивается от физики процесса речеобразования.
Вебинары открытые. Приглашаем присоединиться всех интересующихся.
Запись вебинара: https://youtu.be/SJbmJ6ZK_v8
Ссылка с материалами (презентация, ноутбук, аудио файлы)
https://drive.google.com/file/d/1G2G4gPPKSksa_qCB62xqMa5tEJBg4TPP/view?usp=sharing