Heute früh hatte ich das Vergnügen, einen Artikel zu aktuellen Durchbrüchen von Microsoft in der Spracherkennung auf Basis trainierter neuronaler LSTM-Netzwerke zu lesen:
W. Xiong, J. Droppo, X. Huang, F. Seide, M. Seltzer, A. Stolcke, D. Yu and G. Zweig: “Achieving Human Parity In Conversational Speech Recognition”, Microsoft Research.
Technical Report MSR-TR-2016-71, 2016
Siehe: https://arxiv.org/pdf/1610.05256v1.pdf
Dabei fiel mir neben den interessanten wissenschaftlichen und technischen Erläuterungen eine kleine Passage auf, die meine übliche Morgenmuffel-Stimmung beträchtlich aufhellte. Zitat:
“All neural networks in the final system were trained with the Microsoft Cognitive Toolkit, or CNTK [63, 64], on a Linux-based multi-GPU server farm. CNTK allows for flexible model definition, while at the same time scaling very efficiently across multiple GPUs and multiple servers. The resulting fast experimental turnaround using the full 2000h corpus was critical for our work.”
Sowas liest man doch gerne ….