Yo supondría lo siguiente:
Los audio de números deben estar guardados compartidos con algún código preestablecido. (ej. debe haber un "uno", "dos", "tres"... "dieci", "veinti", "veinte", etc)
La asignación genera un registro de espera con los códigos para llamar un "x" audio (o secuencia de audios). De donde existirá una tabla que contenga las posibles combinaciones y un orden.
La llamada es simplemente ir a leer el código de cuando se generó la asignación y reproducir el/los audio(s).
Básicamente para reproducir el audio hay varios ejemplos en la web. Usando la referencia COM de WMP encontré este
MP3 player VB.NET 2010