capella audio2score (früher: capella wave kit) gilt seit langem als eines der leistungsfähigsten Programme bei der Erkennung von Noten aus Audio-Aufnahmen. Das Programm analysiert eine Aufnahme, z.B. eine MP3-Datei. Die erkannten Töne werden untersucht, sortiert und dann sinnvoll in ein Arrangement gegossen, das dem ursprünglichen ähnlich ist. So lässt sich beispielsweise eine Solo-Aufnahme notieren oder eine Orchesterpartitur in einen Klavierauszug verwandeln. Für die Nachbearbeitung des Erkennungsergebnisses bietet capella audio2score pro umfangreiche Editierfunktionen und eine intuitive Ansicht des Klang- und Notenbildes. Dadurch unterscheidet sich die Software von ähnlichen Produkten anderer Anbieter. Trotzdem bleibt die Notenerkennung aus Audio eine äußerst anspruchsvolle Aufgabe (siehe dazu auch den Blog-Beitrag von 2014 unseres Autors Christian Schauß).
Intelligentes Zuhören
capella audio2score pro 4 bedient sich der neuesten Generation an neuronalen Netzen, mit denen die Künstliche Intelligenz (KI) derzeit Furore macht. Sicher habt ihr schon gehört von DeepL (Sprachübersetzung), ChatGPT (Dialogoptimierung), DALL*E (Bildgenerierung aus Text) oder AlphaZero/AlphaGo (Brettspiele). Mit diesen Systemen lassen sich Ergebnisse erzielen, die weit über das hinausgehen, was bisherige KI-Methoden konnten. Die Besonderheit von neuronalen Netzen: Sie werden nicht programmiert, sondern lernen anhand von Beispielen und können sich dadurch immer weiter verbessern.
Christian Schauß ist es nun gelungen, diese KI-Technologie auch auf die Audioerkennung zu übertragen. Als Lernbeispiele verwendete er Aufnahmen für Klavier solo, aber auch Stücke mit anderen Instrumenten und in größeren Besetzungen.
Ein Quantensprung in der Audioerkennnung!
Die Ergebnisse haben ihn und uns gleichermaßen begeistert. Man kann ohne Übertreibung von einem Quantensprung bei der Tonerkennung sprechen. Im Gegensatz zu den bisherigen Versionen erkennt Version 4 einzelne Klangfarben (Bläser, Streicher oder Klavier/Cembalo/Gitarre) und kann so die Instrumentengruppen einer Aufnahme voneinander trennen. Für reine Klaviermusik wurde ein spezialisiertes neuronales Netz trainiert, das Klaviertöne besonders gut erkennt.
Hier ein Beispiel, das den Fortschritt verdeutlicht. Es handelt sich um eine Aufnahme des dritten Satzes Alla Turca aus Mozarts Klaviersonate KV 331. Zunächst das Original:
Dann das Ergebnis der alten Erkennung (ohne Nachbearbeitung):
Und hier das Ergebnis der neuen Erkennung (ebenfalls ohne jegliche Nachbearbeitung):
Den Vergleich mit der bisherigen Erkennung könnt ihr übrigens selbst im Programm durchführen. Wenn ihr im Dialog beim Öffnen einer Audio-Datei auf den Mehr-Button klickt, könnt ihr in der Klappliste für die Erkennungsversion noch die alte Erkennung einstellen:
Wie funktionieren eigentlich neuronale Netze?
Neuronale Netze sind dem menschlichen Gehirn nachempfunden. Ein neuronales Netz besteht aus Neuronen, die über gewichtete Verbindungen miteinander vernetzt sind. Die Neuronen sind in Schichten organisiert, darunter eine Eingabe- und eine Ausgabeschicht. Bei der Notenerkennung ist dann vereinfacht gesprochen die Eingabe ein Ausschnitt aus der Audio-Aufnahme und die Ausgabe die entsprechende Notendarstellung.
Das Netz lernt die Aufgabe, indem es anhand von Beispielen die Verbindungsgewichte so anpasst, dass zu einer Eingabe die gewünschte Ausgabe geliefert wird. Die gelernten Informationen werden also nicht wie in einem Computer lokal gespeichert, sondern sind über die Gewichte des Netzes verteilt - das macht die Besonderheit neuronaler Netze aus. Nach erfolgreichem Lernen sind neuronale Netze dann in der Lage, auch zu nicht gelernten Eingaben sinnvolle Ausgaben zu liefern.
Was ist das Besondere an den modernen neuronalen Netzen?
Neuronale Netze existieren seit über 70 Jahren, sind also alles andere als neu. Doch seit einigen Jahren erleben sie einen erneuten Aufschwung. Grund dafür ist unter anderem eine deutlich schnellere Rechenleistung. Durch verbesserte Hardware besteht nun die Möglichkeit, viele Rechenoperationen parallel ausführen zu können. Die Anpassung der Netzgewichte beim Lernen erfolgt also nicht mehr nacheinander, sondern wie im menschlichen Gehirn gleichzeitig. Damit lassen sich deutlich größere und komplexere Netze trainieren (Deep Learning).
Die Besonderheit des Deep Learning besteht darin, dass neuronale Netze aus den Lernbeispielen selbständig sogenannte Merkmale extrahieren können. Bei der Bilderkennung (also der Identifizierung von Objekten in einem Bild) enthalten Merkmale beispielsweise Informationen über Textur und Form der zu erkennenden Objekte. Bei der Audioerkennung können das Muster von Obertönen (Klangfarben) sein. Merkmale verbessern den Lernprozess erheblich, sind aber häufig nur schwer in Worte "fassbar" und damit dem menschlichen Verstehen zugänglich zu machen. Das ist gleichzeitig Fluch und Segen dieser Technik: Ihre Funktionsweise ist schwierig zu verstehen, aber gerade dies macht sie so enorm leistungsfähig.
Kauf oder Abo
Wir bieten capella audio2score pro wie bisher zum Kauf und als Abo an. In beiden Versionen steht euch die neue Audioerkennung mit allen Editierfunktionen zur Verfügung. Hinzu kommt der Modus ganzheitliche Erkennung, in dem nur die charakteristischen Elemente eines Arrangements erfasst werden, also: Melodie, Basslinie und Harmonien. Dies empfiehlt sich für komplizierte Arrangements, falls sie nicht vollständig zerlegt werden können.
Wenn ihr weiter am Ball bleiben wollt, empfehle ich euch die Aboversion capella audio2score pro Abo. Damit profitiert ihr immer automatisch vom neuesten Stand der Audioerkennung.
Wie geht es weiter?
Selbstverständlich haben wir mit capella audio2score pro 4 nicht die neue Weltformel entdeckt. Es gibt noch viel Raum für Verbesserungen. Aber wir freuen uns, dass wir mit dem Programm einen neuen sinnvollen und nützlichen Anwendungsbereich für die KI mit erschaffen haben.
Verbesserungspotential sehen wir unter anderem bei der Erkennung einzelner Instrumente, insbesondere bei Gesang und Schlagzeug. Die Erkennung von Gesangstönen ist vor allem wegen der oft stark modulierenden Stimme (Stichwort "Schleudervibrato") besonders herausfordernd - das gilt teilweise auch für Instrumentalspiel mit ausgeprägtem Vibrato. Schlagzeugtöne werden aktuell nicht erkannt, sondern als Geräusche eher herausgefiltert. Natürlich haben wir noch viele weitere Ideen für kommende Versionen, die wir hier aber noch nicht verraten wollen.
Nun wünsche ich euch viel Vergnügen mit dem neuen capella audio2score pro und guten Erfolg bei der Umsetzung eures nächsten audio2score-Projekts - sei es beim Notieren eines Stücks, das ihr selbst am Klavier spielt, oder bei der Verwandlung einer bestehenden Aufnahme in Notenschrift. Wie gewohnt könnt ihr das Programm vorher mit unserer kostenlosen Testversion ausprobieren.