Glossar › Musik und Künstliche Intelligenz

Algorithmus

Als Algorithmus versteht man eine mathematische oder programmiertechnische Umsetzung eines zu erreichenden Ziels. Einfache Algorithmen sind die der Statistik, bei der ein Durchschnitt oder eine Abweichung berechnet wird. Diese sind oft Grundlage von politischen und wirtschaftlichen Entscheidungen. Auch KI ist ein Algorithmus, welcher viele Probleme weit effektiver berechnet und als Ziel etwa Identifikation oder Clusterbildung beinhaltet. Weitere Algorithmen des Physical Modeling sind das Lösen sehr komplexer mathematischer Gleichungen oder Iterationsverfahren, also Berechnungen, die aufeinander aufbauen.

Additive Synthese

Eine additive Synthese addiert einzelne Schwingungen zu einem Gesamtklang. Die einzelnen Schwingungen sind dabei Sinustöne mit bestimmten Frequenzen. Ein Klang mit einer Tonhöhe, aber auch Geräusche oder Perkussionsinstrumentenklänge besteht aus vielen solcher Sinustönen. Diese können sich über die Zeit in ihrer Stärke und Frequenz ändern. Ein Beispiel für additive Synthese ist die Orgel wenn mehrere Pfeifen gleichzeitig klingen, deren Einzelklänge dann addiert werden. Bei Synthesizern ist die additive Synthese eine wichtige Methode zur Klangerzeugung.

Amplituden

Eine Amplitude bezeichnet die Stärke oder Größe einer Schwingung. Starke Amplituden sind daher laut, schwache leise. Wenn Amplituden in der Zeit schwanken, also größer oder kleiner werden hören wir einen schwebenden Klang. Wird die Geschwindigkeit dieser Schwebung schneller wird der Klang auf einmal unangenehm rau. Erhöht sich die Geschwindigkeit der Schwebung weiter hören wir nicht mehr den ursprünglichen Klang sondern einen neuen Sound, welcher durch die Geschwindigkeit der Amplitudenschwankung mitbestimmt ist.

Auditiory Pathway

Die Auditory Pathways, für jedes Ohr einen, ist der neuronale Weg vom Ohr bis zum Neocortex, der Hirnrinde unter der Schädeldecke. Nachdem das Ohr den Schall in elektrische Impulse umgewandelt hat werden diese neuronalen Spikes durch verschiedene und sehr komplexe neuronale Nuklei geführt und dort verändert. Dabei ist jede Nerverfaser einer Frequenz zugeordnet, welche mit einem Ort auf der Basilarmembran des Ohres verknüpft ist, welche wiederum eben diese Frequenz codiert. Im Auditory Pathway werden bereits Tonhöhe, Klangfarbe, Räumlichkeit und viele andere Parameter aus dem Klang extrahiert.

Basilarmembran

Die Basilarmembran ist im Innenohr und schwingt mit den Frequenzen des Schalls, die durch das Trommelfell übertragen werden. Sie ist etwa 3,5 cm lang, 1 mm breit und mit ihren drei Windungen in die Gehörschnecke integriert. Auf ihr sitzen Haarzellen, welche die mechanische Schwingung der Basilarmembran in elektrische Impulse überführen. Ebenfalls finden sich Neuronen auf ihr, welche vom Gehirn gesteuert werden um die Frequenzgenauigkeit oder die Lautstärkewahrnehmung zu optimieren. Auch findet bereits hier eine Reduzierung der Halligkeit von Klängen statt, um etwa die Sprachverständlichkeit zu erhöhen.

Cembalo

Das Cembalo ist ein Tasteninstrument, welches der Vorgänger des heutigen Pianos oder Flügels ist, nur daß beim Cembalo die Saiten nicht mit einem Hammer angeschlagen werden, wie beim Klavier, sondern mit einem Federkiel gezupft werden. Dieser Kiel ist meist aus dem Hornteil der Federn von Vögeln geschnitzt. Der Anzupfmechanismus führt zu einem sehr hellen Klang. Die Idee des Cembalos war die einer Mechanisierung von gezupften Saiteninstrumenten, z.B. der Gitarre, so daß nicht mehr ein Spieler die Saiten mit der Hand anzupft, sondern dies eine Mechanik übernimmt.

Cochlea

Die Cochlea, oder Hörschnecke ist das Hörorgan. Es besteht aus einer Schnecke mit etwa drei Windungen, in welcher sich drei Kanäle befinden, die mit Lymphflüssigkeit gefüllt sind. Am unteren Ende ist eine Membran, die indirekt mit dem Trommelfell verbunden ist. Über diese Membran gelangt der Schall in die Cochlea. Zwischen diesem und den zwei anderen Kanälen ist die Basilarmembran, auf der die Haarzellen sind, welche den Schall in neuronale Impulse überführt. Auf der Basilarmembran sind die einzelnen Frequenzen nebeneinander angeordnet, so daß diese eine Frequenzanalyse des Schalls durchführt.

Deep Learning

Als Deep Learning bezeichnet man eine spezielle Art der KI, welche einen Inputlayer, einen Outputlayer und einen oder mehrere Zwischenlayers hat. Neuronale Netze können auch nur Input- und Outputlayer haben. Die Zwischenlayer machen das Netzwerk ‚deep‘, also vertiefen es. Abhängig von der Größe und Komplexität der Aufgaben kann ein solches Netzwerk nur einen Zwischenlayer, oder etwa 27 Layers haben wie das GoogLeNet. Das Netzwerk erlernt einen Input, etwa Klänge, indem diese dem Netz sehr häufig ‚vorgespielt‘ werden und dabei die Interaktionen zwischen Neuronen entsprechend dem Input verändert werden.

Dutar

Dutar, du: zwei, tar: Saite, also ein Zweisaiter, welcher bei den Uyghuren gespielt wird, sich aber auch bei vielen anderen Turkethnien findet. Dieses Instrument ist leiser als die Sethar und wird daher oft als Begleitinstrument zu Gesang verwendet.

Dynamik

In der Musik wird unter Dynamik verstanden, wie stark sich Lautstärke eines Stücks verändert. In der Klassik finden sich oft große Lautstärkeunterschiede, die Musik ist also sehr dynamisch. In der Popmusik, Hip Hop, Techno und ähnlichen Musikstilen wird meist versucht, bestehende Dynamiken, also Lautstärkevariationen zu verringern, sie werden im Tonstudio mittels eines Kompressors komprimiert Dies meist deshalb, um den Lautstärkepegel des Stücks konstant hoch zu halten, wobei Autofahrer, die Musik hören meist bei solchen Stücken verweilen. Dies wird auch als Lautheitskrieg bezeichnet.

Einschwingphase

Musikinstrumentenklänge haben eine Einschwingphase, gefolgt von einem sogenannten quasi-stationären Klanganteil nach dem Einschwingen. Dieser stationäre Teil ist meist harmonisch, wir hören eine Tonhöhe. Der Einschwingvorgang jedoch ist oft sehr geräuschhaft und chaotisch. Trotzdem ist er wichtig etwa für das Erkennen des Instruments. Schneidet man den Einschwingvorgang im Tonstudio ab und spielt nur den stationären Teil vor ist es für Hörer oft nur noch schwer möglich, das Musikinstrument zu erkennen. Auch für musikalische Artikulation ist der Einschwingvorgang sehr wichtig.

Einschwingvorgang

wie Einschwingphase

Frequenz

Frequenz heitßt wörtlich ‚Häufigkeit‘. In der Musik bezeichnet Frequenz wie häufig sich eine Sinuswelle innerhalb einer Sekunde wiederholt. Eine Sinusschwingung ist dabei, wenn sich der Klang einmal zum Maximum aufschwingt, dann wieder zu Null abfällt, sich zum negativen Maximum hinabschwingt und dann wieder zu Null hinauf. Wiederholt sich dies etwa 100 Mal pro Sekunde hören wir einen Ton, dessen Tonhöhe die Frequenz 100 Hz (Hertz) hat. Klänge bestehen meist aus mehreren solchen Sinustönen, jeder mit seiner eingenen Frequenz.

Gamelan

Gamelan ist das indonesische Wort für ‚Orchester‘. Das javanische oder balinesische Gamelan-Orchester besteht aus einer Vielzahl von Instrumenten aus Bronze, Metallophonen, einige mit Platten mit denen unterschiedliche Tonhöhen gespielt werden können, Gongs aber auch Flöten und eine Zither. Da die Obertonspektren dieser Platten und Gongs nicht mehr im Verhältnis 1:2:3:… stehen, also nicht mehr harmonisch sondern vielmehr inharmonisch sind und zudem die Tonsysteme ebenfalls keiner einfachen Regel folgen ergibt sich ein sehr komplexer Klang, welcher die oft repetitive Musik des Gamelan unterstützt.

Gongs und Zimbeln

Gongs und Zimbeln, wie sie in China und in großen Teilen Südostasiens verwendet werden, so auch in Myanmar. Einige Gongs können dabei sogennante Pitch-glides spielen. Schlägt man das Instrument an fällt die Tonhöhe langsam ab oder steigt an, was einen dramatischen Effekt gibt.

Intervalle

In der Musik werden als Intervalle die Abstände von Tönen etwa einer Melodie verstanden. Intervall haben dabei eine bestimmte Anzahl von Halbtönen. So hat z.B. die Quite sieben Halbtöne, die Oktave hat zwölf, die große Terz hat vier und die Prime, also der Einklang hat null Halbtöne. Die Funktion der Intervalle ist dabei einerseits historisch gewachsen, etwa die Einteilung in harmonischen (Oktave, Quint, Sext und Terz) und inharmonische (Quart, Sekunde, Septime, Tritonus) Intervalle. In Neuer Musik andererseits verschwinden diese Zuweisungen zugunsten einer gleichberechtigten Sichtweise.

Hulusi bzw. Hulusheng

Hulusi (links) und Hulusheng (rechts). Dieser Instrumententyp kommt im Westen nicht vor. Die Bambusrohre, die in einen Kürbis oder in Holz gesteckt sind haben eine durchschlagende Zunge und werden angeblasen. Im Westen gibt es zwar auch durchschlagende Zungen, etwa bei der Mundharmonika, welche aber nicht an Rohre anhängen. Das Instrument wird in Yunnan und angrenzenden Regionen der Kachin und der Shan gespielt.

Kaehn

Kaehn aus Laos. Dieses Instrument funktioniert wie die Hulusi und Hulusheng als Blasinstrument mit einer durchschlagenden Zunge an einem Rohr. Es wird meist als Soloinstrument verwendet.

Klangfarbe

Als Klangfarbe bezeichnet man den Teil eines Klangs, der nicht die Tonhöhe ist. Diese Definition kommt von der Eindeutigkeit, mit der Tonhöhen gehört werden und der großen Bandbreite von Eigenschaften, die die Klangfarbe ausmachen. Die wichtigsten Eigenschaften der Klangfarbe sind Helligkeit, Rauhigkeit, Schärfe, Fluktuation, Lautheit, Räumlichkeit oder Harmonizität, u.v.m. Dabei sind wir in der Lage, feinste Nuancen wahrzunehmen, Klänge zu Instrumenten und deren Familien zuzuordnen, Assoziationen zu Materialien und Bauweisen zu hören, Artikulationen wahrzunehmen usw.

Kohonen-Karten

Kohonen Karten sind eine Art der KI, welche einen Input durch Selbstorganisation anlernt und sodann Cluster gleichartiger Elemente feststellt. Die angelernte Karte kann dann benutzt werden, um neue Elemente zuzuordnen und zu identifizieren, etwa ein Musikstück einem Genre zuzuordnen, eine Produktionsweise oder ein Musikinstrument festzustellen. Im Gegensatz zu z.B. Deep Learning sind Kohonen Karten auch in der Lage festzustellen, warum ein Cluster oder eine Identifizierung gelungen ist und somit Aussagen über die trainierten Daten zu liefern.

Komplexität des Klangs

Musikalische Klänge haben unterschiedliche wahrgenommene Komplexitäten oder Chaotizitäten. Dies liegt an der Fähigkeit unseres Hörens, Frequenzspektren, die aus harmonischen Obertonspektren bestehen zu fusionieren, also zu einem Tonhöheneindruck zu verschmelzen, wir hören einen einzigen Ton. Bei nicht-harmonischen, also inharmonischen Spektren gelingt diese Fusion nicht und wir nehmen einen komplexen Klang wahr. Dieser kann durch eine fraktale Dimension, ein Maß für den Grad an Komplexität oder Chaotizität gemessen werden. Sehr komplexe Klänge gehen dann in Rauschen über.

Kompression

Kompression ist der Versuch, einen großen Bereich überschaubar zu machen. Alle unsere Sinne komprimieren den physikalischen Input in einen überschaubaren Wahrnehmungsbereich. So komprimiert unser Ohr den großen Frequenzbereich von 20 Hz bis 20 000 Hz in etwa acht Oktaven. Dabei werden Frequenzänderungen im tiefen Frequenzbereich sehr genau wahrgenommen und Frequenzänderungen im hohen Frequenzbereich nur sehr grob. Auch unser Lautheitsempfinden, aber auch unser Sehsinn, Tastsinn oder Geruchssinn komprimieren. Im Tonstudio wird diese Kompression durch entsprechende Geräte, Kompressoren nachgebaut.

Konnektionistische Modelle

Konnektionistische Modelle sind eine Form der KI, bei welcher Neuronen miteinander verbunden, also konnektiert werden. Dabei ist ein Neuron gewöhnlich mit einer Vielzahl anderer Neuronen verbunden, wie es auch im Gehirn der Fall ist. Dort ist jedes Neuron mit etwa 10 000 weiteren Neuronen verbunden. Die KI verringert diese Zahl erheblich, ist also eine grobe Vereinfachung des Gehirns. Die Verbindungen zwischen Neuronen haben Verbindungsstärken, sogenannte Gewichtungen. Beim Trainieren des Neuronalen Netzwerks werden diese Verbindungsstärken ständig dem Input angepaßt bis die Karte trainiert ist.

Künstliches neuronales Netz

Ein künstliches Neuronales Netz ist der Versuch, das neuronale Netz des Gehirns im Computer nachzubauen. Dabei wird meist die Anzahl der Neuronen und deren Verbindungen erheblich reduziert. Auch die Funktionsweise der Neuronen, die im Gehirn hoch komplex ist wird drastisch vereinfacht. Als Grundfunktion wird meist die Eigenschaft echter Neuronen nachgebaut, welche bei genügendem Input von Nervenimpulsen von anderen Neuronen selbst einen Nervenimpuls aussendet. Auch wird berücksichtigt, daß bei starkem Input über längere Zeit die Aktivität des Neurons zunimmt, es also noch empfänglicher wird.

Labium (Pfeife / Flöte)

Als Labium wird bei Blasinstrumenten die scharfe Kante bezeichnet, auf die ein Luftstrom bläst. Dabei macht das Labium das System bi-stabil, d.h. der Luftstrom fließt abwechselnd auf die eine und andere Seite des Labiums. Dies führt zu einem sich ändernden Schalldruck und damit zu einem Ton. So wird die Energie des Luftstroms den ein Flötist ausstößt oder der bei der Orgel von der Windkammer an die Pfeifen gegeben wird in Schall überführt. Dabei erklingt bei der Orgel ein Ton, den das Labium selbst erzeugt und den das Pfeifenrohr verstärkt, bei der Flöte bestimmt das Flötenrohr die Tonhöhe.

Melodie

Melodien kennt man als Abfolgen von Tönen. Diese gruppiert das Gehirn automatisch in einzelne Abschnitte, etwa in Strophe, Refrain, Hook-Lines oder kurze Phrasen. Die Gruppierung in sogenannte Gestalten, sinnhafte Einheiten ist eine grundlegende Eigenschaft des Gehirns und hilft, die Flut von Sinneseindrücken zu ordnen und zu sortieren. Eine KI kann dies ebenfalls, wie etwa bei der Gesichtserkennung, bei der aus einer Vielzahl von Bilddaten und möglichen Perspektiven immer dasselbe Gesicht erkannt wird oder bei Melodien, die transponiert, in verschiedenen Tempi oder in Variationen gespielt werden.

Musikalische Parameter

Als musikalische Parameter versteht man etwa Melodien, Rhythmen, Klangfarben oder musikalische Form. Jeder dieser Parameter hat natürlich einen sehr großen Variations- und Artikulationsbereich. Trotzdem sind es diese grundlegenden Parameter, die das menschliche Gehirn als einzelne Elemente aus der Musik extrahiert. Tonhöhen und Klangfarben haben dabei einen eigenen Raum, etwa hohe und tiefe Töne, zeitliche Abfolgen sind durch verschiedene Zeitfenster getrennt, durch die zeitliche Mindestauflösungsdauer von 50 Millisekunden, das Kurzzeitgedächtnis von 3 – 5 Sekunden und das Langzeitgedächtnis.

Neokortex

Der Neokortex ist der Großhirnrinde, die sich unter der Schädeldecke befindet. Die verschiedenen Teile wie den Frontallappen unter der Stirn, der Temporallappen an den Schläfen oder der Parietallappen unter dem Scheitel werden dabei einzelnen Funktionen zugeordnet, so sitzt der Auditive Kortex im Temporallappen. Auch wird zwischen rechter und linker Gehirnhälfte unterschieden. Auf der anderen Seite sind alle Regionen eng miteinander verknüpft und die neuronale Aktivität zeigt synchronisiert oder desynchronisiert, was u.a. die Musikalische Spannung repräsentiert. Subkortikal, also unter dem Kortex befindet sich dann z.B. der auditive Kortex.

Neuron

Neuronen sind Nervenzellen, welche die Gehirnaktivität steuern. Sie haben ein elektrisches Potential, welches sich ständig ändert. Neuronen nehmen elektrische Signale von anderen Neuronen auf. Summieren sich diese auf wird das Neuron aktiv und ‚feuert‘ einen sogenannten Spike, also ein elektrisches Potential zu im Durschschnitt 10 000 anderen Nervenzellen. Es gibt aber auch sogenannte inhibitorische Neuronen, welche den Signalfluß behindern. Diese machen etwa 10-20% des Gehirns aus und ohne diese würde das Gehirn nicht funktionieren. Neuronen sind praktisch alle gleich, so daß die Gesamtaktivität des Gehirns aus den Interaktionen von Neuronen besteht.

Partialtöne

Ein musikalischer Ton kann man sich aus vielen Sinustönen zusammengesetzt denken, wobei jeder Sinuston seine eigene Frequenz hat. Bei musikalischen Tönen von z.B. Gitarren, Pianos oder Geigen gibt es eine tiefste Frequenz, bei welcher wir die Tonhöhe hören. Die höheren Frequenzen sind in ganzzahligen Frequenzverhältnissen zum Grundton. Ist z.B. der Grundton bei 110 Hz, also ein musikalisches A sind die höheren Frequenzen bei 220 Hz, 330 Hz, usw. Dabei wird der Grundton als erster Partialton bezeichnet, der erste Oberton als zweiter Partialton, usw.

Physical Model

Physical Modeling bezeichnet die mathematische Modellierung eines physikalischen Systems. Dieses System kann ein Musikinstrument sein, das Wetter, eine Viruskonzentration u.v.m. Das Physical Modeling ist eine Alternative zur KI. Die KI erlernt einen Datensatz, etwa Musikstücke und ‚weiß‘ dann alles was diese Musikstile beinhaltet. Ein Physical Model beinhaltet schon alle möglichen Verhaltenweisen und Eigenschaften eines Systems, sie erscheinen wenn man das System mathematisch löst. Allerdings ist das mathematische Lösen einer Physical Models oft viel aufwendiger als die Berechnung einer KI.

Rauigkeit

Klangliche Rauhigkeit entsteht wenn die Frequenzen zweier Sinustöne eng beieinander sind. Dann werden sie auf der Basilarmembran im Ohr so eng nebeneinander plaziert, daß sie sich gegenseitig stören. So sind die Sekunden oder Septimen rau. Aber auch andere Intervalle, die weiter auseinander liegen klingen rau wenn sie nicht rein gestimmt sind. Kleine Verstimmungen führen zu klanglichen Schwebungen, größere zu Rauhigkeit. Die reinen Intervalle wie Oktave oder Quinte haben sehr geringe Rauhigkeit, so daß sich Dur oder Moll auch erklären läßt als die Intervalle, die am wenigsten rau sind.

Im Tonsystem bezeichnet Register die Oktavlage. Töne in tiefen Lagen sind in einem tiefen, Töne in hohen Lagen in einem hohen Register. Bei der Orgel jedoch versteht man unter Register eine Ansammlung von Zungen mit bestimmter Klangfarbe, etwa dem Prinzipal, Scharff, Spitzflöte oder Vox Humana. Jedes Register geht hier über den gesamten Tonumfang, für den das Register Pfeifen hat. Diese Register können auch gemeinsam gespielt werden in sogenannten Mixturen. Dann erklingen bei jedem Tastendruck mehrere Register gleichzeitig.

Rhythmus

Als Rhythmus bezeichnet man die zeitliche Aufeinanderfolge von musikalischen Ereignissen, Tönen, Percussionschlägen o.ä. Es gibt divisive und additive Rhythmen. Divisive unterteilen eine Zeiteinheit in immer kleinere Einheiten, also die ganze Note in zwei Halbe, jede Halbe in zwei Viertel, diese in Achtel usw. Hierzu gehören auch Grooves oder Beats. Additive Rhythmen, wie sie oft in der Volksmusik, etwa auf dem Balkan, im Mittleren Osten oder im Schwarzafrika vorkommen addieren lange und kurze Schläge hintereinander. Manchmal sind diese Rhythmen aus dem Sprachrhythmus des gesungenen Gedichts genommen.

Schärfe

Klangfarben können mehr oder weniger scharf klingen. Dies liegt an der Energie im Frequenzbereich zwischen etwa 1 000 – 3000 Hertz (Hz). Ist dort viel Energie klingt ein Ton oder Klang scharf, ist wenig Energie vorhanden klingt er eher dumpf. Musikalisch ist Schärfe ein Mittel des Ausdrucks aber auch ein kompositorisches Mittel zur Erzeugung musikalischer Form. Auch emotional ist Schärfe ein wichtiger Parameter.

Sethar

Sethar der Uyghuren. Das Instrument hat drei Stahlsaiten, was auch der Name sagt, se – drei, tar: Saite. Die Klangdecke ist aus Maulbeerbaumholz. Sethar gibt es in vielen Ländern bei Turkvölkern entlang der Seidenstraße und wird solo oder in der Gruppe gespielt.

Skalen

Musikalische Skalen sind die Schichtung von Noten in ein Tonsystem. Dazu gehören Dur, Moll, die Kirchentonarten aber auch hunderte andere Skalen. Auf einer groben Ebene kann man oft die Anzahl der Halbtöne zwischen zwei Skalentönen angeben, z.B. für C-D-E-F-G-A-B-C: 2-2-1-2-2-2-1, also von C zu D zwei Halbtöne, von E zu F einer, etc. Auf einer feinen, mikrotonalen Ebene unterscheiden wir dann Stimmungen, also feine Verstimmungen einzelner Skalentöne. Viele Skalen in aller Welt lassen sich nur schwer in Halbtönen verstehen, so daß dort nur das mikrotonale Feintuning angegeben wird.

Sound Pressure Level

Die Psychoakustik beschreibt den Zusammenhang zwischen einer physikalischen Größe und der Wahrnehmung. Sound Pressure Level (SPL) ist die physikalische Größe des Schalldrucks, wie er das Ohr erreicht oder mit einem Mikrophon aufgezeichnet werden kann. Dieser wird auch als Lautstärke bezeichnet. In der Wahrnehmung wird diese Lautstärke, die SPL zur Lautheit. Diese Lautheit ist dabei nicht 1:1 die SPL, sondern ist stark komprimiert und frequenzabhängig, woraus sich z.B. die Schallmaße dB(A) oder dB(C) aus Hörversuchen bestimmen lassen.

Soundboard / Resonanzboden

Das Soundboard oder der Resonanzboden ist die Holzplatte, auf der eine Saite angebracht ist, etwa beim Piano, der Gitarre oder der Geige. Dies ist nötig, da eine Saite allein viel zu leise ist und verstärkt werden muß. Das Soundboard klingt aber ganz anders als die Saite. Das Zusammenspiel von Saite und Soundboard ist dabei ein selbstorganisierendes System, wobei die Saite das Soundboard zwingt, mit den Frequenzen der Saite zu schwingen. Beim Einschwingen aber ‚wehrt‘ sich das Soundboard noch und so entsteht bei jedem Tonbeginn ein ganz eigener, instrumententypischer und perkussiver Klanganteil.

Spektraler Fluss

Als spektraler Fluss bezeichnet man die Veränderung von Frequenzen eines Klangs in der Zeit. Diese können ihre Amplitude oder ihre Frequenz ändern was zu den meisten Effekten führt, die die Musik kennt, etwa Schwebungen, Vibrato oder Hall und Echo. Effektgeräte wie Chorus, Flanger, Phaser oder Hallgeräte produzieren alle spektralen Fluss. Auch jeder neue Ton ändert den spektralen Fluß erheblich, durch die Komplexität des Einschwingvorgangs oder neue Tonhöhen. In der computationalen Verarbeitung von Musik ist daher der spektrale Fluß ein wichtiger Parameter.

Spektrum / Spektraler Zentroid

Der vielleicht wichtigste Aspekt der Klangfarbe ist ihre Helligkeit. Bässe sind dunkler, Höhen heller. Auch klingt ein Ton von verschiedenen Musikinstrumenten vorgetragen unterschiedlich hell. In Hörtests zeigt sich immer wieder, daß diese Helligkeit ein wichtiger Anker für die Identifikation von Musikinstrumenten ist oder für Komponisten ein essentieller Parameter für Ausdruck und Formgestaltung. Wahrgenommene Helligkeit entspricht dabei dem arithmetischen Mittel eines Frequenzspektrums, also der Gewichtung von Frequnenzen und deren Amplituden, was als spektraler Zentroid bezeichnet wird.

Spike

Als Spike wird ein Nervenimpuls verstanden, welcher zwischen Neuronen ausgetauscht wird. Dieser Impuls von 80-100 Millivolt ist ein Ionenstrom, also erheblich langsamer als der Strom in einem Stromkabel. Nachdem ein Neuron einen Spike ausgesandt hat muß es sich erst wieder erholen. Neuronen im Körper kommen so auf 3-8 Spikes pro Sekunde. Die schnellsten Neuronen des Menschen sind im Ohr und schaffen bis zu 300-400 Spikes pro Sekunde. Alle neuronale Aktivität besteht nur aus dem Austausch von Spikes, welche oft synchronisieren und ‚geballt‘ als sogenannter Spike-Burst durch das Gehirn laufen.

Stimmungen (mitteltonige Stimmung, gleichschwebende Temperatur)

Man kann ein Musikinstrument nicht so stimmen, daß in allen Tonarten alle Intervalle rein sind, also einfachen Zahlenverhältnissen wie 2:1 für die Oktave oder 3:2 für die Quint entsprechen. Solange man in einer Tonart bleibt, z.B. in C-Dur, ist eine reine Stimmung möglich. Aber schon in der Renaissance waren Tonarten wie F, C, G und D üblich. Dafür wurden alle Töne ein wenig verstimmt zur sogenannten Mitteltönigen Stimmung. Werkmeister, Kirnberger, Valotti, Young u.v.m. schlugen in der Folge weitere Verstimmungen, also Stimmungen oder Kompromisse vor, um durch alle 12 Tonarten zu kommen.

Subkortikal

Als subkortikal bezeichnet man alle neuronalen Strukturen, die unterhalb des Neocortes, der Großhirnrinde unter der Schädeldecke liegen. Dazu gehört auch der Auditory Pathway, also die neuronalen Nuklei vom Ohr bis zum auditiven Kortex im Neokortex. Aber auch alle anderen Neuronen von den Sinnesorganen zu Gehirn, sowie Nerven, die vom Gehirn über das Rückenmark zurück in den Körper gehen sind subkortikal. Früher dachte man, daß nur der Kortex Bewußtsein hat, im Auditory Pathway finden wir allerdings schon die meisten musikalischen Parameter die wir bewußt hören.

Sumpyi

Bambusflöten der Kachin (sumpyi), wie sie in ähnlicher Weise in ganz Südostasien vorkommen. Die Spieler bauen die Instrumente in wenigen Minuten selbst. Da Bambus ein Gras ist gehen die Flöten schnell kaputt und werden so schnell ersetzt.

Tonart

Tonarten wie Dur oder Moll, aber auch Kirchentonarten fußen auf der Idee, daß Töne und Akkorde Funktionen haben. So gibt es einen Grundton und einen Grundakkord, auf den eine Melodie zu Ende kommen kann. Die Quint und der dazugehörige Akkord der Dominate ist eben dies, dominant, und ‚fordert‘ den Grundakkord, hat also eine Spannung und ist für sich unaufgelöst. Diese innere Dynamik der Tonarten hat Hugo Riemann mit der Philosophie Friedrich Hegels zu erklären versucht, so daß ein musikalischer Gedanke ausgedrückt werden kann. Auch sind Tonarten Herkunftsregionen, Emotionen oder Riten zugeordnet.

Tonsysteme

siehe Skalen, Intervalle.

Intervalle

siehe Skalen, Intervalle.

Valenz / Arousel – Modell

Die menschliche Emotionalität ist ungeheuer vielschichtig. Trotzdem zeigen sich Grundemotionen, welche einmal gefühlt, dann aber auch von Menschen aus Musik, einem Kunstwerk oder einem musikalischen Ausdruck heraus wahrgenommen werden können. Dazu gehören die Valenz, also ob eine Emotion positiv oder negativ ist und das sogenannte Arousal, also ob die Emotion laut und aufbrausend oder leise und introvertiert ist. Diese beiden Emotionsextreme können musikalischen Parametern zugeordnet werden, aufbrausend etwa lauter und variable Musik, und so computational aus einem Musikstück errechnet werden.

Wanderwelle

Wellen breiten sich auf verschiedenste Weise im Raum aus. Eine besondere Wellenart ist dabei die Wanderwelle, wie sie auf der Basilarmembran im Innenohr stattfindet. Diese steilt sich über die Membran auf, erreicht einen Höhepunkt und fällt dahinter steil ab. Dabei hat jede Frequenz ihren eigenen Ort an dem sie diesen Höhepunkt erreicht. So erreicht das Ohr eine Frequenzanalyse, indem jeder Frequenz ein eigener Ort auf der Basilarmembran zugewiesen ist. Erreicht wird diese Wanderwelle dadurch, daß die Basilarmembran ihre Steifigkeit und ihre innere Dämpfung über ihre Länge ändert.