(03. 10. 2020, 11:22)AFu schrieb: Ich selber suche noch ein Programm, wo man recht einfach die Einzelwörter zusammenfügen kann. - Ähnlich wie ein Programm, das ich habe, das Zahlen ansagt.....
Hallo (ausnahmsweise mit Begrüßung;-)),
Ich habe mich lange davor gedrückt, zu antworten, da es keine einfache Antwort ist.
Für die von Dir gewünschte Funktion wird es vermutlich kein Programm geben.
Das hat folgende Gründe:
Ich nehme an, dass Du mit MP3s arbeitest. Das bedeutet, dass die Aufnahmen verlustbehaftet komprimiert sind. Das bedeutet weiterhin, dass jede Änderung eine erneute verlustbehaftete Komprimierung erfordert. Im Endeffekt kann man sich das vorstellen, als würde man die Aufnahme von einer Musikkassette auf die nächste kopieren.
Was das in etwa bedeutet:
1. Komprimierung = Originalaufnahme: 99,9% der Menschen erkennen keinen Unterschied zu einer CD.
2. Komprimierung = 1. Bearbeitung: 99% der Menschen erkennen keinen Unterschied zu einer CD.
3. Komprimierung = 2. Bearbeitung: 90% der Menschen erkennen keinen Unterschied zu einer CD.
4. Komprimierung = 3. Bearbeitung: 9% der Menschen erkennen keinen Unterschied zu einer CD.
5. Komprimierung = 4. Bearbeitung: Niemand erkennt noch, was da mal war.
Das mag übertrieben sein - ich habe darauf verzichtet, das auszuprobieren - aber so in etwa ist das Prinzip. Daher hätte so ein Tool (zumindest für MP3s) keinen Wert - also warum sollte jemand sowas programmieren? Für Wave-Dateien (unkomprimiert, CD-Qualität) hatte ich mir sowas 1994 mal in Turbo Pascal programmiert, sodass ich ein Lied in Stücker unterteilen kann, Übergänge machen kann, und ein "Mixtape" als CD brennen konnte (oder zunächst auf VHS oder MD überspielt hatte). Damals, als eine 1 GB-SCSI-Festplatte noch 1.000 DM gekostet hatte und man echte Platzprobleme hatte. Daher hatte ich beim Zerteilen in z. B. 30-Sekunden-Stücke immer erst die letzten 30 Sekunden kopiert, dann das Dateiende abgeschnitten, um Speicherplatz wieder freizugeben usw. Damals hätte kein PC in Echtzeit eine MP3 komprimieren können, es war schon eine Herausforderung, CD-Qualität wiederzugeben oder aufzunehmen (via 16-Bit-DMA). Die Frage hätte sich damals nicht gestellt.
Meine Herangehensweise an die Problematik wäre, die Datei zunächst als Wave-Datei (unkomprimiert *.WAV) oder FLAC (verlustlos komprimiert) zu speichern (gemäß den Werten der Quelldatei, z. B. bei CDs 44,1 kHz, 16 Bit, Stereo, bei DAT 48 kHz, 16 Bit, Stereo) um Verlust während der Bearbeitung vorzubeugen. Dann beerbeiten bis man glücklich ist und erst abschließend wieder als MP3 zu speichern (vorzugsweise die FLAC für mögliche zukünftige Verwendung aufheben).
Zum Vergleich:
WAV - unkomprimiert, CD-Qualität, 80 Min.: 807 MiB
FLAC - verlustlos komprimiert, CD-Qualität, 80 Min.: 400 MiB (?)
MP3 - verlustbehaftet komprimiert, qualitativ beste Komprimierung mit VBR: 150 MiB
Aufgrund der oben genannten Problematik benutzt man für sowas dann natürlich einen richtigen Wave-Editor (Audio-Editiersoftware).
Das bekannteste kostenlose Tool wäre
Audacity - finde ich aber fürchterlich zu bedienen.
Ich persönlich benutze seit 1994
Goldwave (19 $).
Wenn man z. B. von einem Refrain auf den nächsten schneidet, geht das in der Regel problemlos auf den Taktschlag, das mache ich in Goldwave auf das Frame genau, also auf 1/44.100 Sekunde, da die Instrumentierung in der Regel nahezu gleich ist und selbst der Gesang zu Beginn des Refrains selten klangliche Abweichungen hat. Schweriger wird es, wenn die Instrumentierung deutlich abweicht, dann muss man schauen, über wie lange man überblendet, z. B. 1/10 Sekunde oder 1/1000 Sekunde (also ~4000 Frames oder 40 Frames. Vor allem muss man dann auch prüfen, ob der Hall auffallend fehlt oder nach dem Schnitt zu viel ist - der Hall ist der Kit, der professionele Aufnahmen zusammen hält; meistens rechts anders als links, um meh Leben reinzubringen. Wenn der Hall bei einem Schnitt abgeschnitten ist oder zu viel ist, ist das meistens ein Anzeichen für schlechte Audiobearbeitung. Das kommt gerne auch mal in den gekürzten Singleversionen der 80er und 90er vor (Girls Just Wanna Have Fun, wobei es hier m. W. nach keine ungekürzte Version gibt, nur die remixte Maxi und das Dub, daher macht man sich ja auch eine eigene Version). Auch "Be My Lover" habe ich das erste Mal im Radio gehört und wusste sofort, wo was rausgeschnitten wurde. Maxi gekauft - und ich hatte recht. Naja, vielleicht war es auch nicht der Hall, der wirkt meist eher unterbewusst.
Generell habe ich die Erfahrung gemacht, dass man mit Einblenden über 2/3 der Zeit sowie Ausblenden über 2/3 der Zeit gut fährt. Wenn man zwei nahezu gleiche Stücke gleichzeitig nimmt (z. B. Flanging), fährt man häufig mit 85 % der Lautstärke ganz gut, was nahezu der Mittelwert zwischen 100% und ln(2) = 69,3% ist (da sich die Wellen meistens nicht perfekt überlappen, vor allem von Schallplatte). Nur wenn man z. B. Schlagzeug aus einer Dub-Version nimmt und die Stimme aus einer Acapello-Version, nimmt man natürlich 100%, da sich die Aufnahmen dann ergänzen.
Auf 1/44.100 Sekunde genau (sofern möglich) schneide ich, da das menschliche Ohr ein Präzisionsinstrument ist. Würde man nur auf 1/5000 Sekunde genau schneiden, würde man bereits einen Doppelschlag (Basedrum) hören. Fehlt die falsche 1/5000 Sekunde, fehlt das Knacken der Basedrum (das "Schlagen") und man hört nur das Echo. Das kann man in der Disco manchmal hören, wenn das Tempo ohne Tonhöhenänderung geändert wird (ist inzwischen aber besser geworden, glaube ich; das war vor allem bei der ersten Technics, die das konnten).
Bequemere Tools ausschließlich für Musikbearbeitung, die vielleicht Schnitte auch nach Taktschlag machen können, gibt es sicherlich, da man das Überblenden und Finden eines Taktschlags natürlich automatisieren und optimieren kann, notfalls per KI. Diese habe ich nie getestet; ich wollte mal den
Mixed-In-Key-Ableger Mashup testen, hatte aber dann doch nie den Nerv dazu.
Warum erzähle ich das? Wie komme ich auf Sprache zurück?
Nehmen wir das Lied "Say I'm Your No. 1" von Princess, bei dem das "Say" auf den ersten Taktschlag des Refrains kommt. Tatsache ist jedoch, dass genau der Übergang vom [e] zum [i] in "Say auf dem Taktschlag sitzt. Das [S] ist lange vorher und auch das [e] eigentlich schon vorbei, wenn man am Taktschlag schneidet.
Buchstaben, Worte, selbst Sätze gehen in der Sprache ineinander über. Im Satz "Das ist auch albern" haben wir ein "ch" mit U-Ausprägung bei "auch" im Gegensatz zur A-Ausprägung wie bei "Dach" oder I-Ausprägung wie bei "ich". Da in diesem Satz danach aber ein "a" folgt, ändert sich das ch beim Übergang zu "albern" zu einem "ch" mit A-Ausprägung (da sich die Zunge bereits zum A bewegt). Bei "Das ist auch intendiert." hingegen ändert sich das "ch" zur I-Ausprägung. Dies findet auch über Sätze hinweg statt. Und diese Anpassungen, genauer Verschleifungen (verschleifen ist bei abschleifen zu betrachten), finden sich überall und in jedem Satz - außer man spricht besonders betont und deutlich, was dann meist aber gestelzt und abgehackt klingt.
Nicht umsonst sagt man "auf der Zunge zergehen lassen". Wenn man etwas nicht sicher oder ganz verstanden hat, wiederholt man die "Aufnahme" des gesprochenen Satzes in Zeitlupe im Kopf und simuliert zumindest im Geiste, oft genug sogar in echt, die Zungenbewegung, um herauszufinden, was der andere sagen hätte können. Es sind hier beim Verstehen die gleichen Gehirnregionen involviert wie beim Sprechen, da nur durch diese Simulation Sprache verstanden (und gelernt) werden kann (=> Taubstumm kommt nicht von ungefähr). Ein Vokal wie a, e, i, o, u, ä, ö, ü hat einen gewissen Bereich, in dem die Zunge liegt, sowie Lippenform usw. Dieser Bereich ist jedoch in Sprachen und Dialekten unterschiedlich "definiert".; insbesondere, da die Sprachen ja auch eine unterschiedliche Anzahl von Vokalen (Unterteilungen der Bereiche) haben, z. B. sehr auffällig bei zumindest manchen britischen Dialekten (another day = dai) gegenüber dem amerikanischen Englisch. Jo Mei.
Darum eben ist Sprache sehr schwierig zu simulieren, praktisch kaum perfekt zusammenstückelbar. Mit KI geht das besser, weil man die Systeme (die nicht wissen was sie tun), (zumindest theoretisch) solange trainieren kann, bis die Ergebnisse perfekt sind, indem man weitere Beispiele eingibt (wie beim Nachsitzen) oder sie sozusagen belohnt (nur die Systeme weiterentwickelt, die die richtige Ausprägung haben). Natürlich muss man der Wiedergabe dann auch noch die Metainformationen zum Text mitgeben, dass z. B. OEG eine Abkürzung ist, dies aber nicht für SONY gilt. Für Perfektion reicht leider ein einfacher Text nicht aus, da hierfür auch noch Textverständnis notwendig wäre. Das kann man dann natürlich theoretisch auch mit KI machen, aber das ist dann eine andere Galaxie der Komplexität.
Sollte ich mich irgendwo in der Wortwahl nicht exakt ausgedrückt haben oder Details von der Forschung her veraltet sein, tut es mir leid. Es ging mir aber eher ums Prinzip. Meine 6 Monate(?) Computerlinguistik mit Phonetik waren 1995/96, bevor ich das Informatikstudium Gott sei Dank abgebrochen habe (bzw. wurde dank TI).
Nebenbei: Auch Sprachentwicklung ist echt interessant: Am heutigen Tag ist z. B. das dämlichste, was man sagen kann, da heute aus "heuer" (= dieses Jahr, aber auch heutzutage; von althochdeutsch hiuro, hiuru, aus hiu jāru) und "tag" entstanden ist. Im Lauf der Generationen war das den Leuten aber zu lange und so wurde "heute" daraus. Wenn man es jetzt betont, sagt man "am heutigen Tag". Wer weiß, was man in 100 Jahren dazu sagt, vielleicht "heutag"? Auch die Sprache wird ständig verschliffen und ändert sich ständig. Die langen und häufig benutzten Worte werden abgeschliffen aber durch Betonungen werden die Worte oder Redewendungen wieder länger. Die Grammatik wird vereinfacht, bis sie nicht mehr eindeutig genug ist und dann wird wieder rangeflickt und durch Hervorhebungen verdeutlicht, bis es eine neue Grammatik ist. Das war schon immer so und wird immer so sein. "Früher hat man xxx gesagt" (als man sich noch ordentlich artikuliert hat ...), ist also zwar richtig, aber eben auch Quatsch mit Soße und belanglos.