Themabewertung:
  • 3 Bewertung(en) - 3.67 im Durchschnitt
  • 1
  • 2
  • 3
  • 4
  • 5
Geänderte Haltestellenansagen
Hallole,

wo hast Du die Orignalfiles her?
Bin da für die hoffentlich mal wieder im Bau befindliche ssb-linien.de sehr interessiert da dran....

Auch dafür könnte ich mir vorstellen, dass die Ansagen eben nur einzeln vorliegen, und dann beim Aufruf von der Homepage per Baukasten zusammen gefügt werden....

Grüßle
AFu
[Bild: 3320-Front-DSO.jpg]
----------------------------------------------------
Stuttgarts Straßen- und Stadtbahnlinien im Internet:
http://www.ssb-linien.de
----------------------------------------------------
Zitieren
(03. 10. 2020, 11:22)AFu schrieb: Ich selber suche noch ein Programm, wo man recht einfach die Einzelwörter zusammenfügen kann. - Ähnlich wie ein  Programm, das ich habe, das Zahlen ansagt.....
Hallo (ausnahmsweise mit Begrüßung;-)),

Ich habe mich lange davor gedrückt, zu antworten, da es keine einfache Antwort ist.

Für die von Dir gewünschte Funktion wird es vermutlich kein Programm geben.

Das hat folgende Gründe:
Ich nehme an, dass Du mit MP3s arbeitest. Das bedeutet, dass die Aufnahmen verlustbehaftet komprimiert sind. Das bedeutet weiterhin, dass jede Änderung eine erneute verlustbehaftete Komprimierung erfordert. Im Endeffekt kann man sich das vorstellen, als würde man die Aufnahme von einer Musikkassette auf die nächste kopieren.

Was das in etwa bedeutet:
1. Komprimierung = Originalaufnahme: 99,9% der Menschen erkennen keinen Unterschied zu einer CD.
2. Komprimierung = 1. Bearbeitung: 99% der Menschen erkennen keinen Unterschied zu einer CD.
3. Komprimierung = 2. Bearbeitung: 90% der Menschen erkennen keinen Unterschied zu einer CD.
4. Komprimierung = 3. Bearbeitung: 9% der Menschen erkennen keinen Unterschied zu einer CD.
5. Komprimierung = 4. Bearbeitung: Niemand erkennt noch, was da mal war.

Das mag übertrieben sein - ich habe darauf verzichtet, das auszuprobieren - aber so in etwa ist das Prinzip. Daher hätte so ein Tool (zumindest für MP3s) keinen Wert - also warum sollte jemand sowas programmieren? Für Wave-Dateien (unkomprimiert, CD-Qualität) hatte ich mir sowas 1994 mal in Turbo Pascal programmiert, sodass ich ein Lied in Stücker unterteilen kann, Übergänge machen kann, und ein "Mixtape" als CD brennen konnte (oder zunächst auf VHS oder MD überspielt hatte). Damals, als eine 1 GB-SCSI-Festplatte noch 1.000 DM gekostet hatte und man echte Platzprobleme hatte. Daher hatte ich beim Zerteilen in z. B. 30-Sekunden-Stücke immer erst die letzten 30 Sekunden kopiert, dann das Dateiende abgeschnitten, um Speicherplatz wieder freizugeben usw. Damals hätte kein PC in Echtzeit eine MP3 komprimieren können, es war schon eine Herausforderung, CD-Qualität wiederzugeben oder aufzunehmen (via 16-Bit-DMA). Die Frage hätte sich damals nicht gestellt.

Meine Herangehensweise an die Problematik wäre, die Datei zunächst als Wave-Datei (unkomprimiert *.WAV) oder FLAC (verlustlos komprimiert) zu speichern (gemäß den Werten der Quelldatei, z. B. bei CDs 44,1 kHz, 16 Bit, Stereo, bei DAT 48 kHz, 16 Bit, Stereo) um Verlust während der Bearbeitung vorzubeugen. Dann beerbeiten bis man glücklich ist und erst abschließend wieder als MP3 zu speichern (vorzugsweise die FLAC für mögliche zukünftige Verwendung aufheben).

Zum Vergleich:
WAV - unkomprimiert, CD-Qualität, 80 Min.: 807 MiB
FLAC - verlustlos komprimiert, CD-Qualität, 80 Min.: 400 MiB (?)
MP3 - verlustbehaftet komprimiert, qualitativ beste Komprimierung mit VBR: 150 MiB

Aufgrund der oben genannten Problematik benutzt man für sowas dann natürlich einen richtigen Wave-Editor (Audio-Editiersoftware).
Das bekannteste kostenlose Tool wäre Audacity - finde ich aber fürchterlich zu bedienen.
Ich persönlich benutze seit 1994 Goldwave (19 $).

Wenn man z. B. von einem Refrain auf den nächsten schneidet, geht das in der Regel problemlos auf den Taktschlag, das mache ich in Goldwave auf das Frame genau, also auf 1/44.100 Sekunde, da die Instrumentierung in der Regel nahezu gleich ist und selbst der Gesang zu Beginn des Refrains selten klangliche Abweichungen hat. Schweriger wird es, wenn die Instrumentierung deutlich abweicht, dann muss man schauen, über wie lange man überblendet, z. B. 1/10 Sekunde oder 1/1000 Sekunde (also ~4000 Frames oder 40 Frames. Vor allem muss man dann auch prüfen, ob der Hall auffallend fehlt oder nach dem Schnitt zu viel ist - der Hall ist der Kit, der professionele Aufnahmen zusammen hält; meistens rechts anders als links, um meh Leben reinzubringen. Wenn der Hall bei einem Schnitt abgeschnitten ist oder zu viel ist, ist das meistens ein Anzeichen für schlechte Audiobearbeitung. Das kommt gerne auch mal in den gekürzten Singleversionen der 80er und 90er vor (Girls Just Wanna Have Fun, wobei es hier m. W. nach keine ungekürzte Version gibt, nur die remixte Maxi und das Dub, daher macht man sich ja auch eine eigene Version). Auch "Be My Lover" habe ich das erste Mal im Radio gehört und wusste sofort, wo was rausgeschnitten wurde. Maxi gekauft - und ich hatte recht. Naja, vielleicht war es auch nicht der Hall, der wirkt meist eher unterbewusst.

Generell habe ich die Erfahrung gemacht, dass man mit Einblenden über 2/3 der Zeit sowie Ausblenden über 2/3 der Zeit gut fährt. Wenn man zwei nahezu gleiche Stücke gleichzeitig nimmt (z. B. Flanging), fährt man häufig mit 85 % der Lautstärke ganz gut, was nahezu der Mittelwert zwischen 100% und ln(2) = 69,3% ist (da sich die Wellen meistens nicht perfekt überlappen, vor allem von Schallplatte). Nur wenn man z. B. Schlagzeug aus einer Dub-Version nimmt und die Stimme aus einer Acapello-Version, nimmt man natürlich 100%, da sich die Aufnahmen dann ergänzen.

Auf 1/44.100 Sekunde genau (sofern möglich) schneide ich, da das menschliche Ohr ein Präzisionsinstrument ist. Würde man nur auf 1/5000 Sekunde genau schneiden, würde man bereits einen Doppelschlag (Basedrum) hören. Fehlt die falsche 1/5000 Sekunde, fehlt das Knacken der Basedrum (das "Schlagen") und man hört nur das Echo. Das kann man in der Disco manchmal hören, wenn das Tempo ohne Tonhöhenänderung geändert wird (ist inzwischen aber besser geworden, glaube ich; das war vor allem bei der ersten Technics, die das konnten).

Bequemere Tools ausschließlich für Musikbearbeitung, die vielleicht Schnitte auch nach Taktschlag machen können, gibt es sicherlich, da man das Überblenden und Finden eines Taktschlags natürlich automatisieren und optimieren kann, notfalls per KI. Diese habe ich nie getestet; ich wollte mal den Mixed-In-Key-Ableger Mashup testen, hatte aber dann doch nie den Nerv dazu.

Warum erzähle ich das? Wie komme ich auf Sprache zurück?
Nehmen wir das Lied "Say I'm Your No. 1" von Princess, bei dem das "Say" auf den ersten Taktschlag des Refrains kommt. Tatsache ist jedoch, dass genau der Übergang vom [e] zum [i] in "Say auf dem Taktschlag sitzt. Das [S] ist lange vorher und auch das [e] eigentlich schon vorbei, wenn man am Taktschlag schneidet.

Buchstaben, Worte, selbst Sätze gehen in der Sprache ineinander über. Im Satz "Das ist auch albern" haben wir ein "ch" mit U-Ausprägung bei "auch" im Gegensatz zur A-Ausprägung wie bei "Dach" oder I-Ausprägung wie bei "ich". Da in diesem Satz danach aber ein "a" folgt, ändert sich das ch beim Übergang zu "albern" zu einem "ch" mit A-Ausprägung (da sich die Zunge bereits zum A bewegt).  Bei "Das ist auch intendiert." hingegen ändert sich das "ch" zur I-Ausprägung. Dies findet auch über Sätze hinweg statt. Und diese Anpassungen, genauer Verschleifungen (verschleifen ist bei abschleifen zu betrachten), finden sich überall und in jedem Satz - außer man spricht besonders betont und deutlich, was dann meist aber gestelzt und abgehackt klingt.

Nicht umsonst sagt man "auf der Zunge zergehen lassen". Wenn man etwas nicht sicher oder ganz verstanden hat, wiederholt man die "Aufnahme" des gesprochenen Satzes in Zeitlupe im Kopf und simuliert zumindest im Geiste, oft genug sogar in echt, die Zungenbewegung, um herauszufinden, was der andere sagen hätte können. Es sind hier beim Verstehen die gleichen Gehirnregionen involviert wie beim Sprechen, da nur durch diese Simulation Sprache verstanden (und gelernt) werden kann (=> Taubstumm kommt nicht von ungefähr). Ein Vokal wie a, e, i, o, u, ä, ö, ü hat einen gewissen Bereich, in dem die Zunge liegt, sowie Lippenform usw. Dieser Bereich ist jedoch in Sprachen und Dialekten unterschiedlich "definiert".; insbesondere, da die Sprachen ja auch eine unterschiedliche Anzahl von Vokalen (Unterteilungen der Bereiche) haben, z. B. sehr auffällig bei zumindest manchen britischen Dialekten (another day = dai) gegenüber dem amerikanischen Englisch. Jo Mei.

Darum eben ist Sprache sehr schwierig zu simulieren, praktisch kaum perfekt zusammenstückelbar. Mit KI geht das besser, weil man die Systeme (die nicht wissen was sie tun), (zumindest theoretisch) solange trainieren kann, bis die Ergebnisse perfekt sind, indem man weitere Beispiele eingibt (wie beim Nachsitzen) oder sie sozusagen belohnt (nur die Systeme weiterentwickelt, die die richtige Ausprägung haben). Natürlich muss man der Wiedergabe dann auch noch die Metainformationen zum Text mitgeben, dass z. B. OEG eine Abkürzung ist, dies aber nicht für SONY gilt. Für Perfektion reicht leider ein einfacher Text nicht aus, da hierfür auch noch Textverständnis notwendig wäre. Das kann man dann natürlich theoretisch auch mit KI machen, aber das ist dann eine andere Galaxie der Komplexität.

Sollte ich mich irgendwo in der Wortwahl nicht exakt ausgedrückt haben oder Details von der Forschung her veraltet sein, tut es mir leid. Es ging mir aber eher ums Prinzip. Meine 6 Monate(?) Computerlinguistik mit Phonetik waren 1995/96, bevor ich das Informatikstudium Gott sei Dank abgebrochen habe (bzw. wurde dank TI).

Nebenbei: Auch Sprachentwicklung ist echt interessant: Am heutigen Tag ist z. B. das dämlichste, was man sagen kann, da heute aus "heuer" (= dieses Jahr, aber auch heutzutage; von althochdeutsch hiuro, hiuru, aus hiu jāru) und "tag" entstanden ist. Im Lauf der Generationen war das den Leuten aber zu lange und so wurde "heute" daraus. Wenn man es jetzt betont, sagt man "am heutigen Tag". Wer weiß, was man in 100 Jahren dazu sagt, vielleicht "heutag"? Auch die Sprache wird ständig verschliffen und ändert sich ständig. Die langen und häufig benutzten Worte werden abgeschliffen aber durch Betonungen werden die Worte oder Redewendungen wieder länger. Die Grammatik wird vereinfacht, bis sie nicht mehr eindeutig genug ist und dann wird wieder rangeflickt und durch Hervorhebungen verdeutlicht, bis es eine neue Grammatik ist. Das war schon immer so und wird immer so sein. "Früher hat man xxx gesagt" (als man sich noch ordentlich artikuliert hat ...), ist also zwar richtig, aber eben auch Quatsch mit Soße und belanglos.
Zitieren
Hallole Andy,

vielen Dank für Deine Ausführungen. - Da bist Du noch tiefer in der Materie drin, als ich dachte. - Ich mache hobbymäßig Radio, und schneide auch Beiträge mit Audacity. Aber so intensiv habe ich über manches nicht nach gedacht, und einfach vieles nach Gehör geschnitten, also dann am Satzende, da es sonst oft nicht passt.
Das fertige Ergibnis ist in meinem Fall tatsächlich mp3, das reicht aber für meine Aufgaben voll aus. - Aber um weiter dran zu Arbeiten, ist es schon richtig ein unkomprimiertes Format zu verwenden.

Mir ging es ursprünglich tatsächlich um ein Programm, das automatisch die Wortsilben zusammen setzen kann. Einfaches ist ja mit jedem Player möglich, den man mit den Dateien in der richtigen Reihenfolge füttert.

Grüßle
AFu
[Bild: 3320-Front-DSO.jpg]
----------------------------------------------------
Stuttgarts Straßen- und Stadtbahnlinien im Internet:
http://www.ssb-linien.de
----------------------------------------------------
Zitieren
(16. 10. 2020, 18:58)AFu schrieb: Hallole Andy,

vielen Dank für Deine Ausführungen. - Da bist Du noch tiefer in der Materie drin, als ich dachte. - Ich mache hobbymäßig Radio, und schneide auch Beiträge mit Audacity. Aber so intensiv habe ich über manches nicht nach gedacht, und einfach vieles nach Gehör geschnitten, also dann am Satzende, da es sonst oft nicht passt.
Das fertige Ergibnis ist in meinem Fall tatsächlich mp3, das reicht aber für meine Aufgaben voll aus. - Aber um weiter dran zu Arbeiten, ist es schon richtig ein unkomprimiertes Format zu verwenden.

Mir ging es ursprünglich tatsächlich um ein Programm, das automatisch die Wortsilben zusammen setzen kann. Einfaches ist ja mit jedem Player möglich, den man mit den Dateien in der richtigen Reihenfolge füttert.

Hallo,

ich hatte das schon richtig verstanden und daher auch versucht zu erklären, warum ich nicht erwarten würde, dass es so ein (eigenständiges) Programm gibt. Da Du aber mit Audacity bereits arbeitest und - soweit ich weiß - dieses auch AddOns unterstützt, wäre es durchaus denkbar, dass es hier etwas giibt, das alle Titel einer Playlist in eine Datei einfügt. Dann muss der Programmierer nämlich vermutlich nicht unbedingt das Lesen aller möglichen Formate selbst programmieren sowie eine ggf. Konvertierung bei ggf. unterschiedlichem Datenformat oder abweichender Qualität durchführen, sondern kann das direkt an die Logik von Audacity übertragen, was die Programmierung immens vereinfacht. Innerhalb von Audicity wird - soweit ich mich erinnere - sowieso alles mit Fließkommawerten bearbeitet.

Wenn man das Ergebnis eh manuell überprüft und bei Bedarf nachbearbeitet, sind ja manche Ungereimtheiten auch akzeptabel. Das Gehör ignoriert ja sowieso z. B. künstlich eingefügte Huster - möglicherweise auch, da sie in echt schichtweg nicht möglich wären, da die Zunge gar nicht dort wäre. Es interpretiert eben, so gut wie möglich - vielleicht ist ein Webbrowser, der fehlende schließende HTML-Tags ignoriert ein guter Vergleich. Was keinen Sinn ergibt, wird halt ignoriert, hinterlässt vielleicht eine kleine Verunsicherung wie einen schalen Nachgeschmack.

Möglicherweise würde sich das Ohr bei den genannten "ch"-Beispielen auch sowas wie "auch ich" durch eine geeignete Überblendung vom ersten "ch" auf das "i" bereits täuschen lassen; aber das wird eben nicht bei allen derartigen Vorgängen funktionieren.

Vielleicht hilft zu Deinem Problem eine allgemeinere Suche zu "Playlist in eine Audiodatei" übertragen, exportieren, konvertieren oder ähnliches (Audiodatei automatisiert zerteilen oder zusammenfügen); ggf. auf englisch.

Flüchtige Suche (split or join audio file automatically): Schau mal das zweite hier (MP3Toolkit) an: The 5 Best Audio Merger and Splitter Tools for MP3 Files

Manche dieser Tools (Z. B. Mp3DirectCut) können auch minimalinvasiv sein, also die Daten tatsächlich nicht neu encodieren (erneutes komprimieren), sodass kein Qualitätsverlust wie bei einer manuellen Bearbeitung eintritt. MP3Gain kann übrigens die Lautstärke von MP3s ändern, ohne dass es zu Qualitätsverlust durch erneutes Encodieren kommt.

Nachtrag: Die dort als 5. genannte Variante (Zusammenkopieren über Betriebssystem) ist natürlich nicht zu empfehlen, da dann die Header der folgenden Titel mittendrinn sind und ggf. für Knackser sorgen können sowie der (erste, eigentliche) Header nicht korrekt ist, d. h. dass nicht jedes Wiedergabeprogramm das gleiche Ergebnis bringt. Zum Prüfen und Korrigieren von MP3s auf Fehler kann Mp3Diags (ggf. unstable) eine gute Wahl sein; dieses könnte so eine Datei allerdings wieder auf die erste Aufnahme einstampfen.
Zitieren


Gehe zu:


Benutzer, die gerade dieses Thema anschauen: 2 Gast/Gäste