09. 01. 2020, 10:08
(Dieser Beitrag wurde zuletzt bearbeitet: 09. 01. 2020, 11:17 von Andy0711.)
(08. 01. 2020, 22:37)AFu schrieb: Hallole,Ich stimme zwar zu, aber es hat sich da in den letzten 10 Jahren sehr viel getan (wie in 2000-2015 bei der Spracherkennung). Außerdem ist es natürlich ein Unterschied, ob ein spannendes Buch oder ein wissenschaftlicher Text vorgelesen wird oder ein Gespräch erfolgen soll (Hotline) oder eben "nur" eine Durchsage. Erschwerend kommt hinzu, dass viele Produkte eben amerikanischen Ursprungs und zunächst mal auf Englisch optimiert werden (z. B. Alexa oder Siri) und eine Übertragung auf andere Sprachen da immer sehr lange hintenansteht.
bis jetzt hört man es jeder synthetischen Stimme an, dass sie nicht echt ist. Das klingt einfach zu neutral, und stimmt einfach von der Lautsprache nicht 100%.
(08. 01. 2020, 22:37)AFu schrieb: Aber wenn man menschliche Sprache halt hat, und die dann zusammenstückelt, dann holperts halt auch ganz ordentlich. Ein Beispiel ist die Rosenberg-Seiden-Straße, wo "Rosenberg" auch noch als "Platz" vorhanden ist. Als die DT8.10 neu waren, gabs ein Problem mit den Ansagen, sodass jede einzeln aufgenommene Silbe mit Pausen abgespielt wurde "Haupt...... Bahnhof"....Rosenberg-Seiden-Straße vs. Rosenbergplatz ist ein gutes Beispiel, weil bei ersterem aus dem fett markierten gs ein gesprochenes x (ks; k wohl dank Auslautverhärtung) wird und das a von "ei" im s zu hören ist und die Lippen schon beim g (k) in Richtung a gehen - Bei Rosenbergsonne würden sich die Lippen beim g schon Richtung o bewegen und das klingt dann auch schon anders. Beim zweiten gp gehen stattdessen die Lippen zum p zu. Das gleiche passiert auch noch zwischen Worten und sogar zwischen Sätzen, da Anfang und Ende von Sätzen eher über die Sprachmelodie festgelegt werden.
Fun Facts:
Dass wir dann noch drei "ch" haben (ach, ech/ich und och/uch) sind da nur noch weitere Nicklichkeiten, die 99% der deutschen nicht kennen. Ein Hüsteln im Wort wird im Übrigen üblicherweise vollständig überhört. Man kann das mit einem Audio-Editor gut testen, wenn man von Textschnipsel vorne oder hinten nacheinander 1 ms wegschneidet und vorurteilsfrei zuhört. Oder auch beim Schneiden von Musik: Wenn man bei "Say I'm Your Number One" im Takt schneidet, stellt man fest, dass das erste S vollständig fehlt, da beim Singen der Vokal auf den Taktschlag gelegt wird. Das ist ähnlich wie beim Tanzen, wo das volle Gewicht beim Taktschlag auf dem Fuß liegen sollte. Irgendwie ja auch nicht unlogisch, Sprechen und Tanzen sind beides Bewegungen.
Erschwerend die Probleme, wenn dann ein Wort oder eine Silbe in den Aufnahmen fehlt und der/die Sprecherin nicht mehr lebt oder 20 Jahre älter ist und sich daher die Stimme signifikant geändert hat.
Natürlich kommen Software-Probleme gelegentlich noch dazu, ebenso wie Aktivlautsprecher, die erst aus dem Stromsparmodus aufwachen müssen - z. B. am Hauptbahnhof: 'chtung, Zug nach Xy fährt ein.
Da muss eigentlich vorne noch eine Sekunde Rauschen vorne ran, damit der Verstärker erst mal anspringt - das kann natürlich inzwischen auch behoben worden sein; ich bin da nicht mehr oft auf der U-Bahn-Ebene.
Noch drei Probleme beim Erzeugen von Sprache: Rechtschreib- und Tippfehler des bedienenden Personals, Fremdwörter (Orte im Ausland) sowie Abkürzungen: Wie spricht man SONY oder ALEX aus?
Bitte auch nicht falsch verstehen:
Es ist die Wahl zwischen Pest und Cholera, und ich verspreche mir bereits derzeit etwas bessere Ergebnisse von dieser Vorgehensweise. In zehn Jahren stellt sich die Frage wohl gar nicht mehr.