08. 01. 2020, 15:41
(Dieser Beitrag wurde zuletzt bearbeitet: 08. 01. 2020, 15:43 von Andy0711.)
(07. 01. 2020, 18:52)snowtrain schrieb: Also bevor man jemanden 14.000 teilweise völlig sinnfreie Sätze einsprechen läßt - wäre es dann nicht sinnvoller gewesen, wenn man die 5.700 Bahnhofsnamen, die es in Deutschland gibt, hätte einsprechen lassen plus alle nur denkbaren Hinweise jedweder Art? Dann hätte man tatsächlich so auch wirklich gesprochene Sätze bekommen, die sich garantiert besser und flüssiger anhören als (noch so gut digital) zusammengeschnipselte Silben.
Definitiv nein. Gesprochene Sprache ist sehr komplex und man müsste die Bahnhofsnamen mehrfach unterschiedlich einsprechen, je nachdem sie an Satzanfang, -mitte oder -ende stehen und möglichweise in Verbindung mit "nach" und anderen Präpositionen. Mit Zahlen wird dies üblicherweise auch seit vielen Jahren so gemacht (Einzelstehend oder Anfang/Mitte/Ende Aufzählung für 0-9 oder 0-99).
Das den meisten Menschen nicht bekannte Problem ist, dass im Grunde mehrere Buchstaben gleichzeitig ausgesprochen werden und auch Wortgrenzen nur in unserem Kopf existieren, also die Worte in gesprochener Sprache ineinander übergehen. Erst in unserem Gehirn wird das ganze wieder aufgelöst (indem teilweise die Muskelbewegungen des Aussprechenden nachvollzogen werden).
Durch hier das angewandte Vorgehen werden eben genau nicht Silben zusammengeschnipselt sondern das Sprechen selbst mehr oder weniger simuliert (wie kann sich der Mund bewegen, welche Resonanzen entstehen). Simuliert ist vielleicht hierbei zu hoch gegriffen; es werden eher die Gesetzmäßigkeiten mittels KI nachgebildet.
Idealerweise sollte man nicht feststellen, dass die Durchsagen vom Computer kommen. In der Praxis wird man wohl eher feststellen, dass kein Mensch dauerhaft so perfekt sprechen kann (keine Versprecher, kein Hüsteln, kein ungewolltes Verzögern, keine Korrektur, keine Stimmungsschwankungen ...)