Wenn Sie Mozilla auf TikTok folgen, haben Sie wahrscheinlich gesehen, dass Sie mit iOS 17 auf dem iPhone jetzt einen Klon Ihrer Stimme erstellen können. Die Funktion ist zu gleichen Teilen gruselig und cool — gruselig, weil eine Kopie Ihrer Stimme jetzt auf Ihrem Telefon verfügbar ist - aber auch cool, denn wer die Fähigkeit zu sprechen verloren hat, kann die Funktion nutzen, um über die Apps seines Handys mit einer Stimme zu kommunizieren.

Wir bei der Mozilla Foundation wissen einige Dinge über Stimmen und KI. Das "Common Voice"-Projekt von Mozilla zielt darauf ab, die Spracherkennung zu verbessern, um mehrsprachiger und integrativer zu sein. Ganz normale Menschen wie Sie können hier Hörproben Ihrer Stimme spenden und dann können diejenigen, die KI-Systeme erstellen, den Datensatz verwenden, um sicherzustellen, dass ihre Sprachprodukte Stimmen, die auf der ganzen Welt gehört werden, darstellen und verstehen.

Es ist keine Überraschung, dass die Leute bei "Common Voice" mit Apple's neuer Sprachfunktion experimentiert haben - und sie haben Bedenken. Em Lewis-Jong ist Produktdirektorin von "Common Voice" — hier ist, was sie sowohl hoffnungsvoll als auch besorgt über die Personal Voice-Funktion von iOS 17 werden lässt.

Was ist denn großartig an der Personal Voice-Funktion von iOS 17?

Man vergisst leicht, wie beeindruckend es ist, dass viele Leute mit einem Supercomputer in der Tasche herumlaufen. Genau kann man leicht vergessen, wie beeindruckend eine Funktion wie "Personal Voice" in iOS 17 tatsächlich ist. "Selbst vor fünf Jahren wäre unmöglich gewesen, so etwas auf einem Gerät zu machen und diese Art von Qualität zu erreichen", sagt Em. "Es ist erstaunlich, dass Apple's Lösung nur 150 Äußerungen benötigt — das ist allen anderen verbraucherorientierten Angeboten, die ich bisher gesehen habe, einen Schritt voraus.“

Beeindruckender als die Technik sind vielleicht die praktischen Anwendungen. Die Vorteile der "Personal Voice"-Funktion von Apple in Bezug auf die Barrierefreiheit können nicht unterschätzt werden. Sie ist eine deutliche Verbesserung gegenüber dem, was vorher verfügbar war. Em verweist auf ein Beispiel, das sie bei "Common Voice" gesehen hat: "Als ich zum ersten Mal bei 'Common Voice' war, war es wirklich spannend, einige der verschiedenen Text-to-Speech-Anwendungen zu hören", sagt Em. "Eine davon war eine Professorin, die aufgrund einer Krankheit ihre Stimme verlieren würde, aber unbedingt mit ihrer eigenen Stimme weiter unterrichten wollte. Solche Anwendungsfälle sind der Grund, warum ich Tools wie diese wirklich spannend finde."

Was ist an der "Personal Voice"-Funktion von iOS 17 denn besorgniserregend?

Diese Funktion ist nur auf Englisch verfügbar. Deshalb ist das ein Problem:

In vielerlei Hinsicht ist Englisch die Sprache des Internets — 64 % aller Websites verwenden Englisch als Hauptsprache. Ebenso bringen Technologieunternehmen ihre Produkte oft zuerst auf Englisch heraus. Ein typisches Beispiel: Apples "Personal Voice"-Funktion. Die in Kalifornien entwickelte "Personal Voice" in iOS 17 ist nur in der Erstsprache von Apple verfügbar.

Mit über 100 Sprachen versucht 'Common Voice', die Abhängigkeit des Internets vom Englischen zu verringern. Laut Em waren Daten über englische Sprache leicht zu finden, Daten über englische Stimmen mit nicht-dominanten Akzenten weniger und Sprachen aus ressourcenarmen Gemeinschaften noch weniger.

"Es ist wirklich ein Teufelskreis", sagt Em. "Das Internet ist im Grunde nur in wenigen Sprachen verfügbar, so dass die nächste Generation hauptsächlich in einer zweiten oder dritten Sprache online kommuniziert - Englisch, Spanisch, Französisch - während die Sprache ihrer Großeltern zunehmend in Vergessenheit gerät. Es ist normal und natürlich, dass Apple seine Produkte zuerst in Englisch auf den Markt bringt, aber es verstärkt eine Dynamik, die wir oft beobachten können, nämlich dass der Anglozentrismus der Technologie echte Konsequenzen für Internetnutzer hat, deren Muttersprache nicht eine vorherrschende Sprache ist."

Verwendet Apple "Personal Voice", um die Entwicklung seiner Produkte zu beeinflussen? Das ist unklar.

Apple spricht offen über diese Funktion und über den Datenschutz, den die Nutzer haben. Der "Explainer" (Erklärer) von Apple auf "Personal Voice" stellt fest, dass das Training der KI lokal auf Ihrem Gerät stattfindet. Das Unternehmen freut sich auch darüber, dass Ihr Voice Print in der Cloud ankommt, falls Sie die Funktion "geräteübergreifend teilen" aktiviert haben. Abgesehen davon, was macht Apple mit all den Sprachdaten, die es sammelt, um Ihre Stimme überhaupt zu trainieren?

"Ihre persönliche Stimme ist lokal und in der Cloud geschützt, doch soweit ich weiß, hat Apple nichts über die Daten erwähnt, die Sie zum Trainieren des Modells übergeben haben", sagt Em. "Wir wissen, dass die synthetisierte Stimme lokal gespeichert wird oder Ende-zu-Ende-verschlüsselt ist, wenn man sie zwischen Apple-Geräten austauscht. Aber was ist mit den Sprachdaten, die zum Trainieren der synthetischen Stimme verwendet wurden? Wo werden diese gespeichert? Werden sie von Apple überhaupt kontinuierlich verwendet? Apple sagt ausdrücklich, dass es Ihre Sprachclips verwenden kann, um seine Produkte und Dienstleistungen für Dinge wie Siri zu verbessern, so dass es nicht vollkommen aus der Luft gegriffen wäre, anzunehmen, dass es das ist, was sie hier tun könnten."

Wie geht es weiter mit KI-Sprachfunktionen?

Für diejenigen, die wissen, wo die Funktion zu finden ist, bietet Apple's "Personal Voice" einen benutzerfreundlichen Einstieg in die Welt der KI-gestützten Stimmes. Aber das ist nur der Anfang — vor allem, wenn man bedenkt, dass es nur in einer Sprache verfügbar ist.

Englisch wird wahrscheinlich für eine Weile die Standardsprache des Internets sein. Fragt man 'Common Voice', so sagen sie, dass ein Teil der Lösung darin besteht, Daten zu spenden. "Vielfältigere Trainingsdaten sind ein Teil der Lösung", sagt Em. "Gemeinschaften müssen sich zusammenschließen und mobilisieren, um Datensätze zu erstellen. Darauf zu warten, dass Unternehmen in die Bresche springen und das Problem lösen und sich für ihre Sprachgemeinschaft interessieren, ist nicht der zielführende Weg - denn wenn Unternehmen keine ernsthafte kommerzielle Rentabilität erkennen, werden sie sich oft nicht engagieren. Es macht also tatsächlich Sinn, dass Gemeinschaften versuchen, dieses Problem selbst zu lösen und zu sagen: 'Okay, wir wollen, dass die Spracherkennung für uns funktioniert, und wir werden diese Daten für uns selbst, für unsere Gemeinschaften und für Leute, die unsere Sprache sprechen, sammeln.' "

Sprachklone auf iPhones? Mozillas "Common Voice" hat Bedenken

Geschrieben von: Xavier Harding

Bearbeitet von: Audrey Hingle, Innocent Nwani, Kevin Zawacki, Xavier Harding

Zeichnungen: Shannon Zepeda


Verwandte Inhalte