Speech-to-Text – Google lernt hören

Auf unzähligen Portalen tummeln sich immer mehr Videos im Internet. Zwar können diese Videos meistens mit Tags versehen werden, die die Suchmaschinen auch lesen können, doch den Inhalt der Videos blieb bis jetzt für Google und Co. verborgen.

Nun geht Google neue Wege und lernt hören. Im Rahmen des US-Wahlkampf hat Google die Videos von den Reden der Präsidentschaftskandidaten mit Texten versehen und mit den Videos synchronisiert. Diese Funktion nennt sich Google Elections Video Search oder auch Speech-to-Text Technologie. Mit Hilfe von einem komplexen Algorithmus wird jedes gesprochene Wort in einen Text umgewandelt.

Ziel von der neuen Technik ist, Transparenz in den US-Wahlkampf zu bringen. Darüber hinaus will Google auch herausfinden, wie User mit Videos und eingebundenen Sprachapplikationen umgehen. Ich denke das zweite Ziel ist das eigentliche Ziel von Google.

Doch was bedeutet das für die Surfer? Werden dank dieser Spracherkennung bald noch mehr Youtube-Videos in den Suchmaschinen auftauchen? Ich vermute ja!

Weiterempfehlen

image description

Kommentieren

7 Kommentare

image description
  1. Claudio | 29.07.2008 09:05

    Ist der Trend denn nur in Amerika derjenige, dass die Leute immer mehr hören anstatt zu lesen? – Hörbücher sollen ein einen beträchtlichen Teil des Umsatzes des Buchhandels ausmachen. Spracherkennung, nicht nur für Videos, ist einer der grossen Knacknüsse, nicht nur dann, wenn es darum geht, Gesprochenes in einer für Maschinen lesbaren Form darzustellen.
    Probleme gibt es durchaus auch bei der maschinellen Übersetzung, Rechtschreib-Überprfüfung etc. Man versuche nur mal Texte hin und her zu übersetzen, wie ich das hier gemacht habe…

  2. René | 25.07.2008 15:07

    Der Aufwand dürfte beträchtlich sein. Doch spielt das für Google eine Rolle? Wohl kaum.
    Wenn der Trend in Amerika dahin geht, dass die leute immer mehr hören anstatt zu lesen, dann wird die Spracherkennung für soche Videos doch immmer wichtiger?

  3. Rick | 25.07.2008 08:55

    Ist wirklich eine interessante Sache. Es wäre aber noch Interessant zu erfahren, was da für einen Aufwand dahintersteckt.
    Ich halte die Sache allerdings nicht für sehr wichtig. Bei Videos die für Suchmaschinen relevant sein sollen gibt es auch andere Möglichkeiten. Z. B. kann der Inhalt der Rede auf der gleichen Website in Schriftform publiziert werden. Vor ein paar Wochen ist mir bei Recherchen auf Sites von US-Versicherungen aufgefallen, dass viele Textinhalte immer mehr durch Videos ersetzt werden. So konnte man sich dort gleich die Versicherungsbedingungen als Video präsentieren lassen. Den Präsentator konnte man sich auch noch selber aussuchen. Ich denke mal, das ist die folge davon, dass die Amerikaner immer weniger lesen wollen / können.

  4. René | 25.07.2008 07:45

    Ich bin auch der Meinung, dass im Bereich Videoerkennung noch viel kommen wird. Die Spracherkennung ist das eine, doch wird es auch gelingen Text zu erkennen? Meiner Meinung nach schon. Ist doch nur eine Frage der Zeit, bis diese Technologie eingesetzt wird. Es wird auf jeden Fall spannend werden.

  5. Hugo | 24.07.2008 21:50

    Bin da voll mit Claudio einig. Solange nur einer spricht und alle andern zuhören kann das gut funktionieren aber wenn’s ein Publikum gibt oder eben mehrere Redner, dann wird’s schwer.
    Schön wäre natürlich auch, wenn man die ganzen Sex-/Porno-Videos so in den Griff kriegen würde, denn da hat auch YouTube noch Verbesserungspotential.
    Dies ist auf jeden Fall noch nicht das Ende der Videoerkennung, man kann gespannt sein was noch kommt oder besser noch kommen muss.

  6. Claudio | 24.07.2008 20:12

    Wow, das ist ja mal eine ganz interessante Neuigkeit! Wie die das wohl geschafft haben mögen? – Gut, Wahlkampfreden sind relativ gut strukturiert und folgen verschiedenen textsortenspezifische Regeln, die Google seinen Rechnern beibringen kann. Wer allerdings schon einmal eine Arena-Sendung transkribiert hat, weiss wie schwierig es ist (sogar für das menschliche Ohr), Sprechtext in Schreibtext zu bringen.

Kommentar schreiben

Please copy the string 966JYi to the field below: