Zum Hauptinhalt springen
Nicht aus der Schweiz? Besuchen Sie lehmanns.de
Sprachverarbeitung -  Fouad Sabry

Sprachverarbeitung (eBook)

Fortschritte in der Mensch-Roboter-Kommunikation und -Interaktion

(Autor)

eBook Download: EPUB
2024 | 1. Auflage
317 Seiten
Eine Milliarde Sachkundig [German] (Verlag)
978-0-00-069177-4 (ISBN)
Systemvoraussetzungen
4,49 inkl. MwSt
(CHF 4,35)
Der eBook-Verkauf erfolgt durch die Lehmanns Media GmbH (Berlin) zum Preis in Euro inkl. MwSt.
  • Download sofort lieferbar
  • Zahlungsarten anzeigen

Sprachverarbeitung-Eine Einführung in die grundlegenden Konzepte der Sprachverarbeitung, die den Boden für tiefere Einblicke in die Rolle der Sprache in der Robotik bereitet


Neuronales Netzwerk (maschinelles Lernen)-Erforscht den Kern des maschinellen Lernens und wie neuronale Netzwerke auf Robotersysteme zur Entscheidungsfindung und zum Sprachverständnis angewendet werden


Spracherkennung-Erörtert Spracherkennungstechnologien und ihre Bedeutung, um Robotern das Interpretieren und Reagieren auf menschliche Sprache zu ermöglichen


Lineare prädiktive Kodierung-Bietet Einblicke in prädiktive Modellierungstechniken und ihre Anwendung zur Verbesserung der Genauigkeit der Sprachverarbeitung in der Robotik


Vektorquantisierung-Konzentriert sich auf Vektorquantisierungsmethoden und wie diese die Sprachdatenkomprimierung optimieren und so eine schnellere und effizientere Verarbeitung in Robotersystemen gewährleisten


Hidden-Markov-Modell-Erklärt, wie Hidden-Markov-Modelle zur Verarbeitung sequentieller Daten verwendet werden, was für Aufgaben wie Spracherkennung und Roboterbewegungen entscheidend ist


Unüberwachtes Lernen-Beschreibt unüberwachte Lerntechniken, mit denen Roboter aus unstrukturierten Daten lernen können, ohne dass eine beschriftete Eingabe erforderlich ist


Sofort trainierte neuronale Netzwerke-Untersucht das innovative Konzept von neuronalen Netzwerken, die spontan trainiert werden und Spracherkennungssysteme anpassungsfähiger und reaktionsfähiger machen


Boltzmann-Maschine-Stellt Boltzmann-Maschinen und ihre Anwendung im probabilistischen Lernen vor, wodurch die kognitiven Fähigkeiten von Robotern verbessert werden


Rekurrentes neuronales Netzwerk-Untersucht die Verwendung rekurrenter neuronaler Netzwerke zur Verarbeitung zeitlicher Daten, die für die Verarbeitung kontinuierlicher Spracheingaben und die Verbesserung der Roboter-Mensch-Interaktion entscheidend sind


Kanalzustandsinformationen-Bietet einen Überblick darüber, wie Kanalzustandsinformationen die Sprachübertragung und -erkennung in Robotersystemen beeinflussen und so eine klare Kommunikation gewährleisten


Langzeit-Kurzzeitgedächtnis-Bespricht Langzeit-Kurzzeitgedächtnisnetzwerke, einen Durchbruch beim Training von Robotern, komplexe Sprachdaten über einen längeren Zeitraum zu behalten und zu verarbeiten


Aktivierungsfunktion-Analysiert die Rolle von Aktivierungsfunktionen in neuronalen Netzwerken und wie sie Robotern helfen, Sprachdaten effizient zu verarbeiten


Aktivitätserkennung-Beschreibt, wie Aktivitätserkennungsmethoden es Robotern ermöglichen, menschliche Handlungen zu interpretieren, was für die Verbesserung von Interaktion und Autonomie von entscheidender Bedeutung ist


Zeitinhomogenes verstecktes Bernoulli-Modell-Erklärt das zeitinhomogene Bernoulli-Modell und seine Relevanz bei sequenziellen Lernaufgaben wie der Sprachverarbeitung


Entropieschätzung-Beschreibt im Detail, wie Entropieschätzungstechniken auf die Sprachverarbeitung in der Robotik angewendet werden, um sicherzustellen, dass die Systeme fundiertere Entscheidungen treffen


Arten künstlicher neuronaler Netzwerke-Bietet einen Überblick über verschiedene Arten neuronaler Netzwerke und ihre spezifischen Anwendungen in der Robotik und Sprachverarbeitung


Deep Learning-Erörtert Deep-Learning-Methoden und ihre Auswirkungen auf die Weiterentwicklung der Sprachverarbeitung, wodurch Robotersysteme intelligenter und reaktionsschneller werden


Yasuo Matsuyama-Würdigt die Beiträge von Yasuo Matsuyama, einem Pionier der Sprachverarbeitung und Robotik, dessen Arbeit weiterhin Innovationen inspiriert


Faltungsneuronales Netzwerk-Stellt Faltungsneuronale Netzwerke und ihre entscheidende Rolle bei der Spracherkennung und Robotersichtsystemen vor

Kapitel 3 : Spracherkennung


Informatik und Computerlinguistik haben ein Teilgebiet hervorgebracht, das als Spracherkennung bekannt ist und sich auf die Entwicklung von Methoden und Technologien konzentriert, die es Computern ermöglichen, gesprochene Sprache zu erkennen und in Text zu übersetzen. Das hat vor allem den Vorteil, dass der Text dann durchsucht werden kann. Die automatische Spracherkennung, manchmal auch als ASR abgekürzt, ist eine andere Bezeichnung dafür, ebenso wie die Computer-Spracherkennung und Voice-to-Text (STT). Die Bereiche Informatik, Linguistik und Computertechnik sind alle in der Einbeziehung von Wissen und Studium vertreten. Sprachsynthese ist der Prozess, der in umgekehrter Reihenfolge abläuft.

Bestimmte Spracherkennungssysteme nennen diesen Prozess "Training", obwohl er auch als "Registrierung" bezeichnet wird. Während des Trainings füttert ein einzelnes Lesegerät den Systemtext oder isolierte Vokabeln. Die Genauigkeit der Spracherkennung für diese Person wird als Folge der Analyse der einzigartigen Stimme dieser Person durch das System und der Anwendung dieser Analyse auf den Prozess verbessert. "Sprecherunabhängige" Systeme sind solche, bei denen die Benutzer keine Schulung durchlaufen müssen. Der Begriff "sprecherabhängig" bezieht sich auf die Systeme, die geschult werden müssen.

Zu den Spracherkennungsanwendungen gehören Sprachbenutzeroberflächen wie Sprachwahl (z. B. "Nach Hause rufen"), Anrufweiterleitung (z. B. "Ich möchte einen Anruf tätigen"), Domotik-Gerätesteuerung, Suchschlüsselwörter (z. B. einen Podcast finden, in dem bestimmte Wörter gesprochen wurden), einfache Dateneingabe (z. B. Eingabe einer Kreditkartennummer), Erstellung strukturierter Dokumente (z. B. B. ein radiologischer Bericht), die Bestimmung von Sprechereigenschaften und die Sprache-zu-Text-Verarbeitung (z. B. Textverarbeitungsprogramme (in der Regel als direkte Spracheingabe bezeichnet).

Bei der Spracherkennung geht es mehr darum, zu erkennen, wer spricht, als darum, zu verstehen, was die Person sagt. Die Übersetzung von Sprache in Systemen, die auf die Stimme einer bestimmten Person trainiert wurden, kann durch die Erkennung des Sprechers erleichtert werden, oder sie kann verwendet werden, um die Identität eines Sprechers im Rahmen eines Sicherheitsprozesses zu authentifizieren oder zu überprüfen. Beide Verwendungszwecke sind wichtig, um die Sicherheit sensibler Informationen zu gewährleisten.

Die Spracherkennung hat eine lange Geschichte, und in dieser Geschichte gab es mehrere Wellen bedeutender technologischer Fortschritte. Die jüngsten Entwicklungen in Bereichen wie Deep Learning und Big Data haben sich positiv auf das Thema ausgewirkt. Die Entwicklungen zeigen sich nicht nur in der Zunahme der Anzahl akademischer Artikel, die zu diesem Thema veröffentlicht wurden, sondern vor allem in der weltweiten industriellen Akzeptanz einer Reihe von Deep-Learning-Ansätzen im Prozess der Entwicklung und Implementierung von Spracherkennungssystemen.

Die deutlichsten Verbesserungen wurden in den folgenden Bereichen erzielt: Wortschatzgröße; Unabhängigkeit des Sprechers; und Verarbeitungsgeschwindigkeit.

Im Jahr 1952 erschienen drei Forscher der Bell Labs, Stephen Balashek, Das Source-Filter-Modell der Spracherzeugung wurde von Gunnar Fant im Jahr 1960 erstellt und veröffentlicht.

Auf der Weltausstellung 1962 zeigte IBM die Spracherkennungsfähigkeiten seines "Shoebox"-Systems, das bis zu 16 Wörter erkennen konnte.

Während der Arbeit an der Spracherkennung im Jahr 1966 hatten Fumitada Itakura von der Universität Nagoya und Shuzo Saito von Nippon Telegraph and Telephone (NTT) die Idee für die Linear Predictive Coding (LPC)-Technik der Sprachcodierung.

Im Jahr 1969 veröffentlichte der prominente John Pierce einen offenen Brief, in dem er die Spracherkennungsforschung kritisierte und ihr die Finanzierung entzog. Infolge dieses Briefes versiegten die Mittel für die Spracherkennungsforschung in den Bell Labs für viele Jahre. Diese Finanzierungskürzung blieb bestehen, bis Pierce das Unternehmen verließ und James L. Flanagan die Leitung übernahm.

Als Raj Reddy in den späten 1960er Jahren Doktorand an der Stanford University war, war er die erste Person, die sich mit kontinuierlicher Spracherkennung beschäftigte. Frühere Methoden erforderten eine Pause des Benutzers nach jedem Wort. Das Schachspiel wurde durch mündliche Befehle gesteuert, die von Reddys System erteilt wurden.

Etwa zu dieser Zeit entwickelten Forscher aus der Sowjetunion die Methode der dynamischen zeitlichen Verzerrung (DTW). Sie nutzten es dann, um einen Recognizer zu entwickeln, der mit einem Vokabular von bis zu 200 Wörtern funktionieren konnte. DTW analysierte die Sprache, indem es sie zunächst in mehrere kleine Frames aufteilte, die jeweils zehn Millisekunden oder weniger dauerten, und dann jeden Frame so verarbeitete, als wäre er eine unabhängige Einheit. Obwohl DTW schließlich durch fortschrittlichere Algorithmen ersetzt wurde, überlebte die Methode selbst. Zu diesem Zeitpunkt war das Problem der Autonomie der Sprecher noch nicht gelöst.

Die Voice Understanding Study wurde 1971 von der DARPA für einen Zeitraum von fünf Jahren finanziert. Diese Forschung konzentrierte sich auf die Spracherkennung und zielte darauf ab, einen Wortschatz von mindestens tausend Wörtern zu haben. Sie glaubten, dass das Verstehen von Sprache unerlässlich sein würde, um Fortschritte in der Spracherkennung zu erzielen, aber dies stellte sich später als nicht der Fall heraus. Die Forschung zur Spracherkennung wurde durch den Brief von John Pierce wiederbelebt.

Im Jahr 1972 wurde eine Konferenz von der IEEE Acoustics, Speech, and Signal Processing Section in Newton, Massachusetts, veranstaltet.

Seit ihrer Gründung im Jahr 1976 ist die International Conference on Acoustics, Voice, and Signal Processing (ICASSP) das herausragende Forum für die Präsentation und Veröffentlichung von Forschungsergebnissen zur Spracherkennung. Die Forscher waren in der Lage, dank der Verwendung von Hidden-Markov-Modellen (HMMs) viele Fachgebiete wie Akustik, Sprache und Grammatik in ein einziges probabilistisches Modell zu integrieren.

Als einer der wenigen Konkurrenten von IBM baute Fred Jelineks Team bei IBM Mitte der 1980er Jahre eine sprachaktivierte Schreibmaschine namens Tangora. Tangora beherrschte einen Wortschatz von 20.000 Wörtern und war einer der wenigen Konkurrenten von IBM.

Darüber hinaus wurde in den 1980er Jahren das N-Gramm-Sprachmodell entwickelt und in Gebrauch genommen.

1987 wurde das Back-off-Modell eingeführt, das es Sprachmodellen ermöglichte, N-Gramme unterschiedlicher Länge zu verwenden. Zur gleichen Zeit begann CSELT, HMM zu verwenden, um verschiedene Sprachen zu unterscheiden (sowohl in Software- als auch in Hardware-spezialisierten Prozessoren, z. B. RIPAC).

Die schnell wachsenden Fähigkeiten von Computern sind weitgehend für die bedeutenden Fortschritte verantwortlich, die in diesem Bereich erzielt wurden. Das DARPA-Programm endete 1976, und der beste Computer, der den Forschern zu dieser Zeit zugänglich war, war der PDP-10 mit 4 MB RAM.

Es gab auch zwei nützliche Güter:

1984 debütierte das Apricot Portable, das maximal 4096 Wörter unterstützte, aber nur 64 davon gleichzeitig im RAM halten konnte.

1987 – ein Recognizer von Kurzweil Applied Intelligence

Dragon Dictate, ein Konsumprodukt, das 1990 hergestellt wurde Xuedong Huang, ein ehemaliger Student von Raj Reddy, der das Sphinx-II-System an der CMU entwarf, war der Erfinder von Dragon Dictate. Sphinx-II war das erste System, das eine sprecherunabhängige, große Vokabel- und kontinuierliche Spracherkennung ermöglichte, und es erzielte die beste Leistung in der DARPA-Bewertung von 1992. Sphinx-II verfügte außerdem über die fortschrittlichsten Funktionen. Ein bedeutender Wendepunkt in der Entwicklung der Spracherkennung war die Fähigkeit, kontinuierliche Sprache zusammen mit einem riesigen Wortschatz zu verarbeiten. Danach, im Jahr 1993, baute Huang die Spracherkennungsabteilung bei Microsoft auf, wo er arbeitete. Kai-Fu Lee, der ein Schüler von Raj Reddy war, arbeitete später bei Apple, wo er 1992 an der Entwicklung eines Sprachschnittstellen-Prototyps für den Apple-Computer Casper mitwirkte.

Eine Firma namens Lernout & Hauspie mit Sitz in Belgien ist im Bereich der Spracherkennung tätig. Im Laufe der Jahre hat das Unternehmen viele andere Unternehmen gekauft, darunter Dragon Systems im Jahr 2000 und Kurzweil Applied Intelligence im Jahr 1997. Innerhalb des Betriebssystems Windows XP befand sich eine Komponente, die sich die Sprachtechnologie von L&H zunutze machte. Bevor das Unternehmen im Jahr 2001 aufgrund eines Bilanzskandals geschlossen wurde, hatte L&H eine herausragende Position in der Branche. ScanSoft, die 2005 ihren Namen in Nuance änderten, kauften die Sprachtechnologie, die L&H entwickelt hatte. Ursprünglich lizenzierte Apple Software von Nuance, um Siri, den digitalen Assistenten des Unternehmens, mit der Fähigkeit zur Spracherkennung anzubieten.

Sowohl das Effective Affordable Reusable Voice-to-Text (EARS)-Programm im Jahr 2002 als auch das Global Autonomous Language Exploitation-Programm waren Spracherkennungsinitiativen, die in den 2000er Jahren von der DARPA (GALE) finanziert wurden. Insgesamt gab es vier Teams, die am EARS-Programm teilgenommen haben. Zu diesen Teams gehörten IBM, eine Gruppe, die von BBN geleitet wurde und zu der LIMSI und die University of Pittsburgh, die Cambridge University sowie eine Gruppe gehörten, zu der ICSI, SRI und die University of Washington gehörten. Das EARS stellte Mittel für die Zusammenstellung des Telefonsprechkorpus der...

Erscheint lt. Verlag 29.12.2024
Übersetzer Daniel Hueber
Sprache deutsch
Themenwelt Technik Maschinenbau
ISBN-10 0-00-069177-1 / 0000691771
ISBN-13 978-0-00-069177-4 / 9780000691774
Informationen gemäß Produktsicherheitsverordnung (GPSR)
Haben Sie eine Frage zum Produkt?
EPUBEPUB (Adobe DRM)
Größe: 1,2 MB

Kopierschutz: Adobe-DRM
Adobe-DRM ist ein Kopierschutz, der das eBook vor Mißbrauch schützen soll. Dabei wird das eBook bereits beim Download auf Ihre persönliche Adobe-ID autorisiert. Lesen können Sie das eBook dann nur auf den Geräten, welche ebenfalls auf Ihre Adobe-ID registriert sind.
Details zum Adobe-DRM

Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belle­tristik und Sach­büchern. Der Fließ­text wird dynamisch an die Display- und Schrift­größe ange­passt. Auch für mobile Lese­geräte ist EPUB daher gut geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen eine Adobe-ID und die Software Adobe Digital Editions (kostenlos). Von der Benutzung der OverDrive Media Console raten wir Ihnen ab. Erfahrungsgemäß treten hier gehäuft Probleme mit dem Adobe DRM auf.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen eine Adobe-ID sowie eine kostenlose App.
Geräteliste und zusätzliche Hinweise

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.

Mehr entdecken
aus dem Bereich
Grundlagen - Planung - Montage

von Wilfried Franke; Bernd Platzer

eBook Download (2025)
Carl Hanser Verlag GmbH & Co. KG
CHF 38,95