6. Datenaufbereitung
396Einer der Gründe für die akustischen Messungen besteht darin, phonologisch gleiche Abläufe auf Unterschiede und Ähnlichkeiten untersuchen zu können und damit die zugrundeliegende phonologische Repräsentation von Intonation von ihrer phonetischen Erscheinungsform abzugrenzen (Kainada und Lengeris 2015). Aussagen über Parameter wie f0-alignment können beispielsweise nur anhand akustischer Messungen getroffen werden.
397Eine solche Unterscheidung zwischen phonetischen und phonologischen Parametern von Intonation ist insofern wichtig, als es bedeutet, dass sich Sprachen auf diesen beiden Ebenen unterscheiden können (Mennen 2007, S. 57). Eine quantitative Untersuchung, wie sie mit akustischen Messungen vorliegt, kann außerdem zur präziseren Bestimmung phonologischer Kategorien dienen.
398Da der hier beschriebene Inhalt Grundvoraussetzung für die akustischen Messungen ist, muss – um möglichen terminologischen Unklarheiten zu entgehen – eine Abgrenzung der beiden Begriffe Pitch und f0 vorgenommen werden. Auch wenn sie in der Literatur häufig synonym verwendet werden, gehören sie doch unterschiedlichen phonetischen Ebenen an. Wird von Pitch (oder Tonhöhe) gesprochen, ist die Ebene der Perzeption angesprochen, und kann mit hoch, mittel oder tief beschrieben werden. f0 dagegen ist eine akustische Größe und wird in Hertz (Hz) oder in Halbtönen (st) ausgedrückt (vgl. dazu Kapitel 2). Oftmals sind allerdings beide Begriffe denkbar, weil gleichzeitig beide Ebenen angesprochen werden. Dies gilt beispielsweise für die Beschreibung des Stimmumfangs (vgl. Abschnitt 6.3), den ein Sprecher durchschnittlich in normaler Sprechsituation nutzt. Dieser wird daher in dieser Arbeit unter den Begriffen f0-Umfang oder pitch span beschrieben.
399Nachfolgend werden zunächst die akustischen Analysen sowie die dafür benötigten Werkzeuge vorgestellt. Anschließend werden die im vorausgehenden Kapitel erarbeiteten Untersuchungsparameter im Hinblick auf die phonetischen Merkmale genauer analysiert. Dafür ist es nötig, den f0-Umfang der einzelnen Sprecher sowie der unterschiedlichen Sprechstile zu ermitteln und zu diskutieren.
6.1 Messverfahren
400Die akustischen Analysen in dieser Arbeit wurden mit der Software PRAAT (Boersma und Weenink 2015) (Version 5.3.80) durchgeführt. Der Tonhöhenverlauf wird in Halbtönen dargestellt (semitones re 1 Hz)154, um die Werte von Männern und Frauen zu normalisieren, und die jeweiligen Tonhöhenober- und untergrenzen den Sprechern individuell anzupassen.
401Da es sich bei den untersuchten IPs um relativ kurze Abschnitte handelt, müssen Ausreißer in der vom Algorithmus errechneten f0-Darstellung von den Messungen ausgeschlossen werden, da diese sonst die Ergebnisse verfälschen würden. Dazu wurden die einzelnen IPs von der automatischen Smooth-Funktion von PRAAT geglättet (10Hz Bandbreite).155
402Ein solches Glättungsverfahren ist überdies sinnvoll, um Pitch-Ablenkungen nach oben oder unten auszugleichen. So üben beispielsweise stimmhafte Konsonanten einen Einfluss auf den vorausgehenden oder nachfolgenden Konturverlauf aus (Laver 1994, S. 456). Stimmhafte Konsonanten lenken den Pitch in angrenzenden Segmenten nach unten ab, während stimmlose Konsonanten, vor allem Frikative, den Verlauf nach oben ablenken. Dabei handelt es sich um auditiv nicht wahrgenommene Veränderungen der f0, die keine Relevanz für die Satzintonation haben, konkrete Messungen aber verfälschen könnten (Laver 1994).
403Auch stimmqualitative Unterschiede wie z. B. die Knarrstimme (creaky voice, vgl. Laver 1994, S. 196), können die Messwerte verfälschen, da der Algorithmus aufgrund der Aperiodizität der Stimmlippenschwingungen keine validen Ergebnisse liefert (Oktavsprünge oder zu schnell wechselnde f0‑Bewegungen sind das Ergebnis) und keine zuverlässigen Berechnungen vorliegen. Problematisch ist das vor allem bei der Berechnung des Parameters F0minIP (vgl. Abschnitt 6.2), da es sich dabei um äußerungsfinale Messpunkte handelt, die häufig mit Knarrstimme geäußert werden. Dies ist vermutlich auf die allgemeine Spannungsreduzierung des Sprechapparats am Ende einer Äußerung zurückzuführen. Die Überprüfung gilt sowohl für Lesesprache als auch für die freie Rede.
404Neben der automatischen Glättung wurde – wie oben genannt – auch die Pitch-Ober- und Untergrenze für jeden Sprecher individuell angepasst, so dass extreme Ausreißer dadurch nicht in das Glättungsverfahren miteinbezogen wurden.
405Nach den automatisierten Messungen mit dem Glättungsverfahren wurden alle Werte noch einmal überprüft, da vor allem die Gipfelposition häufig falsch ausgegeben wurde. Das auf die Ablenkung des Tonhöhenverlaufs durch Plosive vor dem Silbenreim, an Oktavsprüngen oder Ausreißern sowie Knarrstimme zurückzuführen, die dann im Glättungsverfahren die Kontur ‚verzerren‘. Diese wurden dann manuell ausgerechnet bzw. korrigiert.
406Anders als für die Beschreibung und Schematisierung der unterschiedlichen Konturen müssen für eine akustische Analyse noch weitere Einschränkungen in Bezug auf die Tauglichkeit der Phrasen vorgenommen werden. So wurden beispielsweise NA-Silben mit Kurzvokal bzw. Kurzvokal und stimmlosem Konsonant nicht mit in die Untersuchung einbezogen.
6.2 Untersuchungsparameter
407Bei der Erstellung des Formeninventars haben sich sowohl Parameter im Zeitbereich (horizontal) als auch im Frequenzbereich (vertikal) herauskristallisiert156, die für eine akustische Untersuchung als sinnvoll und diskriminativ erachtet werden und auch in früheren Studien bereits untersucht wurden. So zeichnete sich beispielsweise in der Formenanalyse ab, dass der Gipfel innerhalb abschließender Phrasen eher früh in der NA-Silbe liegt, während er bei weiterweisenden Fragen später in der Silbe erreicht wird. Ob sich diese Beobachtungen als systematisch bestätigen lassen und wie weit die Gipfel auseinanderliegen, wird anhand der horizontalen Position des Gipfels innerhalb der NA-Silbe gemessen. Ebenso scheint es auffällige Unterschiede in der Höhe des Pitch-Endes bzw. des Grenztons zu geben, wenn man etwa die Schirmmützenkontur mit abschließenden Formen vergleicht. Auch diese vertikalen Größen sollen überprüft werden. Damit verbunden ist die Höhe des Falls von nuklearem Gipfel bis Phrasenende. Auch dieser kann zur Funktionsunterscheidung beitragen, betrachtet man den geringen Fall geschlossener Listen und den relativ großen Fall intonatorischer Weiterweisungen (IW1). Tatsächlich beschreibt lediglich das Zusammenspiel der drei Parameter die Form der nuklearen Kontur (vgl. Abschnitt 7.4). Stellt man sich beispielsweise einen Fall gleicher Stärke vor, so kann dennoch die Höhe seines tiefsten Punkts variieren und somit dem Verlauf möglicherweise andere Bedeutung geben.
408So wird die nukleare Struktur jeder IP auf die Parameter Gipfelposition, Fallhöhe und die relative Tonhöhe des f0-Minimums zwischen NA und Phrasenende (F0MinIP) hin untersucht, um aus den relativen Bezeichnungen früh und spät bzw. groß und gering sowie hoch und tief konkretere Werte zu erhalten. Wie anfangs erwähnt kann ein Vergleich zwischen einzelnen Sprechern nur gewährleistet werden, indem die Werte in Halbtönen (semitones, st) angegeben werden. Die Untersuchungsparameter werden im Folgenden abgebildet (Abbildung 44) und einzeln erklärt.
409Gipfelposition
410Bei der Gipfelposition handelt es sich um einen sehr häufig untersuchten Parameter (vgl. z. B. Grabe 1998; Silverman und Pierrehumbert 1990; Sichel-Bazin et al. 2012), der stärker durch prosodischen Kontext und segmentale Faktoren beeinflusst wird als die beiden anderen Parameter. Darunter wird die horizontale Lage des Pitch Maximums in der Nuklearsilbe verstanden (s. Abbildung 44). Sie wird im Verhältnis zur Dauer der NA-Silbe gemessen. Da keine L*-Töne im Luxemburgischen vorkommen, muss hier kein f0‑Minimum in der NA-Silbe beachtet werden.
411Die Literatur zeigt auf, dass der Gipfel früher realisiert wird, wenn die Silbe kürzer ist, etwa, weil schneller gesprochen wird. Auch eine unmittelbar auf die NA-Silbe folgende Phrasengrenze oder Wortgrenze rückt die Position des Gipfels weiter an die linke Seite der Silbe. Darüber hinaus kann die Gipfelposition auch zwischen Sprachen bzw. dialektalen Varietäten (Gilles 2005) variieren. Das Standarddeutsche weist tendenziell einen Gipfel auf, der mit dem Silbenende verbunden ist, während das Englische einen eher mittleren Gipfel realisiert (Grabe 1998). Die Position des Gipfels kann also eine diskriminative Funktion haben, aber auch die „Alignierung des Akzenttons (bzw. des Tonhöhen-Zielpunktes) mit der betonten Silbe“ kann darüber errechnet werden (Baumann et al. 2015, S. 15–16).
412Zu den Faktoren, die die Gipfelposition beeinflussen, kommt als ein weiteres Element die Silbenstruktur hinzu. Sie spielt insofern eine Rolle, als dass auf stimmlosen Lauten kein f0-Verlauf gemessen werden kann. Für die akustischen Messungen können also nur bestimmte Silben, die den folgenden Kriterien entsprechen, herangezogen werden. In Anlehnung an Gilles (2005) wird der Silben-Onset (stimmhaft oder stimmlos) aus der Dauermessung der Silbe ausgeschlossen, so dass die Messung mit dem Silbenreim beginnt. Dieser wurde so ausgewählt, dass er aus Vokal und sonorantem Offset (V+ Csonorant) oder Langvokal/Diphthong besteht. Silbenreime, die lediglich aus einem Kurzvokal oder Vokal + stimmlosem Offset bestehen, wurden bei den Messungen dieses Parameters nicht berücksichtigt.
413Für die konkrete Messung (s. Abbildung 45) wurde der Zeitpunkt des f0-Maximums (Gipfel) in Relation zur Länge des nuklearen Silbenreims (schraffierte Fläche) gesetzt, um Prozentwerte zu erhalten. Dafür wird die Differenz zwischen den Zeitpunkten (b) und (a) errechnet und dieser Wert im Verhältnis zur Differenz von den Zeitpunkten (c) und (a) dargestellt.
414Geht man hier von einer hypothetischen gesamten Reimlänge von 1s aus (c-a) und der Gipfel läge 0,6s später als (a), erhielte man einen prozentualen Wert von 60% des Silbenreims. So liegt die Gipfelposition (b) auch hier im abgebildeten Beispiel etwa bei 60% des Silbenreims, wenn der Beginn des Reims mit 0% (a) und das Ende mit 100% (c) betrachtet wird. Je höher also der Wert, desto später wird der Gipfel innerhalb der NA-Silbe erreicht. Dieses Verfahren ermöglicht es, nicht nur die horizontale Lage des Gipfels innerhalb des Silbenreims zu errechnen, sondern auch festzustellen, wann er über die Silbengrenzen hinausgeht.
415Da die Grenzsetzung manuell und in einem kurzen Zeitabschnitt erfolgt, können kleinere Ungenauigkeiten nicht ausgeschlossen werden. Da hier jedoch nicht die exakte Prozentzahl ausschlaggebend ist, sondern die grobe Einteilung früh, mittel und spät157 ausreicht, resultiert daraus kein Problem für die Aussagefähigkeit der Ergebnisse.
416Fallhöhe
417Die vertikalen Parameter unterliegen keinen so großen Einflüssen wie die Gipfelposition und sind deswegen auch wesentlich seltener in der Literatur zu finden. In seiner Analyse regionaler Varietäten vergleicht Gilles (2005) unter anderem, welchen f0-Umfang die Sprecher innerhalb der unterschiedlichen Varietäten in Deutschland nutzen, um den Fall in seiner Fallkontur zu realisieren. Auch Sichel-Bazin et al. (2012) messen die Differenz zwischen Gipfel und finaler f0-Höhe, um die vertikale Position des Grenztons (scaling of the boundary tone) unterschiedlicher Varietäten in Frankreich zu bestimmten. Dabei lässt sich jedoch fragen, ob allein die Fallhöhe ausreicht, um Aussagen über die Höhe des Grenztons zu machen, und wie vergleichbar die Daten sind, wenn sie nicht im Verhältnis zum individuellen f0-Umfang betrachtet werden. Bezüglich der ersten Frage wird in der vorliegenden Arbeit die Höhe des finalen Pitchs (F0minIP) als zusätzlicher Parameter betrachtet (s. Punkt F0minIP). Die Vergleichbarkeit der Daten zwischen den Sprechern und den einzelnen Kategorien wird dabei in dieser Arbeit wie folgt gewährleistet.
418Der Parameter Fallhöhe bezieht sich in dieser Arbeit auf den Fall des Tonhöhenverlaufs vom nuklearen f0-Maximum hin zum f0-Minimum in der darauffolgenden Zeit bis zum IP-Ende (s. Abbildung 44). Für jede Phrase wird damit die Größe des Falls gemessen. Dieser Parameter scheint besonders wichtig zu sein, da hauptsächlich unterschiedlich fallende Konturen im Datensatz zu finden sind. Für sich allein ist der Wert jedoch noch nicht sehr aussagekräftig, so dass er hier relativ zum individuellen f0-Umfang betrachtet und in Prozent ausgedrückt wird (s. Abschnitt 6.3 zum f0-Umfang), um den Wert zwischen den Sprechern und zwischen einzelnen Phrasen vergleichen zu können. Der Unterschied eines Falls bei Sprechern mit monotoner gegenüber einem Sprecher mit sehr lebendiger Sprechart wird dadurch relativiert und vergleichbar gemacht. Aber auch der Fall zwischen zwei Phrasen desselben Sprechers kann so zuverlässiger verglichen werden. Dazu werden das f0-Maximum und das f0-Minimum der nuklearen Kontur gemessen und aus der Differenz die Fallhöhe errechnet. Der Wert fällt in der Regel kleiner aus als der individuelle Sprecherumfang, weil bei normalem, nicht emphatischem Sprechen selten der ganze f0-Umfang genutzt wird. Ist der Fallwert jedoch höher als der des gemittelten f0‑Umfangs, ist das darauf zurückzuführen, dass individuelle Verläufe darüber hinausgehen können.
419Liegt beispielsweise der f0-Umfangs eines Sprechers bei 8 st und der Fall einer Phrase weist 2 st auf, wird der Prozentwert des Falls in Relation zum Umfang gerechnet (hier 25%). Je geringer also der prozentuale Wert, desto geringer die vertikale Ausdehnung der Fallbewegung, d. h. je geringer der Fall in Relation zum gemittelten f0-Umfang.
420Trunkierte, hoch endende Phrasen weisen nach dieser Messmethode einen sehr geringen Fall auf. Da es sich dabei um nicht ganz ausgeführte fallende Konturen handelt, deren Fall ‚abgeschnitten‘ wurde und die Kontur damit mit einem nuklearen f0-Maximum endet, ist nach dem Gipfel kein oder kaum Sprachmaterial mehr verfügbar, mit dem ein f0-Minimum realisiert werden könnte. So kann ein trunkierter Verlauf einer pragmatischen Weiterweisung beispielsweise einen Fall von 0 st (und damit 0%) aufweisen, was in diesem Fall besagt, dass er hoch endet.
421Bleibt man bei dem hypothetischen Beispiel von einem f0-Umfang von 8 st und einem Fall von 2 st, heißt das nicht notwendigerweise, dass das f0-Minimum im Sprechumfang hoch liegen muss. Ein tiefliegendes f0-Maximum beispielsweise kann mithin ebenfalls anschließend einen Fall von 2 st aufweisen. Der Parameter ist folglich nur in einer Kombination mit dem f0-Maximum oder ‑Minimums richtig einzuordnen. Es bedarf einer weiteren Größe, um die Lage des Falls innerhalb des f0-Umfangs verorten zu können. Aus diesem Grund wird hier ebenfalls die ‚Höhe‘ des f0-Minimums zwischen dem Gipfel und dem Phrasenende (F0MinIP) gemessen.
422F0minIP
423Bei dem dritten Parameter handelt es sich um die relative Höhe des f0-Minimums zwischen f0-Maximum im Nuklearakzent (NA) und Ende einer IP (s. Abbildung 44 und Abbildung 46), die auch bei Gilles (2005) als wichtig erachtet wird. Er stellt fest, dass größere Unterschiede zwischen den untersuchten Varietäten in Bezug auf die Höhe des finalen Tiefpunkts der Kontur vorliegen als in Bezug auf die vertikale Gipfelhöhe, also auf das f0-Maximum.
424Für diesen Parameter wird die Höhe der minimalen f0 gemessen und anschließend in Relation zum f0‑Umfang des Sprechers errechnet und als Prozentwert dargestellt. Der f0-Umfang wird aus der Differenz von gemittelten IP-Maxima und IP-Minima errechnet und im nächsten Abschnitt genauer besprochen.
425Anhand eines Beispiels soll der Rechenweg Schritt für Schritt veranschaulicht werden. Die verwendeten Begriffe wie F0minNuk (f0-Minimum nach dem Gipfel) sowie topline/baseline (Dachlinie bzw. Grundlinie des Stimmumfangs eines Sprechers158) werden in Abbildung 46 schematisch dargestellt.
426Rechenweg:
- topline: 80 st | baseline: 70 st
- f0-Umfang: 80 st - 70 st = 10 st
- F0minNuk: 72 st
- Differenz zur baseline: 72 st - 70 st = 2 st
- 100/10*2 = 20
- => Der Tonhöhenverlauf endet auf einer Höhe von 20% des f0-Umfangs = F0MinIP
428Diese Vorgehensweise wird als Normalisierungsverfahren angewendet, um beispielsweise Sprecher mit monotonerer bzw. melodiöserer Sprechweise untereinander vergleichen zu können und so jeder Sprechweise gerecht zu werden.
429Der Deklinationstrend erschwert einen generellen Vergleich zwischen abschließenden und weiterweisenden Phrasen, da abschließende Phrasen aufgrund ihrer Charakteristik gegen Ende des Deklinationstrends zu finden sind. Deshalb ist besonders bei dem Vergleich dieser beiden Funktionen auch die relative Höhe der IP-finalen f0-Höhe (F0MinIP) von Bedeutung. Dies veranschaulicht, dass die Kombination der hier aufgeführten Parameter über die genaue Gestaltung des Nukleus Aufschluss gibt. So weisen beispielsweise AB1 und IW1 beide einen recht großen Fall auf, jedoch unterscheiden sie sich in ihrem F0MinIP und in ihrer Gipfelposition und damit in ihrer tonalen Gestalt.
6.3 Stimmumfang
430Unter den synonym verwendeten Begriffen Stimmumfang, f0-Umfang oder auch dem Englischen pitch span159 wird der durchschnittliche Bereich zwischen Höchst- und Tiefstwerten einer Intonationskontur eines Sprechers in einer Interaktion verstanden (vgl. dazu auch Szczepek Reed 2011, S. 79). Es handelt sich also um den Frequenzbereich, in dem ein Sprecher sich in einer normalen Stimmlage in einer bestimmten sprachlichen Situation bewegt. Extremwerte aufgrund von starken Emotionen oder eng fokussierten Akzenten beispielsweise befinden sich in der Regel außerhalb dieses Bereiches. Je nach Sprechsituation kann der f0-Umfang variieren (Szczepek Reed 2011, S. 79). Auch das Geschlecht, persönlicher Habitus, die Sprache160 oder die regionale Prägung können den f0-Umfang beeinflussen (Gilles 2005).161 So weisen das Deutsche und Britische Englisch beispielsweise generell einen geringere f0‑Umfang auf als das Bulgarische und Polnische (Andreeva et al. 2017) und männliche Sprecher des Kölnischen weisen einen größeren f0-Umfang auf als etwa männliche Sprecher aus Freiburg (Gilles 2005, 86f).162 Neben span, also dem realisierten Sprecherumfang, wird auch die Größe pitch level in der Literatur häufig untersucht. Darunter wird die allgemeine Tonhöhe verstanden („overall pitch height“ (Mennen 2007, S. 9), s. dazu ausführlich Ladd (2008, 197 ff.)), die jedoch in dieser Arbeit nur am Rande betrachtet wird (vgl. Exkurs unter Abschnitt 8.2), da sie keinen direkten Einfluss auf die akustischen Parameter hat. Der Stimmumfang dagegen ist in dieser Arbeit eine wichtige Größe, da die anderen Untersuchungsparameter in Relation dazu definiert werden, sodass der f0‑Umfang damit einen Referenzwert darstellt.
431Bereits in sehr frühen Arbeiten zur Intonation (z. B. im amerikanischen Strukturalismus mit seinem Stufenmodell) wird der f0-Umfang gewissermaßen als relationale Größe eingesetzt, da sich die meisten Abbildungen von Intonation in irgendeiner Form auf einen gewissen Bereich beziehen, sei es durch Abbildung auf Notenlinien (Jones 1909), eingrenzende Linien über und unter dem Verlauf (O'Connor und Arnold 1973) oder wie bei Delattre (1966) einen in Viertel unterteilten Bereich, innerhalb dessen sich der Verlauf bewegt.
432In dieser Arbeit wird der f0-Umfang aus der gemittelten Differenz zwischen f0-Maximum und f0‑Minimum jeder IP errechnet163 (s. Abbildung 47, in diesem Beispiel beträgt der Umfang 80st – 70st = 10st). Auf diese Art werden seltene Extremwerte neutralisiert.
433Aufgrund der verschiedenen Sprechstile wurde der f0-Umfang für das jeweilige Experiment (natürliche Lesesprache und Gespräch) separat gemessen. In der Abbildung 48 wird der gemittelte Stimmumfang jedes Sprechers des Experiments natürliche Lesesprache abgebildet.
434Die Sprecher sind hier nach Geschlecht gruppiert, so dass gut zu erkennen ist, dass die weiblichen Sprecher (links) einen höheren Frequenzbereich nutzen als die männlichen (rechts). Die beiden Gruppen weisen dagegen nur einen kleinen Unterschied im f0-Umfang auf: weibliche Sprecher MW=14.79 st gegenüber männlichen Sprechern MW=13.88 st. Den geringsten f0-Umfang in der Gruppe der weiblichen Sprecher weist Sprecherin 1w6 mit 11,58 st auf und den größten f0-Umfang realisiert Sprecherin 2w15 mit 17,31 st, was einer Differenz von mehr als 5 st ausmacht. Bei der Gruppe der männlichen Sprecher liegt ein etwas geringerer Unterschied vor, denn der kleinste f0-Umfang liegt bei 11,81 st (1m2) und die größte bei 16,18 st (2m4), was eine Differenz von etwas mehr als 4 st ausmacht. Der Unterschied zwischen kleinstem und größtem f0-Umfang aller Sprecher findet sich demnach mit 5,73 st in der Gruppe der Frauen.
435Die Abbildung 49 bildet den durchschnittlich genutzten Sprecherumfang des Experiments Gespräch, also spontaner Sprache, ab.
436Hier fällt zunächst auf, dass die Sprecher einen geringeren f0-Umfang nutzen als in der natürlichen Lesesprache. Diese Verringerung ist hauptsächlich auf niedrigere f0-Maximum-Werte im Gespräch zurückzuführen, denn auffälligerweise bleiben die f0-Minima relativ konstant zwischen den beiden Sprechstilen (von einigen Ausnahmen abgesehen). Dies deckt sich mit der Aussage von Ladd (2008, S. 203): „the bottom of the speaking range is a fairly constant feature of an individual’s voice“. Das wiederum bedeutet, dass auch besonders involvierte Sprechweise hauptsächlich über eine Erhöhung, nicht aber über ein Absenken der Tonhöhe funktioniert.
437In diesem Teilkorpus weisen die Frauen (links) eine gemittelten f0-Umfang von 10,1 st auf, während die Männer (rechts) einen Umfang von lediglich 7,29 st erreichen.164 Damit fällt der f0-Umfang nicht nur geringer aus als in der gelesenen Sprache, sondern der Unterschied zwischen den Geschlechtern ist stärker ausgeprägt. In der Spontansprache nutzen Frauen einen größeren f0-Umfang als die Männer, während dieser Unterschied in der Lesesprache weniger ausgeprägt ist.
438Den geringste f0-Umfang weist ein männlicher Sprecher (1m1) mit 5,76 st auf, während der größte f0‑Umfang mit 12,62 st von einer weiblichen Teilnehmerin (2w13) realisiert wird. Der Unterschied von 6,86 st fällt etwas größer aus als in der Lesesprache. Auffällig ist der insgesamt höhere Frequenzbereich der Sprecherin 1w6, die gleichzeitig den geringsten f0-Umfang in der Lesesprache und – bis auf zwei männlichen Sprecher – auch in der Spontansprache realisiert. Der Unterschied zwischen gelesener und spontaner Sprache schwankt bei den weiblichen Sprechern zwischen 3,07 st (2w13) und 5,51 st (1w1) und bei den männlichen Sprechern zwischen 4,61 st (1m3) und 8,28 st (1m1).
439Die Unterschiede zwischen den Sprechern in der Spontansprache liegen unter anderem am Involviertheitsgrad und dem Gesprächsthema. Sprecherin 2w13 echauffiert sich über eine nicht unwesentliche Zeit über ein politisches Thema, während Sprecher 1m1 eher eine erzählende, beschreibende, ruhige Sprechart aufweist.
440Die Unterschiede zwischen den beiden Sprechstilen lassen sich auf mehrere Faktoren zurückführen. Zum einen erhielten die Sprecher für das Experiment natürliche Lesesprache die Anweisung, den Target-Satz so natürlich wie möglich zu produzieren und sich vorzustellen, sich in der Situation zu befinden (und somit ‚ein bisschen Theater zu spielen‘). Das sorgte zum großen Teil für Überintonation, was die extremen Werte der Lesesprache erklärt. Außerdem kann auch die wesentlich geringere Anzahl untersuchter Phrasen einen Einfluss auf die Mittelwerte haben. Damit verbunden ist die Tatsache, dass in gelesener Sprache eine abschließende, also tiefe Intonation am Ende jedes Trägersatzes realisiert wird (besonders im Versuchsaufbau dieser Arbeit, in dem die Sprecher keinen kohärenten Text lesen), während sie in spontaner Sprache lediglich nach einem thematischen Ende produziert wird (Blaauw 1994). Auf diese Art fließen mehr tiefere f0-Minimum-Werte von abschließenden Phrasen in den Mittelwert gelesener Sprache ein als bei spontaner Sprache. Auch die langsamere Sprechgeschwindigkeit der Lesesprache könnte den f0‑Umfang dahingehend beeinflussen, dass für den Tonhöhenverlauf mehr Zeit zur Verfügung steht, die Kontur maximal auszuführen.
441Darüber hinaus stellt bereits (Vaissière 1983) fest, dass in Laborsprache eine starke Deklination zu beobachten ist, die Einfluss auf den f0-Umfang nimmt, wie in Abbildung 50 verdeutlicht wird.
442Eine starke Deklination (links) innerhalb einer Phrase verursacht einen größeren f0-Umfang als eine schwächere Deklination (rechts).
443Zusammenfassend kann also festgehalten werden, dass der f0-Umfang in der Lesesprache höher ausfällt als in der Spontansprache und dass weibliche Sprecher in der Spontansprache einen größeren f0-Umfang nutzen als männliche Sprecher (vgl. Tabelle 18).
Sprecher | Lesesprache (st) | Spontansprache (Gespräch) (st) |
1w1 | 14,7 | 9,2 |
1w6 | 11,6 | 6,5 |
2w6 | 14,2 | 10,4 |
2w12 | 14,6 | 9,2 |
2w13 | 15,7 | 12,6 |
2w15 | 17,3 | 12,6 |
1m1 | 14,0 | 5,8 |
1m2 | 11,8 | 6,2 |
1m3 | 12,5 | 7,9 |
1m4 | 14,7 | 7,8 |
2m1 | 14,0 | 7,8 |
2m4 | 16,1 | 8,4 |
Mittelwert | 14,3 | 8,7 |
444Als mögliche Tendenz kann aus den Werten zusätzlich interpretiert werden, dass junge Sprecher einen geringeren f0-Umfang aufweisen als ältere Sprecher. Ob es sich dabei um eine allgemeine Tatsache handelt, müsste anhand einer Untersuchung einer größeren Anzahl von Sprechern überprüft werden.
Fußnoten
400Die Halbtonwerte befinden sich in einem Bereich von ca. 70 st und 110 st, da diese der Darstellung in Praat von semitones re 1 Hz entsprechen, mit denen in dieser Arbeit gerechnet wurde. Das bedeutet, 1 Hz gilt als Referenzwert für die Umrechnung in Halbtöne. Bei semitones re 100 Hz dagegen gelten 100 Hz als Referenzwert, was niedrigere Halbtonwerte generiert. Die Differenz zwischen zwei Halbtonwerten aber bleibt in beiden Fällen gleich: So entspricht 145 Hz nämlich 86,16 st re 1 Hz bzw. 6,43 st re 100 Hz und 183 Hz entspricht 90,19 st re 1 Hz bzw. 10,46 st re 100 Hz, aber die Differenz von 38 Hz zwischen den Werten bleibt immer 4.03 st (Beispiel nach Boersma 2010 in < https://praat-users.yahoogroups.
400co.narkive.com/08oe59ms/semitone-scale > [Stand: 06.04.2020]).
401Zur Überprüfung, dieser Funktion, wurden 54 IPs von zwei verschiedenen Sprechern manuell auf Ausreißer geprüft und entsprechend korrigiert. Oktavsprünge oder Messpunkte, die mit dem auditiven Eindruck gar nicht übereinstimmen wurden entstimmlicht und in die Messung nicht miteinbezogen. Die Ergebnisse der manuell überprüften IPs wurden mit den Werten der mit PRAAT geglätteten Smooth-Funktion statistisch verglichen. Für keinen der getesteten Werte (f0-Maximum und -Minimum der gesamten IP und im Nukleus sowie die Gipfelposition) wurde ein signifikanter Unterschied festgestellt, so dass das automatische Glättungsverfahren als angemessen erachtet wird und für die Messungen eingesetzt werden kann. Die Messwerte können im Anhang eingesehen werden.
407Die Bezeichnungen horizontal und vertikal beziehen sich auf die in dieser Arbeit verwendete Darstellung des f0-Verlaufs, der stets als Frequenzveränderung (auf der vertikalen Y-Achse) über die Zeit (auf der horizontalen x Achse) abgebildet wird. Vertikale Parameter betreffen demnach die Frequenz und horizontale Parameter die Zeit.
415Die Grenzen hierfür werden bei 33%, 66% und 100% angesetzt (vgl. Abschnitt 7.4).
425Unter Dachlinie wird der gemittelte maximale Wert jeder IP verstanden, während als Grundlinie der gemittelte minimale Wert jeder IP ausgedrückt wird.
430Auch der Begriff pitch range wird in der Literatur verwendet (z. B. Mennen 2006), doch wird er ebenfalls als Überbegriff für pitch span und pitch level verwendet (s. unten) (Kainada und Lengeris 2015), so dass er hier nicht gebraucht wird, um Unklarheiten zu vermeiden.
430An der gemeinhin angenommenen, für eine Sprache ‚typischen‘ f0-Spanne (pitch span) kann u. a. die intonatorische Struktur beteiligt sein und nicht unbedingt der tatsächliche akustische f0-Umfang (vgl. Mennen et al. 2012).
430Zahlreiche Untersuchungen zur regionalen Prosodie liegen seit den 1990er Jahren vor (Gilles und Siebenhaar 2010).
430Der Autor merkt jedoch auch an, dass eine sehr große Variabilität herrscht und solche Aussagen vorsichtig getroffen werden müssen. Dies gilt insbesondere bei geringer Sprecheranzahl.
432Es gibt unterschiedliche Arten den Stimmumfang zu errechnen, so werden z. B. in vielen Arbeiten long term distributional measurements vorgenommen. Diese bestehen aus Messungen von f0-Maximum minus f0-Minimum, vier Standardabweichungen um den Mittelwert, der Differenz zwischen dem 95. und 5. Perzentil sowie der Differenz zwischen 90. und 10. Perzentil (vgl. dazu Mennen et al. 2008).
437Haan-van Ditzhuysen (2002, S. 53) merkt an, dass Frauen in ihrem kommunikativen Verhalten stärker involviert und hörerorientiert seien, was sich im Grad der Expressivität und Variation von Pitchkonturen niederschlage, was seinerseits den f0-Umfang erhöhen könne.