Vol. 1, No. 1, May 2019

L’acquisizione del Voice Onset Time dell’italiano L2 da parte dei sinofoni: uno studio sperimentale

The acquisition of Voice Onset Time of L2 Italian by Chinese speakers: an experimental study

Hao Xu, Università degli Studi di Firenze, Italia  https://orcid.org/0000-0001-8219-6681

Abstract

Il presente studio ha come obiettivo quello di misurare il valore di Voice Onset Time (VOT, l’intervallo di tempo tra l’esplosione del suono occlusivo e l’inizio delle vibrazioni periodiche del suono seguente) delle consonanti occlusive bilabiali e delle consonanti occlusive alveolari o dentali dell’italiano nella produzione orale dei parlanti cinesi. In questo esperimento, le produzioni dei parlanti sono state analizzate sotto forma di spettrogramma. I risultati dell’analisi hanno mostrato una forte diminuzione dei valori di VOT da parte di alcuni parlanti cinesi, spiegabile attraverso i successivi confronti tra occlusive sorde e sonore nelle due lingue. I sinofoni, invece di creare una nuova categoria fonetica, hanno cercato di rimpiazzare le occlusive sorde non aspirate presenti nella L1 con le occlusive sonore italiane perché questi due tipi di suoni, con alcune differenze, ricadono nella stessa categoria, definita short lag. Ciò dimostra che il VOT è un vincolo fonologico non facile da superare da parte di parlanti non nativi e rappresenta una proprietà fonetico-acustica che rimane salda nella produzione orale della L2.

Parole chiave: Voice Onset Time, apprendimento L2, cinese, italiano.

Abstract

The present study aims to measure the value of Voice Onset Time (VOT, the time interval between the occlusive sound explosion and the beginning of the periodic sound vibrations following) of bilabial occlusive consonants and alveolar occlusive consonants or dental Italian in oral production of Chinese speakers. In this experiment, the productions of the speakers were analyzed in the form of a spectrogram. The results of the analysis showed a strong decrease in VOT values by some Chinese speakers, which can be explained by the subsequent comparisons between deaf and sonorous occlusive in the two languages. The synophones, instead of creating a new phonetic category, have tried to replace the unaspirated deaf occlusive present in the L1 with the Italian sound occlusive because these two types of sounds, with some differences, fall into the same category, defined as short lag. This shows that the VOT is a phonological constraint that is not easy to overcome by non-native speakers and represents a phonetic-acoustic property that remains solid in the oral production of L2.

Keywords: Voice Onset Time, L2 learning, linguistics, Chinese, Italian.

1. Il concetto di Voice Onset Time

L’obiettivo primario del presente lavoro è quello di individuare i tratti fonetici caratteristici dell’interlingua basandosi sulla produzione del Voice Onset Time (VOT) delle consonanti occlusive dell’italiano L2. 

Una delle più grandi difficoltà fonetiche dei parlanti cinesi è la distinzione tra le occlusive sonore e sorde in italiano, poiché si tratta di una distinzione che il cinese mandarino non prevede (Rastelli, 2010). Al posto delle sonore e delle sorde italiane, in cinese sono presenti le categorie delle sorde non aspirate e delle sorde aspirate. A livello di spettro acustico, i suoni occlusivi presentano una struttura peculiare, facilmente identificabile nello spettrogramma. Alla fine dell’occlusione corrisponde un’assenza di segnale acustico, percettivamente equivalente ad un momento di silenzio. Nelle occlusive sonore è presente una barra di sonorità, riflesso diretto dell’attività delle pliche vocali. La fase di rilascio coincide con la cosiddetta esplosione o scoppio (burst) del segmento cui corrispondono, sullo spettrogramma, uno o più tratti verticali. L’esplosione è particolarmente evidente nelle occlusive sorde, molto meno nelle occlusive sonore (Busà, 1995)

Il cosiddetto Voice Onset Time o tempo di attacco della sonorità costituisce uno dei parametri più importanti per analizzare le categorie fonetiche della L1 e della L2. Esso consiste nell’intervallo di tempo compreso tra l’esplosione dell’occlusiva e il punto in cui hanno inizio le vibrazioni periodiche del successivo fono sonoro. A questo parametro, corrispondente ad una fase di frizione, è affidata la distinzione tra occlusive non aspirate ed occlusive aspirate, che presentano spesso un VOT particolarmente lungo. Acusticamente, le occlusive sorde mostrano una durata maggiore e un rumore di esplosione più intenso rispetto alle corrispettive sonore.

Il concetto di Voice Onset Time può essere fatto risalire al XIX secolo, quando Adjarian (1899) studiò per la prima volta le consonanti occlusive della lingua armena e le caratterizzò in base alla “relation qui existe entre deux moments, celui où la consonne éclate par l’effet de l’explosion de l’air hors de la bouche, ou l’explosion, et celui où le larynx entre en vibration”. Tuttavia, il concetto diventerà popolare soltanto negli anni ’60. Così come descritto da Lin e Wang (2011):

In quel tempo si discuteva su quali fossero gli attributi fonetici che permettessero una distinzione tra occlusive sonore e sorde. Ad esempio, la sonorizzazione, l’aspirazione e la forza articolatoria erano alcuni degli attributi che venivano regolarmente studiati. In inglese, la sonorizzazione può distinguere con successo /b, d, g/ da /p, t, k/ quando le occlusive sono nelle posizioni mediane delle parole, ma questo non è sempre vero per le occlusive iniziali di parola. Specificatamente, le occlusive sonore iniziali di parola /b, d, g/ sono solo parzialmente sonore, e a volte sono perfino sorde. (pp. 514-515)

Il concetto di Voice Onset Time acquisisce definitivamente il suo nome nel famoso studio di Lisker e Abramson (1964).

Dunque, l’analisi del valore di Voice Onset Time, oltre ad essere uno dei parametri più efficaci per esaminare i modi di produrre certe categorie di suoni da parte di differenti tipi di parlanti, contribuisce anche a darci informazioni sulla qualità dell’apparato fonetico e sull’andamento del trattamento logopedico. In più, rappresenta un fattore essenziale per determinare i vari stadi dell’apprendimento di una L2 (Wilkins, 1974).

1.1. Il Voice Onset Time negli studi interlinguistici

Lisker e Abramson (1964), nel loro studio interlinguistico del 1964 sull’analisi delle occlusive iniziali di parola, hanno definito il VOT come “the temporal interval from the release burst of the stop consonant to the onset of the first forman F1 frequency that reflects glottal vibration.” Successivamente, il Voice Onset Time è stato ampiamente utilizzato per analizzare i contrasti fonetici in diverse lingue del mondo (Cho & Ladefoged, 1999; Gosy, 2001; Keating, Linker, & Huffman, 1983; Khattab, 2000; Rochet & Fei, 1991; Riney et al., 2007; Zheng & Li, 2005). Molti studiosi hanno analizzato il Voice Onset Time in base al luogo di articolazione, alla velocità di eloquio, all’influenza delle vocali adiacenti e al carattere del bilinguismo dei parlanti (Benkì, 2001; Kessinger & Blumstein, 1997; Kewley-Port, Pisoni, & Studdert-Kennedy, 1983; Lléo & Rakow, 2004). Oltretutto, nel 1975 Klatt ha definito cinque parametri acustici rilevanti per la durata del VOT: la frequenza delle vocali susseguenti, il rumore dell’esplosione, la frequenza fondamentale, il prevoicing e la durata del segmento. Secondo lo studio condotto da Lisker e Abramson nel 1964, le occlusive possono essere classificate in due grandi categorie in base alla durata dell’esplosione calcolata in millisecondi: nella prima categoria rientrano i foni, chiamati lead, con VOT da -125ms a -75ms (sono in realtà suoni che presentano un VOT prima dell’esplosione); nella seconda categoria, definita generalmente lag, rientrano la classe dello short lag, con VOT che va da 0 a 25ms, e la classe del long lag, con VOT che va da 60ms a 100ms (i suoni che mostrano chiaramente il VOT dopo lo scoppio).

Gli studi condotti finora sul Voice Onset Time degli apprendenti cinesi sono relativi soprattutto al confronto tra il cinese mandarino L1 e l’inglese L2. Seguendo la classificazione sopracitata, Keating (1984) ha suddiviso i suoni dell’inglese con il VOT positivo in sonore, sorde non aspirate e sorde aspirate. Il cinese mandarino presenta solo due delle tre catogorie: le sorde non aspirate /p, t, k/ e le sorde aspirate  /pʰ, tʰ, kʰ/. Secondo i criteri della divisione di Lisker e Abramson (1964), le sorde non aspirate del cinese rientrano nella categoria dello short lag, ovvero dei suoni con il VOT da 0 a 25ms. In questa classe rientrano anche i foni di altre lingue, ad esempio le sorde non aspirate dell’inglese e le sonore dell’italiano, motivo per il quale questa somiglianza potrebbe facilitare l’apprendimento della L2 da parte dei sinofoni. Più problematica è invece la produzione delle occlusive “long lag” della L2. Diversi studi, tra cui quello di Lisker e Abramson (1964), si sono focalizzati sul confronto tra le sorde aspirate del cinese L1 e le sorde aspirate dell’inglese L2: i risultati statistici mostrano che generalmente il VOT del cinese L1 risulta più lungo rispetto al VOT dell’inglese L1; il che significa che anche se le sorde aspirate del cinese e quelle dell’inglese rientrano nella stessa categoria del long lag, le differenze sono comunque abbastanza evidenti.

1.2. Il Voice Onset Time in italiano e in cinese mandarino

L’inventario consonantico dell’italiano comprende occlusive bilabiali /p, b/, alveolari /t, d/ e velari /k, g/. Il quadro è perfettamente simmetrico: tutti i fonemi si oppongono per grado di sonorità e per quantità fonologica, ogni occlusiva è sia sorda che sonora, sia scempia che geminata. Quanto alla distribuzione, tutte le occlusive dell’italiano possono costruire l'attacco mono-consonantico di una sillaba, in posizione iniziale e interna. L’occlusiva nell’attacco complesso può essere preceduta da /s/ e, in entrambi i casi, il segmento può essere seguito da una vocale e da una consonante liquida. Dal punto di vista acustico, tutte le occlusive dell'italiano mostrano un burst in una sequenza occlusiva seguita da una vocale. I risultati di alcune ricerche su madrelingua italofoni hanno dimostrato che l’esplosione è meno evidente nelle occlusive sonore rispetto alle sorde, e la presenza dell’esplosione è relativamente bassa nel parlato spontaneo (Cerrato & Falcone, 1997).

Tutte le occlusive dell’italiano hanno il VOT positivo e, secondo la classificazione di Lisker e Abramson (1964), rientrano nella categoria lag, e più precisamente la short lag. Generalmente, però, il VOT delle occlusive sonore risulta leggermente più breve del VOT delle occlusive sorde. Secondo la classificazione della Phonological Segment Inventory Database (Maddieson, 1984), basata su 451 lingue del mondo, l’occlusiva più frequente in assoluto è /t/ (dentale o alveolare) seguita da /k/ e da /p/; le occlusive sorde sono nel complesso più comuni delle rispettive sonore; le non aspirate, infine, prevalgono nettamente sulle aspirate (Maddieson, 1984; Ladefoged & Maddieson, 1990). Queste tendenze sono dominanti anche in italiano, in cui l’occlusiva più frequente è /t/ e la meno ricorrente è /g/ (Mioni, 1973). Il medesimo comportamento è confermato anche per le geminate: /t:/ è seguita da /k:/ e infine da /p:/, e le occlusive /d:/ e /g:/ detengono le ultime posizioni per frequenza statistica (Mioni, 2001).

Nel cinese mandarino le categorie delle occlusive si differenziano solo per l'aspirazione; pertanto, le due classi di occlusive sono quella delle sorde non aspirate e quella delle sorde aspirate. Sempre in base alla classificazione di Lisker e Abramson (1964), le sorde non aspirate del cinese rientrano nella categoria dello short lag, mentre le sorde aspirate rientrano in quella del long lag. Per questo motivo, il VOT di unocclusiva aspirata si distanzia notevolmente da quello di un’occlusiva non aspirata.

2. Ipotesi iniziale dell’esperimento

L’ipotesi iniziale di questo studio è stata l’assunzione che la produzione delle consonanti occlusive bilabiali e alveolari costituisca uno degli elementi principali di devianza tra l’italiano parlato dai parlanti nativi e l’italiano dei cinesi. Riepilogando quanto detto sulle differenze tra i due sistemi consonantici, la difficoltà di produzione delle occlusive bilabiali e alveolari italiane da parte dei parlanti cinesi sta nel fatto che per questi ultimi l’opposizione tra la categoria di foni senza aspirazione e la categoria di foni con aspirazione forte si basa su una differenza notevole in termini di valori del VOT. In italiano, invece, la differenza tra i VOT di queste due classi di occlusive è molto più ridotta. Dunque, essendo abbastanza simili i valori del VOT delle occlusive sonore italiane e quelli delle sorde non aspirate cinesi, il nuovo VOT da imparare è quello delle sorde italiane. Si tratta quindi di vedere, dal punto di vista fonetico e fonologico, come i sinofoni affrontino questa nuova categoria. Sarebbe anche interessante stabilire se questi tendano a pronunciare le sorde italiane mantenendo l’aspirazione e quindi mantenendo il VOT della L1, oppure mutandola, quindi abbassando il VOT.

2.1. Corpus utilizzato

Per effettuare l’analisi, sono state scelte venti parole in ciascuna delle due lingue (italiano e cinese). Entrambe le serie di parole condividono la stessa struttura sillabica: la maggioranza delle parole è bisillabica, e sia la prima che la seconda sillaba iniziano per occlusiva. I segmenti fonici delle parole nelle rispettive lingue sono pressoché coincidenti: le parole con le occlusive sonore in italiano corrispondono alle parole che iniziano per occlusive sorde non aspirate in cinese, mentre quelle che iniziano con le sorde in italiano corrispondono in cinese alle parole che iniziano con le sorde aspirate. Le rispettive vocali che seguono le occlusive sono esattamente le stesse in tutte e due le lingue.

Le venti parole di ciascuna delle due lingue sono divise nello stesso modo in quattro gruppi. Il primo gruppo comprende le parole che iniziano per l’occlusiva bilabiale sonora:

 

Tabella 1. Parole inzianti con occlusiva bilabiale sonora

Italiano

Cinese

Bambù

Banbu

Beffa

Beifang

Beni

Beini

Bimbo

Pingbo

Il secondo gruppo comprende le parole che iniziano per occlusiva bilabiale sorda:

Tabella 2. Parole inzianti con occlusiva bilabiale sorda

Italiano

Cinese

Papà

Baba

Piombo

Pianpo

Pianto

Pianta

Pingue

Pingguo

Puppa

Bupa

Pipa

Pipa

Il terzo gruppo comprende le parole che iniziano per occlusiva alveolare o dentale sonora:

Tabella 3. Parole inizianti con occlusiva alveolare/dentale sonora

Italiano

Cinese

Dado

Daduo

Dante

Danding

Dici

Diji

Diluvio

Diluo

Ditta

Ditan

Infine, il quarto e l’ultimo gruppo comprendono le parole che iniziano per occlusiva alveolare/dentale sorda:

Tabella 4. Parole inzianti con occlusiva alveolare/dentale sorda

Italiano

Cinese

Tabù

Tabu

Tanto

Tangtu

Tita

Tita

Tu

Tu

Tuffo

Tufa

Si fa presente che per alcune parole come “bimbo”, “papà” e “puppa” non vi è una coincidenza perfetta, ma alla sonora italiana corrisponde una sorda aspirata cinese e viceversa. Ogni parola è stata inserita in una frase contenitore in ciascuna delle due lingue. Per evitare l’effetto di allungamento vocalico che si produce quando una parola si trova nella posizione finale della frase, tutte le parole target sono state collocate in posizione intermedia, in modo che la durata del VOT non sia influenzata dalla vocale finale. Sia la frase contenitore in italiano che quella in cinese hanno due sillabe prima della parola da analizzare e tre sillabe dopo. Le parole italiane e la frase contenitore sono elencate nella tabella 1, mentre le parole cinesi e la loro frase contenitore sono elencate nella tabella 2.

Tabella 5: Le parole in italiano e la frase contenitore

Frase: Dico ____________ di nuovo

Parole:

1. Papà

2. Bambù

3. Beffa

4. Beni

5. Bimbo

6. Dado

7. Dante

8. Dici

9. Diluvio

10. Ditta

11. Piombo

12. Pianto

13. Pingue

14. Puppa

15. Pipa

16. Tabù

17. Tanto

18. Tita

19. Tu

20. Tufo

Tabella 6. Le parole in cinese e la frase contenitore

Frase: Wo shuo ____________ zhe ge ci[1]

Parole:

1. Baba

2. Banbu

3. Beifang

4. Beini

5. Pingbo

6. Daduo

7. Danding

8. Diji

9. Diluo

10. Ditan

11. Pianpo

12. Pianta

13. Pingguo

14. Bupa

15. Pipa

16. Tabu

17. Tangtu

18. Tita

19. Tu

20. Tufa

2.2. Soggetti

           Sono stati coinvolti nell’esperimento sia soggetti italofoni, le cui produzioni orali sarebbero servite come punto di riferimento, che sinofoni in corso di apprendimento dell’italiano L2. Gli italofoni sono undici studenti del corso di Lingue e Letterature Moderne dell’Università di Padova, tutti di origine veneta e di età compresa tra i 20 ed i 25 anni.

Nella selezione dei soggetti cinesi si è tenuto conto delle seguenti caratteristiche, in modo da classificarli in gruppi omogenei. 

I parlanti sottoposti all’esperimento sono tutti studenti universitari di età compresa tra i 20 e i 25 anni. La scelta deriva dall’intenzione di analizzare l’interlingua degli apprendenti in contesti guidati.

         I soggetti coinvolti in questo esperimento fonetico provengono tutti dalle regioni centro-settentrionali della Cina. Visto il vastissimo repertorio linguistico del Paese, infatti, quasi tutti i parlanti sinofoni sono dialettofoni, mentre il cinese mandarino inteso come lingua standard è la lingua di scolarizzazione per tutti. Grazie alla stretta somiglianza fonologica tra il cinese standard e le varietà del nord, i parlanti di origine settentrionale si considerano più vicini alla pronuncia standard indipendentemente dal grado di istruzione, mentre il sistema fonologico dei parlanti di origine meridionale tende a differenziarsi in numerose varianti, che si discostano anche in maniera considerevole dalla pronuncia standard della variante ufficiale.

          Gli undici informanti sono divisi in tre gruppi in base al livello di competenza. Le quattro ragazze del primo gruppo hanno una competenza di livello A2 secondo il Quadro Comune Europeo di Riferimento (QCER). I quattro ragazzi del secondo gruppo hanno una competenza linguistica relativamente superiore e hanno dichiarato di aver superato il test di livello B2. Le tre ragazze del terzo gruppo hanno raggiunto invece il livello C2.

           Tutti gli undici parlanti hanno ottenuto il diploma della scuola superiore nel paese di origine. Tra questi, tre ragazze del primo gruppo e due del terzo hanno anche la laurea quadriennale.[2] 

           Tutti i soggetti del gruppo A vivevano in Italia da dieci mesi a due anni al momento della raccolta dei dati, e attualmente vivono insieme a coinquilini italiani, perciò hanno un input[3] abbastanza elevato. I ragazzi del secondo gruppo erano in Italia da circa quattro anni circa e vivono ora tra cinesi, perciò la quantità d’input è relativamente più bassa. Tutti i parlanti dei due gruppi hanno avuto nel contesto LS un tempo di apprendimento che va dai tre ai sei mesi. Tre delle ragazze del terzo gruppo erano in Italia da meno di 12 mesi, ma avevano avuto mediamente sette anni di apprendimento nel contesto LS.

             Si riporta qui lo schema che sintetizza le informazioni generali dei soggetti:

Tabella 7: Riepilogo dati dei soggetti di madrelingua cinese

 

CIN1

CIN2

CIN3

CIN4

CIN5

CIN6

CIN7

CIN8

CIN9

CIN10

CIN11

Sesso

F

F

F

F

M

M

M

M

F

F

F

Età

24

25

25

24

26

22

24

22

25

25

22

Età di inizio apprendimento

22

23

23

22

23

19

20

19

18

18

16

Durata di apprendimento in contesto LS

6 mesi

0

6 mesi

6 mesi

6 mesi

4 mesi

6 mesi

3 mesi

7 anni

7 anni

6 anni

Durata di apprendimento in contesto L2

18 mesi

2 anni

2 anni

2 anni

3 anni

3 anni

5 anni

4 anni

10 mesi

10 mesi

10 mesi

Tempo di permanenza in Italia

18 mesi

2 anni

2 anni

2 anni

3 anni

3 anni

5 anni

4 anni

10 mesi

10 mesi

10 anni

Tempo di esposizione all’italiano L2

Circa 50%

Più di 50%

Più di 70%

Più di 70%

Meno di 30%

Circa 50%

Meno di 30%

Meno di 30%

Circa 50%

Circa 50%

Più di 50%

Livello di competenze

A2

A2

A2

A2

B2

B2

B2

B2

C2

C2

C2

            I soggetti cinesi sono stati divisi in tre gruppi a seconda del livello di competenza linguistica certificata. I primi due gruppi sono composti rispettivamente da quattro soggetti, mentre il terzo gruppo è composto da tre soggetti per l’impossibilità di trovare più parlanti cinesi di origine centro-settentrionale che abbiano ottenuto il certificato d’italiano C2.

              3. Metodo

Ai soggetti italiani è stato chiesto di leggere ad alta voce e con velocità e intonazione naturali la lista di frasi in italiano contenente le venti parole target. Ai soggetti cinesi è stato chiesto invece di leggere sia le frasi in italiano che quelle in cinese. Sono stati inoltre avvisati che in caso in stanchezza avrebbero potuto fermarsi. Tutte le registrazioni sono avvenute in condizioni di assoluto silenzio e sono state analizzate utilizzando Praat.

Sono state raccolte 220 registrazioni di italiano L1 prodotte dai soggetti italiani, 220 registrazioni di italiano L2 e 220 registrazioni di cinese L1 prodotte dai soggetti cinesi. Come primo passo, sono state selezionate le parole oggetto di analisi all’interno di ogni frase. Una volta individuate le parole, sono state eseguite le misurazioni delle caratteristiche essenziali nella caratterizzazione del Voice Onset Time delle occlusive iniziali, ovvero è stato individuato l’intervallo che intercorre tra la barra verticale scura che indica lo scoppio dell’occlusiva e l’inizio dell’oscuramento dello spettro che corrisponde all’inizio delle vibrazioni della glottide per la vocale che segue. Così, il VOT è misurato a partire dall’istante in cui l’occlusione della consonante si apre. Per esempio:

Illustrazione 0. La parte selezionata è il tempo di attacco di sonorità della sillaba /pa/ di “papà” in un parlante italiano

           Dal momento che le strutture delle frasi contenitore in due lingue differenti non risultano essere perfettamente identiche, alcune differenze sulla parola target sono inevitabili. Si riportano qui la prima e la seconda sillaba di alcune parole che iniziano con occlusive sonore in italiano a confronto con quelle in cinese.

Illustrazione 1. /ba/ di “bambù” in italiano L1; Illustrazione 2. /bu/ di “bambù” in italiano L1

Illustrazione 3. /ba/ di “bambù” in italiano L2, livello A; Illustrazione 4. /bu/ di “bambù” in italiano L2, livello A

Illustrazione 5. /ba/ di “bambù” in italiano L2, livello B; Illustrazione 6. /bu/ di “bambù” in italiano L2, livello B

Illustrazione 7. /ba/ di “bambù” in italiano L2, livello C; Illustrazione 8. /bu/ di “bambù” in italiano L2, livello C

Illustrazione 9. /ba/ di “banbu” in cinese L1; Illustrazione 10. /bu/ di “banbu” in cinese L1

Le misurazioni mostrano che i VOT delle /b/ iniziali dell’italiano sono minimi (vanno da 10 a 15ms circa). Come durata dei segmenti, si può notare che la parola pronunciata dagli italiani ha una durata minore della stessa parola pronunciata dai parlanti cinesi, e la parola con la pronuncia simile in cinese ha una durata evidentemente maggiore. Tra l’altro, è interessante osservare che gli apprendenti cinesi pronunciano le singole parole dell’italiano con i toni primo, quarto e quinto, a seconda della struttura sillabica della parola. Per esempio, alle parole monosillabiche come tu viene assegnato un quarto tono alla vocale tonica, nelle parole ossitone come bambù i due toni rispettivamente attribuiti alle due sillabe sono il primo e il quarto.

Le seguenti illustrazioni mostrano alcune parole che iniziano con le occlusive sorde in italiano a confronto con quelle che iniziano con le sorde aspirate in cinese.

Illustrazione 11. /pi/ di “pianto” in italiano L1; Illustrazione 12. /to/ di “pianto” in italiano L1

Illustrazione 13. /pi/ di “pianto” in italiano L2, livello A; Illustrazione 14. /to/ di “pianto” in italiano L2, livello A

Illustrazione 15. /pi/ di “pianto” in italiano L2, livello B; Illustrazione 16. /to/ di “pianto” in italiano L2, livello B

Illustrazione 17. /pi/ di “pianto” in italiano L2, livello C; Illustrazione 18. /to/ di “pianto” in italiano L2, livello C

Illustrazione 19. /pi/ di “pianta” in cinese L1; Illustrazione 20. /ta/ di “pianta” in cinese L1

3.1. Valori del VOT dei parlanti cinesi del livello A

Per questo gruppo di parlanti, i valori del VOT sono marcatamente più elevati di quelli dei parlanti italiani, sia nella prima che nella seconda occlusiva, sia per le sonore che per le sorde. Tuttavia, confrontando i valori del VOT della lingua seconda con quelli della L1, si nota che il nuovo VOT si è abbassato molto rispetto a quello della L1. Diversamente dai parlanti nativi, la differenza tra i VOT della prima e della seconda occlusiva non è significativa. Nell’emissione di alveolari e labiali, inoltre, mentre i parlanti nativi confermano la regola stabilita dagli studi pregressi, i sinofoni di livello A mostrano una tendenza opposta. In generale, il VOT delle occlusive alveolari /t/ e /d/ risulta minore di quello del VOT delle rispettive bilabiali.

3.2. Valori del VOT dei parlanti cinesi del livello B

Rispetto al primo gruppo, i dati raccolti dalle produzioni dei parlanti del secondo gruppo mostrano un ulteriore abbassamento del VOT in tutti e quattro i suoni. Al contrario, non si osserva più la differenza sistematica tra le sonore /b, d/ e le sorde /p, t/ in quanto dal calcolo dei valori medi risulta che il VOT di tutte le parole che iniziano con /b/ ha una durata media di 14ms, la quale è minore della media del VOT delle parole che iniziano per /p/, pari a 20ms; invece, la media del VOT del gruppo di parole che iniziano con la /d/ risulta essere di 21ms, quindi maggiore della media del VOT della sua variante sorda /t/, che presenta un valore medio di 17ms. Ciò, in teoria, non dovrebbe succedere né in L2 né in L1.

3.3. Valori del VOT dei parlanti cinesi del livello C

I valori del VOT di questo gruppo di parlanti sono più bassi di quelli di tutti e due i gruppi precedenti. Per le sorde i due valori sono leggermente più alti dei parlanti italiani, mentre per le sonore i valori sono pressoché uguali, con una differenza minima di 2ms. In più, si nota una differenza sistematica tra la categoria delle sorde e quella delle sonore.

Lo schema riportato qui sotto sintetizza i valori numerici del VOT dei suoni occlusivi dell’italiano prodotti rispettivamente dai quattro gruppi di parlanti.

Tabella 8: Confronto VOT media prodotti da parlanti italiani e cinesi

Media dei VOT

Parlanti italiani

Parlanti cinesi A

Parlanti cinesi B

Parlanti cinesi C

/b/

10ms

18ms

14ms

11ms

/d/

10ms

17ms

21ms

12ms

/p/

15ms

30ms

20ms

21ms

/t/

18ms

22ms

17ms

19ms

           

Calcolando la media dei valori prodotti dagli undici sinofoni in cinese L1, si osserva che per le sorde aspirate i VOT prodotti dai parlanti dei primi due gruppi (A e B) sono pressoché simili, mentre i VOT delle tre parlanti del terzo gruppo (C) risultano più vicini al VOT dei parlanti nativi.

Tabella 9: Confronto VOT media prodotti da parlanti cinesi

VOT

cin_A

cin_B

cin_C

/ph/

85ms

88ms

69ms

/th/

88ms

94ms

82ms

/p/

14ms

13ms

14ms

/t/

18ms

20ms

16ms

 

4. Risultati

4.1 Soggetti cinesi del livello A

Tra tutti i parlanti non nativi, le ragazze del primo gruppo risultano essere state in contesto L2 per meno tempo, eppure il loro progresso risulta più evidente rispetto a tutti gli altri, in quanto hanno mostrato un sorprendente abbassamento del VOT nelle occlusive sorde bilabiali dell’italiano.

I precedenti studi interlinguistici sul confronto tra il VOT dell'inglese e quello del cinese mandarino ci hanno dimostrato che i cosiddetti “valori compromessi” del nuovo VOT si collocano in una posizione intermedia tra il VOT della L1 e il VOT della L2, ma questi nuovi valori risultano essere comunque più vicini ai valori standard della L1 (Rochet & Fei, 1991). Questo risultato sembra facilmente accettabile in quanto è risaputo che quando un individuo inizia ad apprendere una L2 in età adulta è quasi impossibile che si liberi completamente dai vincoli fonologici della madrelingua. Mentre gli adulti potrebbero padroneggiare in maniera migliore la morfologia, il lessico e la sintassi di una L2 rispetto ai bambini, a livello fonetico e fonologico non raggiungeranno quasi mai il grado di accuratezza che potranno raggiungere questi ultimi, così da avere un accento indistinguibile da quello dei parlanti nativi (Ciliberti, 1994).

Pertanto, i risultati del VOT delle sorde italiane e il VOT delle sorde aspirate cinesi in questo gruppo di soggetti sembrano poco convincenti, in quanto contravvengono a questa regolarità osservata da numerosi studi. Per capire questo fenomeno, sì è passati ad osservare il VOT delle sonore italiane e il VOT delle sonore (o sorde non aspirate) cinesi. I dati statistici mostrano che il VOT medio della /p/ italiana è pari a 15ms e il VOT medio della /b/ prodotto da questi parlanti è pari a 14ms; il VOT medio della /t/ italiana è pari a 18ms e in questo caso coincide esattamente con il VOT medio della /d/ in cinese. A questo punto pare lecito chiedersi come mai i parlanti del livello A hanno “miracolosamente” abbassato il VOT nelle occlusive sorde in italiano L2, raggiungendo rispettivamente per la /p/ e la /t/ 30ms e 22ms. Il confronto tra le sonore italiane e le sonore cinesi ci dice chiaramente che i parlanti di questo gruppo non hanno veramente imparato la nuova categoria, ma hanno soltanto cercato di sostituire le sonore alle sorde, producendo le /p/ come /b/ e le /t/ come /d/.

Figura 1. L’opposizione tra sonore e sorde prodotta dai soggetti cinesi di livello A

4.2. Soggetti cinesi del livello B 

I quattro soggetti del secondo gruppo hanno prodotto per le sorde italiane un VOT apparentemente minore di quello dei parlanti del gruppo precedente: dai 30ms per la /p/ e dai 22ms per la /t/ sono scesi rispettivamente a 20ms e 17ms. Questa volta, confrontando sempre le sorde italiane con le sonore cinesi, si nota che la /p/ italiana ha la durata di 15ms e la /b/ cinese di 13ms, mentre la /t/ italiana dura 18ms e la /d/ cinese 20ms. Dunque, le differenze sono sempre minime, e la maniera con cui hanno abbassato il VOT delle sorde da 88ms e 94ms del cinese a 20ms e 17ms dell'italiano L2 è da ricondursi sempre alla sostituzione. Inoltre, è importante notare nei grafici statistici che questi parlanti fanno parte dell’unico gruppo per cui la distinzione tra le sonore e le sorde italiane è minima, ovvero di 1ms.

Figura 2. L’opposizione tra sonore e sorde prodotta dai soggetti cinesi di livello B

4.3. Soggetti cinesi del livello C

La prima caratteristica di questi tre parlanti consiste nel fatto che il loro VOT in cinese L1 risulta relativamente più basso rispetto a quello dei parlanti dei primi due gruppi. Questo potrebbe essere uno degli effetti della L2 sulla L1 data la loro lunga esperienza di apprendimento nel contesto LS. Ormai molti studi sull’apprendimento delle lingue straniere e sul bilinguismo hanno confermato che l'interferenza non avviene in una direzione unica, ma si tratta di un passaggio bidirezionale su tutti i livelli della lingua, dalla fonetica/fonologia alla pragmatica (Ciliberti, 1994). Quanto alla loro produzione in italiano L2, si nota che si ha una distinzione sistematica tra le sorde e le sonore. A differenza dei due gruppi precedenti, poi, osserviamo che tutte e due le sonore che i parlanti hanno prodotto in L2 presentano un VOT minore rispetto alle sonore prodotte in L1.

Figura 3. L’opposizione tra sonore e sorde prodotta dai soggetti cinesi di livello C

5. Conclusione

È stato interessante osservare che le consonanti occlusive sorde (con aspirazione) del cinese mandarino sono caratterizzate da un valore del VOT molto maggiore rispetto all’italiano, ma per le occlusive sorde dell’interlingua, invece di collocarsi in una posizione intermedia tra la L1 e la L2, come è stato dimostrato da diversi altri studi precedenti condotti su altre lingue, si verifica un brusco abbassamento rispetto ai valori della L1. Partendo dall’analisi e dal confronto dei dati, lo studio ha tentato di fornire un’interpretazione di tale fenomeno: gli apprendenti sinofoni, anziché creare una categoria fonetica distinta da quella della lingua di partenza che li avvicini progressivamente ai valori target della lingua di arrivo, sostituiscono alle sorde dell’italiano la categoria delle sonore non aspirate, già presente nella L1, che risulta incidentalmente simile alle sonore italiane. Così, l’effetto non è altro che quello di creare maggior confusione nella distinzione tra le sorde e le sonore dell’italiano. Ciò dimostra che il Voice Onset Time è una barriera fonologica non facile da superare da parte dei parlanti non nativi, in quanto si tratta di una proprietà fonetico-acustica che permane stabilmente nella produzione in L2.

Bibliografia

Adjarian, H. (1899). Les explosives de l'ancien arménien étudiées dans les dialectes modernes, La Parole.  Revue internationale de Rhinologie, Otologie, Laryngologie et Phonétique expérimentale, 119-127

Benkì, J. R. (2001). Place of articulation and first formant transition pattern both affect perception of voicing in English. Journal of Phonetics, 29, 1-22.

Busà, M. G. (1995). Inglese degli italiani. Padova: Unipress.

Cerrato, l., & Falcone, M. (1997). Il burst nelle occlusive in sequenze VCV e VC:V dell’italiano: un’analisi acustica. In Atti delle VIII Giornate di Studio del Gruppo di Fonetica Sperimentale. Pisa.

Cerrato, L., & M. Falcone (1997). Il burst nelle occlusive in sequenze VCV e VC:V dell’italiano: Un’analisi acustica. In P. M. Bertinetto & L. Cioni (Eds), Unità fonetiche e fonologiche: produzione e percezione. Atti delle VIII Giornate di Studio del Gruppo di Fonetica Sperimentale. Scuola Normale Superiore di Pisa, (Pisa 1997), (pp. 29-40). Pisa: Stamperia SNS.

Ciliberti, A. (1994), Il manuale di glottodidattica, Firenze, La Nuova Italia.

Cho, T., & Ladefoged, P. (1999). Variation and universals in VOT: evidence from 18 languages. Journal of Phonetics, 27, 207-229.

Gosy, M. (2001). The VOT of the Hungarian voiceless plosives in words and in spontaneous speech. International Journal of Phonetics, 4, 75-85.

Keating, P. A., Linker, W., & Huffman, M. (1983). Patterns in allophone distribution for voiced and voiceless stops. Journal of Phonetics, 11, 277-290.

Kessinger, R. H., & Blumstein, S. E. (1997). Effects of speaking rate on voice-onset time in Thai, French and English. Journal of Phonetics, 25(2), 143-168.

Khattab, G. (2000). VOT production in English and Arabic bilingual and monolingual children. In D.C. Nelson & P. Foulkes (eds) Leeds working papers in linguistics and phonetics 8 (pp. 95–122). Leeds, UK: University of Leeds.

Kewley-Port, D., Pisoni, D., & Studdert-Kennedy, M. (1983). Perception of Static and dynamic acoustic cues to place of articulation in initial stop consonants. Journal of the Acoustical Society of America73(5), 1779-1793.

Ladefoged, P., & Maddieson I. (1990). Vowels of the world's languages. Journal of Phonetics, 18, 93-122.

Lin, C.Y. & Wang, H. C. (2011). Automatic estimation of voice onset time for word-initial stops by applying random forest to onset detection. Acoustical Society of America Journal, 130 (1), 514-525.

Lisker, L. & Abramson, A. S. (1964). A cross-language study of voicing in initial stops: Acoustical measurements. Word, 20, 384-422.

Lléo C., & Rakow M. (2004). Markedness Effects in the Acquisition of Voiced Stop Spirantization by Spanish-German Bilinguals. Proceedings of the 4th International Symposium on Bilingualism, 1354-1371

Maddieson, I. (1984). Patterns of sounds. Cambridge: Cambridge University Press.

Mioni, A. M. (1973). Fonematica contrastiva. Bologna: Il Mulino.

Mioni, A. M. (2001). Elementi di fonetica. Padova: Unipress.

Rastelli, S. (2010). Italiano per cinesi. Dalla prospettiva didattica acquisizionale. Perugia: Guerra Edizioni.

Riney, T. J., Takagi, N., Ota, K., & Uchida, Y. (2007). The intermediate degree of VOT in Japanese initial voiceless stops. Journal of Phonetics, 35, 439-443.

Rochet, B. L., & Fei, Y. (1991). Effect of consonant and vowel context on Mandarin Chinese VOT, production and perception. Canadian Acoustics, 19, 105-106.

Wilkins, D. (1974) Second language learning and teaching. London: Edward Arnold.

Zheng, X. R., & Li, Y. H. (2005). A contrastive study of VOT of English and Korean Stops. Journal of Yanbian University, 3,185-193.

Received on 14 October 2018 and accepted for publication on 09 February 2019.


[1] La frase in cinese significa letteralmente “Io dico la parola...”.

[2] La laurea di primo livello in Cina dura quattro anni.

[3] “L’input a disposizione degli apprendenti di lingue seconde è costituito dal materiale grezzo da cui gli apprendenti stessi  ricavano sia il significato sia la consapevolezza di strutture e regole.