Sicilianu | English |
Doppu anni di sviluppu, lu nostru tradutturi sicilianu ora traduci assai beni. Pi esempiu:
Chissi sunnu certuni dî sò successi, però truviriti na para di cosi ca la machina nun traduci beni. Vi prejamu di focalizzari la vostra attenzioni supra lu nostru successu.
Dî nostri esperimenti, mparamu comu criari un bon tradutturi pi la lingua siciliana. E avìamu puru a ricogghiri abbastanza testu parallellu (i.e. para di frasi tradotti). Comu vidistivu, è un compitu ca ci voli assai tempu.
Sviluppamu li mezzi nicissari pi criari un tradutturi neurali pi la lingua siciliana. Eccu picchì lu nostru furnisci megghiu qualità di traduzzioni dî mudelli sviluppati di granni cumpagnii.
Duranti l'addestramentu, un tradutturi neurali "si nzigna" a traduciri attraversu un prucessu di tintativi ed erruri. Lu mudellu prima prividi na traduzzioni. Poi cunfronta la sò previsioni a la traduzzioni corretta e conza li parametri dû mudellu nta la direzioni ca chiù riduci l'erruri.
In àutri palori, bisogna fari tanti sbagghi prima ca cumincia a traduciri in manera giusta. E sulu ora – doppu aviri cumminatu lu nostru nicu nzemi di frasi siciliani-nglisi c'un inzemi assai granni di frasi taliani-nglisi e doppu aviri "tradottu in darrè" quasi un miliuni di frasi siciliani in nglisi e in talianu – avemu l'inzemi di dati abbastanza granni pi fari la granni quantità di sbagghi ca pruduci un bon tradutturi.
Lu nostru nzemi di dati havi sulu 20,016 para di frasi siciliani-nglisi e 10,649 para siciliani-taliani dî quali lu mudellu pò nzignarisi a traduciri. Pi paraguni, di solitu si addestra un modellu neurali di traduzzioni cu miliuni di para. Pi chissu avissimu a sviluppari un inzemi di dati cu miliuni di para.
Costruemu lu nostru nzemi di dati cu li nummira di Arba Sicula e puru dî pruverbi siciliani, dâ puisia e dî Favuli di Pitrè ca traducìu Arthur Dieli. Ni hannu aiutatu tantu e ci ringraziamu pû sò sustegnu e ncuraggiamentu.
C'era na vota quannu spissu apparevanu traduzioni inaspittatamenti strani. Era normali a ddu puntu di sviluppu. Lu tradutturi produceva frasi inintelliggibbili picchì nun avevamu ancora ricugghiutu abbastanza testi parallelli. Pi esempiu, Koehn e Knowles (2017) usaru diversi quantità di testu parallellu pi addistrari na serii di mudelli ngrisi-spagnoli. Di sutta c'è na tavula dû sò saggiu:
chiù testu parallellu migghiura la qualità
Li frazioni nta la culonna sinistra sunnu la frazioni dî 386 miliuni palori ca furnìu l'ACL 2013 workshop. A bassa quantità di testu parallellu, lu mudellu pruduci frasi fluenti ca sunnu cumpletamenti disimparintati cu la frasi di fonti. Però comu si aumenta la quantità di testu parallellu, la traduzzioni veni perfetta.
E un saggiu di Sennrich e Zhang (2019) suggirisci ca lu metudu di suddivisioni in suttapalori ni pirmetti di criari un bon tradutturi cu pochi cintinara di migghiara di palori (i.e. assai menu di li miliuni dî quali avevanu bisognu Koehn e Knowles du' anni prima). La suddivisioni in suttapalori di solitu ci aiuta ô tradutturi a truvari boni traduzzioni pi palori ca nun apparsiru nta li dati di addestramentu o apparsiru raramenti.
Pi esempiu, la palora jatta apparsiru sei voti nta li dati di addestramentu, mentri la sò varianti gatta sulu una vota. Però lu tradutturi traduci gatta correttamenti picchì li palori venunu divisi nta: j@@ atta e g@@ atta.
Lu svantaggiu è ca àutri palori rari comu cravatta, ca apparisci deci voti nta lu nzemi di data, veni divisa nta: crav@@ atta. Nta na versioni precedenti di stu tradutturi sta suddivisioni causava ca la palora veni tradotta comu cat (gattu).
E propriu comu l'immissioni di traduzzioni è na sequenza di suttapalori, lu prodottu di traduzzioni è puru na sequenza di suttapalori. Di solitu la juncitura dî suttapalori ricria palori riali, ma quacchi vota lu tradutturi "nventa na palora."
Pi esempiu, un utenti cunfusu dumannau chi è un fraggant. È la mè nova palora pi qualsiasi cumminazioni di suttapalori scuraggiantimenti sbagghiata.
Picchì avemu menu dati di addestramentu, avevamu a usari chiù suddivisioni. Picchissu lu nostru mudellu pruduceva chiù fragganti. Riduciri lu vocabbulariu cu na suddivisioni in suttapalori ni renni pussibbili addistrari un tradutturi cu pochi migghiara di versi di testu parallellu, ma ritorna puru assai fragganti.
Ora ca avemu ricugghiutu abbastanza testi parallelli, putemu usari menu suddivisioni in suttapalori e addistrari un bon mudellu cu megghiu qualità di traduzzioni e menu fragganti.
Fussi beddu si sta machina putissi traduciri la mè ricerca in sicilianu. Ma lu nostru mudellu nun fu addistratu supra la littiratura economica. Fu addistratu supra la littiratura siciliana. Allura nun pò traduciri lu mè mudellu Robinson Crusoe in sicilianu. A lu megghiu traduci lu romanzu Robinson Crusoe in sicilianu.
In generali, li frasi ca traduci megghiu sunnu frasi simili a chiddi cu li quali lu mudellu fu addistratu.
Pi copriri la lingua e la grammatica funnamentali, lu nostru nzemi di dati includi li compiti e esempi dî libbra di testu Mparamu lu sicilianu (Cipolla, 2013) e Introduction to Sicilian Grammar (Bonner, 2001). Pi includiri lu dialogu e lu discursu cutidianu, lu nostru nzemi di dati includi 34 Favuli di Giuseppe Pitrè ca traducìu Arthur Dieli. E pi copriri la cultura, la littiratura e la storia siciliana, lu nostru nzemi di dati includi 24 nummira di Arba Sicula.
Pi aumintari lu nostru nzemi di dati, David Massaro contribbuìu la sò ricota di traduzzioni biblichi e Marco Scalabrino contribbuìu li sò traduzzioni di canzuni miricani.
E pi daricci a lu mudellu la capacità di traduzzioni multilingui e pi furniricci chiù esempi dî quali pò nzignarisi a traduciri, includemu puru li testi talianu-nglisi di Libbra di Farkas, dû corpu biblicu di Edinburgh, dû ParaCrawl e dû WikiMatrix e dû prujettu No Language Left Behind di Facebook ntô nostru nzemi di dati. Tutti li cincu sunnu disponibbili ô prujettu OPUS.
Li frasi simili a chiddi truvati nta ddi fonti sunnu li frasi ca sta machina traduci megghiu. Pi na bona discussioni di li sfidi principali ntâ traduzzioni miccanica, si preja di leggiri lu saggiu di Koehn e Knowles (2017).
Pi spanniri lu dominiu dû nostru tradutturi, avemu bisognu di frasi di àutri domini. Una possibili fonti è Wikipedia. Si traducissimu articuli di Wikipedia ngrisi, putissimu spanniri la Wikipedia siciliana e spanniri lu dominiu dû nostru tradutturi. Fussimu cuntenti d'assistiri in tali travagghiu.
E cuntinuamu a ricogghiri testu sicilianu picchì vulemu sviluppari un bon tradutturi pi lu dominiu di cultura, littiratura e storia siciliana.
Basta digitari la frasi ca vuliti traduciri nta la casedda d'immissioni, scegghiri la direzioni disiddirata (i.e. o "sicilianu-nglisi" o "nglisi-sicilianu") e ncarcari lu pulsanti "traduci".
Pi li megghiu risultati ntâ traduzzioni dû sicilianu a l'inglisi, si havi a usari lu sicilianu stinnardu discrittu sutta. Pi esempiu, si havi a scriviri dici (nun rici) e bedda (nun bella), ecc. E nun si usa l'apostrofu nta lu postu di l' i elisu. Pi esempiu, si havi a scriviri mparamu (nun 'mparamu) e si havi a scriviri nzignamunni (nun 'nzignamunni), ecc.
La lingua siciliana prisintata ccà nun rapprisinta nuddu dialettu particulari. Prisenta la lingua ca la riti neurali mparau di li para di frasi tradotti. Pi mancanza di na palora megghiu, lu chiamu: sicilianu stinnardu.
Attraversu lu scegghiri e lu canciari, li frasi siciliani riflettunu li normi ca lu pruf. Cipolla sviluppau nta lu testu Mparamu lu sicilianu. Lu sviluppu d'un corpu di testu sicilianu di àuta qualità richiedi na norma, allura haiu circatu d'implimintari li normi dû pruf. Cipolla picchì stabilisci un àutu liveddu di qualità nta li sò traduzioni.
E data la natura dû compitu di traduzzioni, aumintai li sò normi cu li differenzi seguenti:
Li primi quattru differenzi distinguinu palori mpurtanti. In teoria, na riti neurali nun havi bisognu di tali distinzioni picchì si nzigna na serii di reguli ca distinguinu li diversi cuntesti. In pratica, la regula ca la riti neurali spissu si nzigna è chidda di traduciri na palora. Picchissu distinzioni aiutanu assai.
Li primi quattru differenzi ni dunanu la capacità di scriviri reguli ca cunvirtunu lu prodottu di na forma littiraria a na forma parrata: Vaiu a la scola → Vaiu â scola. Hai a parrari sicilianu → Hâ parrari sicilianu. Nautru sistema di reguli pirmetti ca l'immissioni accetta la forma littiraria e chidda parrata: Vaiu â scola chî libbra = Vaiu a la scola cu li libbra. Hê parrari cû prufissuri = Haiu a parrari cu lu prufissuri.
La quinta differenza, ÇI→CI, aiuta a criari na rapprisintazioni ASCII dâ lingua. Picchì avemu menu dati, è lucrusu riduciri chiddu ca avemu a la rapprisintazioni minima pratticabbili. Prima di traduciri, la machina pi primu allarga (ex.: mappa dû munnu → mappa di lu munnu), e poi leva li signi diacritici arristati (ex.: çiuri → ciuri, farmacìa → farmacia) e converti tuttu in minisculu.
L'ultima differenza è na differenza stilistica. Ripenzannucci, avissi a cunsultari cû pruf. Cipolla supra stu puntu. Nun lu fici. Allura la lingua siciliana prisintata ccà qualchi vota rifletti sta differenza stilistica.
Picchì nun traducìu sta frasi in manera giusta?
Lu tradutturi attuali fu addestratu c'un inzemi di dati di sulu 20,016 para di frasi siciliani-nglisi. Di solitu, si addestra un modellu miccanicu di traduzzioni cu miliuni di para. Avemu circatu di criari un bon tradutturi cu menu, ma nun è cumpletamenti possibili.
Vegnu di Suttasupra, pruvincia di Foraditesta. Putiti criari un tradutturi pû dialettu dû mè paisi?
Quannu hai 20,016 para di frasi suttasuprisi-nglisi, ni parramu.
Putiti aiutarimi a traduciri un documentu longu? Pozzu carricari un documentu pi traduzzioni?
Sì, certu! Eccu picchì sviluppamu un tradutturi! Vulemu aiutari a tutti a sciriviri chiù in sicilianu.
Ma si havi a aspittari menza ura (30 minuti) picchì un server virtuali ospita lu nostru modellu. Ci voli accelerazioni c'un GPU, un cumpunenti fisicu, p'offriri l'opzioni di carricari un documentu e, dui minuti doppu, scarricari la traduzzioni. Capisci ca lu prezzu d'accelerazioni è troppu àutu pi stu nicu prujettu.
Manna na posta elettronica a: eryk@napizia.com e rispunni cu la traduzzioni (o nautra soluzioni).
Comu criastivu stu tradutturi?
Cu traduzzioni neurali, na forma di intelligenza artificiali ca "si nzigna" a traduciri esaminannu migghiara di frasi ca traduceru essiri umani. La paggina Sicilian NLP havi na spiegazioni cumpleta. E poi jiri puru Darreri lu Sipariu e vidiri comu funziona lu tradutturi.
Copyright © 2018-2025 Eryk Wdowiak