Da questa pagina è possibile

  1. Ottenere informazioni sulle caratteristiche del sistema di interrrogazione e sui risultati ottenibili dalla consultazione del corpus MIDIA.
  2. Avere una descrizione del corpus MIDIA relativamente a: costituzione e organizzazione del corpus (scansione cronologica; tipologie di testi; dimensioni dei testi), fasi di realizzazione del corpus (preparazione dei testi del corpus; PoS tagging; revisione dei risultati automatici del PoS tagging; realizzazione del sistema di interrogazione).
  3. Consultare una bibliografia sulla formazione delle parole in italiano.
  4. Consultare una lista degli studi su MIDIA o che hanno utilizzato MIDIA come corpus di riferimento.
  5. Avere indicazioni su come citare e come contattare MIDIA, e informazioni sul progetto PRIN 2009 "La storia della formazione delle parole in italiano" e sulle persone che hanno realizzato MIDIA

Tabella dei contenuti

  1. Informazioni sulla consultazione del corpus MIDIA
    1. Requisiti
      1. Compatibilità browser
      2. Flash player (opzionale)
    2. Tipi di ricerche
      1. Ricerca semplice
      2. Ricerca tramite Espressione regolare
      3. Ricerca avanzata
    3. Lavorare con i risultati
      1. Scaricare i risultati
      2. Riordinare le colonne
      3. Riordinare i risultati
      4. Selezionare una o più righe
      5. Copiare una o più righe
      6. Cancellare una o più righe
      7. Filtrare i risultati
      8. Nascondere una o più colonne
    4. Esempi d'uso
      1. Mostrare una forma seguita da un'altra in contesto
      2. Esempio 2 - Mostrare la lista di frequenza di un lemma seguito e preceduto da una forma avente una PoS di interesse
  2. Descrizione del corpus MIDIA
    1. Costituzione e organizzazione del corpus
      1. Scansione cronologica
      2. Tipologie di testi
      3. Dimensione dei testi
    2. Fasi di realizzazione del corpus MIDIA
      1. Preparazione dei testi del corpus
      2. PoS tagging
      3. Revisione dei risultati automatici del PoS tagging
      4. Realizzazione del sistema di interrogazione
  3. Bibliografia sulla formazione delle parole in italiano
  4. Lavori su e con MIDIA
  5. Citazione di MIDIA e contatti

Informazioni sulla consultazione del corpus MIDIA

In questa sezione sono fornite informazioni sull'utilizzo dell'interfaccia che consente di accedere online al corpus MIDIA. Il corpus può essere consultato per reperire singole forme o lemmi. I risultati delle ricerche possono essere consultati online o scaricati.

Requisiti

Questa sezione offre una panoramica completa sui requisiti necessari per la corretta fruizione di MIDIA.

Browser

L'applicazione del corpus M.I.DIA. è stata realizzata e testata per supportare pienamente i seguenti browser:

  • Internet Explorer 8 e superiori
  • Firefox
  • Chrome
  • Opera
  • Safari

Flash player (opzionale)

Flash player non è strettamente necessario per l'utilizzo di M.I.DIA.; tuttavia la funzionalità che permette di copiare una o più righe dei risultati della ricerca è disponibile solo se il player è installato nel sistema.

Tipi di ricerche

Questa sezione contiene le istruzioni e le informazioni sui possibili tipi di ricerca effettuabili. Il servizio di interrogazione del corpus M.I.DIA. permette i seguenti tipi di ricerche: semplice; tramite espressione regolare; avanzata. Nel resto di questa pagina è possibile trovare informazioni sul loro funzionamento sui filtri disponibili.

Ricerca semplice

La ricerca semplice consiste nell'immettere nel campo di ricerca una stringa che verrà cercata, in modo esatto, all'interno del corpus. Il risultato di default è la forma cercata in contesto.

Ad esempio, se si cerca:

Si cerca la forma 'porta' con opzione 'Uguale a'

si ottiene un risultato del tipo seguente:

Esempio di visualizzazione del risultato con opzione 'Uguale a'

Tramite un menù a tendina è possibile anche ricercare stringhe iniziali, finali o presenti all'interno di una forma del corpus.

Menu a tendina del form di ricerca

Quindi, se si cerca

Si cerca la forma 'porta' con opzione 'Inizia per'

si ottiene un risultato del tipo seguente:

Esempio di visualizzazione del risultato con opzione con opzione 'Inizia per'

Se si cerca

Si cerca la forma 'porta' con opzione 'Contiene'

si ottiene un risultato del tipo seguente:

Esempio di visualizzazione del risultato con opzione con opzione 'Contiene'

Se si cerca

Si cerca la forma 'porta' con opzione 'Termina per'

si ottiene un risultato del tipo seguente:

Esempio di visualizzazione del risultato con opzione con opzione 'Termina per'

Ricerca tramite Espressione regolare

La ricerca tramite espressione regolare si attiva cliccando sul quadratino a destra del campo di ricerca. Il risultato di default è la forma (o le forme) cercata in contesto.

L'attivazione dell'opzione "Espressione regolare" permette di svolgere ricerche su stringhe di caratteri utilizzando alcuni caratteri che svolgono funzioni di operatori. Nel sito web MIDIA si possono usare tutte le espressioni regolari che riguardano le caratteristiche di una singola forma o di più singole forme. Non sono accettate invece espressioni regolari che riguardano sequenze di forme; per cercare determinate sequenze di forme si deve utilizzare il sistema descritto alla sezione Posizione. Qui di seguito sono brevemente illustrati i valori dei caratteri che sono più utili nelle ricerche morfologiche e si danno alcuni esempi delle possibili combinazioni. Per maggiori informazioni sulle espressioni regolari e una guida esauriente sul loro uso, rimandiamo a http://en.wikipedia.org/wiki/Regular_expression.

?
Il punto interrogativo indica zero o una occorrenza del carattere che lo precede. Per esempio, colore? corrisponde sia a colore sia a color
*
L'asterisco indica zero o più occorrenze del carattere che lo precede. Per esempio, col*i corrisponde sia a coi sia a coli sia a colli
+
Il segno più indica una o più occorrenze del carattere che lo precede. Per esempio, col+i corrisponde sia a coli sia a colli, ma non a coi
.
il punto corrisponde a una occorrenza di un qualsiasi carattere. Per esempio co.i corrisponde a coci, coli, coni, cori, cosi, covi e così via.
( )
le parentesi tonde racchiudono gruppi di caratteri (vedi esempio successivo)
|
la barra verticale corrisponde all'operatore booleano OR. Per esempio, puli(mento|tura) corrisponde sia a pulimento sia a pulitura
[ ]
le parentesi quadre identificano un singolo carattere fra quelli contenuti al loro interno. Per esempio, amav[aio] corrisponde sia a amava sia a amavi sia a amavo
{ }
le parentesi graffe permettono di indicare il numero di occorrenze del carattere che le precede. Per esempio, lavora.{4} permette di trovare parole come lavorabile, lavoraccio, ma non lavorabilità, lavorante, lavorare. Una interrogazione del tipo lavora.{2} e permette di trovare parole come lavorante, lavorarle, lavorarle, lavoratie
Esempi d'uso e di combinazione degli operatori delle espressioni regolari
  • dis.*: Cerca tutte le forme che iniziano con "dis".
  • .*zione: Cerca tutte le forme/lemmi che terminano con "zione"
  • scu.e: Cerca tutte le forme che iniziano con "scu" seguito da un carattere qualsiasi il quale precede "e" (esempio: scuce, scure, scuse, ecc.).
  • let?ale: Cerca tutte le forme che iniziano con "le" seguito da zero o una occorrenza del carattere "t" il quale precede "ale" (esempio: leale e letale).
  • fat+o: Cerca tutte le forme che iniziano con "fa" seguito da una o più occorrenze del carattere "t" il quale precede "o" (esempio: fatto e fato).
  • interess(e|ante|are): Cerca tutte le forme/lemmi che iniziano con "interess" e terminano con "e" oppure "ante" oppure "are" (esempio: interesse, interessante, interessare).
  • ri.+zzare: Cerca tutte le forme che cominciano con "ri", finiscono con "zzare" e nel mezzo ci sono un numero non definito di caratteri (esempio: ricozzare, ridrizzare, rimpiazzare).
  • .+ori.: Cerca tutte le forme in cui la stringa "ori" sia preceduta da uno o più caratteri e seguita da un carattere (esempio: laboratorio e sparatoria).
  • .+ori.{3}: Cerca tutte le forme in cui la stringa "ori" sia preceduta da uno o più caratteri e seguita da tre caratteri (esempi: adorare, favorisce, gloriosa, laborioso).
  • .+ori(e|a|o): Cerca tutte le forme in cui la stringa "ori" sia preceduta da uno o più caratteri e seguita da "e" oppure "a" oppure "o" (esempio: gloriose, gloriosa, glorioso, ma non gloriosi).
  • .+[ai]vano: Cerca tutte le forme che cominciano con un numero imprecisato di caratteri e terminano con "vano" preceduto da "a" oppure "i" (esempio: guardavano, guarivano, ma non volevano).

Ricerca avanzata

La ricerca semplice e quella con espressione regolare si possono raffinare tramite gli strumenti della ricerca avanzata. Questo tipo di ricerca usa i filtri visualizzati cliccando sul bottone "Opzioni avanzate". Le categorie di filtraggio disponibili sono 4 e sono esposte qui di seguito.

Dati sulla stringa
  • Tipo stringa: Specifica se la stringa inserita nel campo di ricerca è da considerare una forma o un lemma. La scelta di default è "forma" (colore verde).
    Opzioni di scelta del tipo di stringa
    Cliccando su "lemma" si seleziona tale opzione, ed il bottone "lemma" diventa verde.
  • Parte del discorso: Specifica se il risultato deve mostrare i risultati a prescindere dalla classificazione in parti del discorso (PoS), oppure filtrare in base a una o più parti del discorso. Per selezionare una o più parti del discorso occorre cliccare sulla parte del discorso desiderata all'interno del menu a tendina.

Clicca qui per scaricare la tabella con l'elenco delle parti del discorso usate nel corpus MIDIA e l'indicazione della sigla con cui sono distinte nei risultati dell'interrogazione

Posizione

Questa opzione permette di restringere la ricerca individuando forme e/o lemmi che precedono o seguono quanto indicato nel campo ricerca.

  • Forma Precedente: Specifica se ci deve essere un vincolo sulla forma che precede quella cercata.
  • Parte del discorso Precedente: Specifica se ci deve essere un vincolo sulla parte del discorso della parola che precede quella cercata.
  • Lemma Precedente: Specifica se ci deve essere un vincolo sul lemma cui appartiene la parola che precede quella cercata.
  • Forma Successiva: Specifica se ci deve essere un vincolo sulla forma che segue quella cercata.
  • Parte del discorso Successiva: Specifica se ci deve essere un vincolo sulla parte del discorso della parola che segue quella cercata.
  • Lemma Successivo: Specifica se vi deve essere un vincolo sul lemma cui appartiene la parola che segue quella cercata.
Metadati
  • Periodo: Filtra i risultati in base ai testi di uno o più periodi. Se non viene selezionato alcun periodo la ricerca avverrà su tutto il corpus. Per selezionare uno o più periodi occorre cliccare sul periodo desiderato all'interno del menu a tendina.
  • Genere: Filtra i risultati in base ai testi di uno o più generi testuali. Se non viene selezionato alcun genere la ricerca avverrà su tutto il corpus. Per selezionare uno o più generi occorre cliccare sul genere desiderato all'interno del menu a tendina.
  • Autore : Filtra i risultati in base ai testi di uno o più autori. Se non viene selezionato alcun autore la ricerca avverrà su tutto il corpus. Per selezionare uno o più autori occorre cliccare sull'autore desiderato all'interno del menu a tendina.
  • Opera : Filtra i risultati in base ai testi di una o più opere. Se non viene selezionata alcuna opera la ricerca avverrà su tutto il corpus. Per selezionare una o più opere occorre cliccare sull'opera desiderata all'interno del menu a tendina.
Risultato
  • Lista di esclusione: Permette di indicare eventuali forme da escludere dal risultato.
  • Limite caratteri: Permette di indicare il numero minimo di caratteri che la stringa deve avere per non essere esclusa dal risultato.
  • Ampiezza contesto: Permette di indicare il numero di forme da recuperare prima e dopo la stringa cercata. Il numero di default è 10 sia a sinistra sia a destra. Questo campo è attivo soltanto nel tipo di ricerca "In contesto".
Tipi di risultato

Per tutti i tipi di risultato è possibile visualizzare i dati online o scaricarli in formato CSV.

  • In contesto: Vengono mostrate tutte le occorrenze della stringa richiesta assieme al contesto in cui essa appare (il valore di default è di 10 forme a sinistra e a destra). I risultati della ricerca sono visualizzati in otto colonne: cliccando sulla prima colonna è possibile scaricare il testo del corpus in cui compare la forma cercata insieme alla scheda che contiene i metadati dell'opera da cui è tratto il testo; la seconda colonna contiene un codice identificativo dell'opera in cui compare la forma ricercata; la terza colonna contiene la forma cercata scritta in ordine inverso; la quarta colonna contiene l'indicazione della parte del discorso cui appartiene la forma; la quinta colonna contiene l'indicazione del lemma cui è ricondotta la forma; la sesta colonna contiene il contesto sinistro; la settima colonna contiene la forma; l'ottava colonna contiene il contesto destro. È possibile visualizzare online i risultati per un massimo di 5000 forme, mentre il download permette di ottenere tutti i risultati della ricerca.
  • Tabella di distribuzione: Viene indicato in una tabella il numero di occorrenze della forma cercata distinte per generi e periodi.
  • Lista frequenze: Viene indicato il numero di occorrenze della stringa cercata distinte per forma, parte del discorso e lemma.
  • Evoluzione temporale: Visualizza una serie di grafici che mostrano l'uso della forma cercata in base ad autore, genere e periodo. Inoltre, viene mostrato un grafico cartesiano indicante il numero di occorrenze della forma cercata sull'asse temporale, distinte per genere testuale.
  • Comparazione: Mette a confronto i risultati di più ricerche tramite un grafico che indica lungo l'asse temporale il numero di occorrenze delle forme selezionate.

Lavorare con i risultati

Questa sezione spiega cosa è possibile fare con i risultati ottenuti con la ricerca "In contesto".

Scaricare i risultati

L'opzione più utile è probabilmente quella che permette di scaricare i dati ottenuti dal risultato "In contesto". Cliccando sul bottone "Download risultati" si ottiene un file in formato CSV. Ricordiamo che tramite "Download risultati" si ottengono tutti i risultati della ricerca, mentre la visualizzazione online permette di ottenere e di intervenire online su di un numero massimo di 5000 risultati. Cliccando sulla freccia della colonna "Testi" si possono anche scaricare il testo dell'opera in cui è presente una determinata occorrenza e la relativa scheda di metadati.

Riordinare le colonne

Per riordinare le colonne basta cliccare sull'intestazione di quella che si vuole spostare e posizionarla dove è più gradito.

Riordinare i risultati

I risultati possono essere riordinati in ordine sia crescente sia decrescente per ognuno dei valori presenti nella tabella. Per effettuare l'ordinamento è sufficiente cliccare sull'intestazione della colonna secondo la quale si vuole ordinare.

Selezionare una o più righe

Per selezionare una riga è sufficiente cliccare su di essa. Per annullare le selezioni effettuate basta cliccare il pulsante "Deseleziona tutto".

Copiare una o più righe

Per copiare una o più righe si devono dapprima selezionare le righe desiderate e poi cliccare sul bottone "Copia".

Cancellare una o più righe

Per cancellare una o più righe si devono dapprima selezionare le righe desiderate e poi cliccare sul bottone "Cancella".

Filtrare i risultati

I risultati ottenuti online possono essere ulteriormente filtrati utilizzando l'apposito box indicato con la scritta "Cerca", che permette di individuare stringhe di caratteri all'interno dei risultati della ricerca in contesto. Viene qui sotto riprodotta la ricerca della forma "colore" tra i cui risultati vengono individuati quelli in cui appare la forma "bianco".

Esempio di filtraggio dei risultati

Nascondere una o più colonne

Durante la consultazione della ricerca può essere utile ignorare alcune delle colonne mostrate. Per effettuare questo tipo di filtraggio basta andare sul pulsante "Mostra / Nascondi colonne" e deselezionare quelle che non sono di proprio interesse. Nell'esempio seguente, è stata nascosta la colonna "Forma inversa". Per riattivare le colonne nascoste è sufficiente cliccare nell'apposito riquadro.

Esempio di filtro delle colonne dei risultati

Esempi d'uso

Questa sezione illustra alcuni casi d'uso della nostra applicazione.

Esempio 1 - Mostrare una forma seguita da un'altra in contesto

Questo esempio descrive i passi da compiere per ottenere una tabella che mostri una forma di interesse seguita da un'altra a scelta e che rispetti anche dei vincoli temporali e di genere in un contesto ampio 40 forme, ovvero 20 a sinistra e 20 a destra. Si tenga presente che quando si parla di contesto, sono considerate forme anche i segni di punteggiatura.

In dettaglio, i vincoli della ricerca saranno i seguenti:

  • La parola cercata è "andare"
  • La parola deve essere interpretata come forma
  • La forma cercata deve essere seguita dalla forma "via"
  • I periodi di interesse sono: "1376-1525", "1526-1691" e "1841-1945"
  • I generi di interesse sono: "Poesia" e "Prosa Letteraria"
  • L'elaborazione deve mostrare la forma in contesto

Passo 1

Il primo passo consiste nell'inserire nel campo "Cerca" la parola andare come mostrato dalla figura 1.1.

Inserimento della parola di interesse
Figura 1.1 - Inserimento della parola di interesse

Passo 2

Cliccare sul bottone "Opzioni avanzate..." per far apparire le opzioni avanzate. Nella prima sezione chiamata "Dati sulla stringa", andare su "Tipo stringa" e cliccare su "Forma" (valore predefinito). A conferma dell'avvenuta selezione, il colore dovrebbe essere verde come mostrato dalla figura 1.2.

Cercare la parola di interesse come forma
Figura 1.2 - Cercare la parola di interesse come forma

Passo 3

Guardare verso il basso fino a trovare la sezione "Posizione" e cliccare su di essa affiché vengano visualizzate le opzioni contenute. A questo punto inserire nel campo "Forma" della sotto-sezione "Successiva" la parola via come mostrato dalla figura 1.3.

Inserire la forma che deve seguire
Figura 1.3 - Inserire la forma che deve seguire

Passo 4

Andare alla sezione "Metadati" e cliccare su di essa affiché vengano visualizzate le opzioni contenute. Selezionare i periodi ed i generi di interesse nelle rispettive caselle così che esse risultino evidenziati. Alla fine della selezione dovreste ottenere il risultato mostrato da figura 1.4.

Selezionare periodi e generi
Figura 1.4 - Selezionare periodi e generi

Passo 5

Andare alla sezione "Risultato" e cliccare su di essa affiché vengano visualizzate le opzioni contenute. Cliccare sul bottone "In contesto" (valore predefinito). A conferma dell'avvenuta selezione, il colore dovrebbe essere verde. A questo punto, bisogna spostarsi in basso alla voce "Numero di parole da recuperare come contesto" e cambiare il valore in 20 (il valore predefinito è 10). Alla fine delle selezioni, dovreste avere una situazione come quella riportata in figura 1.5.

Selezionare tipo di risultato
Figura 1.5 - Selezionare tipo di risultato

Passo 6

Cliccare il tasto "Cerca" al fine di far partire l'elaborazione.

Mostrare la lista di frequenza di un lemma seguito e preceduto da una forma avente una PoS di interesse

Questo esempio descrive i passi da seguire per ottenere una tabella che mostri un lemma di interesse seguito e preceduto da una forma avente una specifica PoS.

In dettaglio, i vincoli della ricerca saranno i seguenti:

  • La parola cercata è "essere"
  • La parola deve essere interpretata come lemma
  • Il lemma cercato deve essere preceduto da un Articolo
  • Il lemma cercato deve essere seguito da un Verbo
  • L'elaborazione deve mostrare la lista di frequenza

Passo 1

Il primo passo consiste nell'inserire nel campo "Cerca" la parola essere come mostrato dalla figura 2.1.

Inserimento della parola di interesse
Figura 2.1 - Inserimento della parola di interesse

Passo 2

Cliccare sul bottone "Opzioni avanzate..." per far apparire le opzioni avanzate. Nella prima sezione chiamata "Dati sulla stringa", andare su "Tipo stringa" e cliccare su "Lemma". A conferma dell'avvenuta selezione, il colore dovrebbe essere verde come mostrato dalla figura 2.2.

Cercare la parola di interesse come lemma
Figura 2.2 - Cercare la parola di interesse come lemma

Passo 3

Andare alla sezione "Posizione" alla sottosezione "Precedente" e cliccare la voce "Articolo" del menu "Parte del discorso". Poi, andare alla sottosezione "Successiva" e cliccare la voce "Verbo" del menu "Parte del discorso" affinché vengano visualizzate le opzioni contenute, come mostrato dalla figura 2.3.

Figura 2.3 - Selezionare parti del discorso

Passo 4

Andare alla sezione "Risultato" e cliccare su di essa affinché vengano visualizzate le opzioni contenute. Cliccare sul bottone "Lista Frequenze". A conferma dell'avvenuta selezione, il colore dovrebbe essere verde come riportato in figura 2.4.

Selezionare tipo di risultato
Figura 2.4 - Selezionare tipo di risultato

Passo 5

Cliccare il tasto "Cerca" al fine di far partire l'elaborazione.

Descrizione del corpus MIDIA

MIDIA (acronimo di "Morfologia dell'Italiano in DIAcronia") permette l'interrogazione di un corpus testuale finalizzato allo studio della formazione delle parole in italiano dal punto di vista diacronico. Il corpus di testi italiani spazia lungo 7 secoli (dal Duecento al 1947) e comprende 7 tipologie testuali. La lemmatizzazione e la categorizzazione in parti del discorso è stata ottenuta grazie al programma Tree-Tagger implementato in modo da renderlo adatto all'analisi della varietà della lingua italiana nel lungo periodo temporale preso in esame.

Costituzione e organizzazione del corpus

Scansione cronologica

In un'ottica di storia linguistica interna, si è scelta una suddivisione cronologica scandita da importanti fatti di storia linguistica, letteraria e culturale che possono essere considerati come punti di svolta nella storia della lingua italiana. Sono così stati individuati cinque periodi: I. Dall'inizio del Duecento al 1375; II. Dal 1376 al 1532; III. Dal 1533 al 1691; IV. Dal 1692 al 1840; V. Dal 1841 al 1947. Criteri della suddivisione temporale:

  1. Dall'inizio del Duecento al 1375: dallo sviluppo della letteratura (e in genere della scrittura in volgare) in area toscana fino all'anno della morte di Boccaccio e dell'inizio dell'attività cancelleresca da parte di Coluccio Salutati; la data finale è la stessa che delimita il corpus testuale dell'OVI - TLIO.
  2. Dal 1375 al 1532: il periodo abbraccia l'esperienza dell'Umanesimo e del Rinascimento, tra lo sviluppo del fiorentino "argenteo" e la scelta in direzione classicista del fiorentino "aureo" teorizzata nelle Prose della volgar lingua di Pietro Bembo (1525). Il periodo ha come data finale quella della delle terza edizione dell'Orlando Furioso, attuazione in poesia delle teorie bembiane.
  3. Dal 1533 al 1691: periodo del tardo Rinascimento / Manierismo e del Barocco. La data di chiusura coincide con la terza edizione del Vocabolario degli Accademici della Crusca (1691), all'indomani della fondazione dell'Arcadia (1690).
  4. Dal 1692 al 1840: comprende l'età dell'Arcadia, dell'Illuminismo e del Romanticismo: è questa l'epoca in cui alcuni studiosi (Durante, Tesi) hanno collocato la nascita dell'italiano moderno. Il periodo termina con l'edizione definitiva dei Promessi sposi, basata, come è noto, sul fiorentino dell'uso vivo, e per tanti aspetti modello linguistico dell'italiano postunitario.
  5. Dal 1841 al 1947: è il periodo del Risorgimento, dell'Italia unita e delle due guerre mondiali, fino all'avvento della Repubblica e alla promulgazione della Costituzione. L'approdo quasi alla metà del Novecento fa sì che i testi selezionati, pur se non troppo lontani del tempo, possano fornire elementi differenti in diacronia rispetto all'italiano contemporaneo oggetto degli studi più recenti sulla formazione delle parole.

La selezione dei testi all'interno dei vari periodi è stata effettuata in modo da distribuirli (quando possibile) lungo l'intero arco cronologico di ogni periodo. Al criterio storico si è affiancato quello geografico. Il corpus riguarda la lingua italiana in prospettiva diacronica, e non comprende gli altri sistemi linguistici del dominio italo-romanzo. Pertanto, nei periodi I-II, sono stati inclusi esclusivamente testi toscani o toscanizzati, come le rime della scuola siciliana. Invece, nei periodi III-V sono stati raccolti testi in italiano di varia provenienza geografica, anche per permettere di valutare la possibile matrice locale di alcuni procedimenti di formazione delle parole o per registrare possibili differenze qualitative spiegabili con la diatopia.

Tipologie di testi

Sono stati individuati sette tipi di testi: Testi espositivi (es., trattati non scientifici, stampa, pubblicistica); Testi giuridico-amministrativi (es., statuti, leggi); Testi personali (lettere, diari, ecc.); Poesia; Prosa letteraria; Testi scientifici; Teatro, oratoria, mimesi dialogica.

Oltre alla tradizionale distinzione, all'interno dei testi letterari, tra prosa e poesia, si è dato autonomo spazio alla letteratura teatrale, accostata a testi scritti in vista di una fruizione orale o derivati da essa (es., prediche, discorsi, registrazioni di verbali di processi) e ad altre simulazioni di dialogo (es., manuali di conversazione), al fine di cogliere fenomeni rappresentativi della modalità parlata. Sono stati inseriti in questa sezione anche opere in versi (tragedie, melodrammi), che presentano tratti di "oralità spettacolare" distinti, ma non sempre inconciliabili, da quelli propri delle commedie in prosa.

Le altre quattro sezioni rappresentano le maggiori novità del corpus. Una è costituita da testi personali (es., lettere, autobiografie, diari, memorie, libri di conti), non destinati alla pubblicazione e che, dato il loro carattere privato, possono aprire finestre su aspetti della lingua d'uso, che molte persone colte utilizzavano nei secoli passati accanto al dialetto, specialmente in ambito familiare. La sezione dei testi espositivi comprende trattati, saggi, descrizioni, biografie, ecc., opere non rientranti nella categoria della "prosa d'arte" e disponibili ad accogliere tecnicismi e voci di matrice locale.

La sezione dei testi scientifici comprende soprattutto opere che hanno per oggetto la matematica, la fisica, la biologia, la chimica, la medicina (le cosiddette "scienze dure"); non mancano però, nei periodi più recenti, testi di statistica, psicologia, ecc., mentre la fase "prescientifica" accoglie opere di alchimia, bestiari, volgarizzamenti di trattati scientifici classici, ecc.

Tra i testi giuridici sono stati inseriti leggi, regolamenti, statuti, atti amministrativi. Per avere l'elenco dei testi del corpus MIDIA cliccare qui.

Dimensione dei testi

Di ogni tipo testuale si è deciso di selezionare 25 testi per ciascun periodo. Di ogni testo è stata selezionata una sezione di circa 8000 occorrenze (per un totale complessivo di circa 7,5 milioni di occorrenze). Il corpus, pur non amplissimo, risulta così molto equilibrato al suo interno. Solo nel primo periodo la quantità dei testi teatrali e personali risulta inferiore a quella degli altri a causa della scarsità di opere reperibili. Nel caso in cui qualche periodo e qualche sezione testuale è risultata particolarmente "sguarnita", per raggiungere la quantità prefissata di parole si è provveduto a "raddoppiare" la quantità di testi scritti da autori particolarmente importanti (es. Boccaccio, Galilei, ecc.).

Periodi Espositivi Giuridici Personali Poesia Prosa Scientifici Teatro Totale periodo
I 112385 438295 8447 207484 214503 237634 19709 1238457
II 279101 206130 251838 264792 218144 231749 194674 1646428
III 230175 261990 120181 242498 220798 268389 256270 1600301
IV 231988 199499 223654 192320 252278 206969 192704 1499412
V 263565 250541 253362 242858 224358 215559 217685 1667928
Totale corpus
Tot. Genere 1117214 1356455 857482 1149952 1130081 1160300 881042 7652526

Molti testi sono stati attinti da corpora già disponibili in formato elettronico. Alcuni sono stati acquisiti in formato elettronico grazie al diretto contatto con editori o gruppi di ricerca. Per un numero non trascurabile di testi si è proceduto alla scansione con programma OCR e alla conversione in formato txt. Tutti i testi sono stati sottoposti a revisione manuale.

Fasi di realizzazione del corpus MIDIA

Distinguiamo 4 fasi di realizzazione del corpus MIDIA:

  1. la preparazione dei testi del corpus;
  2. il PoS tagging;
  3. la revisione manuale dei risultati automatici del PoS tagging;
  4. la realizzazione del sistema di interrogazione.

Preparazione dei testi del corpus

Un lavoro preliminare all'analisi informatica è consistito nella revisione dei testi acquisiti. Si è trattato di un lavoro soprattutto manuale dovuto da una parte alle caratteristiche dei testi, dall'altra a scelte miranti a garantire la rappresentatività del corpus.

Tree-Tagger, il programma impiegato per la classificazione in parti del discorso, su Windows lavora meglio utilizzando la codifica ISO-8859-1 piuttosto che sulla più estesa codifica UTF-8. Per questa ragione, per alcuni testi già in formato digitale è stata necessaria una revisione che ha condotto alla sostituzione di alcuni caratteri comuni assenti dalla codifica richiesta (es. « e » sono stati sostituiti con ").

Per facilitare il riconoscimento delle forme da parte del programma è stato necessario isolare le parole da alcuni diacritici e segni di interpunzione (ad esempio inserendo un spazio dopo l'apostrofo usato per indicare l'elisione delle vocali degli articoli lo e la).

Si è deciso di trattare alcune porzioni dei testi originali in modo che non fossero analizzate dal programma di PoS tagging. Tale intervento ha riguardato principalmente gli indicatori ripetuti di scansione del testo. In questa categoria rientrano le indicazioni capitolo, parte, libro, sezione, oppure articolo (art.), capo, titolo presenti nei testi giuridici, e – dato da sottolineare – le didascalie dei testi teatrali, in cui sono indicati i nomi dei personaggi dialoganti, la progressione delle scene, l'ingresso e l'uscita dei personaggi, informazioni di tipo descrittivo o narrativo sull'ambiente e il tempo in cui si svolge l'azione. In testi giuridici e testi teatrali tali elementi possono arrivare al 10% del totale del testo.

PoS tagging

Il programma che è stato usato per associare a ciascuna forma una parte del discorso e un lemma è Tree-Tagger. Tra i tre files di parametri della lingua italiana disponibili per TreeTagger (tutti realizzati per l'analisi dell'italiano contemporaneo), il più adatto alle nostre esigenze è quello realizzato da Marco Baroni a partire dal corpus Morph-it!. Ma anche tale file di parametri non si è dimostrato completamente adeguato per l'analisi di stadi precedenti della lingua italiana.

Grazie anche alla disponibilità di Marco Baroni, abbiamo potuto generare e utilizzare per MIDIA un nuovo file di parametri che permette risultati migliori nell'analisi di testi appartenenti a tutto l'arco della storia della lingua italiana. Tale risultato è stato raggiunto soprattutto tramite l'aggiunta al formario del corpus dell'italiano contemporaneo di circa 200.000 forme risalenti perlopiù al periodo che va dal XIV al XVI secolo. Oltre all'aggiunta di forme, la revisione del formario ha determinato una ridefinizione dei criteri di lemmatizzazione (che tiene conto della ricca allotropia caratteristica della storia della lingua italiana) e una parziale modifica (rispetto a quella del file di parametri di partenza) della lista delle parti del discorso utilizzate in MIDIA. Per avere la tabella con l'elenco delle parti del discorso utilizzate in MIDIA e relative abbreviazioni cliccare qui.

Il formario usato per la lemmatizzazione e la attribuzione della parte del discorso alle forme presenti nel corpus MIDIA conta attualmente circa 550.000 forme.

Revisione dei risultati automatici del PoS tagging

La revisione dei risultati automatici del PoS tagging è avvenuta in due fasi. Nelle fasi iniziali del lavoro è servita a definire gli interventi necessari per ampliare il formario e ridefinire la lista delle parti del discorso utilizzate in MIDIA. In fase di post-elaborazione è servita per correggere manualmente alcuni errori di assegnazione di parte del discorso o di lemmatizzazione da parte della versione da noi implementata di Tree-Tagger. La revisione manuale è consistita nel filtraggio delle forme per le PoS attribuite dal programma e in una correzione mirata. Per ottimizzare i tempi e le risorse umane, si è operato su forme contenenti stringhe finali corrispondenti ai più comuni suffissi derivazionali e sulle forme di più alta frequenza.

Realizzazione del sistema di interrogazione

L'interfaccia che consente di accedere online al corpus MIDIA costituisce uno strumento semplice e allo stesso tempo potente per consultare il corpus. Essa è concepita per utenti con necessità diverse in termini di usabilità e di efficacia delle ricerche: permette infatti un immediato accesso alle ricerche semplici e diversi filtri per ricerche complesse. I risultati delle ricerche possono essere scaricati o consultati online.

Il servizio web del corpus MIDIA è stato realizzato per essere eseguito indifferentemente su piattaforma WAMP (Windows Apache MySql PHP) o LAMP (Linux Apache MySql PHP). I dati del corpus MIDIA sono salvati in un database RDBMS MySql progettato ed implementato rivolgendo particolare attenzione alle prestazioni, data la grande quantità di dati. Il codice sorgente è stato scritto in linguaggio PHP. Tutte le funzionalità del servizio sono state sviluppate sotto forma di un'unica libreria costituita da circa 20.000 linee di codice, realizzata da Aurelio De Rosa e rilasciata sotto licenza CC BY-NC 4.0 (Creative Commons Attribuzione - Non commerciale 4.0 Internazionale). Da tale conteggio sono escluse le funzionalità di software di terze parti integrate nel progetto. Tali dipendenze software sono state gestite tramite la libreria Composer.

Bibliografia sulla formazione delle parole in italiano

In questa sezione è possibile trovare un'ampia bibliografia sulla formazione delle parole in italiano curata da Maria Grossmann. La bibliografia segue l'ordine alfabetico di autore (di ogni autore gli studi sono disposti in ordine cronologico) ed è seguita dall'elenco delle sigle usate per la citazione delle riviste. Sono compresi nella bibliografia:

  • le monografie e gli articoli specificamente dedicati alla formazione delle parole in italiano, sia in sincronia sia in diacronia;
  • gli studi che comprendono riferimenti alla formazione delle parole in italiano, pur trattando della morfologia derivazionale dal punto di vista teorico o in una prospettiva romanza;
  • i lavori dedicati alla formazione delle parole nel latino, importanti anche per lo studio dell'italiano;
  • gli studi linguistici che, pur non essendo specificamente dedicati alla formazione delle parole, ma vertenti su singoli autori, testi, epoche e correnti della storia linguistica italiana, o su questioni relative al lessico, dedicano un certo spazio alla formazione delle parole.

Invitiamo quanti la consulteranno a segnalare aggiunte, aggiornamenti, correzioni, ecc. inviando una email a Maria Grossmann (maria.grossmann@cc.univaq.it).

Clicca qui per scaricare la bibliografia completa.

Lavori su e con MIDIA

Questa pagina fornisce informazioni su lavori su MIDIA o che hanno utilizzato il corpus MIDIA. Vi invitiamo a fornirci indicazioni inviando una mail all'indirizzo infocorpusmidia@gmail.com

  • Gaeta L., Iacobini C., Ricca D., Angster M., De Rosa A., Schirato G., "MIDIA: a balanced diachronic corpus of Italian", comunicazione presentata alla 21st International Conference on Historical Linguistics (Oslo, 5-9 agosto 2013).
  • Gaeta L., Iacobini C., "Word formation in a balanced diachronic corpus of Italian", comunicazione accettata al 16th International Morphology Meeting (Budapest 29 maggio - 1 giugno 2014).

Citazione di MIDIA e contatti

Questa pagina fornisce indicazioni su come citare e come contattare MIDIA, informazioni sul progetto PRIN 2009 "La storia della formazione delle parole in italiano" e sulle persone che hanno realizzato MIDIA

Se pubblicate lavori basati su MIDIA, vi invitiamo a citare il link www.corpusmidia.unito.it.

Contiamo sulle vostre segnalazioni per migliorare il sito e correggere inevitabili errori nella classificazione del corpus. Per segnalazioni, potete spedirci una mail all'indirizzo infocorpusmidia@gmail.com

MIDIA è stato realizzato grazie al finanziamento del progetto Prin 2009 "La storia della formazione delle parole in italiano" coordinato da Paolo D'Achille (Università Roma Tre), a cui hanno partecipato altre tre unità di ricerca: Università di Napoli Federico II (responsabili Livio Gaeta e Michela Cennamo), Università di Salerno (responsabile Claudio Iacobini), Università di Torino (responsabile Davide Ricca). Hanno fatto inoltre parte del progetto: nell'unità di Roma Tre Ilde Consales, Claudio Giovanardi, Antonella Stefinlongo, Andrea Viviani, e Antonietta Bisetto (Università di Bologna), Maria Grossmann (Università dell'Aquila), Franz Rainer (Wirtschaftsuniversität Wien), e Riccardo Cimaglia (assegnista); nell'unità di Salerno Grazia Basile, Renata Savy, Miriam Voghera, e Anna M. Thornton (Università dell'Aquila) e Giovanna Schirato (assegnista); nell'unità di Torino Mario Squartini e Marco Angster (assegnista).

I lavori di realizzazione del sito web sono stati coordinati da Claudio Iacobini con la collaborazione di Aurelio De Rosa, Giovanna Schirato, Claudia Fabrizio, e l'aiuto di Eleonora Ferolla, Chiara Iannuzzi, Antonella Scarpa.

I programmi informatici sono stati realizzati da Aurelio De Rosa.

La selezione dei testi è stata curata da Paolo D'Achille e Riccardo Cimaglia, con la collaborazione di Ilde Consales, Claudio Giovanardi, Antonella Stefinlongo, Andrea Viviani, Domenico Proietti e Giovanna Schirato.

La preparazione dei testi è opera di Marco Angster, Riccardo Cimaglia, Aurelio De Rosa, Claudia Fabrizio, Giovanna Schirato, Andrea Viviani.

Hanno lavorato alla revisione della lemmatizzazione: Luisa Corona, Aurelio De Rosa, Claudia Fabrizio, Claudio Iacobini, Chiara Iannuzzi, Davide Ricca, Antonella Scarpa, Giovanna Schirato, Anna M. Thornton.

La bibliografia sulla formazione delle parole in italiano è stata curata da Maria Grossmann.

Il corpus MIDIA è distribuito con licenza CC BY-NC 4.0 (Creative Commons Attribuzione - Non commerciale 4.0 Internazionale). Logo Creative Commons Attribuzione - Non commerciale