Corpusul ZiareRom
Corpusul ZiareRom este un corpus de texte culese din variantele on-line ale unor ziare româneÈ™ti din perioada 2004-2007.
Ziarele inspectate sunt Adevărulonline, BBC-Romanian, Bursa, Capital-RO, Cotidianul, Crainou, Euractiv-ro, Evenimentul Zilei, Jurnalul, Libertatea, Ziarul de Iași, Ziua, 7Plus.
Corpusul însumează peste 86 de milioane de cuvinte (în 2004: 11 mil., în 2005: 20 mil., în 2006: 17 mil., în 2007: 38 mil.).
Textele articolelor sunt distribuite ierarhic (pe directoare și subdirectoare) pe ani, luni, zile și ziare.
NOTÄ‚: Textele au grafii diferite. Majoritatea textelor conÈ›in echivalentele nediacritice ale noii ortografii, altele conÈ›in echivalentele nediacritice ale vechii ortografii (fără â), de exemplu Cotidianul, iar altele conÈ›in diacritice, de exemplu BBC-Romanian.


