Home Resurse lingvistice
PDF Imprimare Email

Corpusul ZiareRom

Corpusul ZiareRom este un corpus de texte culese din variantele on-line ale unor ziare romne?ti din perioada 2004-2007.
Textele articolelor sunt distribuite ierarhic (pe directoare ?i subdirectoare) pe ani, luni, zile ?i ziare.
Ziarele inspectate sunt Adev?rulonline, BBC-Romanian, Bursa, Capital-RO, Cotidianul, Crainou, Euractiv-ro, Evenimentul Zilei, Jurnalul, Libertatea, Ziarul de Ia?i, Ziua, 7Plus.
Corpusul  nsumeaz? peste 86 de milioane de cuvinte (n 2004: 11 mil., n 2005: 20 mil., n 2006: 17 mil., n 2007: 38 mil.).

NOT?: Textele au grafii diferite. Majoritatea textelor con?in echivalentele nediacritice ale noii ortografii, altele con?in echivalentele nediacritice ale vechii ortografii (f?r? ), de exemplu Cotidianul, iar altele con?in diacritice, de exemplu BBC-Romanian.

 


Motorizat de Joomla!. Designed by: joomla 2.5 themes  Valid XHTML and CSS.