Новости НКРЯ
Пополнен параллельный корпус. Совокупный объём двуязычных пар вырос на четверть и достиг цифры 134 миллиона словоупотреблений.
Англо-русская языковая пара (здесь и далее – в обоих направлениях перевода) достигла 34 млн словоупотреблений; в корпус включена коллекция научно-популярных и публицистических текстов, а также переводы русской художественной литературы на английский. Немецко-русский корпус вырос втрое и составляет 29 млн словоупотреблений: сюда входит немецкая проза XIX-XX веков, причем многие произведения представлены в нескольких русских переводах; добавлены также новости немецких СМИ и русская художественная проза разных периодов. Шведско-русский корпус составляет 12.2 млн слов и пополнен современными художественными и публицистическими текстами. Объём французско-русского корпуса – 5,6 млн слов. Пополнены также параллельные корпуса балтийских языков – латышского до 3,4 млн слов, литовского до 0,7 млн. Появились ранее не представленные в корпусе тексты, переведенные с болгарского на русский – 1,6 млн словоупотреблений (классика и проза XX в.).
Команда НКРЯ благодарит за предоставленные выровненные тексты М. А. Куниловскую (англо-русская языковая пара) и Д. Н. Шаповаленко (немецко-русская).
Китайско-русский параллельный корпус сделан доступным для поиска, а также значительно расширен – примерно до 2,4 миллионов словоформ.
Пополнен древнерусский корпус. В него теперь входит 27 текстов объёмом 570 тыс. словоупотреблений. Добавлены памятники XI-XIII веков – жития, хожения, поучения, законодательный свод «Русская Правда» и другие тексты. В разметку ряда текстов внесены исправления.