Инициатива создания Национального корпуса русского языка возникла как закономерное развитие исследований по корпусной лингвистике и автоматической обработке текста, имеющих в России давнюю традицию. Подробнее о корпусных исследованиях в России в контексте мирового опыта можно прочесть в сборнике «Корпусная лингвистика в России» (сост. Е. В. Рахилина и С. А. Шаров), изданном как специальный выпуск журнала Научно-техническая информация, сер. 2: Информационные процессы и системы, 2003, № 6 и 10, а также в статье Т. И. Резниковой и М. В. Копотева «Лингвистически аннотированные корпуса русского языка (обзор общедоступных ресурсов)» из сборника «Национальный корпус русского языка: 2003—2005» (М., 2005).
В частности, был учтен опыт таких коллективов, как:
Машинный фонд Института русского языка им. В. В. Виноградова РАН
Лаборатория компьютерной лингвистики Института проблем передачи информации РАН
Лаборатория общей и компьютерной лексикологии и лексикографии филологического факультета МГУ им. М. В. Ломоносова
Другие существующие общедоступные корпуса русского языка:
Общие корпуса современного русского языка:
Упсальский и Тюбингенский корпуса (доступны для скачивания)
Машинный фонд русского языка (доступен для скачивания и онлайн-поиска лексики)
Хельсинкский аннотированный корпус русских текстов ХАНКО (доступен для онлайн-поиска)
Корпус русского литературного языка (С.-Петербург) (доступен для онлайн-поиска)
Открытый корпус русского языка (доступен для скачивания)
База данных русской прессы «Integrum» (доступна по платной подписке)
Интернет-корпуса русского языка:
Генеральный интернет-корпус русского языка (доступен для поиска после регистрации, корпус со снятой омонимией — для скачивания)
Русские корпуса на сайте Сергея Шарова (Лидс): интернет-корпус ruWAC, НКРЯ, корпус блогов и другие (доступны для онлайн-поиска)
ruTenTen: интернет-корпус русского языка в составе системы SketchEngine (доступен для онлайн-корпуса после регистрации)
Araneum Russicum: интернет-корпус русского языка (доступен по запросу)
Синтаксические корпуса русского языка:
Тестовый корпус с параллельной синтаксической разметкой (доступен для онлайн-поиска)
RUS-Treebank: корпус с автоматической разметкой синтаксических зависимостей (доступен для онлайн-поиска)
UD-Russian: корпуса с разметкой в формате Universal Dependencies (доступны для онлайн-поиска и скачивания)
Учебные и устные корпуса русского языка:
«Рассказы о сновидениях» и другие корпуса звучащей речи (доступны для просмотра и прослушивания, а также скачивания в формате ELAN)
Русский учебный корпус: образцы устной и письменной речи изучающих русский язык как иностранный и так называемых эритажных говорящих (доступен для онлайн-поиска)
Корпус русских учебных (академических) текстов (КРУТ): коллекция текстов на русском языке, написанных студентами разных вузов (доступен для онлайн-поиска)
Диалектные корпуса русского языка:
Электронные базы данных по русским народным говорам (доступны для скачивания в формате Starling)
Мультимедийный корпус диалектных текстов Устьянского района Архангельской области (доступен для онлайн-поиска)
Электронная библиотека русских народных говоров (доступна для онлайн-просмотра и прослушивания)
Диахронические корпуса русского языка:
Регенсбургский диахронический корпус русского языка (древнерусские тексты) (требуется заполнить лицензионное соглашение)
Рукописные памятники Древней Руси: берестяные грамоты (полнотекстовая база данных), летописи (три летописи с размеченной грамматической информацией доступны для онлайн-поиска).
СКАТ – Санкт-Петербургский корпус агиографических текстов (доступен для скачивания и онлайн-поиска по словоуказателю с переходом к фрагментам текста)
Корпус «Манускрипт» Удмуртского государственного университета (доступен для онлайн-поиска; для поиска по всем текстам требуется регистрация)
Корпус русских публицистических текстов второй половины XIX века Петрозаводского государственного университета (доступен для онлайн-поиска)
Старославянские корпуса:
Старославянский корпус Хельсинского университета (тексты доступны для скачивания)
Старославянский корпус Университета Южной Калифорнии (требуется запрос доступа по e-mail)
Корпуса современных славянских языков:
Корпус текстов украинского языка Лаборатории компьютерной лингвистики Киевского университета (доступен для онлайн-поиска)
ГРАК: Генеральный регионально аннотированный корпус украинского языка (доступен для онлайн-поиска)
Открытые корпуса украинского языка группы lang-uk (доступны для скачивания)
Белорусский N-корпус (доступен для онлайн-поиска)
Белорусский библейский корпус (доступен для онлайн-поиска)
Экспериментальный корпус белорусского языка (доступен для скачивания)
Corpus Albaruthenicum — корпус научных белорусских текстов (доступен для онлайн-поиска)
Национальный корпус польского языка (доступен для онлайн-поиска)
Польско-русский параллельный корпус (доступен для онлайн-поиска)
Польско-украинский параллельный корпус (доступен для онлайн-поиска)
Чешский национальный корпус (доступен для онлайн-поиска частично, для полного доступа требуется регистрация)
Словацкий национальный корпус (доступен для онлайн-поиска частично, для полного доступа требуется регистрация с отправкой запроса в печатном виде по почте)
Верхнелужицкий корпус (доступен для онлайн-поиска)
Нижнелужицкий корпус (доступен для онлайн-поиска)
Страница ссылок на корпуса языков бывшей Югославии
FIDA — словенский корпус (доступен для онлайн-поиска, требуется регистрация)
Nova beseda — словенский корпус (доступен для онлайн-поиска)
GOS — устный словенский корпус (доступен для онлайн-поиска)
GRALIS — параллельный корпус с участием сербских, хорватских и боснийских текстов Грацского университета (доступен для онлайн-поиска, требуется регистрация по e-mail)
Хорватский национальный корпус (доступен для онлайн-поиска через программу-клиент)
Корпус хорватского языка Riznica (доступен для онлайн-поиска)
Боснийский корпус университета Осло (доступен для онлайн-поиска, требуется регистрация)
Черногорско-английский параллельный корпус (доступен для онлайн-поиска)
Болгарский национальный корпус (доступен для онлайн-поиска, для полного доступа требуется регистрация)
Болгарско-русский параллельный корпус (доступен для онлайн-поиска)
Македонский корпус университета Осло (доступен для онлайн-поиска, требуется регистрация)
Корпуса неславянских языков:
Германские:
Британский национальный корпус (BNC) (тестовая версия доступна для онлайн-поиска, полная версия платная)
Британский национальный корпус в версии Марка Дэвиса (BYU-BNC) (доступен для онлайн-поиска, возможна регистрация)
Корпус современного американского английского (COCA) (доступен для онлайн-поиска, возможна регистрация)
Исторический корпус американского английского (COHA) (доступен для онлайн-поиска, возможна регистрация)
WaCKy — большие открытые веб-корпуса английского языка (доступны для скачивания)
Корпус шотландского (германского) языка (доступен для онлайн-поиска)
Немецкий справочный корпус (DeReKo) (доступен для онлайн-поиска через программу-клиент COSMAS II, требуется регистрация)
Банк данных разговорного немецкого (DGD) (требуется регистрация)
Корпуса немецкого языка на сайте CorpusEye (доступны для онлайн-поиска, некоторые корпуса требуют пароля)
Корпус языка идиш (доступен для онлайн-поиска)
Ссылки на корпуса нидерландского языка (коммерческие и некоммерческие)
Корпус старонидерландского языка (доступен для онлайн-поиска)
Параллельный нидерландско-французский корпус (доступен для тестового онлайн-поиска)
KorpusDK: датский корпус (доступен для онлайн-поиска)
Корпуса датского языка на сайте CorpusEye (доступны для онлайн-поиска, большинство не требует пароля)
Банк шведского языка (корпуса и словари доступны для онлайн-поиска)
Корпуса шведского языка на сайте CorpusEye (доступны для онлайн-поиска)
Корпус размеченных норвежских текстов: букмол, нюнорск (оба доступны для онлайн-поиска, требуется регистрация), другие норвежские корпуса
Корпуса норвежского языка на сайте CorpusEye (доступны для онлайн-поиска)
Корпус исландского языка (Википедия) на сайте CorpusEye (доступен для онлайн-поиска)
Исторический корпус исландского языка (доступен для скачивания)
Корпуса фарерского языка на сайте CorpusEye (доступны для онлайн-поиска)
Романские:
База французских текстов FranText (доступна для онлайн-поиска, требуется подписка от имени академического/образовательного учреждения)
Корпуса французского языка на сайте CorpusEye (доступы для онлайн-поиска)
База данных по средневековому французскому языку (доступна для онлайн-поиска, для основной части требуется регистрация)
Лингвистическая база данных функционально эквивалентных фрагментов на материале поливариантного русско-французского корпуса (доступна для онлайн-поиска)
Корпус испанского языка Марка Дэвиса (доступен для онлайн-поиска)
Корпуса испанского языка на сайте CorpusEye (доступны для онлайн-поиска, большинство не требует пароля)
Корпуса письменного итальянского языка CORIS и CODIS (доступны для онлайн-поиска)
Корпус итальянского языка COLFIS (доступен для онлайн-поиска)
Корпуса итальянского языка на сайте CorpusEye (доступны для онлайн-поиска)
Корпус португальского языка Марка Дэвиса (доступен для онлайн-поиска)
Корпуса португальского языка на сайте CorpusEye (доступны для онлайн-поиска, большинство не требует пароля)
Корпус румынской прессы на сайте CorpusEye (доступен для онлайн-поиска)
Другие индоевропейские:
Исторический корпус валлийского языка (доступны конкордансы по словоуказателю)
Корпус современного литовского языка (доступен для онлайн-поиска)
Сбалансированный корпус современных латышских текстов (доступен для онлайн-поиска через программу-клиент)
Греческий национальный корпус (доступен для онлайн-поиска)
Корпус новогреческого языка (доступен для онлайн-поиска)
Восточноармянский национальный корпус (доступен для онлайн-поиска)
Осетинский национальный корпус (иронский диалект) (доступен для онлайн-поиска)
Албанский национальный корпус (доступен для онлайн-поиска)
Корпус языка хинди (доступен для онлайн-поиска)
Корпус цыганского языка (доступен для онлайн-поиска)
Синтаксический корпус хеттского языка (доступен для онлайн-поиска, требуется регистрация)
Аннотированный корпус лувийских текстов (доступен для онлайн-поиска)
Неиндоевропейские и искусственные:
Коллекции текстов на малых языках России (доступны для скачивания)
Языковой банк Финляндии (требуется регистрация или подписка)
Веб-интерфейс Языкового банка Финляндии: корпуса финно-угорских (финский, эрзя, мокша и др.), германских (финляндский шведский, английский, немецкий и др.), русского (финско-русский параллельный корпус) и других языков (требуется регистрация или подписка)
Описание корпусов уральских языков на сайте Хельсинкского университета (различные режимы доступа)
Справочный корпус эстонского языка (доступен для онлайн-поиска)
Фонетический корпус спонтанной эстонской речи (доступен для онлайн-поиска)
Другие корпуса эстонского языка (различные режимы доступа)
Корпус вепсского языка (доступен для онлайн-поиска)
Венгерский национальный корпус (доступен для онлайн-поиска)
Корпус удмуртского языка (доступен для онлайн-поиска)
Грузинский диалектный корпус (доступен для онлайн-поиска)
Корпус грузинского языка университета им. Ильи Чавчавадзе (доступен для онлайн-поиска)
Англо-грузинский параллельный корпус научных текстов (доступен для онлайн-поиска)
Проект Armazi: картвельские тексты во Франкфуртском университете (доступны для онлайн-поиска и скачивания)
Корпус лезгинского языка (доступен для онлайн-поиска)
Корпус баскского языка Ereduzko Prosa Gaur (доступен для онлайн-поиска)
Корпус баскского языка XX века (доступен для онлайн-поиска)
Научно-технический баскский корпус (доступен для онлайн-поиска)
Турецкий национальный корпус (доступен для онлайн-поиска, требуется регистрация)
Корпус устного турецкого (фрагмент доступен для онлайн-поиска; для полного доступа требуется подписать соглашение об использовании)
Алматинский корпус казахского языка (доступен для онлайн-поиска)
Татарский национальный корпус «Туган тел» (доступен для онлайн-поиска)
Башкирский поэтический корпус (доступен для онлайн-поиска)
Письменный корпус татарского языка (доступен для онлайн-поиска)
Крымскотатарский корпус (доступен для онлайн-поиска)
Калмыцкий корпус (доступен для онлайн-поиска)
Бурятский корпус (доступен для онлайн-поиска)
Монгольский корпус (доступен для онлайн-поиска)
Корпус арабского языка ArabiCorpus (доступен для онлайн-поиска, требуется регистрация, затем доступ по e-mail, тексты доступны для скачивания)
Корпус иврита (доступен для онлайн-поиска)
Корпус амхарского языка (доступен для онлайн-поиска)
Сбалансированный корпус письменного японского языка (10-миллионный фрагмент доступен для онлайн-поиска)
Обучающий корпус японского языка (доступен для онлайн-поиска)
Японско-английский параллельный корпус (доступен для онлайн-поиска)
Оксфордский древнеяпонский корпус (доступен для скачивания)
Тайский корпус HSE (доступен для онлайн-поиска)
Хельсинкский корпус суахили (для доступа требуется подписать соглашение об использовании)
Справочный корпус бамана (доступен для онлайн-поиска)
Справочный корпус манинка (доступен для онлайн-поиска)
Корпуса эсперанто на сайте CorpusEye (доступны для онлайн-поиска, большинство не требует пароля)
Корпус эсперанто фонда «Esperantic Studies Foundation» (доступен для онлайн-поиска)
Многоязычные корпуса (в том числе параллельные):
Корпус слушаний Европарламента (доступен для скачивания)
Корпус документов Евросоюза (более 20 языков) (доступен для скачивания)
ParaSol: параллельный корпус славянских и других языков Бернского университета (бывший Регенсбургский) (доступен для онлайн-поиска, требуется регистрация по e-mail)
InterCorp: параллельные корпуса Пражского университета (доступен для онлайн-поиска, требуется регистрация, дающая доступ также к Чешскому национальному корпусу)
Universal Dependencies: размеченные в едином формате синтаксические корпуса 47 языков
Многоязычные корпуса университета Осло (доступны для поиска, требуется регистрация, общая для всех проектов университета)
TITUS — тезаурус материалов по индоевропейским языкам, Франкфурт (тексты доступны для поиска, просмотра и скачивания)
PROIEL — корпус древних переводов Нового завета университета Осло (доступен для онлайн-поиска, требуется регистрация, общая для всех проектов университета)
Параллельный корпус переводов «Слова о полку Игореве» (доступен для онлайн-поиска)
Параллельный корпус русских и французских поэтических текстов первой трети XIX в. (доступен для онлайн-поиска)
Другое:
WebCorp: Инструмент для построения конкордансов на материале Интернета для разных языков (Web-as-Corpus)
|