В данной базе объединены причастия и деепричастия. Таблицы получены из общей базы морфологии. В первой таблице содержится перечень «нормализованных» слов, а вторая база включает их морфологию.
SQL скрипты в виде дампа размещены на github. Переходим, ищем words-russian-participles, жмем download.
words-russian-participles.sql.gz — база причастий без морфологии, таблица participles.
words-russian-participles-morf.sql.gz — база причастий с морфологией, таблица participles_morf.
Внимание! Скрипты содержат «DROP if exists» соответствующих таблиц.
Описание таблицы participles
Список причастий и деепричастий здесь «нормализован». Выбраны формы именительного падежа, ед. числа, муж рода, относящиеся к настоящему времени. Всего — 21493 слова.
- IID, int — суррогатный ключ
- word, varchar[60] — словоформа.
- code, int — код словоформы.
- code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
- type, set(’прч’,’дееп’) — часть речи.
Описание таблицы participles_morf
Содержит 2.045.135 словоформ причастных и деепричастных русского языка. Это почти половина всей морфологии слов. Склонения по родам, падежам, ед/мн число, краткая форма + признаки, наследуемые от глагола.
- IID, int — суррогатный ключ
- word, varchar[60] — словоформа.
- code, int — код словоформы.
- code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
- type, set(’прч’,’дееп’) — часть речи.
- plural, boolean — множественное число
- gender, enum(‘муж’,’жен’,’ср’) — род.
- wcase, enum(‘им’,’род’,’дат’,’вин’,’тв’,’пр’) — падеж.
- transit, enum(‘перех’, ‘непер’, ‘пер/не’) — наследуемая от глагола «переходность».
- perfect, boolean — признак совершенного действия.
- kind, enum(‘2вид’) — наследуемый от глагола вид.
- time, enum(‘прош’, ‘наст’) — временная форма.
- vozv, boolean — признак «возвратности».
- nakl, enum(‘страд’) — страдательный залог, если есть.
- short, boolean — признак краткой формы.