База причастий и деепричастий русского языка

В данной базе объединены причастия и деепричастия. Таблицы получены из общей базы морфологии. В первой таблице содержится перечень «нормализованных» слов, а вторая база включает их морфологию.

SQL скрипты в виде дампа размещены на github. Переходим, ищем words-russian-participles, жмем download.

words-russian-participles.sql.gz —  база причастий без морфологии, таблица participles.

words-russian-participles-morf.sql.gz — база причастий с морфологией, таблица participles_morf.

Внимание! Скрипты содержат «DROP if exists» соответствующих таблиц.

Описание таблицы participles

Список причастий и деепричастий здесь «нормализован». Выбраны формы именительного падежа, ед. числа, муж рода, относящиеся к настоящему времени. Всего — 21493 слова.

  • IID, int — суррогатный ключ
  • word, varchar[60] — словоформа.
  • code, int — код словоформы.
  • code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
  • type, set(’прч’,’дееп’) — часть речи.

Описание таблицы participles_morf

Содержит 2.045.135 словоформ причастных и деепричастных русского языка. Это почти половина всей морфологии слов. Склонения по родам, падежам, ед/мн число, краткая форма + признаки, наследуемые от глагола.

  • IID, int — суррогатный ключ
  • word, varchar[60] — словоформа.
  • code, int — код словоформы.
  • code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
  • type, set(’прч’,’дееп’) — часть речи.
  • plural, boolean — множественное число
  • gender, enum(‘муж’,’жен’,’ср’) — род.
  • wcase, enum(‘им’,’род’,’дат’,’вин’,’тв’,’пр’) — падеж.
  • transit, enum(‘перех’, ‘непер’, ‘пер/не’) — наследуемая от глагола «переходность».
  • perfect, boolean — признак совершенного действия.
  • kind, enum(‘2вид’) — наследуемый от глагола вид.
  • time, enum(‘прош’, ‘наст’) — временная форма.
  • vozv, boolean — признак «возвратности».
  • nakl, enum(‘страд’) — страдательный залог, если есть.
  • short, boolean — признак краткой формы.

Написать комментарий

Мало букафф? Читайте есчо !

База данных русских наречий, SQL скрипт

Март 14, 2017 г.

База наречий получена из общей базы морфологии слов русского языка. Она состоит их двух таблиц : только нормализованные наречия и наречия + словоформы. SQL скрипты размещены на github. Переходим, жмем download. words-russian-adverbs.sql.gz - ...

Читать

Частицы в русском языке, скачать как SQL дамп

Март 15, 2017 г.

Список частиц извлечен из полной базы морфологии слов русского языка. Никаких изменений в морфологии частицы не предполагают, потому получился простой список. SQL скрипт размещен на github. Переходим, ищем words-russian-particles,  жмем download. ...

Читать

 

Комментарии к «База причастий и деепричастий русского языка»

Понравилась статья? Есть вопросы? - пишите в комментариях.



Комментарий: