База причастий и деепричастий русского языка

В данной базе объединены причастия и деепричастия. Таблицы получены из общей базы морфологии. В первой таблице содержится перечень «нормализованных» слов, а вторая база включает их морфологию.

SQL скрипты в виде дампа размещены на github. Переходим, ищем words-russian-participles, жмем download.

words-russian-participles.sql.gz —  база причастий без морфологии, таблица participles.

words-russian-participles-morf.sql.gz — база причастий с морфологией, таблица participles_morf.

Внимание! Скрипты содержат «DROP if exists» соответствующих таблиц.

Описание таблицы participles

Список причастий и деепричастий здесь «нормализован». Выбраны формы именительного падежа, ед. числа, муж рода, относящиеся к настоящему времени. Всего — 21493 слова.

  • IID, int — суррогатный ключ
  • word, varchar[60] — словоформа.
  • code, int — код словоформы.
  • code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
  • type, set(’прч’,’дееп’) — часть речи.

Описание таблицы participles_morf

Содержит 2.045.135 словоформ причастных и деепричастных русского языка. Это почти половина всей морфологии слов. Склонения по родам, падежам, ед/мн число, краткая форма + признаки, наследуемые от глагола.

  • IID, int — суррогатный ключ
  • word, varchar[60] — словоформа.
  • code, int — код словоформы.
  • code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
  • type, set(’прч’,’дееп’) — часть речи.
  • plural, boolean — множественное число
  • gender, enum(‘муж’,’жен’,’ср’) — род.
  • wcase, enum(‘им’,’род’,’дат’,’вин’,’тв’,’пр’) — падеж.
  • transit, enum(‘перех’, ‘непер’, ‘пер/не’) — наследуемая от глагола «переходность».
  • perfect, boolean — признак совершенного действия.
  • kind, enum(‘2вид’) — наследуемый от глагола вид.
  • time, enum(‘прош’, ‘наст’) — временная форма.
  • vozv, boolean — признак «возвратности».
  • nakl, enum(‘страд’) — страдательный залог, если есть.
  • short, boolean — признак краткой формы.

Написать комментарий

Мало букафф? Читайте есчо !

Список стран ISO 3166 в виде sql - дампа

Февраль 8, 2013 г.

Мне потребовался этот перечень для счета-фактуры. И как следовало из описания код и название страны должны соответствовать общероссийскому классификатору ...

Читать

База данных русских наречий, SQL скрипт

Март 14, 2017 г.

База наречий получена из общей базы морфологии слов русского языка. Она состоит их двух таблиц : только нормализованные наречия и наречия + словоформы. SQL скрипты размещены на github. Переходим, жмем download. words-russian-adverbs.sql.gz - ...

Читать

 

Комментарии к «База причастий и деепричастий русского языка»

Понравилась статья? Есть вопросы? - пишите в комментариях.



Комментарий: