Русские глаголы, sql база

Здесь представлены две выборки, полученные из общей базы морфологии. «Нормализованная» выборка содержит инфинитивы глаголов, а вторая таблица — инфинитивы + словоформы.

SQL скрипты размещены на github. Переходим, ищем файлы words-russian-verbs, жмем download.

words-russian-verbs.sql.gz —  база глаголов в неопределенной форме, таблица verbs.

words-russian-verbs-morf.sql.gz — база прилагательных с морфологией, таблица verbs_morf.

Внимание! Скрипты содержат «DROP if exists» соответствующих таблиц.

Описание таблицы verbs

Глаголы в инфинитивной форме. Всего — 22600 слов.

  • IID, int — суррогатный ключ
  • word, varchar[100] — словоформа.
  • code, int — код словоформы.
  • transit, enum(‘перех’, ‘непер’, ‘пер/не’) — переходность глагола.
  • perfect, boolean — признак совершенной формы.
  • face, enum(‘безл’) — лицо. Поле сохранено для безличных глаголов.
  • kind, enum(‘1вид’, ‘2вид’) — вид глагола.

Описание таблицы verbs_morf

Содержит 467,722 словоформ глаголов. Склонения по лицам, временам, родам, числам. Возвратные формы глагола (на -сь, -ся). Повелительная и страдательные формы, и, конечно, инфинитив.

  • IID, int — суррогатный ключ
  • word, varchar[100] — словоформа.
  • code, int — код словоформы.
  • code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
  • plural, boolean — множественное число
  • gender, enum(‘муж’,’жен’,’ср’) — род.
  • transit, enum(‘перех’, ‘непер’, ‘пер/не’) — переходность глагола.
  • perfect, boolean — признак совершенной формы глагола.
  • face, enum(‘1-е’, ‘2-е’, ‘3-е’, ‘безл’) — лицо.
  • kind, enum(‘1вид’, ‘2вид’) — вид.
  • time, enum(‘прош’, ‘наст’, ‘буд’) — временная форма.
  • inf, boolean — признак инфинитива.
  • vozv, boolean — признак возвратной формы глагола.
  • nakl, enum(‘пов’, ‘страд’) — наклонение или залог.

Мало букафф? Читайте есчо !

База причастий и деепричастий русского языка

Март 14, 2017 г.

В данной базе объединены причастия и деепричастия. Таблицы получены из общей базы морфологии. В первой таблице содержится перечень "нормализованных" слов, а вторая база включает их морфологию. SQL скрипты в виде дампа размещены на github. Переходим, ...

Читать

Морфологический словарь русского языка в виде SQL скрипта

Март 13, 2017 г.

Нашел словари на сайте speakrus.ru. Все круто, но почему то распространяется в виде текстовых файлов. К примеру, морфологический словарь из 4 159 394 словоформ для 142 792 лемм - это текстовая портянка 220 мегабайт! Такой файл сложно вообще чем-либо ...

Читать

База предикативов

Март 15, 2017 г.

База данных предикативов сформирована выборкой из базы морфологии слов русского языка. Мы в школе не изучали эту часть речи. Думаю, лингвисты тоже с трудом отличают предикативы то от междометий, то от наречий. SQL скрипт размещен на github. Переходим ...

Читать

Полный перечень союзов в русском языке

Март 14, 2017 г.

База данных по части речи "союзы" получена из общей базы морфологии слов русского языка. Т.к. союзы не обладают какой либо морфологией, то получилась одна таблица с перечнем слов. SQL скрипт размещены на github. Переходим, жмем download. words-russian-conjunctions.sql.gz ...

Читать
 

Комментарии к «Русские глаголы, sql база»

Понравилась статья? Есть вопросы? - пишите в комментариях.



Комментарий:

Много комментариев в “Русские глаголы, sql база”

  1. Илья:

    «Описание таблицы verbs_morf
    Содержит 467,722 словоформ глаголов. Склонения по лицам, временам, родам, числам.»

    Только у глаголов не склонение, а спряжение. Склонение по падежам у существительных, местоимений и прилагательных