База причастий и деепричастий русского языка

В данной базе объединены причастия и деепричастия. Таблицы получены из общей базы морфологии. В первой таблице содержится перечень «нормализованных» слов, а вторая база включает их морфологию.

SQL скрипты в виде дампа размещены на github. Переходим, ищем words-russian-participles, жмем download.

words-russian-participles.sql.gz —  база причастий без морфологии, таблица participles.

words-russian-participles-morf.sql.gz — база причастий с морфологией, таблица participles_morf.

Внимание! Скрипты содержат «DROP if exists» соответствующих таблиц.

Описание таблицы participles

Список причастий и деепричастий здесь «нормализован». Выбраны формы именительного падежа, ед. числа, муж рода, относящиеся к настоящему времени. Всего — 21493 слова.

  • IID, int — суррогатный ключ
  • word, varchar[60] — словоформа.
  • code, int — код словоформы.
  • code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
  • type, set(’прч’,’дееп’) — часть речи.

Описание таблицы participles_morf

Содержит 2.045.135 словоформ причастных и деепричастных русского языка. Это почти половина всей морфологии слов. Склонения по родам, падежам, ед/мн число, краткая форма + признаки, наследуемые от глагола.

  • IID, int — суррогатный ключ
  • word, varchar[60] — словоформа.
  • code, int — код словоформы.
  • code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
  • type, set(’прч’,’дееп’) — часть речи.
  • plural, boolean — множественное число
  • gender, enum(‘муж’,’жен’,’ср’) — род.
  • wcase, enum(‘им’,’род’,’дат’,’вин’,’тв’,’пр’) — падеж.
  • transit, enum(‘перех’, ‘непер’, ‘пер/не’) — наследуемая от глагола «переходность».
  • perfect, boolean — признак совершенного действия.
  • kind, enum(‘2вид’) — наследуемый от глагола вид.
  • time, enum(‘прош’, ‘наст’) — временная форма.
  • vozv, boolean — признак «возвратности».
  • nakl, enum(‘страд’) — страдательный залог, если есть.
  • short, boolean — признак краткой формы.

Мало букафф? Читайте есчо !

Русские глаголы, sql база

Март 15, 2017 г.

Здесь представлены две выборки, полученные из общей базы морфологии. "Нормализованная" выборка содержит инфинитивы глаголов, а вторая таблица - инфинитивы + словоформы. SQL скрипты размещены на github. Переходим, ищем файлы words-russian-verbs, ...

Читать

База прилагательных в виде MySQL скрипта

Март 14, 2017 г.

Здесь представлены две таблицы, полученные из общей базы морфологии слов русского языка. Одна содержит все прилагательные в "нормальной форме", т.е. в мужского рода, ед. числа, именительного падежа. Вторая таблица содержит морфологию прилагательных, все ...

Читать

База предикативов

Март 15, 2017 г.

База данных предикативов сформирована выборкой из базы морфологии слов русского языка. Мы в школе не изучали эту часть речи. Думаю, лингвисты тоже с трудом отличают предикативы то от междометий, то от наречий. SQL скрипт размещен на github. Переходим ...

Читать

Русские числительные в виде sql дампа

Март 14, 2017 г.

Числительные извлечены из базы морфологии слов русского языка. Произведено две выборки - нормализованный список и числительные с морфологией. SQL скрипты баз размещены на github. Переходим, ищем в списке "words-russian-numerals", жмем download. ...

Читать
 

Комментарии к «База причастий и деепричастий русского языка»

Понравилась статья? Есть вопросы? - пишите в комментариях.



Комментарий: