База причастий и деепричастий русского языка

В данной базе объединены причастия и деепричастия. Таблицы получены из общей базы морфологии. В первой таблице содержится перечень «нормализованных» слов, а вторая база включает их морфологию.

SQL скрипты в виде дампа размещены на github. Переходим, ищем words-russian-participles, жмем download.

words-russian-participles.sql.gz —  база причастий без морфологии, таблица participles.

words-russian-participles-morf.sql.gz — база причастий с морфологией, таблица participles_morf.

Внимание! Скрипты содержат «DROP if exists» соответствующих таблиц.

Описание таблицы participles

Список причастий и деепричастий здесь «нормализован». Выбраны формы именительного падежа, ед. числа, муж рода, относящиеся к настоящему времени. Всего — 21493 слова.

  • IID, int — суррогатный ключ
  • word, varchar[60] — словоформа.
  • code, int — код словоформы.
  • code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
  • type, set(’прч’,’дееп’) — часть речи.

Описание таблицы participles_morf

Содержит 2.045.135 словоформ причастных и деепричастных русского языка. Это почти половина всей морфологии слов. Склонения по родам, падежам, ед/мн число, краткая форма + признаки, наследуемые от глагола.

  • IID, int — суррогатный ключ
  • word, varchar[60] — словоформа.
  • code, int — код словоформы.
  • code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
  • type, set(’прч’,’дееп’) — часть речи.
  • plural, boolean — множественное число
  • gender, enum(‘муж’,’жен’,’ср’) — род.
  • wcase, enum(‘им’,’род’,’дат’,’вин’,’тв’,’пр’) — падеж.
  • transit, enum(‘перех’, ‘непер’, ‘пер/не’) — наследуемая от глагола «переходность».
  • perfect, boolean — признак совершенного действия.
  • kind, enum(‘2вид’) — наследуемый от глагола вид.
  • time, enum(‘прош’, ‘наст’) — временная форма.
  • vozv, boolean — признак «возвратности».
  • nakl, enum(‘страд’) — страдательный залог, если есть.
  • short, boolean — признак краткой формы.

Мало букафф? Читайте есчо !

Русские числительные в виде sql дампа

Март 14, 2017 г.

Числительные извлечены из базы морфологии слов русского языка. Произведено две выборки - нормализованный список и числительные с морфологией. SQL скрипты баз размещены на github. Переходим, ищем в списке "words-russian-numerals", жмем download. ...

Читать

Полный перечень союзов в русском языке

Март 14, 2017 г.

База данных по части речи "союзы" получена из общей базы морфологии слов русского языка. Т.к. союзы не обладают какой либо морфологией, то получилась одна таблица с перечнем слов. SQL скрипт размещены на github. Переходим, жмем download. words-russian-conjunctions.sql.gz ...

Читать

База данных русских наречий, SQL скрипт

Март 14, 2017 г.

База наречий получена из общей базы морфологии слов русского языка. Она состоит их двух таблиц : только нормализованные наречия и наречия + словоформы. SQL скрипты размещены на github. Переходим, жмем download. words-russian-adverbs.sql.gz - ...

Читать

Морфологический словарь русского языка в виде SQL скрипта

Март 13, 2017 г.

Нашел словари на сайте speakrus.ru. Все круто, но почему то распространяется в виде текстовых файлов. К примеру, морфологический словарь из 4 159 394 словоформ для 142 792 лемм - это текстовая портянка 220 мегабайт! Такой файл сложно вообще чем-либо ...

Читать
 

Комментарии к «База причастий и деепричастий русского языка»

Понравилась статья? Есть вопросы? - пишите в комментариях.



Комментарий: