База причастий и деепричастий русского языка

В данной базе объединены причастия и деепричастия. Таблицы получены из общей базы морфологии. В первой таблице содержится перечень «нормализованных» слов, а вторая база включает их морфологию.

SQL скрипты в виде дампа размещены на github. Переходим, ищем words-russian-participles, жмем download.

words-russian-participles.sql.gz —  база причастий без морфологии, таблица participles.

words-russian-participles-morf.sql.gz — база причастий с морфологией, таблица participles_morf.

Внимание! Скрипты содержат «DROP if exists» соответствующих таблиц.

Описание таблицы participles

Список причастий и деепричастий здесь «нормализован». Выбраны формы именительного падежа, ед. числа, муж рода, относящиеся к настоящему времени. Всего — 21493 слова.

  • IID, int — суррогатный ключ
  • word, varchar[60] — словоформа.
  • code, int — код словоформы.
  • code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
  • type, set(’прч’,’дееп’) — часть речи.

Описание таблицы participles_morf

Содержит 2.045.135 словоформ причастных и деепричастных русского языка. Это почти половина всей морфологии слов. Склонения по родам, падежам, ед/мн число, краткая форма + признаки, наследуемые от глагола.

  • IID, int — суррогатный ключ
  • word, varchar[60] — словоформа.
  • code, int — код словоформы.
  • code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
  • type, set(’прч’,’дееп’) — часть речи.
  • plural, boolean — множественное число
  • gender, enum(‘муж’,’жен’,’ср’) — род.
  • wcase, enum(‘им’,’род’,’дат’,’вин’,’тв’,’пр’) — падеж.
  • transit, enum(‘перех’, ‘непер’, ‘пер/не’) — наследуемая от глагола «переходность».
  • perfect, boolean — признак совершенного действия.
  • kind, enum(‘2вид’) — наследуемый от глагола вид.
  • time, enum(‘прош’, ‘наст’) — временная форма.
  • vozv, boolean — признак «возвратности».
  • nakl, enum(‘страд’) — страдательный залог, если есть.
  • short, boolean — признак краткой формы.

Написать комментарий

Мало букафф? Читайте есчо !

Местоимения, база в виде sql скрипта

Март 15, 2017 г.

Местоимения извлечены из базы морфологии русского языка. Они могут склоняются по родам, падежам и образуют три видовые группы. Я не стал вдаваться в детали склонения, чтобы создавать "нормализованную" выборку. Возможно, сделаю это в следующем релизе на ...

Читать

Морфологический словарь русского языка в виде SQL скрипта

Март 13, 2017 г.

Нашел словари на сайте speakrus.ru. Все круто, но почему то распространяется в виде текстовых файлов. К примеру, морфологический словарь из 4 159 394 словоформ для 142 792 лемм - это текстовая портянка 220 мегабайт! Такой файл сложно вообще чем-либо ...

Читать

 

Комментарии к «База причастий и деепричастий русского языка»

Понравилась статья? Есть вопросы? - пишите в комментариях.



Комментарий: