База данных русских слов — существительные

Здесь представлены две выборки из общей базы морфологии слов русского языка. Одна выборка включает в себя существительные вместе со словоформами, а другая — только существительные в именительном падеже ед. числа.

Скачать SQL скрипт можно с github. Переходим, жмем download.

words-russian-nouns.sql.gz — база существительных без морфологии, таблица nouns.

words-russian-nouns-morf.sql.gz — база существительных с морфологией, таблица nouns_morf.

Описание таблицы nouns

Содержит 65500 существительных в именительном падеже, ед. числе.

  • IID, int — суррогатный ключ
  • word, varchar[60] — словоформа.
  • code, int — код словоформы.
  • code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
  • gender, enum(‘муж’,’жен’,’ср’,’общ’) — род
  • wcase, enum(‘им’) — только именительный падеж или NULL для слов, которые не имеют падежных форм. Последние — это в своём большинстве заимствованные иностранные слова.
  • soul, boolean — признак одушевленности.

Описание таблицы nouns_morf

Содержит 767,694 словоформ существительных русского языка, в том числе во множественном числе.

  • IID, int — суррогатный ключ
  • word, varchar[60] — словоформа.
  • code, int — код словоформы.
  • code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
  • plural, boolean — множественное число
  • gender, enum(‘муж’,’жен’,’ср’,’общ’) — род
  • wcase, enum(‘им’,’род’,’дат’,’вин’,’тв’,’пр’,’зват’,’парт’,’мест’, ’счет’) — 10 падежей. Кроме шести хорошо известных из школьного курса: именительного, родительного, дательного, винительного, творительного и предложного, есть ещё 4 падежа — звательный, счетный падеж (счетная форма), партитив  и местный падеж — локатив.
  • soul, boolean — признак одушевленности.

Написать комментарий

Мало букафф? Читайте есчо !

Список стран ISO 3166 в виде sql - дампа

Февраль 8, 2013 г.

Мне потребовался этот перечень для счета-фактуры. И как следовало из описания код и название страны должны соответствовать общероссийскому классификатору ...

Читать

База данных русских наречий, SQL скрипт

Март 14, 2017 г.

База наречий получена из общей базы морфологии слов русского языка. Она состоит их двух таблиц : только нормализованные наречия и наречия + словоформы. SQL скрипты размещены на github. Переходим, жмем download. words-russian-adverbs.sql.gz - ...

Читать

 

Комментарии к «База данных русских слов — существительные»

Понравилась статья? Есть вопросы? - пишите в комментариях.



Комментарий:

Много комментариев в “База данных русских слов — существительные”

  1. Глеб:

    К сожалению, не удалось открыть файл

  2. Аноним:

    Я в шоке, кто-то ведь явно пол-жизни потерял, чтобы собрать все слова в базу данных