База данных русских слов — существительные

Здесь представлены две выборки из общей базы морфологии слов русского языка. Одна выборка включает в себя существительные вместе со словоформами, а другая — только существительные в именительном падеже ед. числа.

Скачать SQL скрипт можно с github. Переходим, жмем download.

words-russian-nouns.sql.gz — база существительных без морфологии, таблица nouns.

words-russian-nouns-morf.sql.gz — база существительных с морфологией, таблица nouns_morf.

Описание таблицы nouns

Содержит 65500 существительных в именительном падеже, ед. числе.

  • IID, int — суррогатный ключ
  • word, varchar[60] — словоформа.
  • code, int — код словоформы.
  • code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
  • gender, enum(‘муж’,’жен’,’ср’,’общ’) — род
  • wcase, enum(‘им’) — только именительный падеж или NULL для слов, которые не имеют падежных форм. Последние — это в своём большинстве заимствованные иностранные слова.
  • soul, boolean — признак одушевленности.

Описание таблицы nouns_morf

Содержит 767,694 словоформ существительных русского языка, в том числе во множественном числе.

  • IID, int — суррогатный ключ
  • word, varchar[60] — словоформа.
  • code, int — код словоформы.
  • code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
  • plural, boolean — множественное число
  • gender, enum(‘муж’,’жен’,’ср’,’общ’) — род
  • wcase, enum(‘им’,’род’,’дат’,’вин’,’тв’,’пр’,’зват’,’парт’,’мест’, ’счет’) — 10 падежей. Кроме шести хорошо известных из школьного курса: именительного, родительного, дательного, винительного, творительного и предложного, есть ещё 4 падежа — звательный, счетный падеж (счетная форма), партитив  и местный падеж — локатив.
  • soul, boolean — признак одушевленности.

Написать комментарий

Мало букафф? Читайте есчо !

Предлоги в русском языке, sql база всех предлогов

Март 15, 2017 г.

Список предлогов извлечен из базы морфологии русского языка. Предлоги, как оказалось, обладают кое-какой морфологией, некоторые из них склоняются по падежам. Я не смог четко сформулировать как происходит склонение, потому не стал создавать "нормализованную" ...

Читать

База междометий, встречающихся в русском языке, в виде скрипта sql

Март 14, 2017 г.

База данных междометий получена из базы морфологии русского языка. Т.к. междометия не обладают какой либо морфологией, я сформировал только одну таблицу. SQL скрипт размещены на github. Переходим, жмем download. words-russian-interjections.sql.gz ...

Читать

 

Комментарии к «База данных русских слов — существительные»

Понравилась статья? Есть вопросы? - пишите в комментариях.



Комментарий:

Много комментариев в “База данных русских слов — существительные”

  1. Глеб:

    К сожалению, не удалось открыть файл

  2. Аноним:

    Я в шоке, кто-то ведь явно пол-жизни потерял, чтобы собрать все слова в базу данных

  3. Vovusp:

    в коротком запросе отсутствуют существительные, у которых только множественное число, например ножницы

  4. meiciuc:

    фантастический труд!

    подсажите, пожалуйста, фронтендеру, как добраться до сокровищ?
    т.е. — где почитать, о том, как перенести данные в локальную базу?

    спасибо

    • Это SQL (MySQL) скрипт.
      1. Создайте базу,
      2. скачайте файлы скрипта,
      3. выполните скрипт на созданной базе.