База данных русских слов — существительные

Здесь представлены две выборки из общей базы морфологии слов русского языка. Одна выборка включает в себя существительные вместе со словоформами, а другая — только существительные в именительном падеже ед. числа.

Скачать SQL скрипт можно с github. Переходим, жмем download.

words-russian-nouns.sql.gz — база существительных без морфологии, таблица nouns.

words-russian-nouns-morf.sql.gz — база существительных с морфологией, таблица nouns_morf.

Описание таблицы nouns

Содержит 65500 существительных в именительном падеже, ед. числе.

  • IID, int — суррогатный ключ
  • word, varchar[60] — словоформа.
  • code, int — код словоформы.
  • code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
  • gender, enum(‘муж’,’жен’,’ср’,’общ’) — род
  • wcase, enum(‘им’) — только именительный падеж или NULL для слов, которые не имеют падежных форм. Последние — это в своём большинстве заимствованные иностранные слова.
  • soul, boolean — признак одушевленности.

Описание таблицы nouns_morf

Содержит 767,694 словоформ существительных русского языка, в том числе во множественном числе.

  • IID, int — суррогатный ключ
  • word, varchar[60] — словоформа.
  • code, int — код словоформы.
  • code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
  • plural, boolean — множественное число
  • gender, enum(‘муж’,’жен’,’ср’,’общ’) — род
  • wcase, enum(‘им’,’род’,’дат’,’вин’,’тв’,’пр’,’зват’,’парт’,’мест’, ’счет’) — 10 падежей. Кроме шести хорошо известных из школьного курса: именительного, родительного, дательного, винительного, творительного и предложного, есть ещё 4 падежа — звательный, счетный падеж (счетная форма), партитив  и местный падеж — локатив.
  • soul, boolean — признак одушевленности.

Мало букафф? Читайте есчо !

Предлоги в русском языке, sql база всех предлогов

Март 15, 2017 г.

Список предлогов извлечен из базы морфологии русского языка. Предлоги, как оказалось, обладают кое-какой морфологией, некоторые из них склоняются по падежам. Я не смог четко сформулировать как происходит склонение, потому не стал создавать "нормализованную" ...

Читать

База данных русских наречий, SQL скрипт

Март 14, 2017 г.

База наречий получена из общей базы морфологии слов русского языка. Она состоит их двух таблиц : только нормализованные наречия и наречия + словоформы. SQL скрипты размещены на github. Переходим, жмем download. words-russian-adverbs.sql.gz - ...

Читать

База причастий и деепричастий русского языка

Март 14, 2017 г.

В данной базе объединены причастия и деепричастия. Таблицы получены из общей базы морфологии. В первой таблице содержится перечень "нормализованных" слов, а вторая база включает их морфологию. SQL скрипты в виде дампа размещены на github. Переходим, ...

Читать

Русские глаголы, sql база

Март 15, 2017 г.

Здесь представлены две выборки, полученные из общей базы морфологии. "Нормализованная" выборка содержит инфинитивы глаголов, а вторая таблица - инфинитивы + словоформы. SQL скрипты размещены на github. Переходим, ищем файлы words-russian-verbs, ...

Читать
 

Комментарии к «База данных русских слов — существительные»

Понравилась статья? Есть вопросы? - пишите в комментариях.



Комментарий:

Много комментариев в “База данных русских слов — существительные”

  1. Глеб:

    К сожалению, не удалось открыть файл

  2. Аноним:

    Я в шоке, кто-то ведь явно пол-жизни потерял, чтобы собрать все слова в базу данных

  3. Vovusp:

    в коротком запросе отсутствуют существительные, у которых только множественное число, например ножницы

  4. meiciuc:

    фантастический труд!

    подсажите, пожалуйста, фронтендеру, как добраться до сокровищ?
    т.е. — где почитать, о том, как перенести данные в локальную базу?

    спасибо

    • Это SQL (MySQL) скрипт.
      1. Создайте базу,
      2. скачайте файлы скрипта,
      3. выполните скрипт на созданной базе.