База данных русских слов — существительные

Здесь представлены две выборки из общей базы морфологии слов русского языка. Одна выборка включает в себя существительные вместе со словоформами, а другая — только существительные в именительном падеже ед. числа.

Скачать SQL скрипт можно с github. Переходим, жмем download.

words-russian-nouns.sql.gz — база существительных без морфологии, таблица nouns.

words-russian-nouns-morf.sql.gz — база существительных с морфологией, таблица nouns_morf.

Описание таблицы nouns

Содержит 65500 существительных в именительном падеже, ед. числе.

  • IID, int — суррогатный ключ
  • word, varchar[60] — словоформа.
  • code, int — код словоформы.
  • code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
  • gender, enum(‘муж’,’жен’,’ср’,’общ’) — род
  • wcase, enum(‘им’) — только именительный падеж или NULL для слов, которые не имеют падежных форм. Последние — это в своём большинстве заимствованные иностранные слова.
  • soul, boolean — признак одушевленности.

Описание таблицы nouns_morf

Содержит 767,694 словоформ существительных русского языка, в том числе во множественном числе.

  • IID, int — суррогатный ключ
  • word, varchar[60] — словоформа.
  • code, int — код словоформы.
  • code_parent, int — код родителя словоформы, согласно иерархии в исходном файле.
  • plural, boolean — множественное число
  • gender, enum(‘муж’,’жен’,’ср’,’общ’) — род
  • wcase, enum(‘им’,’род’,’дат’,’вин’,’тв’,’пр’,’зват’,’парт’,’мест’, ’счет’) — 10 падежей. Кроме шести хорошо известных из школьного курса: именительного, родительного, дательного, винительного, творительного и предложного, есть ещё 4 падежа — звательный, счетный падеж (счетная форма), партитив  и местный падеж — локатив.
  • soul, boolean — признак одушевленности.

Мало букафф? Читайте есчо !

База прилагательных в виде MySQL скрипта

Март 14, 2017 г.

Здесь представлены две таблицы, полученные из общей базы морфологии слов русского языка. Одна содержит все прилагательные в "нормальной форме", т.е. в мужского рода, ед. числа, именительного падежа. Вторая таблица содержит морфологию прилагательных, все ...

Читать

Вводные слова, база данных

Март 14, 2017 г.

База данных «вводных слов» извлечена из базы морфологии слов русского языка. Вводные слова не обладают какой либо морфологией, я сформировал только одну таблицу. SQL скрипт размещен на github. Переходим, жмем download. words-russian-introductors.sql.gz ...

Читать

Предлоги в русском языке, sql база всех предлогов

Март 15, 2017 г.

Список предлогов извлечен из базы морфологии русского языка. Предлоги, как оказалось, обладают кое-какой морфологией, некоторые из них склоняются по падежам. Я не смог четко сформулировать как происходит склонение, потому не стал создавать "нормализованную" ...

Читать

Частицы в русском языке, скачать как SQL дамп

Март 15, 2017 г.

Список частиц извлечен из полной базы морфологии слов русского языка. Никаких изменений в морфологии частицы не предполагают, потому получился простой список. SQL скрипт размещен на github. Переходим, ищем words-russian-particles,  жмем download. ...

Читать
 

Комментарии к «База данных русских слов — существительные»

Понравилась статья? Есть вопросы? - пишите в комментариях.



Комментарий:

Много комментариев в “База данных русских слов — существительные”

  1. Глеб:

    К сожалению, не удалось открыть файл

  2. Аноним:

    Я в шоке, кто-то ведь явно пол-жизни потерял, чтобы собрать все слова в базу данных

  3. Vovusp:

    в коротком запросе отсутствуют существительные, у которых только множественное число, например ножницы

  4. meiciuc:

    фантастический труд!

    подсажите, пожалуйста, фронтендеру, как добраться до сокровищ?
    т.е. — где почитать, о том, как перенести данные в локальную базу?

    спасибо

    • Это SQL (MySQL) скрипт.
      1. Создайте базу,
      2. скачайте файлы скрипта,
      3. выполните скрипт на созданной базе.