SQL-антипаттерны: плохие JOIN’ы и как их избежать

JOIN — один из мощнейших инструментов в SQL. Но с большой силой приходит большая ответственность. Неверное использование JOIN может приводить к дублированию строк, утечке производительности, неявным ошибкам и даже разрушению логики приложения.

В этой статье рассмотрим примеры антипаттернов при использовании JOIN’ов, объясним, почему они плохи, и как их избегать.

JOIN без условия (классический CROSS JOIN по ошибке)

SELECT * FROM users u 
JOIN orders o;

1 2	SELECT * FROM users u JOIN orders o;

Если вы не указали ON — это не INNER JOIN, а декартово произведение: каждая строка из users будет соединена с каждой строкой из orders.

Почему плохо:

Гигантское количество строк на выходе
Убийство производительности
Часто результат не имеет смысла

Как правильно:

SELECT * FROM users u 
JOIN orders o 
ON u.id = o.user_id;

SELECT * FROM users u

JOIN orders o

ON u.id = o.user_id;

Дублирование данных из-за 1:N без агрегатов или DISTINCT

Запрос:

SELECT u.name, o.total
FROM users u
JOIN orders o ON u.id = o.user_id;

SELECT u.name, o.total

FROM users u

JOIN orders o ON u.id = o.user_id;

Если у пользователя несколько заказов — будет несколько строк с одинаковым u.name.

Почему плохо:

Дубли могут ввести в заблуждение: кажется, что это ошибка, хотя на самом деле это следствие 1:N связи
Лишние строки увеличивают нагрузку на приложение
При JOIN’е с большим числом зависимых записей (например, comments, likes) можно получить гигантское кол-во строк

Как правильно:

Если нужны только пользователи — можно попробовать DISTINCT, но с осторожностью: он исключит дубли, но может скрыть информацию о количестве связанных записей
Если агрегировать — использовать GROUP BY или подзапрос:

SELECT u.name, SUM(o.total) as total_spent
FROM users u
JOIN orders o ON u.id = o.user_id
GROUP BY u.name;

SELECT u.name, SUM(o.total) as total_spent

FROM users u

JOIN orders o ON u.id = o.user_id

GROUP BY u.name;

LEFT JOIN без необходимости

Запрос:

SELECT u.name, o.total
FROM users u
LEFT JOIN orders o ON u.id = o.user_id;

SELECT u.name, o.total

FROM users u

LEFT JOIN orders o ON u.id = o.user_id;

Если мы хотим только пользователей с заказами — LEFT JOIN избыточен и замедляет запрос.

Почему плохо:

LEFT JOIN обрабатывается сложнее, чем INNER JOIN, особенно при большом объёме данных
Возвращаются NULL’ы, которые вероятно потом придётся исключать в коде или как условие в WHERE, что может затруднить чтение запроса и ухудшить производительность
Запрос может выглядеть корректным, но вести себя не так как задумано: например, возвращать пользователей без заказов, если не фильтровать NULL-значения

Как правильно: Использовать обычный INNER JOIN:

SELECT u.name, o.total
FROM users u
JOIN orders o ON u.id = o.user_id;

SELECT u.name, o.total

FROM users u

JOIN orders o ON u.id = o.user_id;

Использование JOIN вместо EXISTS (или IN)

Запрос:

SELECT u.*
FROM users u
JOIN orders o ON u.id = o.user_id;

SELECT u.*

FROM users u

JOIN orders o ON u.id = o.user_id;

Мы просто хотим выбрать пользователей, у которых есть заказы. Зачем JOIN’ить все строки?

Почему плохо:

JOIN приносит лишние данные
Возможны дубликаты

Как правильно:

SELECT * FROM users WHERE EXISTS (
  SELECT 1 FROM orders o WHERE o.user_id = users.id
); -- предпочтительный и более эффективный способ

SELECT * FROM users WHERE EXISTS (

SELECT 1 FROM orders o WHERE o.user_id = users.id

); -- предпочтительный и более эффективный способ

или

SELECT * FROM users WHERE id IN (
  SELECT user_id FROM orders
);

SELECT * FROM users WHERE id IN (

SELECT user_id FROM orders

);

IN работает хорошо на небольших подзапросах, особенно если user_id индексирован. Но на больших объёмах EXISTS обычно быстрее, так как останавливается при первом совпадении и лучше оптимизируется планом выполнения.

JOIN по неверному полю или типу

Запрос:

SELECT * FROM users u 
JOIN orders o 
  ON u.id = o.email;

SELECT * FROM users u

JOIN orders o

ON u.id = o.email;

или

… ON u.id = o.user_id::text;

1	… ON u.id = o.user_id::text;

В PostgreSQL :: — оператор кастинга (приведения типов).

Например, если user_id — число (integer), а u.id — строка (text), то написав o.user_id::text, мы приводим число к строке для сравнения. Аналог в стандартном SQL: CAST(o.user_id AS VARCHAR).

Почему плохо:

Нарушение логики связей между таблицами: поля могут быть случайно схожими по названию, но не несут отношения друг к другу
Индексы не используются эффективно при приведении типов (::text и т.п.), что замедляет выполнение запроса
Ошибка может не проявляться явно — просто вернётся пустой результат или неполные данные

Как правильно:

Проверить семантику полей: действительно ли эти поля логически связаны?
Убедиться, что типы совпадают (например, INT и INT, а не INT и VARCHAR)
По возможности — не использовать приведение типов в ON-условиях, особенно если важно использовать индексы

Плохие JOIN’ы могут не вызывать ошибок — но они подрывают производительность и создают логические ловушки. Проверяйте:

Нужен ли вам JOIN вообще?
Правильно ли вы пишете ON?
Не дублируются ли строки?
Не выгоднее ли использовать EXISTS?

Хорошие JOIN’ы — это не только правильно работающий код, но и читаемый, поддерживаемый, эффективный SQL.

Жрецы табличного культа

Написать комментарий

Данная запись опубликована в 06.07.2025 23:56 и размещена в рубрике Программирование. Вы можете перейти в конец страницы и оставить ваш комментарий.

Мало букафф? Читайте есчо !

НФ не требуют введения суррогатных ключей?

Июль 12, 2025 г.

Сами по себе нормальные формы (НФ) не требуют введения суррогатных (искусственных) ключей, но на практике их часто используют при нормализации, особенно начиная со 2НФ и 3НФ. Давайте разберём подробнее. Что такое суррогатный ключ? Суррогатный ...

Читать

SQL-инъекция: как работает и как защититься

Июль 10, 2025 г.

SQL-инъекция (SQL Injection) — это распространённая и весьма опасная уязвимость веб-приложений. Она позволяет злоумышленнику вмешиваться в SQL-запросы, ...

Читать

SQL JOIN на пальцах: таблицы, примеры, схемы

Сентябрь 19, 2017 г.

Присоединение таблиц в запросах - это базовый инструмент в работе с базами данных. Давайте рассмотрим какие присоединения (JOIN) бывают, и что от этого ...

Читать

А что такое SERIAL и чем он отличается от INT?

Июль 7, 2025 г.

В SQL, когда вы создаёте поле для идентификатора (id), ключа в таблице, часто используется либо INT, либо SERIAL. Они похожи, но не совсем одно и то же. INT — просто числовой тип данных. Если вы хотите, чтобы значения увеличивались автоматически ...

Читать

Комментарии к «SQL-антипаттерны: плохие JOIN’ы и как их избежать»

Понравилась статья? Есть вопросы? - пишите в комментариях.

Имя (обязательно)	Е-майл (не будет опубликован на сайте, обязательно для заполнения)
Комментарий: