학습기록 : 데이터 분석

[MySQL] LeetCode 문제풀이 : 1084. Sales Analysis III

claireyy01 2025. 4. 8. 15:08

문제

Table: Product

+--------------+---------+
| Column Name  | Type    |
+--------------+---------+
| product_id   | int     |
| product_name | varchar |
| unit_price   | int     |
+--------------+---------+
product_id is the primary key (column with unique values) of this table.
Each row of this table indicates the name and the price of each product.

Table: Sales

+-------------+---------+
| Column Name | Type    |
+-------------+---------+
| seller_id   | int     |
| product_id  | int     |
| buyer_id    | int     |
| sale_date   | date    |
| quantity    | int     |
| price       | int     |
+-------------+---------+
This table can have duplicate rows.
product_id is a foreign key (reference column) to the Product table.
Each row of this table contains some information about one sale.

Write a solution to report the products that were only sold in the first quarter of 2019. That is, between 2019-01-01 and 2019-03-31 inclusive.

Return the result table in any order.

The result format is in the following example.

Example 1:

Input:
Product table:
+------------+--------------+------------+
| product_id | product_name | unit_price |
+------------+--------------+------------+
| 1          | S8           | 1000       |
| 2          | G4           | 800        |
| 3          | iPhone       | 1400       |
+------------+--------------+------------+
Sales table:
+-----------+------------+----------+------------+----------+-------+
| seller_id | product_id | buyer_id | sale_date  | quantity | price |
+-----------+------------+----------+------------+----------+-------+
| 1         | 1          | 1        | 2019-01-21 | 2        | 2000  |
| 1         | 2          | 2        | 2019-02-17 | 1        | 800   |
| 2         | 2          | 3        | 2019-06-02 | 1        | 800   |
| 3         | 3          | 4        | 2019-05-13 | 2        | 2800  |
+-----------+------------+----------+------------+----------+-------+
Output:
+-------------+--------------+
| product_id  | product_name |
+-------------+--------------+
| 1           | S8           |
+-------------+--------------+
Explanation:
The product with id 1 was only sold in the spring of 2019.
The product with id 2 was sold in the spring of 2019 but was also sold after the spring of 2019.
The product with id 3 was sold after spring 2019.
We return only product 1 as it is the product that was only sold in the spring of 2019.

  

문제풀이 1차 시도

  • 문제를 잘못 이해하여 1분기 내에 팔린 적이 있는 모든 경우를 추출했다.
  • 문제의 요구사항에 맞게 2019년 1분기에만 팔리고, 다른 분기에는 팔리지 않은 상품을 추출해야 한다.
SELECT p.product_id
    , p.product_name
FROM Product p
JOIN Sales s
ON p.product_id = s.product_id 
WHERE s.sale_date BETWEEN 2019-01-01 AND 2019-03-31

  

문제풀이 2차 시도

핵심 아이디어

  1. 모든 제품 별로 판매 날짜를 확인하고,
  2. 모든 판매 날짜가 2019-01-01 ~ 2019-03-31 사이에 속하는지 확인하기
SELECT DISTINCT p.product_id, p.product_name
FROM Product p
LEFT JOIN Sales s
ON p.product_id = s.product_id 
GROUP BY p.product_id
HAVING MIN(sale_date) >= '2019-01-01' AND MAX(sale_date) <= '2019-03-31'

  

궁금증 해결하기

Q1. 왜 LEFT JOIN을 해야하는가?

모든 제품을 기준으로 시작하여

  • 판매 기록이 있으면 판매 날짜를 분석하여 출력하고
  • 판매 기록이 없으면 HAVING절에서 NULL값으로 인해 필터링되어 최종 결과에서 제외

이 문제에서는 판매 기록이 있는 경우만 다루기 때문에 INNER JOIN을 사용해도 동일한 결과를 얻을 수 있지만, 일반적으로 연관된 데이터를 기준으로 분석하고 특정 조건에 맞는 데이터만 필터링할 때는 LEFT JOIN 후 HAVING 절로 조건을 적용하는 것이 더 명시적이고 유연한 접근 방법이다.

→ 적용점 : 앞으로 쿼리문을 작성할 때 어떤 접근 방식으로 풀어갈지 단계적으로 생각해보고, 한글로 적어본 뒤, 쿼리문을 작성해보자!

Q2. HAVING 절에서

왜 s.sale_date를 바로 쓰면 안되는가? BETWEEN이 아닌 MIN, MAX를 써야하는 이유는?

  1. HAVING 절의 기본 사용법
  • MIN, MAX와 같은 집계 함수를 바로 사용하거나
  • BETWEEN 연산자 왼쪽에 집계함수의 결과가 와야한다.
    • 예시
    SELECT product_id, SUM(price) AS total_sales
    FROM Sales
    GROUP BY product_id
    HAVING SUM(price) BETWEEN 1000 AND 5000;

2. GROUP 내에서의 최소값(2019-01-01)과 최대값(2019-03-31) 사이에 판매 날짜가 존재하는지 확인하기

→ 비교할 수 있는 특정값을 지정해주어야 한다!

  

1개의 그룹(product_id)에는 여러 개의 s.sale_date 값이 존재할 수 있다.   

예를 들어, product_id가 1인 그룹은 '2019-01-21', '2019-02-10', '2019-03-15' 등의 여러 판매 날짜를 가질 수 있다.

 

1) [오답] s.sale_date 를 바로 사용할 경우

HAVING s.sale\_date BETWEEN '2019-01-01' AND '2019-03-31’
  • sql이 그룹 내의 여러 개의 s.sale_date 중 어떤 날짜를 BETWEEN 날짜 구간과 비교해야할지 알 수 없다. (파이썬의 변수처럼 생각하면 안된다.)
  • 따라서 임의로 하나의 날짜를 선택하여 BETWEEN 연산을 하게 된다.

2) [정답] MIN, MAX로 특정값을 지정하여 각각을 2019-01-01와 2019-03-31과 비교해주는 경우

HAVING MIN(sale\_date) >= '2019-01-01' AND MAX(sale\_date) <= '2019-03-31'
  • 가장 빠른 날짜(주문한지 가장 오래된 날짜)를 '2019-01-01'와 비교하고
  • 가장 최근 날짜를 ‘2019-03-31’와 비교해주어
  • 기준일을 지정함으로써 날짜 구간을 지정해준다.

  

최종 정리

1. 상품 별로 판매 날짜 경우의 수를 다양하게 생각해본다. → 상품id와 날짜를 직접 적어보자!

    a. 1분기에만 판매 기록이 있는 경우
    b. 1분기와 2분기에 모두 판매 기록이 있는 경우

 

2. 내가 추출해야하는 데이터는 1-a의 경우이므로

  • 1차 기준 : 상품 별 판매 날짜 확인한 뒤
  • 2차 기준 : 판매 날짜가 1분기 기간 내에만 있는 경우를 필터링 하기

3. 2번을 해결하려면 어떤 명령어, 함수, 연산자 등이 필요할까?

  • 상품 별 판매 날짜 확인 → GROUP BY
  • 판매 날짜가 1분기 기간 내에만 있는 경우를 필터링 → HAVING, MIN, MAX

 

  

회고

KEEP

  • 어려웠던 점과 궁금증을 모두 해결하였고, 최종 정리를 통해 접근 방식을 명확히 리마인드 하였다.

PROBLEM

  • 1분기에만 판매된 경우를 필터링하는 과정에 대해 아이디어가 잘 떠오르지 않았다.

TRY

  • 문제가 요구하는 바를 명확히 파악하기
  • 문제 접근 방식을 차분히 생각하며 한글로 먼저 정리해보기 (시간 압박이 있더라도 이게 더 빠른 길이다!!)
  • sql이 작동되는 과정(순서와 방식)을 생각하며 쿼리문 작성해보기
  • 비교 연산자 사용 시 항상 비교 대상을 특정해주기