[MySQL] LeetCode 문제풀이 : 1084. Sales Analysis III
문제
Table: Product
+--------------+---------+
| Column Name | Type |
+--------------+---------+
| product_id | int |
| product_name | varchar |
| unit_price | int |
+--------------+---------+
product_id is the primary key (column with unique values) of this table.
Each row of this table indicates the name and the price of each product.
Table: Sales
+-------------+---------+
| Column Name | Type |
+-------------+---------+
| seller_id | int |
| product_id | int |
| buyer_id | int |
| sale_date | date |
| quantity | int |
| price | int |
+-------------+---------+
This table can have duplicate rows.
product_id is a foreign key (reference column) to the Product table.
Each row of this table contains some information about one sale.
Write a solution to report the products that were only sold in the first quarter of 2019. That is, between 2019-01-01 and 2019-03-31 inclusive.
Return the result table in any order.
The result format is in the following example.
Example 1:
Input:
Product table:
+------------+--------------+------------+
| product_id | product_name | unit_price |
+------------+--------------+------------+
| 1 | S8 | 1000 |
| 2 | G4 | 800 |
| 3 | iPhone | 1400 |
+------------+--------------+------------+
Sales table:
+-----------+------------+----------+------------+----------+-------+
| seller_id | product_id | buyer_id | sale_date | quantity | price |
+-----------+------------+----------+------------+----------+-------+
| 1 | 1 | 1 | 2019-01-21 | 2 | 2000 |
| 1 | 2 | 2 | 2019-02-17 | 1 | 800 |
| 2 | 2 | 3 | 2019-06-02 | 1 | 800 |
| 3 | 3 | 4 | 2019-05-13 | 2 | 2800 |
+-----------+------------+----------+------------+----------+-------+
Output:
+-------------+--------------+
| product_id | product_name |
+-------------+--------------+
| 1 | S8 |
+-------------+--------------+
Explanation:
The product with id 1 was only sold in the spring of 2019.
The product with id 2 was sold in the spring of 2019 but was also sold after the spring of 2019.
The product with id 3 was sold after spring 2019.
We return only product 1 as it is the product that was only sold in the spring of 2019.
문제풀이 1차 시도
- 문제를 잘못 이해하여 1분기 내에 팔린 적이 있는 모든 경우를 추출했다.
- 문제의 요구사항에 맞게 2019년 1분기에만 팔리고, 다른 분기에는 팔리지 않은 상품을 추출해야 한다.
SELECT p.product_id
, p.product_name
FROM Product p
JOIN Sales s
ON p.product_id = s.product_id
WHERE s.sale_date BETWEEN 2019-01-01 AND 2019-03-31
문제풀이 2차 시도
핵심 아이디어
- 모든 제품 별로 판매 날짜를 확인하고,
- 모든 판매 날짜가 2019-01-01 ~ 2019-03-31 사이에 속하는지 확인하기
SELECT DISTINCT p.product_id, p.product_name
FROM Product p
LEFT JOIN Sales s
ON p.product_id = s.product_id
GROUP BY p.product_id
HAVING MIN(sale_date) >= '2019-01-01' AND MAX(sale_date) <= '2019-03-31'
궁금증 해결하기
Q1. 왜 LEFT JOIN을 해야하는가?
모든 제품을 기준으로 시작하여
- 판매 기록이 있으면 판매 날짜를 분석하여 출력하고
- 판매 기록이 없으면 HAVING절에서 NULL값으로 인해 필터링되어 최종 결과에서 제외
이 문제에서는 판매 기록이 있는 경우만 다루기 때문에 INNER JOIN을 사용해도 동일한 결과를 얻을 수 있지만, 일반적으로 연관된 데이터를 기준으로 분석하고 특정 조건에 맞는 데이터만 필터링할 때는 LEFT JOIN 후 HAVING 절로 조건을 적용하는 것이 더 명시적이고 유연한 접근 방법이다.
→ 적용점 : 앞으로 쿼리문을 작성할 때 어떤 접근 방식으로 풀어갈지 단계적으로 생각해보고, 한글로 적어본 뒤, 쿼리문을 작성해보자!
Q2. HAVING 절에서
왜 s.sale_date를 바로 쓰면 안되는가? BETWEEN이 아닌 MIN, MAX를 써야하는 이유는?
- HAVING 절의 기본 사용법
- MIN, MAX와 같은 집계 함수를 바로 사용하거나
- BETWEEN 연산자 왼쪽에 집계함수의 결과가 와야한다.
- 예시
SELECT product_id, SUM(price) AS total_sales FROM Sales GROUP BY product_id HAVING SUM(price) BETWEEN 1000 AND 5000;
2. GROUP 내에서의 최소값(2019-01-01)과 최대값(2019-03-31) 사이에 판매 날짜가 존재하는지 확인하기
→ 비교할 수 있는 특정값을 지정해주어야 한다!
1개의 그룹(product_id)에는 여러 개의 s.sale_date 값이 존재할 수 있다.
예를 들어, product_id가 1인 그룹은 '2019-01-21', '2019-02-10', '2019-03-15' 등의 여러 판매 날짜를 가질 수 있다.
1) [오답] s.sale_date 를 바로 사용할 경우
HAVING s.sale\_date BETWEEN '2019-01-01' AND '2019-03-31’
- sql이 그룹 내의 여러 개의 s.sale_date 중 어떤 날짜를 BETWEEN 날짜 구간과 비교해야할지 알 수 없다. (파이썬의 변수처럼 생각하면 안된다.)
- 따라서 임의로 하나의 날짜를 선택하여 BETWEEN 연산을 하게 된다.
2) [정답] MIN, MAX로 특정값을 지정하여 각각을 2019-01-01와 2019-03-31과 비교해주는 경우
HAVING MIN(sale\_date) >= '2019-01-01' AND MAX(sale\_date) <= '2019-03-31'
- 가장 빠른 날짜(주문한지 가장 오래된 날짜)를 '2019-01-01'와 비교하고
- 가장 최근 날짜를 ‘2019-03-31’와 비교해주어
- 기준일을 지정함으로써 날짜 구간을 지정해준다.
최종 정리
1. 상품 별로 판매 날짜 경우의 수를 다양하게 생각해본다. → 상품id와 날짜를 직접 적어보자!
a. 1분기에만 판매 기록이 있는 경우
b. 1분기와 2분기에 모두 판매 기록이 있는 경우
2. 내가 추출해야하는 데이터는 1-a의 경우이므로
- 1차 기준 : 상품 별 판매 날짜 확인한 뒤
- 2차 기준 : 판매 날짜가 1분기 기간 내에만 있는 경우를 필터링 하기
3. 2번을 해결하려면 어떤 명령어, 함수, 연산자 등이 필요할까?
- 상품 별 판매 날짜 확인 → GROUP BY
- 판매 날짜가 1분기 기간 내에만 있는 경우를 필터링 → HAVING, MIN, MAX
회고
KEEP
- 어려웠던 점과 궁금증을 모두 해결하였고, 최종 정리를 통해 접근 방식을 명확히 리마인드 하였다.
PROBLEM
- 1분기에만 판매된 경우를 필터링하는 과정에 대해 아이디어가 잘 떠오르지 않았다.
TRY
- 문제가 요구하는 바를 명확히 파악하기
- 문제 접근 방식을 차분히 생각하며 한글로 먼저 정리해보기 (시간 압박이 있더라도 이게 더 빠른 길이다!!)
- sql이 작동되는 과정(순서와 방식)을 생각하며 쿼리문 작성해보기
- 비교 연산자 사용 시 항상 비교 대상을 특정해주기