코딩테스트

[이코테] 다익스트라 알고리즘, 우선순위 큐, heap 자료구조

binni 2023. 3. 12. 22:43

최단 경로 문제

최단경로 알고리즘이란, 말 그대로 가장 짧은 경로를 찾는 알고리즘이다.

다양한 문제 상황

  • 한 지점에서 다른 한 지점까지의 최단 경로
  • 한 지점에서 다른 모든 지점까지의 최단 경로
  • 모든 지점에서 다른 모든 지점까지의 최단 경로 → 플로이드 워셜 알고리즘

각 지점은 그래프에서 노드로 표현한다. ex) 국가, 도시 등

지점 간 연결된 도로는 그래프에서 간선으로 표현한다.

다익스트라 최단 경로 알고리즘

  • 특정한 노드에서 출발하여 다른 모든 노드로 가는 최단 경로를 계산한다.
  • 음의 간선이 없을 때 정상적으로 동작한다.
  • 그리디 알고리즘으로 분류된다.
    • 매 상황에서 가장 비용이 적은 노드를 선택해 임의의 과정을 반복한다.

특징

  • 그리디 : 매 상황에서 방문하지 않은 가장 비용이 적은 노드를 선택해 임의의 과정을 반복한다.
  • 단계를 거치며 한 번 처리된 노드의 최단 거리는 고정되어 더 이상 바뀌지 않는다.
    • 한 단계당 하나의 노드에 대한 최단 거리를 확실하게 찾는 것으로 이해할 수 있다.
  • 다익스트라 알고리즘을 수행한 뒤에 테이블에 각 노드까지의 최단 거리 정보가 저장된다.
    • 완벽한 형태의 최단 경로를 구하려면 코드에 추가적인 기능을 더 넣어야 한다.

다익스트라 알고리즘 구현

  • 단계마다 방문하지 않은 노드 중에서 최단 거리가 가장 짧은 노드를 선택하기 위해 매 단계마다 1차원 테이블의 모든 원소를 확인(순차 탐색)한다. → 나중에 이 순차탐색 하는 과정에서 O(V) 시간이 걸려서 비효율적
  • 리스트 총 3개
    1. graph : 노드, 이 노드와 연결된 노드, 간선 정보 입력받는 리스트
    2. visited : 노드를 방문한 적이 있는지 체크하는 리스트, T/F
    3. distance : 최단 거리를 기록하는 리스트
import sys
input = sys.stdin.readline
INF = int(1e9) # 무한을 의미하는 값으로 10억을 설정

# 노드의 개수, 간선의 개수를 입력받기
n, m = map(int, input().split())

# 시작 노드 번호를 입력받기
start = int(input())

# 각 노드에 연결되어 있는 노드에 대한 정보를 담는 리스트를 만들기
# [[], [], []]
graph = [[] for i in range(n + 1)]

# 방문한 적이 있는지 체크하는 목적의 리스트를 만들기
visited = [False] * (n + 1)

# 최단 거리 테이블을 모두 무한으로 초기화
distance = [INF] * (n + 1)

# 모든 간선 정보를 입력받기
for _ in range(m):
    a, b, c = map(int, input().split())
    # a번 노드에서 b번 노드로 가는 비용이 c라는 의미
    graph[a].append((b, c))

'''
0 1 2
1 2 3
[[(1, 2)], [(2, 3)], []] 
'''

# 방문하지 않은 노드 중에서, 가장 최단 거리가 짧은 노드의 번호를 반환
def get_smallest_node():
    min_value = INF
    index = 0 # 가장 최단 거리가 짧은 노드(인덱스)
    for i in range(1, n + 1): # 앞에서부터 전부 확인
        if distance[i] < min_value and not visited[i]:
            min_value = distance[i]
            index = i
    return index

def dijkstra(start):
    # 시작 노드에 대해서 초기화
    distance[start] = 0
    visited[start] = True
        # 출발 노드부터 최단 거리 갱신해서 테이블에 저장
    for j in graph[start]: # 노드 정보
        distance[j[0]] = j[1] # 최단 거리 테이블
    # 시작 노드를 제외한 전체 n - 1개의 노드에 대해 반복
    for i in range(n - 1):
        # 현재 최단 거리가 가장 짧은 노드를 꺼내서, 방문 처리
        now = get_smallest_node()
        visited[now] = True
        # 현재 노드와 연결된 다른 노드를 확인
        for j in graph[now]:
                        # cost = 현재 노드 거리 + 연결된 다른 노드 거리
            cost = distance[now] + j[1]
            # 현재 노드를 거쳐서 다른 노드로 이동하는 거리가 더 짧은 경우
            if cost < distance[j[0]]:
                distance[j[0]] = cost

# 다익스트라 알고리즘을 수행
dijkstra(start)

# 모든 노드로 가기 위한 최단 거리를 출력
for i in range(1, n + 1):
    # 도달할 수 없는 경우, 무한(INFINITY)이라고 출력
    if distance[i] == INF:
        print("INFINITY")
    # 도달할 수 있는 경우 거리를 출력
    else:
        print(distance[i])

성능 분석

  • 총 O(V)번에 걸쳐서 최단 거리가 가장 짧은 노드를 매번 선형 탐색을 해야한다.
  • 노드 V, 간선 V for문 두번 사용
  • → 따라서 전체 시간복잡도는 $O(V^2)$
  • 일반적으로 코딩테스트의 최단경로 문제에서 전체 노드의 개수가 5000개 이하라면 이 코드로 문제를 해결할 수 있다.
  • 파이썬 기준 1초 약 2000만번 연산 가능
  • 하지만 노드의 개수가 10000개를 넘어가는 문제라면 시간 초과 판정을 받을 수 있다.

heap 자료구조

  • 우선순위 큐를 위해 만들어진 자료구조
  • 예를 들어 여러개의 물건 데이터를 자료구조에 넣었다가 가치가 높은 물건 데이터부터 꺼내서 확인해야 하는 경우에 우선순위 큐를 이용할 수 있다.
    • (가치, 물건) 으로 힙에 넣으면 첫번째 원소인 ‘가치’를 기준으로 우선순위를 결정한다.
  • 완전 이진 트리의 일종이다.
  • 여러 값 중, 최대값과 최소값을 빠르게 찾아내도록 만들어진 자료구조로 반정렬 상태이다.
  • heap 트리는 중복값을 허용한다.

최대 힙과 최소 힙

  • 최대 힙
    • 값이 높은 데이터부터 꺼내는 방식
  • 최소 힙
    • 값이 낮은 데이터부터 꺼내는 방식

시간복잡도

우선순위 큐 구현 방식 삽입 시간 삭제 시간
리스트 $O(1)$ O(N)
O(logN) O(logN)

힙 삽입 시 : O(logN) 이 N 번 : O(NlogN)

삭제 시 : O(logN)이 N번 : O(NlogN)

⇒ O(2NlogN) → 총 O(NlogN)

파이썬 heapq 힙 함수

  • 파이썬 heapq 라이브러리는 최소 힙의 형태로 정렬한다.
  • 최대 힙을 구현하고 싶으면 원소에 - 마이너스 부호를 붙인 후에 pop을 할 때 다시 - 부호를 붙여주면 된다.
import sys
import heapq
input = sys.stdin.readline

def heapsort(iterable):
    h = []
    result = []
    # 모든 원소를 차례대로 힙에 삽입
    for value in iterable:
        heapq.heappush(h, value)
                # 최대 힙은 (h, -value)
    # 힙에 삽입된 모든 원소를 차례대로 꺼내어 담기
    for i in range(len(h)):
        result.append(heapq.heappop(h))
                # 최대 힙은 (-heapq.heappop(h))
    return result

n = int(input())
arr = []

for i in range(n):
    arr.append(int(input()))

res = heapsort(arr)

for i in range(n):
    print(res[i])
  • heap을 출력해보면 결과가 [10, 30, 20, 50, 60]으로 나와서 정렬이 안됐나? 싶을 수 있지만, pop을 할 때 오름차순으로 정렬되어 나온다고 생각하면 된다.
import heapq

heap = []
heapq.heappush(heap, 50)
heapq.heappush(heap, 10)
heapq.heappush(heap, 20)
heapq.heappush(heap, 30)
heapq.heappush(heap, 60)
print(heap) # [10, 30, 20, 50, 60]

print(heapq.heappop(heap)) # 10
print(heapq.heappop(heap)) # 20
print(heapq.heappop(heap)) # 30
print(heapq.heappop(heap)) # 40
print(heapq.heappop(heap)) # 50

개선된 구현 방법

  • 단계마다 방문하지 않은 노드 중에서 최단 거리가 가장 짧은 노드를 선택하기 위해 힙(heap) 자료구조를 이용한다.
  • 다익스트라 알고리즘이 동작하는 기본 원리는 동일하다.
    • 현재 가장 가까운 노드를 저장해 놓기 위해 힙 자료구조를 추가적으로 이용한다!
    • 현재의 최단 거리가 가장 짧은 노드를 선택해야 하므로 최소 힙을 사용한다.
  • 방문처리가 되었는지 확인하지 않아도 되기 때문에 visited 리스트가 없어도 된다.
  • 매번 현재 상황에서 가장 최단거리가 짧은 노드를 고르기 위한 함수가 사용되지 않아도 된다.
import heapq
import sys
input = sys.stdin.readline
INF = int(1e9) # 무한을 의미하는 값으로 10억을 설정

# 노드의 개수, 간선의 개수를 입력받기
n, m = map(int, input().split())
# 시작 노드 번호를 입력받기
start = int(input())
# 각 노드에 연결되어 있는 노드에 대한 정보를 담는 리스트를 만들기
graph = [[] for i in range(n + 1)]
# 최단 거리 테이블을 모두 무한으로 초기화
distance = [INF] * (n + 1)

# 모든 간선 정보를 입력받기
for _ in range(m):
    a, b, c = map(int, input().split())
    # a번 노드에서 b번 노드로 가는 비용이 c라는 의미
    graph[a].append((b, c))

def dijkstra(start):
    q = []
    # 1번노드에서 -> 1번노드로 가는 거리는 0이기 때문에 0을 먼저 큐에 삽입 (0,시작노드)
    heapq.heappush(q, (0, start))
        # 동일하게 거리를 저장하는 리스트에도 시작노드 거리를 0으로 만들어주기
    distance[start] = 0
    while q: # 큐가 비어있지 않다면
        # 가장 최단 거리가 짧은 노드에 대한 정보 꺼내기(힙이기 때문에)
                # dist = 거리정보(간선) now = 현재 노드와 연결된 노드정보
        dist, now = heapq.heappop(q)
        # 현재 노드가 이미 처리된 적이 있는 노드라면 무시
                # 이미 처리한 노드보다 거리가 크다면 갱신할 필요가 없으니까!
        if distance[now] < dist:
            continue
        # 현재 노드와 연결된 다른 인접한 노드들을 확인
                # graph[1]면 1번째 행을 체크
        for i in graph[now]:
                        # 현재거리(dist) + 1번째 행 리스트 중에서 앞에서 하나하나 돌고 (노드, 비용) 중 i[1]이므로 비용을 꺼낸다.
            cost = dist + i[1]
            # 현재 노드를 거쳐서, 다른 노드로 이동하는 거리가 더 짧은 경우
            if cost < distance[i[0]]:
                distance[i[0]] = cost # 비용 업데이트
                                # (비용, 거리)
                heapq.heappush(q, (cost, i[0]))

# 다익스트라 알고리즘을 수행
dijkstra(start)

# 모든 노드로 가기 위한 최단 거리를 출력
for i in range(1, n + 1):
    # 도달할 수 없는 경우, 무한(INFINITY)이라고 출력
    if distance[i] == INF:
        print("INFINITY")
    # 도달할 수 있는 경우 거리를 출력
    else:
        print(distance[i])