[이코테] 다익스트라 알고리즘, 우선순위 큐, heap 자료구조

코딩테스트

[이코테] 다익스트라 알고리즘, 우선순위 큐, heap 자료구조

binni 2023. 3. 12. 22:43

최단 경로 문제

최단경로 알고리즘이란, 말 그대로 가장 짧은 경로를 찾는 알고리즘이다.

다양한 문제 상황

한 지점에서 다른 한 지점까지의 최단 경로
한 지점에서 다른 모든 지점까지의 최단 경로
모든 지점에서 다른 모든 지점까지의 최단 경로 → 플로이드 워셜 알고리즘

각 지점은 그래프에서 노드로 표현한다. ex) 국가, 도시 등

지점 간 연결된 도로는 그래프에서 간선으로 표현한다.

다익스트라 최단 경로 알고리즘

특정한 노드에서 출발하여 다른 모든 노드로 가는 최단 경로를 계산한다.
음의 간선이 없을 때 정상적으로 동작한다.
그리디 알고리즘으로 분류된다.
- 매 상황에서 가장 비용이 적은 노드를 선택해 임의의 과정을 반복한다.

특징

그리디 : 매 상황에서 방문하지 않은 가장 비용이 적은 노드를 선택해 임의의 과정을 반복한다.
단계를 거치며 한 번 처리된 노드의 최단 거리는 고정되어 더 이상 바뀌지 않는다.
- 한 단계당 하나의 노드에 대한 최단 거리를 확실하게 찾는 것으로 이해할 수 있다.
다익스트라 알고리즘을 수행한 뒤에 테이블에 각 노드까지의 최단 거리 정보가 저장된다.
- 완벽한 형태의 최단 경로를 구하려면 코드에 추가적인 기능을 더 넣어야 한다.

다익스트라 알고리즘 구현

단계마다 방문하지 않은 노드 중에서 최단 거리가 가장 짧은 노드를 선택하기 위해 매 단계마다 1차원 테이블의 모든 원소를 확인(순차 탐색)한다. → 나중에 이 순차탐색 하는 과정에서 O(V) 시간이 걸려서 비효율적
리스트 총 3개
1. graph : 노드, 이 노드와 연결된 노드, 간선 정보 입력받는 리스트
2. visited : 노드를 방문한 적이 있는지 체크하는 리스트, T/F
3. distance : 최단 거리를 기록하는 리스트

import sys
input = sys.stdin.readline
INF = int(1e9) # 무한을 의미하는 값으로 10억을 설정

# 노드의 개수, 간선의 개수를 입력받기
n, m = map(int, input().split())

# 시작 노드 번호를 입력받기
start = int(input())

# 각 노드에 연결되어 있는 노드에 대한 정보를 담는 리스트를 만들기
# [[], [], []]
graph = [[] for i in range(n + 1)]

# 방문한 적이 있는지 체크하는 목적의 리스트를 만들기
visited = [False] * (n + 1)

# 최단 거리 테이블을 모두 무한으로 초기화
distance = [INF] * (n + 1)

# 모든 간선 정보를 입력받기
for _ in range(m):
    a, b, c = map(int, input().split())
    # a번 노드에서 b번 노드로 가는 비용이 c라는 의미
    graph[a].append((b, c))

'''
0 1 2
1 2 3
[[(1, 2)], [(2, 3)], []] 
'''

# 방문하지 않은 노드 중에서, 가장 최단 거리가 짧은 노드의 번호를 반환
def get_smallest_node():
    min_value = INF
    index = 0 # 가장 최단 거리가 짧은 노드(인덱스)
    for i in range(1, n + 1): # 앞에서부터 전부 확인
        if distance[i] < min_value and not visited[i]:
            min_value = distance[i]
            index = i
    return index

def dijkstra(start):
    # 시작 노드에 대해서 초기화
    distance[start] = 0
    visited[start] = True
        # 출발 노드부터 최단 거리 갱신해서 테이블에 저장
    for j in graph[start]: # 노드 정보
        distance[j[0]] = j[1] # 최단 거리 테이블
    # 시작 노드를 제외한 전체 n - 1개의 노드에 대해 반복
    for i in range(n - 1):
        # 현재 최단 거리가 가장 짧은 노드를 꺼내서, 방문 처리
        now = get_smallest_node()
        visited[now] = True
        # 현재 노드와 연결된 다른 노드를 확인
        for j in graph[now]:
                        # cost = 현재 노드 거리 + 연결된 다른 노드 거리
            cost = distance[now] + j[1]
            # 현재 노드를 거쳐서 다른 노드로 이동하는 거리가 더 짧은 경우
            if cost < distance[j[0]]:
                distance[j[0]] = cost

# 다익스트라 알고리즘을 수행
dijkstra(start)

# 모든 노드로 가기 위한 최단 거리를 출력
for i in range(1, n + 1):
    # 도달할 수 없는 경우, 무한(INFINITY)이라고 출력
    if distance[i] == INF:
        print("INFINITY")
    # 도달할 수 있는 경우 거리를 출력
    else:
        print(distance[i])

성능 분석

총 O(V)번에 걸쳐서 최단 거리가 가장 짧은 노드를 매번 선형 탐색을 해야한다.
노드 V, 간선 V for문 두번 사용
→ 따라서 전체 시간복잡도는 $O(V^2)$
일반적으로 코딩테스트의 최단경로 문제에서 전체 노드의 개수가 5000개 이하라면 이 코드로 문제를 해결할 수 있다.
파이썬 기준 1초 약 2000만번 연산 가능
하지만 노드의 개수가 10000개를 넘어가는 문제라면 시간 초과 판정을 받을 수 있다.

heap 자료구조

우선순위 큐를 위해 만들어진 자료구조

예를 들어 여러개의 물건 데이터를 자료구조에 넣었다가 가치가 높은 물건 데이터부터 꺼내서 확인해야 하는 경우에 우선순위 큐를 이용할 수 있다.
- (가치, 물건) 으로 힙에 넣으면 첫번째 원소인 ‘가치’를 기준으로 우선순위를 결정한다.
완전 이진 트리의 일종이다.
여러 값 중, 최대값과 최소값을 빠르게 찾아내도록 만들어진 자료구조로 반정렬 상태이다.
heap 트리는 중복값을 허용한다.

최대 힙과 최소 힙

최대 힙
- 값이 높은 데이터부터 꺼내는 방식
최소 힙
- 값이 낮은 데이터부터 꺼내는 방식

시간복잡도

우선순위 큐 구현 방식	삽입 시간	삭제 시간
리스트	$O(1)$	O(N)
힙	O(logN)	O(logN)

힙 삽입 시 : O(logN) 이 N 번 : O(NlogN)

삭제 시 : O(logN)이 N번 : O(NlogN)

⇒ O(2NlogN) → 총 O(NlogN)

파이썬 heapq 힙 함수

파이썬 heapq 라이브러리는 최소 힙의 형태로 정렬한다.
최대 힙을 구현하고 싶으면 원소에 - 마이너스 부호를 붙인 후에 pop을 할 때 다시 - 부호를 붙여주면 된다.

import sys
import heapq
input = sys.stdin.readline

def heapsort(iterable):
    h = []
    result = []
    # 모든 원소를 차례대로 힙에 삽입
    for value in iterable:
        heapq.heappush(h, value)
                # 최대 힙은 (h, -value)
    # 힙에 삽입된 모든 원소를 차례대로 꺼내어 담기
    for i in range(len(h)):
        result.append(heapq.heappop(h))
                # 최대 힙은 (-heapq.heappop(h))
    return result

n = int(input())
arr = []

for i in range(n):
    arr.append(int(input()))

res = heapsort(arr)

for i in range(n):
    print(res[i])

heap을 출력해보면 결과가 [10, 30, 20, 50, 60]으로 나와서 정렬이 안됐나? 싶을 수 있지만, pop을 할 때 오름차순으로 정렬되어 나온다고 생각하면 된다.

import heapq

heap = []
heapq.heappush(heap, 50)
heapq.heappush(heap, 10)
heapq.heappush(heap, 20)
heapq.heappush(heap, 30)
heapq.heappush(heap, 60)
print(heap) # [10, 30, 20, 50, 60]

print(heapq.heappop(heap)) # 10
print(heapq.heappop(heap)) # 20
print(heapq.heappop(heap)) # 30
print(heapq.heappop(heap)) # 40
print(heapq.heappop(heap)) # 50

개선된 구현 방법

단계마다 방문하지 않은 노드 중에서 최단 거리가 가장 짧은 노드를 선택하기 위해 힙(heap) 자료구조를 이용한다.
다익스트라 알고리즘이 동작하는 기본 원리는 동일하다.
- 현재 가장 가까운 노드를 저장해 놓기 위해 힙 자료구조를 추가적으로 이용한다!
- 현재의 최단 거리가 가장 짧은 노드를 선택해야 하므로 최소 힙을 사용한다.
방문처리가 되었는지 확인하지 않아도 되기 때문에 visited 리스트가 없어도 된다.
매번 현재 상황에서 가장 최단거리가 짧은 노드를 고르기 위한 함수가 사용되지 않아도 된다.

import heapq
import sys
input = sys.stdin.readline
INF = int(1e9) # 무한을 의미하는 값으로 10억을 설정

# 노드의 개수, 간선의 개수를 입력받기
n, m = map(int, input().split())
# 시작 노드 번호를 입력받기
start = int(input())
# 각 노드에 연결되어 있는 노드에 대한 정보를 담는 리스트를 만들기
graph = [[] for i in range(n + 1)]
# 최단 거리 테이블을 모두 무한으로 초기화
distance = [INF] * (n + 1)

# 모든 간선 정보를 입력받기
for _ in range(m):
    a, b, c = map(int, input().split())
    # a번 노드에서 b번 노드로 가는 비용이 c라는 의미
    graph[a].append((b, c))

def dijkstra(start):
    q = []
    # 1번노드에서 -> 1번노드로 가는 거리는 0이기 때문에 0을 먼저 큐에 삽입 (0,시작노드)
    heapq.heappush(q, (0, start))
        # 동일하게 거리를 저장하는 리스트에도 시작노드 거리를 0으로 만들어주기
    distance[start] = 0
    while q: # 큐가 비어있지 않다면
        # 가장 최단 거리가 짧은 노드에 대한 정보 꺼내기(힙이기 때문에)
                # dist = 거리정보(간선) now = 현재 노드와 연결된 노드정보
        dist, now = heapq.heappop(q)
        # 현재 노드가 이미 처리된 적이 있는 노드라면 무시
                # 이미 처리한 노드보다 거리가 크다면 갱신할 필요가 없으니까!
        if distance[now] < dist:
            continue
        # 현재 노드와 연결된 다른 인접한 노드들을 확인
                # graph[1]면 1번째 행을 체크
        for i in graph[now]:
                        # 현재거리(dist) + 1번째 행 리스트 중에서 앞에서 하나하나 돌고 (노드, 비용) 중 i[1]이므로 비용을 꺼낸다.
            cost = dist + i[1]
            # 현재 노드를 거쳐서, 다른 노드로 이동하는 거리가 더 짧은 경우
            if cost < distance[i[0]]:
                distance[i[0]] = cost # 비용 업데이트
                                # (비용, 거리)
                heapq.heappush(q, (cost, i[0]))

# 다익스트라 알고리즘을 수행
dijkstra(start)

# 모든 노드로 가기 위한 최단 거리를 출력
for i in range(1, n + 1):
    # 도달할 수 없는 경우, 무한(INFINITY)이라고 출력
    if distance[i] == INF:
        print("INFINITY")
    # 도달할 수 있는 경우 거리를 출력
    else:
        print(distance[i])

저작자표시

'코딩테스트' 카테고리의 다른 글

[이코테] 플로이드 워셜 알고리즘, 미래 도시 풀이 (1)	2023.04.02
[BOJ] 2839 설탕배달(파이썬) 코드 (0)	2023.03.25
[BOJ] 1932 정수 삼각형 파이썬(+자세한 설명) (0)	2023.02.25
[이코테] 정렬 내장함수 sorted(), sort(), key (0)	2023.02.20
[이코테] 1장 시간복잡도, 파이썬 라이브러리 순열과 조합 (0)	2023.02.20

현재글[이코테] 다익스트라 알고리즘, 우선순위 큐, heap 자료구조

통계학과지만 컴퓨터를 좋아합니다

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 취미는 머신러닝

[이코테] 다익스트라 알고리즘, 우선순위 큐, heap 자료구조

최단 경로 문제

다익스트라 최단 경로 알고리즘

특징

다익스트라 알고리즘 구현

성능 분석

heap 자료구조

최대 힙과 최소 힙

시간복잡도

파이썬 heapq 힙 함수

개선된 구현 방법

'코딩테스트' 카테고리의 다른 글

'코딩테스트'의 다른글

티스토리툴바

[이코테] 다익스트라 알고리즘, 우선순위 큐, heap 자료구조

최단 경로 문제

다익스트라 최단 경로 알고리즘

특징

다익스트라 알고리즘 구현

성능 분석

heap 자료구조

최대 힙과 최소 힙

시간복잡도

파이썬 heapq 힙 함수

개선된 구현 방법

'코딩테스트' 카테고리의 다른 글

'코딩테스트'의 다른글

관련글

티스토리툴바