💡해시 테이블

  • 해시 테이블의 연산은 대부분 분할 상환 분석에 따라 시간 복잡도가 O(1)에 달하는 빠른 연산을 보장한다.
  • 데이터 양에 큰 영향을 받지 않고 연산의 시간 복잡도가 동일하게 작다.

 

💡해시

  • 해시 함수란 어떤 데이터든지 특정 고정 크기로 데이터를 변환할 수 있는 함수를 의미한다.
    • 해시 함수는 주로 무작위화 함수, 손실 압축, 암호, 체크섬 같은 개념과 혼용되서 사용된다.

  • 해싱이란 해시 함수를 활용한 데이터를 저장한 해시 테이블에서 빠르게 인덱싱 하는 작업을 의미한다.
    • 해싱은 데이터를 가능한 빠르게 찾고 저장할 수 있는 기법으로 사용된다.
    • 최적의 검색을 요구하는 기능에 해싱 기술이 사용된다.

  • 좋은 해시 함수의 특징
    • 해시 함수 값 충돌의 최소화
    • 쉽고 빠른 연산
    • 해시 테이블에 해시 값 균일하게 분포
    • 사용할 키의 모든 정보를 활용하여 해싱 작업

  • 함수 값 충돌 최소화에 대한 고찰
    • 생일이 같은 사람이 2명 이상일 확률은 23명만 모여도 50%가 넘는다. 가능성 있는 생일이 365일이기 때문에 366명이 함께 있어서 같은 생일이 2명 이상일 확률이 50%가 넘을 것으로 생각하지만 생각 이상으로 중복이 많다.
    • 증명 (10만번 테스트 가정)
import random

TRIALS - 100000
same_birthday = 0

for _ in range(TRIALS):
	birthdays=[]
    for i in range(23):
    	birthday=random.randint(1,365)	# ==> 365일 중 random 값 추출
        # 현재 birthdays 중에서 같은 숫자가 있으면 same_birthday 업데이트
        if birthday in birthdays:
        	same_birthday += 1
            break
        # 기존 생일 중에 없다면 birthdays 업데이트
        birthdays.append(birthday)
        
# 같은 생일이 나올 확률 출력
print("확률 : {}%".format(same_birthday / TRIALS * 100))
  • 비둘기 집 원리
    • 9개 있는 비둘기 집에 10마리 비둘기들이 온다면 충돌은 1번 일어날 것으로 기대할 수 있다.
    • 하지만 처음 1마리가 들어간 곳으로 9마리 모두 들어가려다가 충돌이 일어날 수 있다. (중복 의미)
  • 로드 팩터
    • 해시 테이블에 저장된 데이터 개수(m)를 버킷의 개수만큼 나눈 것
    • 로드 팩터 값을 통하여 해시 함수가 제 역할을 다하는지 확인할 수 있음
    • 하지만 로드 팩터 값이 증가할 수록 해시 테이블의 성능은 더 감소한다.

 

  •  충돌 에러
    • 해시 함수가 아무리 정교해도 해싱 작업에서 동일한 결과로 충돌한다면, 개별 체이닝 기술을 활용하여 값을 연결리스로 연결 수 있다.
    • 개별 체이닝 기술
      - 키의 해시 값을 계산한다.
      - 해시 값을 활용하여 배열의 인덱스를 구한다.
      - 같은 인덱스가 있을 경우 연결 리스트로 연결한다.
    • 잘 구현할 경우 작업 시간 복잡도가 O(1)로 간단히 끝날 수 있지만 경우에 따라서는 모든 해시들이 충돌을 일으켜 O(n)이 될 수도 있다.

 

💡 로드 팩터

  • 로드 팩터란 해시 테이블의 데이터 개수를 해시 테이블의 전체 버킷의 양으로 나눈 값을 의미
  • 로드 팩터라는 개념을 기준으로 해시 테이블의 공간 재할당 및 크기 조정, 해시 함수 재작성 여부를 판단
  • 보통 로드 팩터의 기본값은 0.75 정도로 잡고 있으며(Java 기준) 로드 팩터의 수치가 올라갈수록 해시 테이블의 성능은 감소

 

💡 해시 함수

  • 해시 함수란 해시 테이블에 데이터를 인덱싱하기 위해 변환하는 함수를 의미
  • 해당 해시 함수로 인덱싱하는 과정을 해싱이라고 부른다.
  • 다양한 알고리즘이 있지만 기본적으로 나눗셈 방식을 의미하는 모듈로 연산으로 정수형 해싱 기법을 적용.
  • 파이썬에서 모듈로 연산은 k % n 로 표기함

 

💡 해시 값 충돌 해결 방법

  1. 개별 체이닝
    • 입력 값의 해시 값이 동일하여 충돌할 경우 기존 해시 값에 연결리스트로 연결하는 방식
    • 해시 테이블 구조의 원형이기도 하며, 가장 전통적인 방식으로 인식
    • 해시 테이블의 크기에 영향 받지 않으며, 무한적으로 저장할 수 있다.
    • 작동 원리
      • 해시 함수를 통해 해시값을 변환한 후 해당 값의 인덱스를 활용하여 값을 확인했을 때, 이미 값이 있다면, 연결 리스트로 연결
  2. 오픈 어드레싱
    • 해시 값 충돌 발생 시 탐사를 통해 빈 공간을 찾아 배정하는 방식
    • 해시 테이블 전체 공간 이상을 저장할 수 없다.
    • 모든 데이터가 중복 없이 해시값과 일치하는 주소에 저장된다.
    • 다양한 알고리즘 방식이 있지만 기본적으로 선형 탐사 방식이 있다
    • 선형 탐사 방식은 충돌이 발생한 해당 위치부터 순차적으로 탐사하며 빈 공간을 찾는다.
    • 전체적으로 간단하고 성능이 좋지만 예상할 수 있는 문제점으로는 충돌 발생한 공간부터 순차적으로 탐사하다 보니 해시값의 인덱스가 특정 공간에 몰릴 수 있는 우려가 있다. 이로 인해 클러스터링 현상이 발생하면서 해싱의 효율을 떨어뜨릴 수 있다.

'Develop > 자료구조' 카테고리의 다른 글

[자료구조] 우선순위 큐 구현  (0) 2023.01.17

💡우선순위 큐

  • 기존 큐, 스택과 같은 자료구조와 비슷한 추상 자료형이지만 특별히, 각 요소의 우선순위와 연관돼 있다.
  • 우선순위 큐는 특정 조건인 우선순위에 따라 값을 추출하는 자료구조다.
  • 대표 예시로 최대값 추출을 들 수 있다
    • [1,4,2,7,3] 이라는 값에서 최대값을 추출하는 우선순위 큐가 있다고 가정하면, 남아 있는 값들의 최대값을 우선순위로 추출하여 7, 4, 3, 2, 1 순으로 추출 될 것이다.
  • 여기서 시간복잡도의 개념을 고려하면 기본 정렬 기능을 통해 O(n) 시간복잡도를 기대할 수 있다.
  • 하지만 더 효율적인 방법으로 힙 정렬 등 힙 자료구조와 연동으로 새로운 접근도 가능할 수 있다는 사실을 인지하자.

 

💡우선순위 큐 활용 문제

  • k개의 정렬된 리스트를 1개의 리스트(정렬된 상태)로 병합하기
    (Merge all the linked-lists into one sorted linked-list and return it.)
  • 예시
Input: lists = [[1,4,5],[1,3,4],[2,6]]
Output: [1,1,2,3,4,4,5,6]
Explanation: The linked-lists are:
[
  1->4->5,
  1->3->4,
  2->6
]
merging them into one sorted list:
1->1->2->3->4->4->5->6

 

💡우선순위 큐 아닌 단순 풀이

  • 나만의 풀이
  • 리트코드에서는 통과할 수 없다.
  • 왜냐면 input 값으로 들어오는 lists값이 ListNode라는 연결리스트 자료구조이기 때문에 단순 List로 해결 X
def simple_solution(lists):
	"""
    :type lists: List[ListNode]
    :rtype: ListNode
    """
    total_values=[]
    for each_list in lists:
        total_values.extend(each_list)
    total_values.sort()
    return total_values

 

💡우선순위 큐 구현

  • 우선순위 큐는 heapq 자료구조와 관련이 깊다
  • python은 PriorityQueue 클래스를 지원하고 있지만 이 클래스 내부에서도 heapq 모듈을 활용하여 우선순위 큐를 구현하고 있다.
  • PriorityQueue 클래스는 멀티 스레드 활용 시 스레드 세이프 기능을 제공하고 있어 스레드 활용 프로그래밍 시 안전한 작동을 보장한다.
  • 하지만 실제 파이썬 특성상 멀티 스레드 활용 시 세이프 기능이 큰 의미가 없으며, 활용도가 낮다.
  • 그래서 대부분 heapq를 활용하여 구현한다.
  • heap 자료구조는 최소값을 가지고 올 수 있고, heappop 실행할 때마다 내부 값을 재정렬한다.
from heapq import heappush, heappop

# Definition for singly-linked list.

class ListNode(object):
    def __init__(self, val=0, next=None):
        self.val = val
        self.next = next

class Solution(object):
    def mergeKLists(self, lists):
        """
        :type lists: List[ListNode]
        :rtype: ListNode
        """
        # 초기 값이 [None, None] 이 상태로 들어간다
        root = result = ListNode(None)
        """
        print(result.val)   # ==> None
        print(result.next)  # ==> None
        """
        heap = []

        # 각 연결 리스트의 루트를 힙에 저장한다
        for i, lst in enumerate(lists):
            # 이 말은 lists 노드의 i번째 값이 있으면(None이 아니면)
            if lists[i]:
                # heappush의 인자값이 중복이 있다면, 에러를 발생하기 때문에
                # 중복된 값을 구분할 수 있는 추가 인자값이 필요하다.
                # heappush 활용해서 값을 추가할 때 heap 정렬의 구조에 따라 들어가는걸 확인할 수 있음
                heappush(heap, (lists[i].val, i, lists[i]))
                """
                Input : [ListNode([1,4,5]),ListNode([1,3,4]),ListNode([2,6])]

                Output :
                [([1, 3, 4], 1, <__main__.ListNode object at 0x0371A590>), 
                 ([1, 4, 5], 0, <__main__.ListNode object at 0x0371A570>), 
                 ([2, 6], 2, <__main__.ListNode object at 0x0371A1F0>)]
                """
        
        # heap 자료구조 안에 데이터가 다 없어질때까지 로직 구현
        while heap:

            # heappop으로 값을 가져오면 가장 작은 노드의 연결 리스트부터 차례대로 나온다.
            # 여기서 node는 tuple type  ex) ([2, 6], 2, <__main__.ListNode object at 0x0371A1F0>)
            node = heappop(heap)
            # 위에서 설정한 연결 리스트의 index값
            idx = node[1]
            # 연결 리스트로 정의된 객체 자체를 정답 값으로 업데이트
            result.next = node[2]   # => ex) <__main__.ListNode object at 0x0371A1F0>
            
            # result 값 갱신
            result = result.next
            
            if result.next:
                # heap 자료구조에 다시 추가한다.
                heappush(heap, (result.next.val, idx, result.next))

'Develop > 자료구조' 카테고리의 다른 글

[자료구조] 해시 테이블 기본 개념  (0) 2023.01.18

+ Recent posts