'Develop/자료구조' 카테고리의 글 목록

Develop/자료구조

[자료구조] 해시 테이블 기본 개념 2023.01.18
[자료구조] 우선순위 큐 구현 2023.01.17

[자료구조] 해시 테이블 기본 개념

2023. 1. 18. 17:53

💡해시 테이블

해시 테이블의 연산은 대부분 분할 상환 분석에 따라 시간 복잡도가 O(1)에 달하는 빠른 연산을 보장한다.
데이터 양에 큰 영향을 받지 않고 연산의 시간 복잡도가 동일하게 작다.

💡해시

해시 함수란 어떤 데이터든지 특정 고정 크기로 데이터를 변환할 수 있는 함수를 의미한다.
- 해시 함수는 주로 무작위화 함수, 손실 압축, 암호, 체크섬 같은 개념과 혼용되서 사용된다.
해싱이란 해시 함수를 활용한 데이터를 저장한 해시 테이블에서 빠르게 인덱싱 하는 작업을 의미한다.
- 해싱은 데이터를 가능한 빠르게 찾고 저장할 수 있는 기법으로 사용된다.
- 최적의 검색을 요구하는 기능에 해싱 기술이 사용된다.
좋은 해시 함수의 특징
- 해시 함수 값 충돌의 최소화
- 쉽고 빠른 연산
- 해시 테이블에 해시 값 균일하게 분포
- 사용할 키의 모든 정보를 활용하여 해싱 작업
함수 값 충돌 최소화에 대한 고찰
- 생일이 같은 사람이 2명 이상일 확률은 23명만 모여도 50%가 넘는다. 가능성 있는 생일이 365일이기 때문에 366명이 함께 있어서 같은 생일이 2명 이상일 확률이 50%가 넘을 것으로 생각하지만 생각 이상으로 중복이 많다.
- 증명 (10만번 테스트 가정)

import random

TRIALS - 100000
same_birthday = 0

for _ in range(TRIALS):
	birthdays=[]
    for i in range(23):
    	birthday=random.randint(1,365)	# ==> 365일 중 random 값 추출
        # 현재 birthdays 중에서 같은 숫자가 있으면 same_birthday 업데이트
        if birthday in birthdays:
        	same_birthday += 1
            break
        # 기존 생일 중에 없다면 birthdays 업데이트
        birthdays.append(birthday)
        
# 같은 생일이 나올 확률 출력
print("확률 : {}%".format(same_birthday / TRIALS * 100))

비둘기 집 원리
- 9개 있는 비둘기 집에 10마리 비둘기들이 온다면 충돌은 1번 일어날 것으로 기대할 수 있다.
- 하지만 처음 1마리가 들어간 곳으로 9마리 모두 들어가려다가 충돌이 일어날 수 있다. (중복 의미)
로드 팩터
- 해시 테이블에 저장된 데이터 개수(m)를 버킷의 개수만큼 나눈 것
- 로드 팩터 값을 통하여 해시 함수가 제 역할을 다하는지 확인할 수 있음
- 하지만 로드 팩터 값이 증가할 수록 해시 테이블의 성능은 더 감소한다.

충돌 에러
- 해시 함수가 아무리 정교해도 해싱 작업에서 동일한 결과로 충돌한다면, 개별 체이닝 기술을 활용하여 값을 연결리스로 연결 수 있다.
- 개별 체이닝 기술
  - 키의 해시 값을 계산한다.
  - 해시 값을 활용하여 배열의 인덱스를 구한다.
  - 같은 인덱스가 있을 경우 연결 리스트로 연결한다.
- 잘 구현할 경우 작업 시간 복잡도가 O(1)로 간단히 끝날 수 있지만 경우에 따라서는 모든 해시들이 충돌을 일으켜 O(n)이 될 수도 있다.

💡 로드 팩터

로드 팩터란 해시 테이블의 데이터 개수를 해시 테이블의 전체 버킷의 양으로 나눈 값을 의미
로드 팩터라는 개념을 기준으로 해시 테이블의 공간 재할당 및 크기 조정, 해시 함수 재작성 여부를 판단
보통 로드 팩터의 기본값은 0.75 정도로 잡고 있으며(Java 기준) 로드 팩터의 수치가 올라갈수록 해시 테이블의 성능은 감소

💡 해시 함수

해시 함수란 해시 테이블에 데이터를 인덱싱하기 위해 변환하는 함수를 의미
해당 해시 함수로 인덱싱하는 과정을 해싱이라고 부른다.
다양한 알고리즘이 있지만 기본적으로 나눗셈 방식을 의미하는 모듈로 연산으로 정수형 해싱 기법을 적용.
파이썬에서 모듈로 연산은 k % n 로 표기함

💡 해시 값 충돌 해결 방법

개별 체이닝
- 입력 값의 해시 값이 동일하여 충돌할 경우 기존 해시 값에 연결리스트로 연결하는 방식
- 해시 테이블 구조의 원형이기도 하며, 가장 전통적인 방식으로 인식
- 해시 테이블의 크기에 영향 받지 않으며, 무한적으로 저장할 수 있다.
- 작동 원리
  - 해시 함수를 통해 해시값을 변환한 후 해당 값의 인덱스를 활용하여 값을 확인했을 때, 이미 값이 있다면, 연결 리스트로 연결
오픈 어드레싱
- 해시 값 충돌 발생 시 탐사를 통해 빈 공간을 찾아 배정하는 방식
- 해시 테이블 전체 공간 이상을 저장할 수 없다.
- 모든 데이터가 중복 없이 해시값과 일치하는 주소에 저장된다.
- 다양한 알고리즘 방식이 있지만 기본적으로 선형 탐사 방식이 있다
- 선형 탐사 방식은 충돌이 발생한 해당 위치부터 순차적으로 탐사하며 빈 공간을 찾는다.
- 전체적으로 간단하고 성능이 좋지만 예상할 수 있는 문제점으로는 충돌 발생한 공간부터 순차적으로 탐사하다 보니 해시값의 인덱스가 특정 공간에 몰릴 수 있는 우려가 있다. 이로 인해 클러스터링 현상이 발생하면서 해싱의 효율을 떨어뜨릴 수 있다.

저작자표시

'Develop > 자료구조' 카테고리의 다른 글

[자료구조] 우선순위 큐 구현 (0)	2023.01.17

[자료구조] 우선순위 큐 구현

2023. 1. 17. 00:22

💡우선순위 큐

기존 큐, 스택과 같은 자료구조와 비슷한 추상 자료형이지만 특별히, 각 요소의 우선순위와 연관돼 있다.
우선순위 큐는 특정 조건인 우선순위에 따라 값을 추출하는 자료구조다.
대표 예시로 최대값 추출을 들 수 있다
- [1,4,2,7,3] 이라는 값에서 최대값을 추출하는 우선순위 큐가 있다고 가정하면, 남아 있는 값들의 최대값을 우선순위로 추출하여 7, 4, 3, 2, 1 순으로 추출 될 것이다.
여기서 시간복잡도의 개념을 고려하면 기본 정렬 기능을 통해 O(n) 시간복잡도를 기대할 수 있다.
하지만 더 효율적인 방법으로 힙 정렬 등 힙 자료구조와 연동으로 새로운 접근도 가능할 수 있다는 사실을 인지하자.

💡우선순위 큐 활용 문제

k개의 정렬된 리스트를 1개의 리스트(정렬된 상태)로 병합하기
(Merge all the linked-lists into one sorted linked-list and return it.)
예시

Input: lists = [[1,4,5],[1,3,4],[2,6]]
Output: [1,1,2,3,4,4,5,6]
Explanation: The linked-lists are:
[
  1->4->5,
  1->3->4,
  2->6
]
merging them into one sorted list:
1->1->2->3->4->4->5->6

💡우선순위 큐 아닌 단순 풀이

나만의 풀이
리트코드에서는 통과할 수 없다.
왜냐면 input 값으로 들어오는 lists값이 ListNode라는 연결리스트 자료구조이기 때문에 단순 List로 해결 X

def simple_solution(lists):
	"""
    :type lists: List[ListNode]
    :rtype: ListNode
    """
    total_values=[]
    for each_list in lists:
        total_values.extend(each_list)
    total_values.sort()
    return total_values

💡우선순위 큐 구현

우선순위 큐는 heapq 자료구조와 관련이 깊다
python은 PriorityQueue 클래스를 지원하고 있지만 이 클래스 내부에서도 heapq 모듈을 활용하여 우선순위 큐를 구현하고 있다.
PriorityQueue 클래스는 멀티 스레드 활용 시 스레드 세이프 기능을 제공하고 있어 스레드 활용 프로그래밍 시 안전한 작동을 보장한다.
하지만 실제 파이썬 특성상 멀티 스레드 활용 시 세이프 기능이 큰 의미가 없으며, 활용도가 낮다.
그래서 대부분 heapq를 활용하여 구현한다.
heap 자료구조는 최소값을 가지고 올 수 있고, heappop 실행할 때마다 내부 값을 재정렬한다.

from heapq import heappush, heappop

# Definition for singly-linked list.

class ListNode(object):
    def __init__(self, val=0, next=None):
        self.val = val
        self.next = next

class Solution(object):
    def mergeKLists(self, lists):
        """
        :type lists: List[ListNode]
        :rtype: ListNode
        """
        # 초기 값이 [None, None] 이 상태로 들어간다
        root = result = ListNode(None)
        """
        print(result.val)   # ==> None
        print(result.next)  # ==> None
        """
        heap = []

        # 각 연결 리스트의 루트를 힙에 저장한다
        for i, lst in enumerate(lists):
            # 이 말은 lists 노드의 i번째 값이 있으면(None이 아니면)
            if lists[i]:
                # heappush의 인자값이 중복이 있다면, 에러를 발생하기 때문에
                # 중복된 값을 구분할 수 있는 추가 인자값이 필요하다.
                # heappush 활용해서 값을 추가할 때 heap 정렬의 구조에 따라 들어가는걸 확인할 수 있음
                heappush(heap, (lists[i].val, i, lists[i]))
                """
                Input : [ListNode([1,4,5]),ListNode([1,3,4]),ListNode([2,6])]

                Output :
                [([1, 3, 4], 1, <__main__.ListNode object at 0x0371A590>), 
                 ([1, 4, 5], 0, <__main__.ListNode object at 0x0371A570>), 
                 ([2, 6], 2, <__main__.ListNode object at 0x0371A1F0>)]
                """
        
        # heap 자료구조 안에 데이터가 다 없어질때까지 로직 구현
        while heap:

            # heappop으로 값을 가져오면 가장 작은 노드의 연결 리스트부터 차례대로 나온다.
            # 여기서 node는 tuple type  ex) ([2, 6], 2, <__main__.ListNode object at 0x0371A1F0>)
            node = heappop(heap)
            # 위에서 설정한 연결 리스트의 index값
            idx = node[1]
            # 연결 리스트로 정의된 객체 자체를 정답 값으로 업데이트
            result.next = node[2]   # => ex) <__main__.ListNode object at 0x0371A1F0>
            
            # result 값 갱신
            result = result.next
            
            if result.next:
                # heap 자료구조에 다시 추가한다.
                heappush(heap, (result.next.val, idx, result.next))

저작자표시

'Develop > 자료구조' 카테고리의 다른 글

[자료구조] 해시 테이블 기본 개념 (0)	2023.01.18

PREV 이전 1 NEXT 다음

Like Sherlock Data Scientist

Develop/자료구조

[자료구조] 해시 테이블 기본 개념

💡해시 테이블

💡해시

💡 로드 팩터

💡 해시 함수

💡 해시 값 충돌 해결 방법

'Develop > 자료구조' 카테고리의 다른 글

[자료구조] 우선순위 큐 구현

💡우선순위 큐

💡우선순위 큐 활용 문제

💡우선순위 큐 아닌 단순 풀이

💡우선순위 큐 구현

'Develop > 자료구조' 카테고리의 다른 글

+ Recent posts

티스토리툴바