브렌쏭의 Veritas_Garage

검색 프로세스, Search process 본문

[Project_하다]/[Project_공부]

검색 프로세스, Search process

브렌쏭 2022. 4. 19. 10:40

포괄적으로, 검색이라함은

  • 어떤 기억 매체 중에 축적되어 있는 정보 중에서 필요한 정보를 찾아내는 것을 뜻한다.
  • 우리가 인터넷으로 정보를 보기 위해 키보드 타이핑으로 특정 단어를 검색하여 결과를 도출하게 하는 것을 말한다.
사실 검색(fact retrieval)
주어진 질문에 대해 직접 사실을 구하는 것으로 확정 검색(deterministic retrieval)이라고도 한다.

문헌 검색(document retrieval)
어떤 사실에 관하여 관계되는 문헌명을 찾아내는 행위. 확률 검색(stochastic retrieval)이라고도 한다. 우리가 컴퓨터로 정보를 찾아내는 것은 보통 문헌 검색이다

사실 검색의 경우는 우리가 보편적으로 생각하는 검색이라기 보다는, 조사나 탐구에 가깝다. 따라서 자연스레 우리가 생각하는 것은 문헌 검색이고, 그 중에서도 정보와 데이터 처치에 있어서의 검색을 아라보자.

information search process (ISP) from 위키위키피디아아아

6단계의 탐색 과정을 거쳐 우리는 정보를 찾게 된다.

Stage 1: Initiation

During the first stage, initiation, the information seeker recognizes the need for new information to complete an assignment. As they think more about the topic, they may discuss the topic with others and brainstorm the topic further. This stage of the information seeking process is filled with feelings of apprehension and uncertainty.

시작단계에서, 정보탐색의 주체는 검색의 필요를 느끼게 된다. 뭔가를 해야 하기 때문일 수도 있고, 단순히 알고 싶을 수도 있지만 검색의 필요성을 알게 된다는 점에서 중요하다. 알고 싶은 것에 대해 생각하거나, 다른 사람과 논의를 하기도 한다. 아직은 검색할 내용에 대해 불확실한 상태이다. 중요하진 않다

Stage 2: Selection

In the second stage, selection, the individual begins to decide what topic will be investigated and how to proceed. Some information retrieval may occur at this point, resulting in multiple rounds of query reformulation. The uncertainty associated with the first stage often fades with the selection of a topic, and is replaced with a sense of optimism.

여기도 이제 어떻게 뭘 찾을지 구체화 하는건데 역시나 별 내용 없다.

Stage 3: Exploration

In the third stage, exploration, information on the topic is gathered and a new personal knowledge is created. Students endeavor to locate new information and situate it within their previous understanding of the topic. In this stage, feelings of anxiety may return if the information seeker finds inconsistent or incompatible information.

이거 읽다보니 완전 개인적 인간차원에서의 정보 탐색 프로세스 같다. 

Stage 4: Formulation

During the fourth stage, formulation, the information seeker starts to evaluate the information that has been gathered. At this point, a focused perspective begins to form and there is not as much confusion and uncertainty as in earlier stages. Formulation is considered to be the most important stage of the process. The information seeker will here formulate a personalized construction of the topic from the general information gathered in the exploration phase.

Stage 5: Collection

During the fifth stage, collection, the information seeker knows what is needed to support the focus. Now presented with a clearly focused, personalized topic, the information seeker will experience greater interest, increased confidence, and more successful searching.

Stage 6: Search closure

In the sixth and final stage, search closure, the individual has completed the information search. Now the information seeker will summarize and report on the information that was found through the process. The information seeker will experience a sense of relief and, depending on the fruits of their search, either satisfaction or disappointment.

그래서 스킵한다

다시 원래 하고자 했던 이야기로 돌아가면, 우리는 데이터베이스에서 검색을 하길 원하고 빠르고 정확했으면 좋겠다.

https://docs.microsoft.com/ko-kr/azure/azure-sql/database/data-discovery-and-classification-overview

 

데이터 검색 및 분류 - Azure SQL Database, Azure SQL Managed Instance, and Azure Synapse

Azure SQL Database, Azure SQL Managed Instance 및 Azure Synapse Analytics에 대한 데이터 검색 및 분류

docs.microsoft.com

킹갓소프트의 애져 문서를 보자.

데이터 검색 및 분류는 데이터베이스뿐만 아니라 데이터를 보호하기 위한 SQL Database, SQL Managed Instance, Azure Synapse에 대해 새로운 정보 보호 패러다임을 형성합니다. 현재는 다음 기능을 지원합니다.
  • 검색 및 권장 사항 – 분류 엔진은 데이터베이스를 검사하고 잠재적으로 중요한 데이터가 포함된 열을 식별합니다. 그런 다음, 적절한 분류 권장 사항을 쉽게 검토하고 적용할 뿐만 아니라 수동으로 열을 분류하는 방법을 제공합니다.
  • 레이블 지정 – 민감도 분류 레이블은 열에서 영구적으로 태그가 지정될 수 있습니다.
  • 표시 유형 - 데이터베이스 분류 상태는 규정 준수 및 감사 목적으로 사용하는, 인쇄하거나 내보낼 수 있는 세부 보고서에서 확인할 수 있습니다.

기능에 대한 문서이지만, 검색의 종류에 대해서도 얼핏 알 수 있다.

  • 일단 SQL형식에서 검색은 Column을 지정하고 찾는 것이라는 점이다.
  • 혹은 태그나 메타데이터를 미리 넣어두고 찾는 키워드 검색도 가능하다. 
  • 디렉토리 검색의 경우도 가능은 하겠지만, 폴더구조로 데이터를 적절히 분류하고 지정해서 관리한다는 것은 몹시 어려운 일이다.
  • 따라서 디렉토리 검색은 지원하지 않는 경우가 더 많다. 특히나 클라이언트 단에서는 더더욱 그렇다.

디렉토리 검색은 왜 별로일까 feat. 나무위키

  • 불편하다. - 키워드 검색은 사용하기 정말 편하다. 그냥 자신이 원하는 검색어만 입력하면 그대로 그 검색어와 관련된 문서를 보여준다. 하지만 디렉토리 검색은 자신이 찾고 싶은 문서를 보기 위해 분류 주제를 여러 번 클릭해야 했고, 그 과정은 키워드 검색에 비하면 느리고 귀찮은 과정이었다. 결국 사용자들은 키워드 검색을 선호하게 된다. 당장 위의 예시를 인용하자면, 나무위키에서 야구공과 관련된 정보를 찾고 싶다면 그냥 검색창에 '야구공'이란 글만 치면 자동으로 정보를 볼 수 있다. 하지만 디렉토리 검색으로 찾으려면 '스포츠, 야구, 장비, 공' 이렇게 네 번이나 클릭해서 정보를 찾을 수밖에 없다.
  • 데이터베이스가 클 경우 비효율적이다. - 디렉토리 검색이 2000년대 중반부터는 거의 안 쓰이는 주요 이유이다. 디렉토리 검색은 데이터베이스를 주제별로 쪼개서 사람이 자신이 원하는 자료를 편하게 찾을 수 있을 만큼 보여주는 자료의 범위를 줄여 불편을 줄인다. 이 방식은 데이터베이스에 담긴 문서 수가 몇 십만 장, 또는 몇 백만 장 정도로 비교적 작을 때는 효과적이다. 하지만 데이터베이스의 문서 수가 몇 십억 장, 또는 그 이상으로 불어나면 이야기가 달라진다.

 

  • 새로운 주제에 대한 유연성이 떨어진다. - 디렉토리 검색은 문서를 주제별로 나누는 방식으로 보여주는 문서의 양을 줄인다. 이 때, 기존의 분류로는 나누기 어려운 새로운 주제를 다루는 문서는 어떻게 분류를 할지 애매해지는 문제가 생긴다.
그러니까 보통 우리가 도서관에서 책이 분류되어있는 방식이 곧 디렉토리 방식이라고 생각 할 수 있고, 도서 검색기라는 신문명이 키워드 검색인 것이다. 

 

 

Comments