문자열 검색

초록

이 문서는 더 높은 상호 운용성을 가능하게 하기 위해 웹에서의 문자열 검색 작업을 설명합니다. 문자열 검색은 웹 브라우저의 "찾기" 명령과 같은 자연어 문자열 매칭을 가리킵니다. 이 문서는 Character Model for the World Wide Web 1.0: Fundamentals [CHARMOD] 및 Character Model for the World Wide Web 1.0: String Matching [CHARMOD-NORM]에서 찾을 수 있는 개념을 바탕으로, 전 세계 사용자를 대상으로 하는 검색 기능을 설명하고 구현하는 데 필요한 정보를 명세 작성자, 소프트웨어 개발자, 콘텐츠 개발자에게 제공합니다.

웹 사용자는 줄 단위로 읽지 않고도 문서 또는 문서 모음에서 특정 텍스트를 검색하고자 하는 경우가 많습니다. 명세는 때때로 웹 플랫폼에 텍스트 검색을 노출함으로써 이러한 요구를 지원하려고 합니다.

문서 검색에는 여러 유형이 있습니다. 그중 하나는 전문 검색이라고 하며, 검색 엔진과 같은 애플리케이션에서 가장 자주 볼 수 있는 검색 유형입니다. 이러한 유형의 검색은 복잡하고, 자원을 많이 사용할 수 있으며, 주어진 검색 요청의 범위를 벗어나는 과정에 의존하는 경우가 많습니다.

더 제한적인 형태의 텍스트 검색(이 문서의 주제)은 부분 문자열 매칭입니다. 부분 문자열 매칭의 익숙한 형태 중 하나는 브라우저와 다른 유형의 사용자 에이전트에 있는 찾기 기능입니다. 물리적 키보드가 있는 사용자 에이전트에서는 이 기능이 흔히 Cmd+F 또는 Ctrl+F와 같은 키 조합으로 접근됩니다. 이러한 기능은 웹에서 현재 완전히 표준화되어 있지 않은 API window.find 또는 제안된 [SCROLL-TO-TEXT-FRAGMENT]와 같은 기능을 통해 노출될 수 있습니다.

참고

찾기 작업은 매칭 동작을 개선하거나 맞춤화하기 위한 선택적 메커니즘을 제공할 수 있습니다. 예를 들어 대소문자 구분을 추가(또는 제거)하는 기능, 와일드카드 문자와 같은 정규 표현식 언어의 다양한 측면을 지원하는지 여부, 또는 매칭을 전체 단어로 제한할지 여부가 있습니다.

부분 문자열 매칭이 보통 전문 검색과 다른 한 가지 점은, 텍스트 변이를 억제하거나 무시하기 위해 다양한 알고리즘을 사용할 수는 있지만, 보통 어간 추출이나 기타 NLP 과정에서 생기는 것처럼 추가적이거나 명시되지 않은 문자 시퀀스, 단어 또는 구를 포함하는 매칭 결과를 생성하지는 않는다는 점입니다.

부분 문자열 매칭을 표준화하려고 할 때, 명세 작성자는 컴퓨터 시스템에서 자연 언어를 인코딩하는 데 내재한 복잡성, 특히 [Unicode] 표준에서 문자를 인코딩하기 위해 사용되는 다양한 메커니즘을 포함한 복잡성으로 인해 종종 어려움을 겪습니다.

매우 자주, 사용자의 입력은 검색 대상 문서에서 사용된 것과 정확히 같은 코드 포인트 시퀀스로 구성되지 않지만, 사용자는 여전히 매칭이 일어나기를 기대합니다. 이는 다양한 이유로 발생할 수 있습니다. 때로는 검색 대상 텍스트가 사용자가 예측할 수 없었던 방식으로 달라지기 때문입니다. 다른 경우에는 사용자의 키보드나 입력 방식이 필요한 텍스트 변이에 바로 접근할 수 있게 해 주지 않기 때문입니다. 심지어 사용자가 텍스트를 정확하게 입력하는 수고를 하려 하지 않기 때문일 수도 있습니다.

이 절에서는 명세 작성자가 부분 문자열 매칭 API 또는 메커니즘을 명세할 때 고려해야 하는 것으로 알려진 여러 일반적인 사례를 살펴봅니다.

검색어가 문서나 코퍼스의 특정 부분과 매칭되는지에 대한 사용자의 기대는 때때로 사용자의 언어, 문서의 언어, 또는 둘 모두에 따라 달라집니다. 또한 특정 장치에서 사용할 수 있는 키보드나 입력 방식과 같은 다른 요소가 관련될 수도 있습니다. 이는 대소문자 폴딩과 같이 검색의 일부인 여러 작업이 로캘의 영향을 받거나, 인간 언어와 문화의 복잡성으로 인해 특정 문자 체계 안에서도 다양한 문자 시퀀스의 매칭, 사용, 해석에 대한 기대가 달라지기 때문일 수 있습니다. 마찬가지로 악센트, 대체 문자 체계, 또는 문자 인코딩(예: 그래핌 클러스터 형성 방식의 변이)의 처리는 해당 텍스트의 특정 언어와 연결되어 있습니다.

여기서 우리가 의미하는 것은 언어이지 문자 체계가 아니라는 점을 강조하는 것이 중요합니다. 같은 문자 체계를 공유하는 여러 다른 언어도 서로 다른 처리를 적용하거나 서로 다른 기대를 내포합니다.

"찾기" 기능의 구현은 종종 사용자의 입력만을 바탕으로, 또는 운영 환경 로캘, 사용자 에이전트의 현지화, 활성 키보드의 언어와 같은 런타임 환경의 여러 "힌트"를 바탕으로 사용자가 의도한 언어를 추측해야 합니다. 이러한 힌트는 기껏해야 사용자의 의도에 대한 대용물이며, 특히 사용자가 이러한 힌트와 일치하지 않는 문서를 검색하거나 검색 대상 문서에 둘 이상의 언어가 포함되어 있을 때 그렇습니다.

예제 1: 사용자 기대와 사용자 언어의 상호작용

서로 다른 언어는 a, ae, ä라는 문자 조합을 다르게 취급합니다. 영어 화자는 ae가 a 및 ä와 다르다고 기대합니다. ä는 외래 문자이므로, 보통 표시가 없는 a와 매칭되기를 기대합니다. 독일어 화자는 ae와 ä가 동등하다고(그리고 a와는 다르다고) 기대합니다. 핀란드어 화자는 세 가지 모두를 별개로 기대합니다.

이제 핀란드어 문장이 있다고 가정해 봅니다. Haen Han Solon. Hän on salakuljettaja.

(궁금한 독자를 위해 말하자면, 이는 다음과 같이 번역됩니다: 나는 Han Solo를 데리러 가겠다. 그는 밀수업자다.)

위 문장은 핀란드어로 태그되어 있습니다(lang="fi"). Han Solo의 이름 끝에 붙은 문자 "n"(Han Solon)은 핀란드어 문법의 일부라는 점에 유의하십시오.

다음은 영어, 독일어, 핀란드어 화자가 해당 텍스트에서 "찾기" 작업을 수행할 때 입력할 수 있는 몇 가지 철자 변이입니다. (힌트: 이 페이지를 볼 때 브라우저의 "찾기" 명령에서 이를 시도해 보십시오.)

Han
Hän
Haen
han
hän
haen

핀란드어 화자는 위의 각 예가 서로 다른 단어라고 기대합니다. 이들은 Hän과 hän 사이의 대소문자 변이는 무시될 수 있다고 기대할 수도 있습니다. 독일어 화자는 Hän과 Haen이 동등하다고 기대할 수 있습니다. 영어 화자는 Han이 Hän과 매칭되기를 기대할 수 있습니다(하지만 ä가 영어 고유 문자가 아니므로 그 반대는 아닐 수도 있습니다). 그러나 문서의 언어 태그는 대부분의 찾기 작업에 영향을 주지 않는 것으로 보입니다. 또한 사용자가 검색어에 어떤 언어를 적용할지 영향을 줄 수 있는 방법도 보통 없습니다.

다음은 터키어로 따뜻한 골수를 의미한다고 생각되는 구입니다: ılık ilik.

다음은 영어와 터키어 화자가 입력할 수 있는 몇 가지 철자 변이입니다.

검색어	코드 포인트
ILIK	U+0049 U+004C U+0049 U+004B
İLİK	U+0130 U+004C U+0130 U+004B
ilik	U+0069 U+006C U+0069 U+006B
ılık	U+0131 U+006C U+0131 U+006B

브라우저와 런타임 로캘에 따라, 이러한 용어에서 비정상적인 매칭이 발생할 수 있습니다. 일부 브라우저에서는 위의 처음 세 용어가 (ASCII 점 있는 i를 포함한) ilik과는 일관되게 매칭되지만, ıU+0131 LATIN SMALL LETTER DOTLESS I를 포함한 ılık이라는 단어와는 매칭되지 않습니다.

이는 터키어 사용자가 기대하는 바가 아닙니다. 그들은 "I"/"ı"와 "İ"/"i"가 대소문자 없는 쌍이라고 기대하기 때문입니다. 그 부작용으로 검색어 "ılık"은 그 소문자 등가형에만 매칭되고, 대문자 변이는 점 있는 문자 i를 포함한 소문자 버전("ilik")에는 매칭되더라도 해당 단어와는 매칭되지 않습니다. 이러한 변이는 영어 사용자와 터키어 사용자 모두 검색이 단어를 놓친다는 것을 알아차리게 만듭니다.

사용자는 소문자로 입력한 용어가 대문자 등가형과 매칭되기를(그리고 아마 그 반대도) 기대할 수 있습니다. 브라우저의 "찾기" 명령과 같은 부분 문자열 매칭 기능은 입력의 대소문자를 텍스트의 대소문자와 맞출지 여부를 사용자가 선택할 수 있는 옵션으로 제공하는 경우가 많습니다.

대소문자 폴딩에 대한 개요는 [CHARMOD-NORM]의 여기 논의를 참조하십시오.

Unicode는 문자열 검색에 대한 사용자의 인식에 영향을 줄 수 있는 문자 간의 정준 관계와 호환 관계를 정의합니다. Unicode 정규화 형식에 대한 자세한 논의는 [CHARMOD-NORM]의 Section 2.2 및 Unicode Normalization Forms [UAX15]에 있는 정의를 참조하십시오.

예제 2

예를 들어 문자 "K"를 생각해 보십시오. 정규화에 U+004B LATIN CAPITAL LETTER K가 포함되는 문자는 다음과 같으며, 이 중 많은 문자는 논리적인 "문자 K"를 포함하는 것처럼 보이므로 사용자가 부분 문자열 검색 요청에서 문자 "K"와 매칭되기를 기대할 수 있습니다.

Ķ U+0136 LATIN CAPITAL LETTER K WITH CEDILLA
Ǩ U+01E8 LATIN CAPITAL LETTER K WITH CARON
ᴷ U+1D37 MODIFIER LETTER CAPITAL K
Ḱ U+1E30 LATIN CAPITAL LETTER K WITH ACUTE
Ḳ U+1E32 LATIN CAPITAL LETTER K WITH DOT BELOW
Ḵ U+1E34 LATIN CAPITAL LETTER K WITH LINE BELOW
K U+212A KELVIN SIGN
Ⓚ U+24C0 CIRCLED LATIN CAPITAL LETTER K
㎅ U+3385 SQUARE KB
㏍ U+33CD SQUARE KK
㏎ U+33CE SQUARE KM CAPITAL
Ｋ U+FF2B FULLWIDTH LATIN CAPITAL LETTER K
𝐊 U+1D40A MATHEMATICAL BOLD CAPITAL K
𝐾 U+1D43E MATHEMATICAL ITALIC CAPITAL K
𝑲 U+1D472 MATHEMATICAL BOLD ITALIC CAPITAL K
𝒦 U+1D4A6 MATHEMATICAL SCRIPT CAPITAL K
𝓚 U+1D4DA MATHEMATICAL BOLD SCRIPT CAPITAL K
𝔎 U+1D50E MATHEMATICAL FRAKTUR CAPITAL K
𝕂 U+1D542 MATHEMATICAL DOUBLE-STRUCK CAPITAL K
𝕶 U+1D576 MATHEMATICAL BOLD FRAKTUR CAPITAL K
𝖪 U+1D5AA MATHEMATICAL SANS-SERIF CAPITAL K
𝗞 U+1D5DE MATHEMATICAL SANS-SERIF BOLD CAPITAL K
𝘒 U+1D612 MATHEMATICAL SANS-SERIF ITALIC CAPITAL K
𝙆 U+1D646 MATHEMATICAL SANS-SERIF BOLD ITALIC CAPITAL K
𝙺 U+1D67A MATHEMATICAL MONOSPACE CAPITAL K
🄚 U+1F11A PARENTHESIZED LATIN CAPITAL LETTER K
🄺 U+1F13A SQUARED LATIN CAPITAL LETTER K

많은 복잡한 문자 체계에서는 글자나 모음 기호를 둘 이상의 방식으로 인코딩할 수 있지만, 그 대안들은 정준적으로 동등합니다.

일부 언어는 둘 이상의 문자 체계로 표기됩니다. 문서를 검색하는 사용자는 한 문자 체계로 텍스트를 입력하더라도, 두 문자 체계 모두에서 동등한 텍스트를 찾고자 할 수 있습니다.

예제 3

일본어는 두 음절 문자 체계인 hiragana와 katakana를 사용합니다. 이 문자 체계들은 같은 음소를 인코딩하므로, 사용자는 hiragana로 검색어를 입력하면 katakana로 철자화된 정확히 같은 단어를 찾을 것이라고 기대할 수 있습니다.

여기에 표시된 예에서 nihongo(일본어로 "일본어")라는 단어는 히라가나와 가타카나 둘 다로 표시됩니다. 이 단어는 보통 kanji(한자 표의 문자) 문자로 표현된다는 점에 유의하십시오: 日本語.

설명	예
히라가나	にほんご
히라가나	U+306B U+307B U+3093 U+3054
가타카나	ニホンゴ
가타카나	U+30CB U+30DB U+30F3 U+30B4

일부 호환 문자는 레거시 문자 인코딩에서의 단일 바이트 또는 다중 바이트 표현을 고려하거나 동아시아 언어의 특정 레이아웃 동작과의 호환성을 위해 Unicode에 인코딩되었습니다.

예제 4: 동아시아 폭 변이의 예

설명	예
전각 가타카나	ニホンゴ
전각 가타카나	U+30CB U+30DB U+30F3 U+30B4
반각 가타카나 이들은 호환 문자입니다	ﾆﾎﾝｺﾞ
반각 가타카나 이들은 호환 문자입니다	U+FF86 U+FF83 U+FF9D U+FF7A U+FF9E
반각 라틴 문자 이들은 ASCII 문자입니다!	abcXYZ
반각 라틴 문자 이들은 ASCII 문자입니다!	U+0061 U+0062 U+0063 U+0058 U+0059 U+005A
전각 라틴 문자 이들은 호환 문자입니다.	ａｂｃＸＹＺ
전각 라틴 문자 이들은 호환 문자입니다.	U+FF41 U+FF42 U+FF43 U+FF38 U+FF39 U+FF3A

많은 문자 체계는 0부터 9까지의 숫자를 위한 고유한 숫자 문자를 가지고 있습니다. 일부 웹 애플리케이션에서는 익숙한 ASCII 숫자가 표시 목적으로 현지 숫자 모양으로 대체됩니다. 다른 경우에는 텍스트가 실제로 현지 숫자를 위한 Unicode 문자를 포함할 수 있습니다. 문서를 검색하려는 사용자는 한 형태의 숫자를 입력하면 동등한 숫자를 찾을 것이라고 기대할 수 있습니다.

예제 5: 네 가지 문자 체계의 숫자 모양 예

다음은 네 가지 문자 체계에서 0부터 9까지 서로 다른 숫자 모양을 보여 주는 일부 선택된 예입니다. 많은 문자 체계는 서로 다른 모양을 가진 동등한 숫자 집합을 가지고 있습니다.

문자 체계	숫자
문자 체계	0	1	2	3	4	5	6	7	8	9
라틴	0	1	2	3	4	5	6	7	8	9
구자라트	૦	૧	૨	૩	૪	૫	૬	૭	૮	૯
태국	๐	๑	๒	๓	๔	๕	๖	๗	๘	๙
아랍	٠	١	٢	٣	٤	٥	٦	٧	٨	٩

일부 언어에는 지역이나 방언에 따라 달라지거나 같은 단어의 다른 철자를 허용하는 서로 다른 철자법 전통이 있습니다. 검색과 맞춤법 검사는 이러한 변이를 알아야 할 수 있습니다.

예제 6

미국 영어(언어 태그 en-US)와 영국 영어(언어 태그 en-GB)는 서로 다른 철자법 전통을 가지고 있으며, 이는 여러 방식으로 나타납니다. 예를 들어 color와 colour, 또는 internationaliZation과 internationaliSation에서처럼 문자 s와 z를 바꾸는 경우가 있습니다. jail과 gaol처럼 훨씬 더 크게 다른 철자를 가진 단어도 몇 가지 있습니다.

미국 영어와 영국 영어의 철자 변이는 대부분 표준화되어 있지만, 때로는 철자가 개인적 선호(또는 때로는 지식 부족)에 달려 있습니다. 예를 들어 미국 영어 단어 'through'는 'thru'로 철자화될 수 있습니다.

인도 문자 언어에는 이러한 종류의 문제가 많이 있습니다. 때로는 철자 오류이지만, 다른 경우에는 여러 철자가 허용됩니다.

예를 들어 벵골어(언어 태그 bn)는 언어에서 허용되는 철자 변이의 범위가 넓은 것으로 악명 높습니다. 벵골어 단어의 거의 80%는 적어도 두 가지 철자를 가지고 있습니다. 많은 단어는 3개, 4개 또는 그 이상의 변이를 가지고 있으며, 적어도 한 단어는 16개의 서로 다른 유효한 철자를 가지고 있습니다.

예제 7

한 예는 라틴 문자로 rani라고 음역되는 단어로, 사용자는 서로 다른 문자와 모음 기호를 사용해 철자화할 수 있습니다. 현대 벵골어에서는 ণ [U+09A3 BENGALI LETTER NNA]와 ন [U+09A8 BENGALI LETTER NA]가 /n/으로 발음되고, ি [U+09BF BENGALI VOWEL SIGN I ]와 ী [U+09C0 BENGALI VOWEL SIGN II ]가 모두 /i/로 발음됩니다. 따라서 서로 다른 사용자는 같은 단어에 대해 다음 대체 코드 포인트 시퀀스 중 어느 것이든 선택할 수 있습니다.

	U+09A8 BENGALI LETTER NA	U+09A3 BENGALI LETTER NNA
U+09BF BENGALI VOWEL SIGN I	রানি	রাণি
U+09BF BENGALI VOWEL SIGN I	U+09B0 U+09BE U+09A8 U+09BF	U+09B0 U+09BE U+09A3 U+09BF
U+09C0 BENGALI VOWEL SIGN II	রানী	রাণী
U+09C0 BENGALI VOWEL SIGN II	U+09B0 U+09BE U+09A8 U+09C0	U+09B0 U+09BE U+09A3 U+09C0

다른 인도 문자 체계도 특정 소리를 표현하기 위한 대체 메커니즘을 제공하며, 대부분의 경우 어느 표현이든 똑같이 유효한 것으로 간주됩니다. 가장 흔한 사례는 음절 끝 비음의 표현과 관련됩니다.

예를 들어 힌디어에서 뱀을 뜻하는 단어의 /n/ 소리는 ँ [U+0901 DEVANAGARI SIGN CANDRABINDU] 또는 ं [U+0902 DEVANAGARI SIGN ANUSVARA] 중 하나를 사용해 쓸 수 있습니다. 다음 두 가지는 모두 가능한 유효 철자입니다.

예제 8

설명	예
ँ [U+0901 DEVANAGARI SIGN CANDRABINDU] 사용	साँप
ँ [U+0901 DEVANAGARI SIGN CANDRABINDU] 사용	U+0938 U+093E U+0901 U+092A
ं [U+0902 DEVANAGARI SIGN ANUSVARA] 사용	सांप
ं [U+0902 DEVANAGARI SIGN ANUSVARA] 사용	U+0938 U+093E U+0902 U+092A

이 이야기에 추가적인 반전으로, 여기서는 코드 포인트가 다른 두 발음 구별 부호가 사용될 수 있습니다. 이전 예에서는 함께 오는 모음 기호가 매달린 기준선 위로 올라가기 때문에 비음을 표현하기 위해 ं [U+0902 DEVANAGARI SIGN ANUSVARA ]를 사용했습니다. 만약 모음 기호가 매달린 기준선 위로 올라가지 않는 것이라면, 보통 대신 ँ [U+0901 DEVANAGARI SIGN CANDRABINDU ]를 사용합니다. 이 두 발음 구별 부호의 기능은 같지만, 코드 포인트는 다릅니다.

음절 끝 비음을 위해 문자 또는 발음 구별 부호 중 하나를 대체적으로 사용하는 방식은 여러 다른 인도 언어에 공통적입니다. 힌디어(언어 태그 hi)나 마라티어(언어 태그 mr)와 같은 언어를 쓰는 데 사용되는 데바나가리뿐 아니라, 말라얄람, 구자라트, 오디아 등의 문자 체계도 유사한 철자 선택지를 제공합니다.

예제 9: 또 다른 인도 문자 철자 변이의 예

다음은 같은 단어의 대체 철자를 보여 주는 말라얄람어(ml)의 예입니다.

설명	예
U+0D03 MALAYALAM SIGN VISARGA 사용	ദുഃഖം
U+0D03 MALAYALAM SIGN VISARGA 사용	U+0D26 U+0D41 U+0D03 U+0D16 U+0D02
U+0D03 MALAYALAM SIGN VISARGA 미사용	ദുഖം
U+0D03 MALAYALAM SIGN VISARGA 미사용	U+0D26 U+0D41 U+0D16 U+0D02

일부 언어는 단어, 문장 또는 문단을 구분하기 위해 공백을 사용하는 반면, 다른 언어는 그렇지 않습니다. 부분 문자열 매칭을 수행할 때, [Unicode]에서 발견되는 다양한 형태의 공백은 매칭이 성공하도록 정규화되어야 합니다.

사용자는 다양한 발음 구별 부호를 사용하는 문자 체계(예: 라틴 문자)에서 검색어를 입력할 때, 검색 대상 텍스트에는 추가 부호가 포함되어 있더라도 악센트나 발음 구별 부호가 있는 문자를 다루는 과정에서 입력을 달리할 때가 있습니다. 이는 특히 이러한 문자를 입력하는 데 추가 노력이 필요한 모바일 키보드에서 그렇습니다. 이러한 경우 사용자는 일반적으로 필요한 추가 노력을 하지 않은 것을 보완하기 위해 검색 작업이 더 "관대"하기를 기대합니다.

예제 11

독일어는 ö [U+00F6 LATIN SMALL LETTER O WITH DIERISIS] 또는 ü [U+00FC LATIN SMALL LETTER U WITH DIERISIS]와 같이 움라우트 악센트가 있는 여러 문자를 사용합니다. 사용자는 검색할 때 때때로 이러한 악센트를 입력하지만, 때로는 움라우트를 문자 e로 대체합니다. 예를 들어 Dürst를 입력하는 대신 Duerst를 입력할 수 있습니다. 어느 철자든 알아볼 수 있고 같은 의미를 가집니다. 움라우트가 e 철자보다 아마 "더 낫지만", 독일어 화자는 그 차이로 혼동하지 않습니다.

참고

다른 언어들은 독일어와는 다른 목적으로 같은 문자를 사용합니다. Unicode에서 "움라우트" 발음 구별 부호의 공식 명칭은 분음 기호(diaeresis)이며, 이는 대략 "분리" 또는 "휴지"를 의미합니다. 프랑스어, 스페인어, 영어와 같은 언어는 스페인어 단어 "ambigüedad"나 영어 이름 "Zoë"처럼 특정 문자를 발음해야 함을 나타내기 위해 분음 기호를 가끔 사용합니다.

이 효과는 문맥에 따라서도 달라질 수 있습니다. 예를 들어 물리적 키보드를 사용하는 사람은 악센트가 있는 문자에 직접 접근할 수 있지만, 가상 키보드나 화면 키보드는 같은 문자에 접근하고 선택하는 데 추가 노력이 필요할 수 있습니다.

일부 철자법에서는 서로 다른 수의 문자를 가진 문자열을 매칭할 필요가 있습니다.

대표적인 예는 아브자드의 모음 발음 구별 부호와 관련됩니다. 예를 들어 아랍 문자와 히브리 문자를 사용하는 일부 언어는 사용자가 단모음을 입력할 것을 요구하지 않지만(선택적으로 허용합니다). (이 문자 체계의 일부 다른 언어에서는 단모음의 포함이 선택 사항이 아닙니다.) 입력되거나 검색되는 텍스트에 모음이 있거나 없다는 점은 사용자가 이를 입력하지 않거나 입력해야 한다는 것을 모를 경우 매칭을 방해할 수 있습니다.

어떤 경우에는 시각적으로 유사하거나 동일한 글리프 패턴이 서로 다른 코드 포인트 시퀀스로 만들어질 수 있습니다. 때로는 이것이 의도적인 것이며, 변이는 Unicode 정규화를 통해 제거될 수 있습니다. 그러나 유사하게 보이는 그래핌이 정규화로 같아지지 않고 의미상 동등하지 않은 다른 경우도 있습니다.

예제 13

예를 들어 다음은 말라얄람 문자에서 같거나 유사한 텍스트 모양을 만들어 내는 여러 문자 시퀀스입니다. 부적절한 시퀀스는 텍스트의 의미를 바꾸기 때문에 피해야 합니다. 검색, 매칭, 그리고 텍스트의 다른 측면이 애플리케이션이나 글꼴에 의해 이해되지 못할 수 있습니다. 어떤 경우에는 글꼴이 점선 원의 모양을 강제로 표시하거나 텍스트를 올바르게 렌더링하지 못하는 방식으로 문제가 있음을 나타내지만, 항상 그런 것은 아닙니다.

사용	사용하지 마십시오
ൈ	െെ
[U+0D48 MALAYALAM VOWEL SIGN AI]	[U+0D46 MALAYALAM VOWEL SIGN E + U+0D46 VOWEL SIGN E]
ഈ	ഇൗ
[U+0D08 MALAYALAM LETTER II]	[U+0D07 MALAYALAM LETTER I + U+0D57 AU LENGTH MARK]
ഊ	ഉൗ
[U+0D0A MALAYALAM LETTER UU]	[U+0D09 MALAYALAM LETTER U + U+0D57 AU LENGTH MARK]
ഓ	ഒാ
[U+0D13 MALAYALAM LETTER OO]	[U+0D12 MALAYALAM LETTER O + U+0D3E VOWEL SIGN AA]
ഐ	എെ
[U+0D10 MALAYALAM LETTER AI]	[U+0D0E MALAYALAM LETTER E + U+0D46 VOWEL SIGN E]
ഔ	ഒൗ
[U+0D14 MALAYALAM LETTER AU]	[U+0D12 MALAYALAM LETTER O + U+0D57 MALAYALAM AU LENGTH MARK]

아랍 문자를 사용하는 일부 언어에도 둘 이상의 방식으로 인코딩될 수 있는 그래핌이 있습니다. 어떤 경우에는 이러한 변이가 Unicode 정규화로 처리되지만, 다른 경우에는 시각적으로 동일해 보이더라도 Unicode에서 동등한 것으로 간주되지 않습니다. 때로는 이러한 변이가 유효한 철자 변이로 간주됩니다. 다른 경우에는 사용자의 잘못된 인식에서 비롯됩니다.

예제 14

많은 언어가 아랍 문자로 쓰이지만, 아랍어와는 관련이 없습니다. 따라서 이러한 언어 중 일부는 아랍어에는 없는 소리를 표현하기 위해 문자 시퀀스를 필요로 합니다. 이러한 언어 중 일부에서 중요한 문제는, 이렇게 특수하게 인코딩된 문자 시퀀스가 다른 용도로 인코딩된 문자 시퀀스와 시각적으로 유사하거나(또는 동일하게) 보일 수 있으며, 사용자가 검색어를 입력할 때처럼 올바른 시퀀스를 입력하거나 입력 방법을 아는 데 어려움을 겪을 수 있다는 점입니다.

그러한 언어 중 하나는 카슈미르어(언어 태그 ks)입니다. 다음은 카슈미르어에서 볼 수 있는 일부 선택된 예입니다.

설명	예
정준적으로 동등한 대안 (Unicode 정규화로 차이가 해결됨)	إ	`U+0625 ARABIC LETTER ALEF WITH HAMZA BELOW`	إ	`U+0627 ARABIC LETTER ALEF` + `U+0655 ARABIC HAMZA BELOW`
정준적으로 동등하지 않음 (Unicode 정규화 이후에도 남아 있는 차이) 이 중 많은 것은 모음이 기본 문자(ijam)의 일부인지, 분리 가능한 것(tashkil)인지에 대한 사용자 인식과 연결되어 있습니다.	ێ	`U+06CE ARABIC LETTER YEH WITH SMALL V`	یٚ	`U+06CC ARABIC LETTER FARSI YEH` + `U+065A ARABIC VOWEL SIGN SMALL V ABOVE`
혼동 문자 또는 철자 오류 이들은 키보드 지원의 공백이나 모양의 유사성 때문에 특정 종류의 텍스트에서 흔할 수 있습니다.	ئ	`U+0626 ARABIC LETTER YEH WITH HAMZA ABOVE`	یٔ	`U+06CC ARABIC LETTER FARSI YEH` + `U+0654 ARABIC HAMZA ABOVE`

(자세한 내용은 Richard Ishida의 문서 여기를 참조하십시오.)

영어나 아랍어와 같은 일부 언어는 단어 사이에 공백을 사용합니다. 중국어, 일본어, 태국어와 같은 다른 언어는 그렇지 않습니다. 일부 언어는 구와 같은 다른 텍스트 단위를 구분하기 위해 공백을 사용합니다. 단어 사이에 공백을 사용하지 않는 언어에서 "전체 단어" 매칭을 계산하는 것은, 경계 자체가 텍스트에 인코딩되어 있지 않을 때 단어 경계를 결정할 수 있는 능력에 의존하는 경우가 많습니다.

사용자 입력	매칭된 문자열
e (소문자 'e')	"re-resume", "RE-RESUME", "re-résumé", 그리고 "RE-RÉSUMÉ"
E (대문자 'E')	"RE-RESUME" 및 "RE-RÉSUMÉ"
é (예음 악센트가 있는 소문자 'e')	"re-résumé" 및 "RE-RÉSUMÉ"
É (예음 악센트가 있는 대문자 'E')	"RE-RÉSUMÉ"

문자열 검색

초록

이 문서의 상태

1. 소개

1.1 목표와 범위

1.2 문서 규약

1.3 용어

2. 자연어 콘텐츠에서 텍스트 검색하기

2.1 동등성 결정의 문제

2.1.1 언어로 인한 매칭 변이

2.1.2 대소문자 폴딩

2.1.3 유니코드 정규화와 문자 동등성

2.1.4 문자 체계 동등성

2.1.5 동아시아 폭

2.1.6 숫자 셰이핑

2.1.7 철자법 또는 방언 변이

2.1.7.1 남아시아 (인도 문자) 언어

2.1.8 공백 정규화

2.1.9 악센트와 발음 구별 부호

2.1.10 선택적 문자

2.1.11 시각적으로 동일하지만 정준적으로 동등하지 않은 텍스트

2.2 단어 경계와 "전체 단어" 매칭

3. 검색 시 고려사항

3.1 검색 옵션의 유형

4. 감사의 말

A. 참고 문헌

A.1 정보 제공용 참고 문헌