본문 바로가기

松泉, 인생글, 바라보기

바라보기, 찾기, Natural Language Processing, NLP, 자연어처리, 정규식

728x90
반응형

#바라보기, 찾기, Natural Language Processing, NLP, 자연어처리, 정규식

 

#규식이형을 만난지 몇년이 지났지만, 규식이형의 성을 제대로 기억한적인 없다.

#정규식

#규석인가?!

 

 

 

정규 표현식(正規表現式, 영어: regular expression, 간단히 regexp[1] 또는 regex, rational expression)[2][3] 또는 정규식(正規式)은 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어이다. 정규 표현식은 많은 텍스트 편집기와 프로그래밍 언어에서 문자열의 검색과 치환을 위해 지원하고 있으며, 특히 과 Tcl은 언어 자체에 강력한 정규 표현식을 구현하고 있다.

컴퓨터 과학의 정규 언어로부터 유래하였으나 구현체에 따라서 정규 언어보다 더 넓은 언어를 표현할 수 있는 경우도 있으며, 심지어 정규 표현식 자체의 문법도 여러 가지 존재하고 있다. 현재 많은 프로그래밍 언어, 텍스트 처리 프로그램, 고급 텍스트 편집기 등이 정규 표현식 기능을 제공한다. 일부는 자바스크립트루비Tcl처럼 문법에 내장되어 있는 반면 닷넷 언어자바파이썬POSIX CC++ (C++11 이후)에서는 표준 라이브러리를 통해 제공한다. 그 밖의 대부분의 언어들은 별도의 라이브러리를 통해 정규 표현식을 제공한다.

정규 표현식은 검색 엔진워드 프로세서와 문서 편집기의 찾아 바꾸기 대화상자, 그리고 sedAWK와 같은 문자 처리 유틸리티, 어휘 분석에 사용된다.

 

정규 표현식이라는 문구는 일치하는 텍스트가 준수해야 하는 "패턴"을 표현하기 위해 특정한 표준의 텍스트 신택스를 의미하기 위해 사용된다. 정규 표현식의 각 문자(즉, 패턴을 기술하는 문자열 안의 각 문자)는 메타문자(특별한 의미로)로 이해되거나 정규 문자('문자 그대로', 즉 '리터럴'의 의미로)로 이해된다. 이를테면 정규식 a. a는 단지 'a'와 일치하는 리터럴 문자이며 .는 새 줄을 제외한 모든 문자와 일치시키는 메타 문자이다. 그러므로 이 정규식은 이를테면 'a', 'ax', 'a0'과 일치시킬 수 있다. 더불어, 메타문자와 리터럴 문자는 주어진 패턴의 텍스트를 식별하기 위해 사용할 수 있으며, 또 수많은 인스턴스를 처리하기 위해 사용할 수도 있다. 패턴 일치는 정확히 동일한 일치에서부터 매우 포괄적인 유사 일치(메타문자에 의해 제어)에 이르기까지 다양하다. 이를테면 .는 매우 포괄적인 패턴이며, [a-z]('a'부터 'z'까지의 모든 문자 일치)는 덜 포괄적이며 a는 정확한 패턴(단지 'a'만 일치)이다. 메타문자 문법은 다양한 입력 데이터의 텍스트 처리의 자동화를 지시하는 정확하고 유연한 방법을 통해 표준 ASCII 자판을 사용하여 입력하기 쉬운 형태로, 미리 기술된 대상을 표현하기 위해 설계되었다.

이러한 신택스를 가지는 매우 단순한 정규 표현식의 경우는 문서 편집기에서 2가지 방식으로 발음되는 동일한 단어를 위치시키는 것을 들 수 있으며, 이를테면 seriali[sz]e는 "serialise"와 "serialize"를 모두 일치시킨다. 와일드카드 또한 이를 성취할 수 있으나 와일드카드가 패턴화할 수 있는 것으로 국한된다. (메타문자가 더 적으며 더 단순한 언어 기반임)

와일드카드 문자를 사용하는 경우는 파일 목록에서 비슷한 이름을 글로브 처리하는 것인 반면, 정규 표현식은 일반적으로 텍스트 문자열과 패턴 일치가 되는 애플리케이션에 보통 사용된다. 이를테면 ^[ \t]+|[ \t]+$는 줄 끝이나 줄 맨앞에 여분의 공백을 일치시킨다. 어떠한 숫자라도 일치시키기 위해 쓰이는 진보한 정규 표현식은 [+-]?(\d+(\.\d+)?|\.\d+)([eE][+-]?\d+)?이다. 더 많은 예를 보려면  문단을 참고할 것.

 

 

정규 표현식은 1951년 수학자 스티븐 클레이니가 정규 이벤트(regular event)라는 수학적 표기법을 사용하여 정규 언어를 설명하면서 시작되었다.[4] 이는 이론 컴퓨터 과학오토마타 이론(계산 모델)의 하위 분야, 형식 언어의 설명 및 분류에서 나타났다. 패턴 매칭의 다른 초기 구현에는 정규 표현식을 사용하지 않고 대신 자체 패턴 일치 구성을 사용하는 SNOBOL 언어가 포함된다.

정규 표현식은 1968년부터 텍스트 편집기의 패턴 매칭과 컴파일러의 어휘 분석이라는 두 가지 용도로 널리 사용되었다. 프로그램 형식에서 정규 표현식이 처음 등장한 것은 켄 톰프슨이 텍스트 파일의 패턴을 일치시키는 수단으로 클레이니의 표기법을 QED 편집기에 내장했을 때였다. 속도를 위해 톰프슨은 JIT 컴파일의 중요한 초기 예인 호환 시분할 시스템의 IBM 7094 코드에 JIT 컴파일을 통해 정규 표현식 일치를 구현했다. 그는 나중에 이 기능을 유닉스 편집기 ed에 추가했고, 이로 인해 결국 인기 있는 검색 도구인 grep에서 정규 표현식을 사용하게 되었다("grep"은 ed 편집기에서 정규 표현식 검색을 위한 명령에서 파생된 단어이다: "정규 표현식에 대한 전역 검색 및 일치하는 줄 출력"을 뜻하는 g/re/p). 톰프슨이 QED를 개발한 것과 거의 같은 시기에 더글러스 T. 로스(Douglas T. Ross)를 포함한 연구자 그룹은 컴파일러 설계의 어휘 분석에 사용되는 정규 표현식 기반 도구를 구현했다.

vilexsedAWK 및 expr을 포함하여 1970년대 벨 연구소의 유닉스 프로그램과 이맥스(자체적으로 호환되지 않는 구문 및 동작을 가지고 있음)와 같은 다른 프로그램에서 이러한 원래 형태의 정규 표현식의 다양한 변형이 사용되었다. 정규 표현식은 이후 다양한 프로그램에서 채택되었으며 이러한 초기 형식은 1992년 POSIX.2 표준으로 표준화되었다.

1980년대에는 에서 더 복잡한 정규 표현식이 등장했는데, 이는 원래 헨리 스펜서(1986)가 작성한 정규 표현식 라이브러리에서 파생되었으며 나중에 고급 정규 표현식(Advanced Regular Expressions)이라고 불리는 Tcl에 대한 구현을 작성했다. Tcl 라이브러리는 향상된 성능 특성을 갖춘 하이브리드 NFA/DFA 구현이다. 스펜서의 Tcl 정규 표현식 구현을 채택한 소프트웨어 프로젝트에는 PostgreSQL이 포함된다. 펄은 나중에 스펜서의 원래 라이브러리를 확장하여 많은 새로운 기능을 추가했다. 라쿠(구 명칭: 펄 6) 설계 노력의 일부는 펄의 정규 표현식 통합을 개선하고 구문 분석 표현식 문법 정의를 허용하도록 범위와 기능을 늘리는 것이다. 그 결과 라쿠 문법을 정의하고 해당 언어의 프로그래머에게 도구를 제공하는 데 사용되는 라쿠 규칙이라는 미니 언어가 탄생했다. 이러한 규칙은 펄 5.x 정규 표현식의 기존 기능을 유지하지만 하위 규칙을 통해 재귀 하강 파서의 BNF 스타일 정의도 허용한다.

문서 및 데이터베이스 모델링을 위한 구조화된 정보 표준에서 정규 표현식 사용은 1960년대에 시작되어 ISO SGML(ANSI "GCA 101-1983"에서 이전)과 같은 산업 표준이 통합된 1980년대에 확장되었다. 구조 사양 언어 표준의 커널은 정규 표현식으로 구성된다. 이러한 사용은 DTD 요소 그룹 구문에서 분명하게 나타난다. 정규 표현식을 사용하기 전에는 많은 검색 언어에서 간단한 와일드카드를 허용했다. 예를 들어 임의의 문자 시퀀스와 일치하는 "*" 및 "?" 단일 문자와 일치한다. 이에 대한 유물은 오늘날 파일 이름에 대한 글로브 구문과 SQL LIKE 연산자에서 찾을 수 있다.

1997년부터 필립 하젤은 펄의 정규 표현식 기능을 밀접하게 모방하려고 시도하고 PHP 및 아파치 HTTP 서버를 포함한 많은 최신 도구에서 사용되는 PCRE(펄 호환 정규 표현식)를 개발했다.

오늘날 정규 표현식은 프로그래밍 언어, 텍스트 처리 프로그램(특히 어휘 분석기), 고급 텍스트 편집기 및 기타 프로그램에서 널리 지원된다. 정규 표현식 지원은 자바 및 파이썬을 포함한 많은 프로그래밍 언어의 표준 라이브러리의 일부이며 펄 및 ECMA스크립트를 포함한 다른 프로그래밍 언어의 구문에 내장되어 있다. 2010년대 후반에 몇몇 회사에서는 CPU 구현에 비해 더 빠른 PCRE 호환 정규 표현식 엔진의 하드웨어, FPGAGPU 구현을 제공하기 시작했다.

 

 

#규식이 형 보고 싶다.

 

 

 

 

 

 

 

 

 

반응형