728x90
반응형
728x170
■ compile 함수에서 ".*?"을 사용해 lazy(non-greedy) 방식으로 문자열을 구하는 방법을 보여준다.
▶ 예제 코드 (PY)
import urllib.request
import re
httpResponse = urllib.request.urlopen("http://www.example.com")
htmlBytes = httpResponse.read()
httpResponse.close()
html = str(htmlBytes).encode("utf-8").decode("cp949")
pattern = re.compile(r"<.*?>", re.I | re.S)
list1 = pattern.findall(html)
print(list1)
"""
['<!doctype html>', '<html>', '<head>', '<title>', '</title>', '<meta charset="utf-8" />', '<meta http-equiv="Content-type" content="text/html; charset=utf-8" />', '<meta name="viewport" content="width=device-width, initial-scale=1" />', '<style type="text/css">', '</style>', '</head>', '<body>', '<div>', '<h1>', '</h1>', '<p>', '</p>', '<p>', '<a href="https://www.iana.org/domains/example">', '</a>', '</p>', '</div>', '</body>', '</html>']
"""
728x90
반응형
그리드형(광고전용)
'Python > re' 카테고리의 다른 글
[PYTHON/RE] Match 클래스 : 매칭 결과 이름 사용하기 (0) | 2022.09.02 |
---|---|
[PYTHON/RE] Match 클래스 사용하기 (0) | 2022.09.02 |
[PYTHON/RE] Pattern 클래스 : match 메소드 사용하기 (0) | 2022.09.02 |
[PYTHON/RE] compile 함수 : ".*"을 사용해 greedy 방식으로 문자열 구하기 (0) | 2022.09.02 |
[PYTHON/RE] compile 함수 : 웹 페이지 TITLE 태그에서 제목 구하기 (0) | 2022.09.01 |
[PYTHON/RE] compile 함수 : MULTILINE(또는 M) 정규식 컴파일 옵션 사용하기 (0) | 2022.09.01 |
[PYTHON/RE] compile 함수 : IGNORECASE(또는 I) 정규식 컴파일 옵션 사용하기 (0) | 2022.09.01 |
[PYTHON/RE] compile 함수 : 정규 표현식 컴파일하기 (0) | 2022.09.01 |
[PYTHON/RE] sub 함수 : 변경할 문자열에서 매칭 문자열 사용하기 (0) | 2022.08.30 |
[PYTHON/RE] sub 함수 : 패턴과 일치하는 문자열 N번 변경하기 (0) | 2022.08.30 |
댓글을 달아 주세요