다운로드
작성자: admin 작성일시: 2016-06-14 23:10:31 조회수: 15905 다운로드: 418
카테고리: Python 태그목록:

KoNLPy 한국어 처리 패키지

KoNLPy(코엔엘파이라고 읽는다)는 한국어 정보처리를 위한 파이썬 패키지이다. 자세한 내용은 다음 웹사이트를 참조한다.

한국어 말뭉치

KoNLPy에서는 대한민국 헌법 말뭉치인 kolaw와 국회법안 말뭉치인 kobill을 제공한다. 각 말뭉치가 포함하는 파일의 이름은 fields 메서드로 알 수 있고 open 메서드로 해당 파일의 텍스트를 읽어들인다.

In [1]:
from konlpy.corpus import kolaw
kolaw.fileids()
Out:
['constitution.txt']
In [2]:
c = kolaw.open('constitution.txt').read()
print(c[:40])
대한민국헌법

유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로
In [3]:
from konlpy.corpus import kobill
kobill.fileids()
Out:
['1809896.txt',
 '1809897.txt',
 '1809895.txt',
 '1809894.txt',
 '1809890.txt',
 '1809891.txt',
 '1809893.txt',
 '1809892.txt',
 '1809899.txt',
 '1809898.txt']
In [4]:
d = kobill.open('1809890.txt').read()
print(d[:40])
지방공무원법 일부개정법률안

(정의화의원 대표발의 )

 의 안
 번 호

형태소 분석

KoNLPy는 다음과 같은 다양한 형태소 분석, 태깅 라이브러리를 파이썬에서 쉽게 사용할 수 있도록 모아놓았다.

여기에서는 한나눔, 꼬꼬마, 오픈코리안텍스트 형태소만 예제로 포함하였다.

In [5]:
from konlpy.tag import *

hannanum = Hannanum()
kkma = Kkma()
komoran = Komoran()
okt = Okt()

이 클래스들은 다음과 같은 메서드를 공통적으로 제공한다.

  • nouns : 명사 추출
  • morphs : 형태소 추출
  • pos : 품사 부착

명사 추출

문자열에서 명사만 추출하려면 noun 명령을 사용한다.

In [6]:
hannanum.nouns(c[:40])
Out:
['대한민국헌법', '유구', '역사', '전통', '빛', '우리', '대한국민', '3·1운동']
In [7]:
kkma.nouns(c[:40])
Out:
['대한',
 '대한민국',
 '대한민국헌법',
 '민국',
 '헌법',
 '유구',
 '역사',
 '전통',
 '우리',
 '국민',
 '3',
 '1',
 '1운동',
 '운동']
In [8]:
# komoran은 빈줄이 있으면 에러가 남
komoran.nouns("\n".join([s for s in c[:40].split("\n") if s]))
Out:
['대한민국', '헌법', '역사', '전통', '국민', '운동']
In [9]:
okt.nouns(c[:40])
Out:
['대한민국', '헌법', '유구', '역사', '전통', '우리', '국민', '운동']

형태소 추출

명사 뿐 아니라 모든 품사의 형태소를 알아내려면 morphs라는 명령을 사용한다.

In [10]:
hannanum.morphs(c[:40])
Out:
['대한민국헌법',
 '유구',
 '하',
 'ㄴ',
 '역사',
 '와',
 '전통',
 '에',
 '빛',
 '나는',
 '우리',
 '대한국민',
 '은',
 '3·1운동',
 '으로']
In [11]:
kkma.morphs(c[:40])
Out:
['대한민국',
 '헌법',
 '유구',
 '하',
 'ㄴ',
 '역사',
 '와',
 '전통',
 '에',
 '빛나',
 '는',
 '우리',
 '대하',
 'ㄴ',
 '국민',
 '은',
 '3',
 '·',
 '1',
 '운동',
 '으로']
In [12]:
# komoran은 빈줄이 있으면 에러가 남
komoran.morphs("\n".join([s for s in c[:40].split("\n") if s]))
Out:
['대한민국',
 '헌법',
 '유구',
 '하',
 'ㄴ',
 '역사',
 '와',
 '전통',
 '에',
 '빛나',
 '는',
 '우리',
 '대하',
 'ㄴ',
 '국민',
 '은',
 '3',
 '·',
 '1',
 '운동',
 '으로']
In [13]:
okt.morphs(c[:40])
Out:
['대한민국',
 '헌법',
 '\n\n',
 '유구',
 '한',
 '역사',
 '와',
 '전통',
 '에',
 '빛나는',
 '우리',
 '대',
 '한',
 '국민',
 '은',
 '3',
 '·',
 '1',
 '운동',
 '으로']

품사 부착

pos 명령을 사용하면 품사 부착을 한다. 다만 이 때 출력되는 품사의 정의 및 기호는 형태소 분석기마다 다르므로 각 형태소 분석기에 대한 문서를 참조한다.

In [14]:
hannanum.pos(c[:40])
Out:
[('대한민국헌법', 'N'),
 ('유구', 'N'),
 ('하', 'X'),
 ('ㄴ', 'E'),
 ('역사', 'N'),
 ('와', 'J'),
 ('전통', 'N'),
 ('에', 'J'),
 ('빛', 'N'),
 ('나는', 'J'),
 ('우리', 'N'),
 ('대한국민', 'N'),
 ('은', 'J'),
 ('3·1운동', 'N'),
 ('으로', 'J')]
In [15]:
kkma.pos(c[:40])
Out:
[('대한민국', 'NNG'),
 ('헌법', 'NNG'),
 ('유구', 'NNG'),
 ('하', 'XSV'),
 ('ㄴ', 'ETD'),
 ('역사', 'NNG'),
 ('와', 'JC'),
 ('전통', 'NNG'),
 ('에', 'JKM'),
 ('빛나', 'VV'),
 ('는', 'ETD'),
 ('우리', 'NNM'),
 ('대하', 'VV'),
 ('ㄴ', 'ETD'),
 ('국민', 'NNG'),
 ('은', 'JX'),
 ('3', 'NR'),
 ('·', 'SP'),
 ('1', 'NR'),
 ('운동', 'NNG'),
 ('으로', 'JKM')]
In [16]:
# komoran은 빈줄이 있으면 에러가 남
komoran.pos("\n".join([s for s in c[:40].split("\n") if s]))
Out:
[('대한민국', 'NNP'),
 ('헌법', 'NNP'),
 ('유구', 'XR'),
 ('하', 'XSA'),
 ('ㄴ', 'ETM'),
 ('역사', 'NNG'),
 ('와', 'JC'),
 ('전통', 'NNG'),
 ('에', 'JKB'),
 ('빛나', 'VV'),
 ('는', 'ETM'),
 ('우리', 'NP'),
 ('대하', 'VV'),
 ('ㄴ', 'ETM'),
 ('국민', 'NNP'),
 ('은', 'JX'),
 ('3', 'SN'),
 ('·', 'SP'),
 ('1', 'SN'),
 ('운동', 'NNP'),
 ('으로', 'JKB')]
In [17]:
okt.pos(c[:40])
Out:
[('대한민국', 'Noun'),
 ('헌법', 'Noun'),
 ('\n\n', 'Foreign'),
 ('유구', 'Noun'),
 ('한', 'Josa'),
 ('역사', 'Noun'),
 ('와', 'Josa'),
 ('전통', 'Noun'),
 ('에', 'Josa'),
 ('빛나는', 'Verb'),
 ('우리', 'Noun'),
 ('대', 'Modifier'),
 ('한', 'Modifier'),
 ('국민', 'Noun'),
 ('은', 'Josa'),
 ('3', 'Number'),
 ('·', 'Punctuation'),
 ('1', 'Number'),
 ('운동', 'Noun'),
 ('으로', 'Josa')]

부착되는 품사 태그의 기호와 의미는 tagset 속성으로 확인할 수 있다.

In [18]:
okt.tagset
Out:
{'Adjective': '형용사',
 'Adverb': '부사',
 'Alpha': '알파벳',
 'Conjunction': '접속사',
 'Determiner': '관형사',
 'Eomi': '어미',
 'Exclamation': '감탄사',
 'Foreign': '외국어, 한자 및 기타기호',
 'Hashtag': '트위터 해쉬태그',
 'Josa': '조사',
 'KoreanParticle': '(ex: ㅋㅋ)',
 'Noun': '명사',
 'Number': '숫자',
 'PreEomi': '선어말어미',
 'Punctuation': '구두점',
 'ScreenName': '트위터 아이디',
 'Suffix': '접미사',
 'Unknown': '미등록어',
 'Verb': '동사'}
In [19]:
tagsets = pd.DataFrame()
N = 67
tagsets["Hannanum-기호"] = list(hannanum.tagset.keys()) + \
    list("*" * (N - len(hannanum.tagset)))
tagsets["Hannanum-품사"] = list(hannanum.tagset.values()) + \
    list("*" * (N - len(hannanum.tagset)))
tagsets["Kkma-기호"] = list(kkma.tagset.keys()) + \
    list("*" * (N - len(kkma.tagset)))
tagsets["Kkma-품사"] = list(kkma.tagset.values()) + \
    list("*" * (N - len(kkma.tagset)))
tagsets["Komoran-기호"] = list(komoran.tagset.keys()) + \
    list("*" * (N - len(komoran.tagset)))
tagsets["Komoran-품사"] = list(komoran.tagset.values()) + \
    list("*" * (N - len(komoran.tagset)))
tagsets["OKT-기호"] = list(okt.tagset.keys()) + \
    list("*" * (N - len(okt.tagset)))
tagsets["OKT-품사"] = list(okt.tagset.values()) + \
    list("*" * (N - len(okt.tagset)))
tagsets
Out:
Hannanum-기호 Hannanum-품사 Kkma-기호 Kkma-품사 Komoran-기호 Komoran-품사 OKT-기호 OKT-품사
0 E 어미 EC 연결 어미 EC 연결 어미 Adjective 형용사
1 EC 연결 어미 ECD 의존적 연결 어미 EF 종결 어미 Adverb 부사
2 EF 종결 어미 ECE 대등 연결 어미 EP 선어말어미 Alpha 알파벳
3 EP 선어말어미 ECS 보조적 연결 어미 ETM 관형형 전성 어미 Conjunction 접속사
4 ET 전성 어미 EF 종결 어미 ETN 명사형 전성 어미 Determiner 관형사
5 F 외국어 EFA 청유형 종결 어미 IC 감탄사 Eomi 어미
6 I 독립언 EFI 감탄형 종결 어미 JC 접속 조사 Exclamation 감탄사
7 II 감탄사 EFN 평서형 종결 어미 JKB 부사격 조사 Foreign 외국어, 한자 및 기타기호
8 J 관계언 EFO 명령형 종결 어미 JKC 보격 조사 Hashtag 트위터 해쉬태그
9 JC 격조사 EFQ 의문형 종결 어미 JKG 관형격 조사 Josa 조사
10 JP 서술격 조사 EFR 존칭형 종결 어미 JKO 목적격 조사 KoreanParticle (ex: ㅋㅋ)
11 JX 보조사 EP 선어말 어미 JKQ 인용격 조사 Noun 명사
12 M 수식언 EPH 존칭 선어말 어미 JKS 주격 조사 Number 숫자
13 MA 부사 EPP 공손 선어말 어미 JKV 호격 조사 PreEomi 선어말어미
14 MM 관형사 EPT 시제 선어말 어미 JX 보조사 Punctuation 구두점
15 N 체언 ET 전성 어미 MAG 일반 부사 ScreenName 트위터 아이디
16 NB 의존명사 ETD 관형형 전성 어미 MAJ 접속 부사 Suffix 접미사
17 NC 보통명사 ETN 명사형 전성 어미 MM 관형사 Unknown 미등록어
18 NN 수사 IC 감탄사 NA 분석불능범주 Verb 동사
19 NP 대명사 JC 접속 조사 NF 명사추정범주 * *
20 NQ 고유명사 JK 조사 NNB 의존 명사 * *
21 P 용언 JKC 보격 조사 NNG 일반 명사 * *
22 PA 형용사 JKG 관형격 조사 NNP 고유 명사 * *
23 PV 동사 JKI 호격 조사 NP 대명사 * *
24 PX 보조 용언 JKM 부사격 조사 NR 수사 * *
25 S 기호 JKO 목적격 조사 NV 용언추정범주 * *
26 X 접사 JKQ 인용격 조사 SE 줄임표 * *
27 XP 접두사 JKS 주격 조사 SF 마침표, 물음표, 느낌표 * *
28 XS 접미사 JX 보조사 SH 한자 * *
29 * * MA 부사 SL 외국어 * *
... ... ... ... ... ... ... ... ...
37 * * NNG 보통명사 VCP 긍정 지정사 * *
38 * * NNM 단위 의존 명사 VV 동사 * *
39 * * NNP 고유명사 VX 보조 용언 * *
40 * * NP 대명사 XPN 체언 접두사 * *
41 * * NR 수사 XR 어근 * *
42 * * OH 한자 XSA 형용사 파생 접미사 * *
43 * * OL 외국어 XSN 명사파생 접미사 * *
44 * * ON 숫자 XSV 동사 파생 접미사 * *
45 * * SE 줄임표 * * * *
46 * * SF 마침표, 물음표, 느낌표 * * * *
47 * * SO 붙임표(물결,숨김,빠짐) * * * *
48 * * SP 쉼표,가운뎃점,콜론,빗금 * * * *
49 * * SS 따옴표,괄호표,줄표 * * * *
50 * * SW 기타기호 (논리수학기호,화폐기호) * * * *
51 * * UN 명사추정범주 * * * *
52 * * VA 형용사 * * * *
53 * * VC 지정사 * * * *
54 * * VCN 부정 지정사, 형용사 '아니다' * * * *
55 * * VCP 긍정 지정사, 서술격 조사 '이다' * * * *
56 * * VV 동사 * * * *
57 * * VX 보조 용언 * * * *
58 * * VXA 보조 형용사 * * * *
59 * * VXV 보조 동사 * * * *
60 * * XP 접두사 * * * *
61 * * XPN 체언 접두사 * * * *
62 * * XPV 용언 접두사 * * * *
63 * * XR 어근 * * * *
64 * * XSA 형용사 파생 접미사 * * * *
65 * * XSN 명사파생 접미사 * * * *
66 * * XSV 동사 파생 접미사 * * * *

67 rows × 8 columns

koNLPy의 형태소 분석기와 NLTK의 Text 클래스를 결합하여 문서의 분석이 가능하다.

In [20]:
from nltk import Text

kolaw = Text(okt.nouns(c), name="kolaw")
kolaw.plot(30)
plt.show()
In [21]:
from wordcloud import WordCloud
font_path = '/usr/share/fonts/truetype/nanum/NanumGothic.ttf'
wc = WordCloud(width = 1000, height = 600, background_color="white", font_path=font_path)
plt.imshow(wc.generate_from_frequencies(kolaw.vocab()))
plt.axis("off")
plt.show()

질문/덧글

from konlpy.utils import concordance moon*** 2016년 10월 17일 10:34 오후

from konlpy.utils import concordance
idx = concordance(u'대한민국', c, show=True)

에서 concordance 의 기능은 첫번째 인수값을 갖고 있는 c를 가져오는 것인가요?

답변: from konlpy.utils import concordance 관리자 2016년 10월 20일 3:07 오후

문서내의 형태소 위치를 찾는 함수입니다.