자연어 처리가 인공지능과 함께 새로운 시대를 여는 기술로 자리잡으면서 인간의 감정을 이해하고 대화하는 언어 인공지능으로 발전하고 있다. 이 책은 [한국어 인공지능] 시리즈의 두 번째 책으로, 1권에서 소개한 한글 코드와 한글 처리를 바탕으로 자연어 처리 핵심 알고리즘의 이론과 실제를 다루었다. 자연어 처리 알고리즘을 소개하고 한국어 기반의 정보 검색, 철자 교정, 검색어 추천 등을 파이썬으로 구현하는 방법을 설명하면서 자연어 처리 커널 소스와 300개 이상의 예제 코드를 제공하여 자연어 처리 입문자도 실용적인 수준의 프로그램을 구현하고 확장할 수 있도록 하였다. 이와 함께 자연어 처리에 필요한 데이터 추출 및 가공 과정도 상세하게 소개하였다. 구텐베르크 프로젝트의 영문 텍스트를 비롯하여 미국 대통령 취임사, 한국어 뉴스 텍스트, IMDb 영화 평점 데이터 등 실제 데이터를 대상으로 데이터 추출을 위한 웹 스크래퍼의 구현, 어휘 정렬과 통계, 문맥 키워드와 용례 추출 등을 상세히 소개하였다. 데이터 추출부터 자연어 처리 알고리즘 구현까지 모든 과정을 공부하여 프로그램을 구현하는 데에 많은 도움이 될 것이다.
Contents
PART 1 파이썬 한글 처리
Chapter 01 파이썬 기초
1. 한글 변수 및 함수 선언
2. 한글 텍스트 파일 열기(Open)
3. 한글 텍스트 파일 읽기(Read)
4. 한글 처리를 위한 내장 함수
Chapter 02 문자열의 한글 처리
1. 문자열(str) 생성과 인덱스
2. 문자열(str) 탐색
3. 문자열(str) 변경과 합성
4. 문자열(str) 추출과 분할
5. 문자열(str) 루프 처리
Chapter 03 목록형 자료의 한글 처리
1. 목록(list)
2. 튜플(tuple)
3. 사전(dict)
4. 집합(set)
Chapter 04 정렬과 컴프리헨션
1. 목록(list) 정렬(sort)
2. sorted( ) 함수 정렬
3. 컴프리헨션(comprehension)
PART 2 한글 공학 이론과 구현
Chapter 05 한글 코드와 유니코드
1. 한글 자모와 음절
2. 한글 코드의 역사와 종류
3. 유니코드(Unicode)
Chapter 06 한글 코드 변환 알고리즘
1. 음절형 한글 코드와 자모형 한글 코드
2. 음절의 자모 변환
3. 자모의 음절 변환
Chapter 07 한글 오토마타와 두벌식 자모 변환 알고리즘
1. 두벌식 조합과 자모
2. 한글 오토마타(Automata)
3. 음절의 두벌식 자모 변환
4. 반각 자모와 초/중/종성 자모의 두벌식 자모 변환
Chapter 08 한/영 변환 알고리즘
1. 영한 변환
2. 한영 변환
PART 3 정보 검색과 자연어 처리
Chapter 09 한국어 정보 검색 알고리즘
1. 선형 탐색
2. 역파일 색인과 자동 색인
3. 정보 검색 시스템 구현
Chapter 10 단어 및 토큰 처리
1. 단어 처리
2. 토큰과 문자 영역
3. 토큰 처리
Chapter 11 키워드 및 용례 추출 알고리즘
1. 키워드 추출
2. 키워드 용례 추출
3. 키워드 목록 정렬과 통계
Chapter 12 단어 유사도 측정 알고리즘
1. 자카드 거리(Jaccard Distance)
2. 타니모토 거리(Tanimoto Distance)
3. 레벤슈타인 거리(Levenshtein Distance)
4. 코사인 거리(Cosine Distance)
Chapter 13 철자 교정 알고리즘
1. 철자 교정 알고리즘의 원리
2. 초/중/종성 기반 철자 교정
3. 두벌식 자모 기반 철자 교정
Chapter 14 한/영 변환 철자 교정 알고리즘
1. 영한 변환 철자 교정
2. 한영 변환 철자 교정
Chapter 15 n-gram 기반 철자 교정 알고리즘
1. n-gram 기반 철자 교정 알고리즘의 원리
2. n-gram 기반 한글 철자 교정
3. n-gram 기반 한/영 변환 및 철자 교정
Chapter 16 검색어 자동 추천 알고리즘
1. 문자열 일치 탐색
2. 트라이(trie) 알고리즘
3. 두벌식 자모 기반 검색어 자동 추천
4. 초/중/종성 기반 검색어 자동 추천
Chapter 17 한/영 변환 자동 추천 알고리즘
1. 영한 변환 자동 추천
2. 한영 변환 자동 추천
3. 한글 및 영문자 단어 동시 자동 추천
Chapter 18 n-gram 기반 철자 교정 자동 추천 알고리즘
1. n-gram 기반 철자 교정 자동 추천의 원리
2. n-gram 기반 한글 철자 교정 자동 추천
3. n-gram 기반 한/영 변환 철자 교정 자동 추천
PART 4 데이터 기반 추천
Chapter 19 파이썬 통계 처리 기초
1. 통계 기초 및 데이터 시각화
2. 도수분포와 히스토그램
3. 산포도와 상관 계수
Chapter 20 영화 추천 알고리즘
1. 협업 필터링 기반 영화 추천
2. 콘텐츠 기반 영화 추천
3. 텍스트 기반 영화 추천
PART 5 부 록
1. t2bot 커널(kernel)과 예제 소스 코드
2. 웹 스크래퍼 구현
3. 영어 토큰 처리기와 어휘 빈도 사전
4. t2bot 자동 색인 시스템 매뉴얼
5. 유니코드의 한글 자모와 호환 문자 코드
Author
박건숙
문학박사. 상명대학교 사범대학 국어교육과 전임강사, 서울대학교 국어교육연구소 선임연구원으로 있었으며, 현재는 상명대학교 대학원 한국학과 조교수로 재직중이다. 저서로는 『생각하고 표현하기, 한번쉬고 말하기』 『쓰기 교육을 위한 ⓔ논술 프로그램의 구현과 실제』 『한국어와 한국어 교육 Ⅰ(공저)』등이 있다.
문학박사. 상명대학교 사범대학 국어교육과 전임강사, 서울대학교 국어교육연구소 선임연구원으로 있었으며, 현재는 상명대학교 대학원 한국학과 조교수로 재직중이다. 저서로는 『생각하고 표현하기, 한번쉬고 말하기』 『쓰기 교육을 위한 ⓔ논술 프로그램의 구현과 실제』 『한국어와 한국어 교육 Ⅰ(공저)』등이 있다.