이 책은 단어와 구성 요소들로 시작해서, 단어의 시퀀스 속성과 단어들이 어떻게 말하고 이해되는지를 다룬다. 그리고 언어 간 질의 응답, 대화, 번역의 기초가 되는 단어들이 서로 어울리는 방식(구문론), 의미를 형성하는 방식(의미론)을 설명한다. 또한 기술의 관점에서 정규 표현, 정보 검색, 문맥 자유 문법, 통일, 일차 술어 해석, 은닉 마르코프와 다른 확률론적 모델, 수사학적 구조 이론 등을 다루고 있다. 이 책을 따라 가면 음성 및 언어 처리의 핵심적인 알고리듬을 거의 다 경험해 볼 수 있다.
Contents
1장. 소개
1.1 음성 및 언어 처리에 관한 지식
1.2 중의성
1.3 모델과 알고리듬
1.4 언어, 생각 및 이해
1.5 현재의 기술 수준
1.6 일부 간략한 역사
1.6.1 기초적 이해: 1940년대와 1950년대
1.6.2 두 캠프: 1957~1970년
1.6.3 네 가지 패러다임: 1970~1983년
1.6.4 경험론 및 유한 상태 모델 리덕스: 1983~1993년
1.6.5 필드 통합: 1994~1999년
1.6.6 머신러닝의 증가: 2000~2008년
1.6.7 복수 발견
1.6.8 심리학에 대한 간단한 요약
1.7 요약
참고문헌 및 역사 참고 사항
2장. 정규 표현식과 오토마타
2.1 정규 표현식
2.1.1 기본 정규 표현식 패턴
2.1.2 분리, 그룹화 및 우선순위
2.1.3 간단한 예
2.1.4 더 복잡한 예
2.1.5 고급 연산자
2.1.6 정규 표현식 치환, 메모리 및 엘리자
2.2 유한 상태 오토마타
2.2.1 양의 울음소리를 인식하기 위한 FSA의 사용
2.2.2 형식 언어
2.2.3 또 다른 예
2.2.4 비결정적 FSA
2.2.5 문자열 수용을 위한 NFSA 사용
2.2.6 검색으로 인식
2.2.7 결정적 및 비결정적 오토마타의 관계
2.3 정규 언어 및 FSA
2.4 요약
참고문헌 및 역사 참고 사항
연습
3장. 단어 및 변환기
3.1 (대부분의) 영어 형태론 조사
3.1.1 굴절 형태론
3.1.2 파생 형태론
3.1.3 접어화
3.1.4 비연결형 형태론
3.1.5 일치
3.2 유한 상태 형태론 파싱
3.3 유한 상태 어휘 목록의 구조
3.4 유한 상태 변환기
3.4.1 순차 변환기 및 결정론
3.5 형태론적 파싱에 대한 FST
3.6 변환기 및 철자 규칙
3.7 FST 어휘와 규칙의 조합
3.8 어휘 목록이 없는 FST: 포터 어간
3.9 단어 및 문장 토큰화
3.9.1 중국어 분할
3.10 철자 오류 감지 및 수정
3.11 최소 편집 거리
3.12 인간의 형태론적 처리
3.13 요약
참고문헌 및 역사 참고 사항
연습
4장. N그램
4.1 코퍼스에서의 단어 세기
4.2 단순(Unsmoothed) N그램
4.3 훈련 및 테스트 세트
4.3.1 훈련 코퍼스에 대한 N 그램 민감도
4.3.2 미등록어: 개방형 대 폐쇄형 어휘 과제
4.4 N 그램 평가: 복잡도
4.5 평탄화
4.5.1 라플라스 평탄화
4.5.2 굿 튜링 할인
4.5.3 굿 튜링 추정의 일부 고급 문제
4.6 보정법
4.7 백오프
4.7.1 고급: 캐츠 백오프 α 및 P * 계산 세부 사항
4.8 실제 문제: 툴킷 및 데이터 형식
4.9 언어 모델링의 고급 문제
4.9.1 고급 평탄화 방법: Kneser-Ney 평탄화
4.9.2 부류 기반 N그램
4.9.3 언어 모델 적응 및 웹 사용
4.9.4 장거리 정보 사용: 간단한 요약
4.10 고급: 정보 이론 배경
4.10.1 모델 비교를 위한 교차 엔트로피
4.11 고급: 영어의 엔트로피와 엔트로피 비율의 불변성
4.12 요약
참고문헌 및 역사 참고 사항
연습
5장. 품사 태깅
5.1 (대부분) 영어의 어휘 범주
5.2 영어 태그 세트
5.3 품사 태깅
5.4 규칙 기반 품사 태깅
5.5 HMM 품사 태깅
5.5.1 가장 가능성이 높은 태그 시퀀스 계산: 예
5.5.2 은닉 마르코프 모델 태거 공식화
5.5.3 HMM 태깅을 위한 비터비 알고리듬 사용
5.5.4 HMM 알고리듬을 트라이그램으로 확장
5.6 변환 기반 태깅
5.6.1 TBL 규칙 적용 방법
5.6.2 TBL 규칙 학습 방법
5.7 평가 및 오류 분석
5.7.1 오류 분석
5.8 품사 태깅의 고급 문제
5.8.1 실제 문제: 태그 불확실성 및 토큰화
5.8.2 미지의 단어
5.8.3 다른 언어의 품사 태깅
5.8.4 태거 조합
5.9 고급: 철자를 위한 잡음 통신로 모델
5.9.1 맥락별 철자 오류 수정
5.10 요약
참고문헌 및 역사 참고 사항
연습
6장. 은닉 마르코프 및 최대 엔트로피 모델
6.1 마르코프 연쇄
6.2 은닉 마르코프 모델
6.3 우도 계산: 순방향 알고리듬
6.4 디코딩: 비터비 알고리듬
6.5 HMM 훈련: 순방향 - 역방향 알고리듬
6.6 최대 엔트로피 모델: 배경
6.6.1 선형 회귀 분석
6.6.2 로지스틱 회귀
6.6.3 로지스틱 회귀: 분류
6.6.4 고급: 로지스틱 회귀 학습
6.7 최대 엔트로피 모델링
6.7.1 최대 엔트로피라고 부르는 이유
6.8 최대 엔트로피 마르코프 모델
6.8.1 MEMM에서 디코딩 및 학습
6.9 요약
참고문헌 및 역사 참고 사항
연습
7장. 음성학
7.1 말소리 및 발음 표기
7.2 조음 음성학
7.2.1 발성 기관
7.2.2 자음: 조음 위치
7.2.3 자음: 조음 방식
7.2.4 모음
7.2.5 음절
7.3 음운론적 범주 및 발음 변이
7.3.1 발음 피처
7.3.2 발음 변이 예측
7.3.3 발음 변이에 영향을 미치는 요인
7.4 음향 음성학 및 신호
7.4.1 파형
7.4.2 음성 음파
7.4.3 주파수와 진폭: 피치와 음량
7.4.4 파형에서 단음의 해석
7.4.5 스펙트럼 및 주파수 영역
7.4.6 소스 - 필터 모델
7.5 음성 리소스
7.6 고급: 조음 및 동작 음운론
7.7 요약
참고문헌 및 역사 참고 사항
연습
8장. 음성 합성
8.1 텍스트 정규화
8.1.1 문장 토큰화
8.1.2 비표준 단어
8.1.3 동형이의어의 중의성 해소
8.2 음성 분석
8.2.1 사전 조회
8.2.2 명칭
8.2.3 문자소의 음소 변환
8.3 운율 분석
8.3.1 운율 구조
8.3.2 운율 돋들림
8.3.3 억양
8.3.4 보다 정교한 모델: ToBI
8.3.5 운율 레이블에서 음의 길이 연산
8.3.6 운율 레이블에서 F0 연산
8.3.7 텍스트 분석의 최종 결과: 내부 표현
8.4 다이폰 파형 합성
8.4.1 다이폰 데이터베이스 구축 단계
8.4.2 다이폰 연결 및 운율학의 TD - PSOLA
8.5 음편 선택 (파형) 합성
8.6 평가
참고문헌 및 역사 참고 사항
연습
9장. 자동 음성 인식
9.1 음성 인식 아키텍처
9.2 음성에 적용된 은닉 마르코프 모델
9.3 피처 추출: MFCC 벡터
9.3.1 프리엠파시스
9.3.2 윈도잉
9.3.3 이산 푸리에 변환
9.3.4 멜 필터 뱅크 및 로그
9.3.5 켑스트럼: 역이산 푸리에 변환
9.3.6 델타와 에너지
9.3.7 요약: MFCC
9.4 음향 우도 계산
9.4.1 벡터 양자화
9.4.2 가우시안 PDF
9.4.3 확률, 로그 확률 및 거리함수
9.5 어휘 목록과 언어 모델
9.6 검색 및 디코딩
9.7 임베디드 훈련
9.8 평가: 단어 오류율
9.9 요약
참고문헌 및 역사 참고 사항
연습
10장. 음성 인식: 고급 주제
10.1 다중 경로 디코딩: N - 베스트 목록 및 격자
10.2 A*(“스택”) 디코딩
10.3 문맥에 따른 음향 모델: 트라이폰
10.4 차별적 훈련
10.4.1 최대 상호 정보 추정
10.4.2 사후 분류기에 기반한 음향 모델
10.5 모델링 변화
10.5.1 환경 변화 및 잡음
10.5.2 화자별 변이 및 화자 적응
10.5.3 발음 모델링: 장르에 따른 변이
10.6 메타데이터: 경계, 구두점 및 눌변
10.7 인간의 음성 인식
10.8 요약
참고문헌 및 역사 참고 사항
연습
11장. 컴퓨터의 음운론
11.1 유한 상태 음운론
11.2 고급 유한 상태 음운론
11.2.1 조화
11.2.2 템플래틱 형태론
11.3 컴퓨터의 최적 이론
11.3.1 최적 이론의 유한 상태 변환기 모델
11.3.2 최적 이론의 확률적 모델
11.4 음절화
11.5 음운론 및 형태론 학습
11.5.1 음운론적 규칙 학습
11.5.2 형태론적 규칙 학습
11.5.3 최적 이론 학습
11.6 요약
참고문헌 및 역사 참고 사항
연습
12장. 영어의 격식어법
12.1 구성 요소
12.2 문맥 자유 문법
12.2.1 문맥 자유 문법의 형식적 정의
12.3 영어 문법 규칙
12.3.1 문장 레벨의 구성 요소
12.3.2 절과 문장
12.3.3 명사구
12.3.4 일치
12.3.5 동사구와 하위 범주화
12.3.6 조동사
12.3.7 대등 관계
12.4 트리뱅크
12.4.1 예제: 펜 트리뱅크 프로젝트
12.4.2 문법으로서의 트리뱅크
12.4.3 트리뱅크 검색
12.4.4 구의 중심 단어 탐색
12.5 문법 동등성 및 정규형
12.6 유한 상태 및 문맥 자유 문법
12.7 의존성 문법
12.7.1 의존성과 구의 중심 단어 간의 관계
12.7.2 범주 문법
12.8 음성 언어 통사론
12.8.1 눌변 및 정정
12.8.2 구어체를 위한 트리뱅크
12.9 문법과 언어의 프로세싱
12.10 요약
참고문헌 및 역사 참고 사항
연습
13장. 통사론 파싱
13.1 검색으로 파싱
13.1.1 하향식 파싱
13.1.2 상향식 파싱
13.1.3 하향식 및 상향식 파싱 비교
13.2 중의성
13.3 중의성 측면에서 검색
13.4 동적 프로그래밍 파싱 방법
13.4.1 CKY 파싱
13.4.2 Earley 알고리듬
13.4.3 차트 파싱
13.5 부분적인 파싱
13.5.1 유한 상태 규칙 기반 청킹
13.5.2 청킹에 대한 머신러닝 기반 접근법
13.5.3 청킹 시스템 평가
13.6 요약
참고문헌 및 역사 참고 사항
연습
14장. 통계에 근거한 파싱
14.1 확률론적 문맥 자유 문법
14.1.1 중의성 해소를 위한 PCFG
14.1.2 언어 모델링을 위한 PCFG
14.2 PCFG의 확률론적 CKY 파싱
14.3 PCFG 규칙 확률 학습 방법
14.4 PCFG의 문제
14.4.1 규칙 간의 구조적 종속성을 결여한 독립 가정
14.4.2 어휘 종속성의 민감성 결여
14.5 논터미널을 분할한 PCFG 개선
14.6 확률론적 어휘 CFG
14.6.1 콜린스 파서
14.6.2 고급: 콜린스 파서의 추가 세부 정보
14.7 파서 평가
14.8 고급: 차별적 재순위화
14.9 고급: 파서 기반 언어 모델링
14.10 휴먼 파싱
14.11 요약
참고문헌 및 역사 참고 사항
연습
15장. 피처와 결합
15.1 피처 구조
15.2 피처 구조의 통일
15.3 문법의 피처 구조
15.3.1 일치
15.3.2 헤드 피처
15.3.3 하위 범주화
15.3.4 장거리 종속성
15.4 통일 실행
15.4.1 통일 데이터 구조
15.4.2 통일 알고리듬
15.5 통일 제약 조건을 사용한 구문 분석
15.5.1 Earley 파서로의 통일
15.5.2 통일 기반 파싱
15.6 유형과 상속
15.6.1 고급: 입력할 확장자
15.6.2 통일에 대한 기타 확장
15.7 요약
참고문헌 및 역사 참고 사항
연습
16장. 언어와 복잡성
16.1 촘스키 계층 구조
16.2 언어가 규칙적이지 않은지 확인하는 방법
16.2.1 펌핑 렘마
16.2.2 다양한 자연어가 규칙적이지 않다는 증거
16.3 문맥 자유 자연어란
16.4 복잡성과 인간의 프로세싱
16.5 요약
참고문헌 및 역사 참고 사항
연습
17장. 의미표현상
17.1 표현에 대한 컴퓨터 요구 사항
17.1.1 검증 가능성
17.1.2 중의적이지 않은 표현
17.1.3 기본형
17.1.4 추론 및 변수
17.1.5 표현성
17.2 모델 이론적 의미론
17.3 1차 논리
17.3.1 1차 논리의 기본 요소
17.3.2 변수와 양화사
17.3.3 람다 표기법
17.3.4 1차 논리의 의미
17.3.5 추론
17.4 이벤트 및 상태 표현
17.4.1 시간 표시
17.4.2 동사의 상
17.5 기술 논리
17.6 의미에 대한 구체화 및 위치 접근
17.7 요약
참고문헌 및 역사 참고 사항
연습
18장. 컴퓨터의 의미론
18.1 구문 기반 의미 분석
18.2 구문 규칙의 의미적 확장
18.3 양화사 범위 중의성 및 비명세성
18.3.1 접근 방식 저장 및 검색
18.3.2 제약 기반 접근 방식
18.4 의미론적 분석의 통합 기반 접근
18.5 Earley 파서에 의미론 통합
18.6 관용어와 구성
18.7 요약
참고문헌 및 역사 참고 사항
연습
19장. 어휘 의미론
19.1 단어 의미
19.2 의미 간의 관계
19.2.1 동의어와 반의어
19.2.2 하위어
19.2.3 의미장
19.3 WordNet : 어휘 관계 데이터베이스
19.4 이벤트 관여자
19.4.1 의미역
19.4.2 특성 대체
19.4.3 의미역의 문제
19.4.4 명제 뱅크
19.4.5 FrameNet
19.4.6 선택 제한
19.5 기본 분해
19.6 고급: 은유
19.7 요약
참고문헌 및 역사 참고 사항
연습
20장. 컴퓨터의 어휘 의미론
20.1 단어 의미 중의성 해소: 개요
20.2 지도된 단어 감지 중의성 해소
20.2.1 지도 학습을 위한 피처 추출
20.2.2 나이브 베이즈 및 의사결정 목록 분류사
20.3 WSD 평가, 기준치 및 한도
20.4 WSD: 사전 및 시소러스 방법
20.4.1 Lesk 알고리듬
20.4.2 선택 제한 및 선택 선호도
20.5 최소 지도 WSD: 부트스트래핑
20.6 단어 유사성: 시소러스 방법
20.7 단어 유사성: 분산 방법
20.7.1 단어의 동시 발생 벡터 정의
20.7.2 맥락과의 연관성 측정
20.7.3 두 벡터 간의 유사성 정의
20.7.4 분산 단어 유사성 평가
20.8 하의어 및 기타 단어 관계
20.9 의미론적 역할 레이블링
20.10 고급: 비지도 의미 중의성 해소
20.11 요약
참고문헌 및 역사 참고 사항
연습
21장. 컴퓨터를 사용한 담화
21.1 담화 세분화
21.1.1 비지도 담화 세분화
21.1.2 지도된 담화 세분화
21.1.3 담화 세분화 평가
21.2 텍스트 일관성
21.2.1 수사적 구조 이론
21.2.2 자동 일관성 할당
21.3 참조 해결
21.4 지시 현상
21.4.1 다섯 가지 유형의 지칭 표현
21.4.2 정보 상태
21.5 대명사의 대용어 복원 피처
21.5.1 잠재적 대상 필터링 피처
21.5.2 대명사 해석의 선택
21.6 대용어 복원을 위한 세 가지 알고리듬
21.6.1 대명사의 대용어 기준선: 홉스 알고리듬
21.6.2 대용어 복원을 위한 센터링 알고리듬
21.6.3 대명사 대용어 복원을 위한 로그 - 선형 모델
21.6.4 대명사의 대용어 복원을 위한 피처
21.7 대용어 해소
21.8 대용어 해소 평가
21.9 고급: 추론 기반 일관성 해결
21.10 지칭에 대한 심리학적 연구
21.11 요약
참고문헌 및 역사 참고 사항
연습
22장. 정보 추출
22.1 개체명 인식
22.1.1 개체명 인식의 중의성
22.1.2 시퀀스 레이블링으로서의 NER
22.1.3 기업명 인식 평가
22.1.4 실용적인 NER 아키텍처
22.2 관계 검출 및 분류
22.2.1 관계 분석에 대한 지도 학습 접근법
22.2.2 관계 분석의 용이한 지도된 접근 방식
22.2.3 관계 분석 시스템의 평가
22.3 시간 및 이벤트 처리
22.3.1 시간 표현 인식
22.3.2 시간적 정규화
22.3.3 이벤트 감지 및 분석
22.3.4 TimeBank
22.4 템플릿 채우기
22.4.1 템플릿 채우기에 대한 통계적 접근
22.4.2 유한 상태 템플릿 채우기 시스템
22.5 고급: 생의학 정보 추출
22.5.1 생물학적 개체명 인식
22.5.2 유전자 정규화
22.5.3 생물학적 역할 및 관계
22.6 요약
참고문헌 및 역사 참고 사항
연습
23장. 질의응답 및 요약
23.1 정보 검색
23.1.1 벡터 공간 모델
23.1.2 용어 가중치
23.1.3 용어 선택 및 생성
23.1.4 정보 검색 시스템 평가
23.1.5 동음이의, 다의성 및 동의성
23.1.6 사용자 쿼리를 개선하는 방법
23.2 팩토이드 질의응답
23.2.1 질문 처리
23.2.2 단락 검색
23.2.3 답변 처리
23.2.4 팩토이드 답변 평가
23.3 요약
23.4 단일 문서 요약
23.4.1 비지도 콘텐츠 선택
23.4.2 수사학적 파싱을 기반으로 한 비지도 요약
23.4.3 지도 콘텐츠 선택
23.4.4 문장 단순화
23.5 다중 문서 요약
23.5.1 다중 문서 요약의 콘텐츠 선택
23.5.2 다중 문서 요약의 정보 순서
23.6 집중 요약 및 질의응답
23.7 요약 평가
23.8 요약
참고문헌 및 역사 참고 사항
연습
24장. 다이얼로그 및 대화 에이전트
24.1 인간 대화의 속성
24.1.1 의사소통 순서와 주고받기
24.1.2 실행 언어: 화행
24.1.3 공동 작용으로서의 언어: 기초
24.1.4 대화 구조
24.1.5 대화 의미
24.2 기본 다이얼로그 시스템
24.2.1 ASR 구성 요소
24.2.2 NLU 구성 요소
24.2.3 생성 및 TTS 구성 요소
24.2.4 다이얼로그 관리자
24.2.5 오류 처리: 확인 및 거부
24.3 VoiceXML
24.4 다이얼로그 시스템 설계 및 평가
24.4.1 다이얼로그 시스템 설계
24.4.2 다이얼로그 시스템 평가
24.5 정보 상태와 대화 행위
24.5.1 대화 행위 사용
24.5.2 대화 행위 해석
24.5.3 교정 행위 감지
24.5.4 대화 행위 생성: 확인 및 거부
24.6 마르코프 의사결정 프로세스 아키텍처
24.7 고급: 계획 기반 다이얼로그 에이전트
24.7.1 계획 추론 해석 및 생성
24.7.2 의도적인 다이얼로그 구조
24.8 요약
참고문헌 및 역사 참고 사항
연습
25장. 기계 번역
25.1 기계 번역이 어려운 이유
25.1.1 유형 분류 체계
25.1.2 기타 구조 차이
25.1.3 어휘의 차이
25.2 클래식 MT와 보쿠아 삼각형
25.2.1 직역
25.2.2 전달
25.2.3 클래식 MT에서 결합된 직접 및 전달 접근 방식
25.2.4 인터링구아 아이디어: 의미 사용
25.3 통계적 MT
25.4 P (F |E ): 구문 기반 번역 모델
25.5 MT에서의 정렬
25.5.1 IBM Model 1
25.5.2 HMM 정렬
25.6 훈련 정렬 모델
25.6.1 훈련 정렬 모델을 위한 EM
25.7 구문 기반 MT를 위한 대칭 정렬
25.8 구문 기반 통계 MT에 대한 디코딩
25.9 MT 평가
25.9.1 인간 평가자 사용
25.9.2 자동 평가: BLEU
25.10 고급: MT용 구문 모델
25.11 고급 : IBM Model 3 및 퍼틸리티
25.11.1 Model 3 훈련
25.12 고급: MT용 로그 선형 모델
25.13 요약
참고문헌 및 역사 참고 사항
연습
Author
댄 주라프스키,제임스 H. 마틴,박은숙
미국 스탠퍼드대학교 컴퓨터 공학과와 언어학부 부교수다. 볼더의 콜로라도대학교 언어학 및 컴퓨터 공학과와 인지 과학 연구소에서 교수로도 근무했다. 미국 뉴욕 용커스에서 태어나 버클리에 있는 캘리포니아대학교에서 1983년 언어학 학사 학위와 1992년 컴퓨터 공학 박사 학위를 받았다. 1998년에 국립과학재단 커리어(CAREER) 상을, 2002년 맥아더 펠로우십(MacArthur Fellowship) 상을 받았다. 음성과 언어 처리의 광범위한 주제에 관한 90여 편의 논문을 발표했다.
미국 스탠퍼드대학교 컴퓨터 공학과와 언어학부 부교수다. 볼더의 콜로라도대학교 언어학 및 컴퓨터 공학과와 인지 과학 연구소에서 교수로도 근무했다. 미국 뉴욕 용커스에서 태어나 버클리에 있는 캘리포니아대학교에서 1983년 언어학 학사 학위와 1992년 컴퓨터 공학 박사 학위를 받았다. 1998년에 국립과학재단 커리어(CAREER) 상을, 2002년 맥아더 펠로우십(MacArthur Fellowship) 상을 받았다. 음성과 언어 처리의 광범위한 주제에 관한 90여 편의 논문을 발표했다.