Sentence Embedding Explorer

A. Sentence Map

768차원 임베딩을 PCA 2D로 투영. 점을 클릭하면 다른 책에서 가장 비슷한 문장 3개를 보여줍니다.

B. Most Similar Pairs

두 소설 사이에서 임베딩 유사도가 가장 높은 문장 쌍. 단어가 달라도 서사 기능이 같으면 가깝다.

C. Concept Search Experimental

이 기능은 실험 단계입니다. 키워드 평균 벡터로 "분위기"를 추정하지만, "외로움"과 "1인칭 독백"을 구분하지 못할 수 있습니다. 결과를 읽으면서 직접 판단해 주세요.

키워드가 포함된 문장들의 평균 벡터 = "개념 벡터". 키워드 없이도 그 분위기를 가진 문장을 찾습니다.

D. Mood Shift Experimental

문장 간 유사도 변화를 "분위기 전환"으로 해석하는 실험입니다. 유사도가 낮다는 것은 두 문장의 임베딩 방향이 다르다는 뜻이지, 반드시 감정이 바뀌었다는 뜻은 아닙니다. 화자 교체나 서술 방식 변화일 수도 있습니다.

인접 문장 간 유사도 변화. 노란 막대 = 챕터 안에서 분위기가 급변하는 지점 (챕터 경계는 당연하므로 제외). 막대를 클릭하면 전환 전후 문장을 봅니다.

Ch. ~

F. Chapter Fingerprint Experimental

챕터당 10문장 샘플의 평균 벡터로 비교합니다. 색이 보여주는 것은 "비슷함"이지 "왜 비슷한지"가 아닙니다. 같은 장소, 같은 화자의 목소리, 또는 같은 서사 구조일 수 있습니다. 해석은 책을 읽은 사람의 몫입니다.

챕터별 평균 임베딩(centroid)의 유사도 히트맵. 밝을수록 비슷한 분위기의 챕터 쌍입니다.

Moon (58×58) — 58챕터 간 유사도. 대각선에서 먼 밝은 셀 = 멀리 떨어진 챕터인데 분위기가 닮음
Gatsby (9×9) — 9챕터 간 유사도
Moon × Gatsby — 교차 소설 히트맵. Moon의 어떤 챕터가 Gatsby의 어떤 챕터와 닮았는가

E. Distant Pairs Experimental

유사도가 낮은 쌍이 "가장 다른 분위기"인지, 단순히 문장 길이/형태가 다른 것인지 구분하기 어렵습니다. 짧은 대사와 긴 서술이 쌍으로 올라올 수 있습니다.

같은 책 안에서 유사도가 가장 낮은 문장 쌍. 한 소설 안에서 가장 다른 두 순간.

G. Emotion Arc Experimental

감정 점수는 해당 감정 키워드가 포함된 문장들의 평균 임베딩과의 유사도입니다. 작가의 의도나 독자의 실제 감정을 측정한 것이 아닙니다. "death"가 포함된 문장이 반드시 슬픈 문장은 아니듯, 점수가 높다고 그 감정이 강하다는 뜻은 아닐 수 있습니다. 피크 지점의 원문을 직접 읽어보시길 권합니다.

6가지 감정의 강도를 문장 순서대로 시각화. 감정을 하나 선택하면 나머지는 배경으로 표시됩니다. 차트의 아무 지점을 클릭하면 해당 위치의 문장을 볼 수 있습니다.

Ch. ~