Sentence Embedding Explorer

7,664 sentences × 768 dimensions — what can vectors see?

The Moon and Sixpence The Great Gatsby

A. Sentence Map

768차원 임베딩을 PCA 2D로 투영. 점을 클릭하면 다른 책에서 가장 비슷한 문장 3개를 보여줍니다.

B. Most Similar Pairs

두 소설 사이에서 임베딩 유사도가 가장 높은 문장 쌍. 단어가 달라도 서사 기능이 같으면 가깝다.

C. Concept Search Experimental

이 기능은 실험 단계입니다. 키워드 평균 벡터로 "분위기"를 추정하지만, "외로움"과 "1인칭 독백"을 구분하지 못할 수 있습니다. 결과를 읽으면서 직접 판단해 주세요.
키워드가 포함된 문장들의 평균 벡터 = "개념 벡터". 키워드 없이도 그 분위기를 가진 문장을 찾습니다.

D. Mood Shift Experimental

문장 간 유사도 변화를 "분위기 전환"으로 해석하는 실험입니다. 유사도가 낮다는 것은 두 문장의 임베딩 방향이 다르다는 뜻이지, 반드시 감정이 바뀌었다는 뜻은 아닙니다. 화자 교체나 서술 방식 변화일 수도 있습니다.
인접 문장 간 유사도 변화. 노란 막대 = 챕터 안에서 분위기가 급변하는 지점 (챕터 경계는 당연하므로 제외). 막대를 클릭하면 전환 전후 문장을 봅니다.
Ch. ~

F. Chapter Fingerprint Experimental

챕터당 10문장 샘플의 평균 벡터로 비교합니다. 색이 보여주는 것은 "비슷함"이지 "왜 비슷한지"가 아닙니다. 같은 장소, 같은 화자의 목소리, 또는 같은 서사 구조일 수 있습니다. 해석은 책을 읽은 사람의 몫입니다.
챕터별 평균 임베딩(centroid)의 유사도 히트맵. 밝을수록 비슷한 분위기의 챕터 쌍입니다.
  • Moon (58×58) — 58챕터 간 유사도. 대각선에서 먼 밝은 셀 = 멀리 떨어진 챕터인데 분위기가 닮음
  • Gatsby (9×9) — 9챕터 간 유사도
  • Moon × Gatsby — 교차 소설 히트맵. Moon의 어떤 챕터가 Gatsby의 어떤 챕터와 닮았는가

E. Distant Pairs Experimental

유사도가 낮은 쌍이 "가장 다른 분위기"인지, 단순히 문장 길이/형태가 다른 것인지 구분하기 어렵습니다. 짧은 대사와 긴 서술이 쌍으로 올라올 수 있습니다.
같은 책 안에서 유사도가 가장 낮은 문장 쌍. 한 소설 안에서 가장 다른 두 순간.

G. Emotion Arc Experimental

감정 점수는 해당 감정 키워드가 포함된 문장들의 평균 임베딩과의 유사도입니다. 작가의 의도나 독자의 실제 감정을 측정한 것이 아닙니다. "death"가 포함된 문장이 반드시 슬픈 문장은 아니듯, 점수가 높다고 그 감정이 강하다는 뜻은 아닐 수 있습니다. 피크 지점의 원문을 직접 읽어보시길 권합니다.
6가지 감정의 강도를 문장 순서대로 시각화. 감정을 하나 선택하면 나머지는 배경으로 표시됩니다. 차트의 아무 지점을 클릭하면 해당 위치의 문장을 볼 수 있습니다.
Ch. ~