futurelettersfutureletters

匿名化の処理

7名が手紙の内容を目視でチェックし、個人が特定されうる手紙は除外しました。

個人名が書かれている場合は、マスキングをしています。

ただし、芸能人・有名人の名前などはそのままにしています。

誤字脱字の修正

gpt-4oのAPIを利用して、一括修正しています。

絵文字や連続した記号などは、除外されています。

読みやすくするため、文末には句点(。)を付けるようにしています。

疑問符(?)や感嘆符(!)はそのままになっています。

トピックの抽出​(BERTopicを利用)

text-embedding-3-largeを用いてベクトル化した後、K-Means法によってクラスタリングしました。

トピック数は、事前計算の結果に基づいて、全て7に指定しています。

トピックに頻出する単語

mecab-ipadic-NEologdを用いて形態素解析を行い、名詞・動詞・形容詞のみを抽出しました。

どのトピックにも頻出する単語を回避する処理を行っています。

単語の表示が大きいほど、そのトピックに出現しやすいことを意味しています。

トピック名

gpt-4oのAPIを利用して、トピック名を生成した後、より適切な表現になるように修正しました。