
Discord公開サーバーのデータセット、2015年から2024年の通信記録を公開
2015年のDiscord開始から2024年末までの10年間にわたる公開サーバー通信データが、研究用に整備された。Yan AquinoらのチームがarXiv.orgで発表したこのデータセットは、計算社会科学研究の基盤となる。
20億件以上のメッセージと470万人のユーザー情報を網羅したDiscordの通信記録データセットが公開された。2015年から2024年末までの期間、3,167の公開サーバーから収集された約2.05億件のメッセージで構成される。
データセットの規模と構成
Yan Aquino、Pedro Bento、Arthur Buzelinを含む研究チームが構築したこのデータセットは、2.05 billionメッセージ、4.74 millionユーザー、3,167のパブリックサーバーを網羅している。Discord's Discovery機能に掲載されているサーバーの約10%が含まれている。データはDiscordの公開APIを通じて2015年から2024年末まで収集された。
倫理基準とデータ構成
収集したデータは匿名化技術を含むプライバシー保護措置と倫理ガイドラインに従い、構造化されたJSONファイルに整理されている。Discordは当初ゲーミング向けコミュニケーションツールから、多様なオンラインコミュニティに対応する汎用プラットフォームへと進化している。
コミュニティの特性と言語構成
予備的な分析によれば、ユーザーエンゲージメント、ボット利用、言語的多様性で有意なトレンドが見出される。英語が優位言語である一方、スペイン語、フランス語、ポルトガル語の実質的な代表性が確認された。コミュニティテーマとしてはソーシャル、アート、ミュージック、ミームが一般的である。
この記事は元記事の事実のみに基づいて自動生成されました。
出典
arXiv.org「Discord Unveiled: A Comprehensive Dataset of Public Communication (2015-2024)」https://arxiv.org/abs/2502.00627