---
source_url: https://arxiv.org/abs/2502.00627
source_title: "Discord Unveiled: A Comprehensive Dataset of Public Communication (2015-2024)"
source_site: "arXiv.org"
hero_image: https://static.arxiv.org/icons/twitter/arxiv-logo-twitter-square.png
tags: discord,dataset,social-media,computational-social-science,nlp
generated_at: 2026-05-22T04:07:48.366Z
model: claude-haiku-4-5
---
# Discord公開サーバーのデータセット、2015年から2024年の通信記録を公開

2015年のDiscord開始から2024年末までの10年間にわたる公開サーバー通信データが、研究用に整備された。Yan AquinoらのチームがarXiv.orgで発表したこのデータセットは、計算社会科学研究の基盤となる。

20億件以上のメッセージと470万人のユーザー情報を網羅したDiscordの通信記録データセットが公開された。2015年から2024年末までの期間、3,167の公開サーバーから収集された約2.05億件のメッセージで構成される。

## データセットの規模と構成

Yan Aquino、Pedro Bento、Arthur Buzelinを含む研究チームが構築したこのデータセットは、2.05 billionメッセージ、4.74 millionユーザー、3,167のパブリックサーバーを網羅している。Discord's Discovery機能に掲載されているサーバーの約10%が含まれている。データはDiscordの公開APIを通じて2015年から2024年末まで収集された。

## 倫理基準とデータ構成

収集したデータは匿名化技術を含むプライバシー保護措置と倫理ガイドラインに従い、構造化されたJSONファイルに整理されている。Discordは当初ゲーミング向けコミュニケーションツールから、多様なオンラインコミュニティに対応する汎用プラットフォームへと進化している。

## コミュニティの特性と言語構成

予備的な分析によれば、ユーザーエンゲージメント、ボット利用、言語的多様性で有意なトレンドが見出される。英語が優位言語である一方、スペイン語、フランス語、ポルトガル語の実質的な代表性が確認された。コミュニティテーマとしてはソーシャル、アート、ミュージック、ミームが一般的である。

*この記事は元記事の事実のみに基づいて自動生成されました。*

## 出典
arXiv.org「Discord Unveiled: A Comprehensive Dataset of Public Communication (2015-2024)」https://arxiv.org/abs/2502.00627