Sho Tsugawa's Homepage:情報メディア実験
目次
お知らせ
- 初回 (10/9) は Teams 上でオンラインで実施します。接続先は受講者に直接連絡します。
- 日付を、2024年度の情報に更新しました。
- 対面の場所を確保していますが、適宜オンラインも併用して実施します。
- 2018年度までのページは、こちら。
実験テーマ:ソーシャルネットワーク分析
本実験の前半では、人と人との関係をグラフとして表現したソーシャルネットワークの分析手法を学習します。電子メールや SNS (Social Networking Services) のデータなど、実際の人と人との交流の履歴からソーシャルネットワークを構築し、構築したネットワークを分析します。特にネットワークを特徴付ける指標や、中心的なノードの推定手法について演習を通じて学習します。
本実験の後半では、データの収集から分析までの流れを一通り行います。
各自で自由にテーマを設定します。週に1回程度レビューの時間を設けて、教員(や他の学生)からフィードバックを与えながら進めます。
分析のテーマは、学術的な価値や新規性の有無にはとらわれずに、自分達の興味で自由に設定していただいてかまいません。例えば、複数の有名人の Twitter のフォローワー同士のネットワーク構造を比較する、筑波大の学類でウワサが広がりやすいのはどの学類かを分析する、といった自分達に身近なトピックで設定しても構いません。フェイクニュースと科学技術ニュースの拡散の特徴を分析する、といった社会的な問題意識からテーマを設定することもできるでしょう。分析のテーマ設定の方法についても、実験の中でお伝えするつもりですので、春の実験テーマ選びの段階でやりたいことが定まっていなくてもかまいません。
概要
- 担当教員: 津川 翔
- 実施学期: 2024年度 秋 ABC
- 実施場所: オンライン/3C113
- 受け入れ人数:14 人
スケジュール
以下のスケジュールで実験を進めるが、進捗状況によって、スケジュールを変更する可能性がある。
前半 (課題1〜5) は、各自で課題を実施する。毎回の実験において、教員/TAに質問することができる。いくつかの締切りが設けられているが、進め方は各自の自由である。
データ解析演習は、定期的に成果をレビューしながら進める。
補足資料 (の一部) にアクセスするためのパスワードは実験中に伝える。
「*」のついた日は課題の説明などを実施する予定である。
日付 | 内容 | 補足資料 | 課題 |
---|---|---|---|
10/9*、11、 | ガイダンス、ネットワーク生成モデル、ネットワーク可視化 | ガイダンス、生成モデル、生成と可視化 | 課題1 |
18、23、25、30 | ネットワークの特徴を表す指標、中心性 | 補足、スライド、中心性の計算 | 課題2、 課題3 |
11/1*、6、13、15 | コミュニティ抽出、影響伝搬シミュレーション | 補足 スライド | 課題4、 課題5 |
11/20* | データ解析演習ガイダンス、Research Question の設定 | データ解析演習 | |
11/22、12/4、6、11 | 分析計画の立案 | ||
12/13、18、20、25、27、1/8、10、15、16 | 分析の実施と発表 | ||
1/24、29、31、2/5 | ふりかえりとレポート作成 |
課題に関する補足
- 「*」印の付いた課題は発展課題である。余力があれば取り組むこと。
- グラフの生成やグラフの指標の計算には、igraph などのライブラリを利用してもよい。ただし、理解を深めるため、余力があれば自分でも実装してみることをすすめる。
- 課題を実施するための補足資料やサンプルプログラムは、本ホームページにおいて公開し、必要に応じて実験中に説明を行う。
課題1
課題 1-1
ER モデル、WS モデル、BA モデルによりグラフを生成せよ。
生成したグラフを可視化し、それぞれの特徴を観察せよ。
課題 1-2
各モデルのパラメータを変更し、グラフを生成せよ。
生成したグラフを可視化し、パラメータによってグラフの構造がどのように変化するかを観察せよ。
課題 1-3*
ER モデル、WS モデル、BA モデル以外の生成モデルについて調査し、そのモデルを用いてグラフを生成せよ。
生成したグラフを可視化し、その特徴を観察せよ。
課題2
課題 2-1
ER モデル、WS モデル、BA モデルにより生成したグラフの次数分布をプロットせよ。
線形、対数の 2 通りの軸でプロットせよ。
課題 2-2
ER モデル、WS モデル、BA モデルにより生成したグラフのクラスタリング係数を求めよ。
課題 2-3
ER モデル、WS モデル、BA モデルにより生成したグラフの平均経路長を求めよ。
課題 2-4
課題 2-1〜2-3 で求めた「次数分布」、「クラスタリング係数」、「平均経路長」を用いて、ER モデル、WS モデル、BA モデルにより生成したグラフがそれぞれどのような特徴を有するかまとめて、メールで報告せよ。メール本文に数行程度の分量で良い。提出期限は、10/27 とする。
課題 2-5*
グラフの構造を特徴付ける指標について調査し、各モデルによって生成したグラフにおけるその指標の値を求めよ。
課題3
課題 3-1
ノードの次数中心性、近接中心性、媒介中心性の定義を理解せよ。
いくつかのグラフにおいて、各ノードの次数中心性、近接中心性、媒介中心性の値を求めよ。
ノードを中心性の値によってランキングし、ランキングの上位のノードが中心性の種類によってどのように異なるかを観察せよ。
用いるモデルは何でもよいが、複数のモデルで試すとよい。
課題 3-2
グラフにおける各ノードの中心性の値を計算し、中心性の値が大きいほどノードのサイズが大きくなるように可視化せよ。
異なる中心性、異なるモデルで生成したグラフでいくつか試してみること。
可視化した結果のうちの 1 つを画像ファイルもしくは PDF ファイルの形式でエクスポートして、メールに添付して提出せよ。提出期限は、10/27 とする。
課題 3-3*
次数中心性、近接中心性、媒介中心性、以外の中心性の定義を調査せよ。
調査した中心性の値をいくつかのグラフで計算し、次数中心性、近接中心性、媒介中心性との違いを考察せよ。
課題4
課題 4-1
以下のページからZachary's karate clubのデータをダウンロードする。
http://www-personal.umich.edu/~mejn/netdata/
ダウンロードした karate club のネットワークを、Girvan Newman 法を用い
てコミュニティに分割し、その結果を可視化せよ。
課題 4-2
ネットワークのデータおよびコミュニティ抽出のアルゴリズムを変更して、課題 4-1 と同様
にコミュニティ抽出の結果を可視化せよ。
以下の web ページにおいて人と人の関係を表現したソーシャルネットワークのデータが公開されている。(他にも、検索すれば見つかる。「ソーシャル」でないネットワークのデータも含まれている)
可視化した結果のうちの 1 つを画像ファイルもしくは PDF ファイルの形式でエクスポートして、メールに添付して提出せよ。提出期限は、11/15 とする。
課題5
課題 5-1
ネットワーク上のSIR (Susceptible-Infected-Recovered) モデルのシミュレーションを実施せよ。
ER モデル、および BA モデルで生成したネットワーク上で、ランダムに選んだノードを感染源とし、時刻ごとの感染ノード数を求め、プロットせよ。
横軸を時刻 、縦軸を感染経験のあるノード数 (状態IもしくはRのノード数) のグラフを作成せよ。
ERモデルとBAモデルでの感染速度の違いや、感染率や回復率が感染速度にどのように影響するかを考察せよ。
ネットワークのサイズや、感染率や回復率などのパラメータをどのように設定するかは自由に決めてよい。あまり大きなサイズのネットワークではシミュレーションの実行に時間がかかるため注意すること。ある パラメータで、シミュレーションを 100 回以上試行し、時刻ごとの感染ノード数の平均を求めること。
シミュレーションのためのプログラムは以下を参考にすること。
https://github.com/s-tugawa/MIKA21_tutorial/tree/main/Sec7_epidemic
課題 5-2
課題 5-1 における感染源をランダムに選んだノードではなく、次数最大のノードに変更して、同様のシミュレーションを実行し、グラフを作成せよ。
課題5-1、5-2で作成した折れ線グラフをメールに添付して提出せよ。提出期限は11/15とする。
データ解析演習
各自で、何らかの Research Question を設定する。設定した Question に答えるために必要なデータとそのデータの分析方法を考案せよ。
さらに自分達でデータを収集、分析し、設定した Question への答えをまとめよ。
Research Question の例としては、以下のようなものがありえるが、自分達の興味に応じて自由に設定してかまわない。Reseach Question の見つけ方についてもレクチャーする予定である。
- 有名人の Twitter のフォローワー同士のネットワーク構造がどのように異なるか?
- 筑波大の学類でウワサが広がりやすいのはどの学類か?
- フェイクニュースや科学技術報道の拡散のされ方にはどのような特徴があるか?
分析方法としては、本実験で学んだソーシャルネットワーク分析の手法を用いることを想定しているが、それにとらわれる必要はない。
過去のテーマ例
- 情報学群の3学類同士の距離が近い (遠い) 学類はどこか?
- スポーツイベント中で Twitter 上の投稿の感情がどのように変化するか?
本演習の分析結果は、発表会で発表し、最終レポートにまとめることを予定している。発表およびレポートには以下の内容を含めること。
- 問題意識 (Research Question の設定に至った背景)
- Research Questions
- 分析に用いたデータ
- 分析方法
- 分析結果
- 分析結果の解釈
- 分析結果に基づく何らかの提案 (もしあれば)