twitter日本語ユーザのソーシャルダンプ

こちらtwitterの日本語ユーザのfollowinとプロフィールのダンプを提供していたので、使ってみることに。

下記概要。

プロフィール: 108万人分の スクリーンネーム や自己紹介文 フォローイング: 103万人分のフォローイング先ID一覧です。 展開すると300万 ノード 2.8億エッジになります。

▼MongoDBをインストール

 

ダンプのストレージにMongoDBを使うので、インストール。

手順(インストール〜終了まで)はこちらを参照にさせていただいた。 ※MongoDBのサイトはこちら。twitterFacebook,google groupがあるので、参加しよー。

▼ダンプを入れる。

ダンプの読み込みから操作までこちらにまとめられている。

▼使ってみる。

プロフィールの位置情報で、tokyo(大文字小文字とわず)なのは108万件の中で5万ちょいぐらい。

> db.profiles.find({'location': /tokyo/i}).count()
53888

nara(同じく)なのは108万件の中で800件。。。

> db.profiles.find({'location': /nara/i}).count()
792

 

ちょっと検索条件が悪いか。。要調査ですな。

まあいいや。なるほどーこれはおもろい!

いろいろできるでー

とりあえず、使い方は大体分かったので、以下引き続き調べたい。

  • followinの方が、dump読み込み時にエラーで読み込めてないので調査
  • mongodbの書き方がまだ不慣れ。もっと試す。
  • rubypythonから使えるようにする

[Mickey]