twitter日本語ユーザのソーシャルダンプ
こちらでtwitterの日本語ユーザのfollowinとプロフィールのダンプを提供していたので、使ってみることに。
下記概要。
プロフィール: 108万人分の スクリーンネーム や自己紹介文 フォローイング: 103万人分のフォローイング先ID一覧です。 展開すると300万 ノード 2.8億エッジになります。
▼MongoDBをインストール
ダンプのストレージにMongoDBを使うので、インストール。
手順(インストール〜終了まで)はこちらを参照にさせていただいた。 ※MongoDBのサイトはこちら。twitterやFacebook,google groupがあるので、参加しよー。
▼ダンプを入れる。
ダンプの読み込みから操作までこちらにまとめられている。
▼使ってみる。
プロフィールの位置情報で、tokyo(大文字小文字とわず)なのは108万件の中で5万ちょいぐらい。
> db.profiles.find({'location': /tokyo/i}).count() 53888
nara(同じく)なのは108万件の中で800件。。。
> db.profiles.find({'location': /nara/i}).count() 792
ちょっと検索条件が悪いか。。要調査ですな。
まあいいや。なるほどーこれはおもろい!
いろいろできるでー
とりあえず、使い方は大体分かったので、以下引き続き調べたい。
[Mickey]