Notebook

In [1]:

%load_ext rpy2.ipython
%matplotlib inline

ドキュメントのWebを泳ぐ。Rで始めるBADデータ・ダイビング！¶

発表者：
　@nezuq
作成日：
　2014/05/31
説明：
　第39回R勉強会＠東京 LT発表資料。Webスクレイピングのススメ。
　#TokyoR #Rstat #Selenium
関連文書：
　RでSPARQL （第30回R勉強会＠東京発表資料）

In [42]:

import numpy as np; X = np.array(zip([u'動画' for x in range(1,6)], [u'静画',u'大百科',u'生放送',u'チャンネル',u'ブロマガ']))
%Rpush X
%R library(igraph); plot(graph.edgelist(X) ,vertex.size=50);

About Me¶

発表者：
　@nezuq
仕事：
　VB.NET, VBA, VB6
趣味：
　R, Python
最近の活動：
　データジャーナリズム・キャンプ＆アワード2013で共同制作した作品が、
　LODChallenge2013 ビジュアライゼーション部門最優秀賞を受賞しました。

突然ですが、グローバル化ってなんだと思いますか？

グローバル化は世界中の人材と仕事を奪い合うようになる変化だと思います。
¶

高品質低価格の海外プロフェッショナルに勝つために、何ができる？

他人の知識を使う。2つのWebから知識を引き出し、知識のレバレッジを掛ける。

ドキュメントのWebとは？¶

BADデータの共有ネットワークDB。通称、人間の為のインターネット。
　全てのHTMLドキュメントはURIにより一意に特定され、リンクされる。
　データの関係性が曖昧に定義され、その出現順も不定である為、解析しづらい。
　ただし、データ数は多い。

「タイトル、メタ情報、文書（自然言語）」

（例）

<p>
  <a>花子</a>は<a>太郎</a>の知り合いです。<br/>
  花子のメールアドレス：hanako@xxx.co.jp
</p>

データのWebとは？¶

GOODデータの共有ネットワークDB。通称、機械の為のインターネット。
　全てのRDFデータはURIにより一意に特定され、リンクされる。
　データの関係性が厳密に定義され、その出現順も一定である為、解析しやすい。
　ただし、データ数は少ない。

「主語→述語→目的語、主語→述語→目的語、主語→述語→目的語」

（例）

PREFIX ex: <http://example.org/resource/>
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
ex:太郎 foaf:knows ex:花子
ex:花子 foaf:mbox <mailto:hanako@xxx.co.jp>

"データのWeb"と"ドキュメントのWeb"のコラボが望まれる。

"ドキュメントのWeb"を解析・整形する技術が必要だ。

その為の技術として、「Webスクレイピング」がある。

手元にあるRで始めてみよう。

Rをクローラーにする魔法のコマンド¶

※ただし、Firefoxユーザーに限る。


#Relenium依存パッケージのインストール
install.packages("rJava")
install.packages("devtools")
library(devtools)
install_github('seleniumJars', 'LluisRamon')
install_github('relenium', 'LluisRamon')

#Releniumの使用宣言
library(relenium)

これであなたのRはクローラーになりました。

Firefoxを介して、データを集めます。

RでFirefoxを起動する。¶

firefox <- firefoxClass$new()

Firefoxで指定サイトを開く。¶

firefox$get("http://www.nicovideo.jp/")

指定要素を取得し、テキストを表示する。¶

#CSSセレクタで要素指定。※XPathで指定するfindElementsByXPath関数もある。
elms <- firefox$findElementsByCssSelector("#topic > ul > li")
elms[[1]]$getText()

RでFirefoxを停止する。¶

firefox$close()

応用的な使い方はQiitaの記事で。¶

Rでクローリング。FirefoxをR経由で自動操作する。 - Qiita

Webスクレイピングの知識をShareする場を設けたい。

「東京スクラッパー（仮）」

BADデータ・ダイビングを一緒に楽しみませんか？

In [3]:

from mpl_toolkits.mplot3d import Axes3D
import matplotlib.pyplot as plt
import numpy as np

import matplotlib
matplotlib.rcParams['font.family'] = 'TakaoPGothic'

X, Y = np.meshgrid(np.arange(-3, 3, 0.2), np.arange(-3, 3, 0.2))
Axes3D(plt.figure()).plot_wireframe(X,Y,np.sin(X) + np.cos(Y))
title(u'<span>Enjoy&nbsp;ＢＡＤデータ・ダイビング！</span>', fontsize=48)
plt.show()