Optional: get PiCloud, s3cmd, boto set up locally¶

I have s3cmd and boto set up on PiCloud's /rdhyee/Working_with_Open_Data environment set up.

local PiCloud installation¶

sudo pip install cloud

picloud setup

You might be having pip problems -- if so....¶

consult http://stackoverflow.com/questions/15441224/can-i-relink-enthought-python-to-new-version-of-openssl-on-mac-os-x

s3cmd: how I installed it¶

I used https://github.com/s3tools/s3cmd

how I installed on my notebook:

cd ~/C/src/
git clone git://github.com/s3tools/s3cmd.git

cd s3cmd/

python setup.py install
s3cmd --configure

Learning about Common Crawl structure¶

In [116]:

# import our library
import cloud

In [117]:

# this key, secret access to aws-publicdatasets only -- createdd for WwOD 13 student usage
KEY = 'AKIAJH2FD7572FCTVSSQ'
SECRET = '8dVCRIWhboKMiJxgs1exIh6eMCG13B+gp/bf5bsl'

In [118]:

# s3cmd installed in custom PiCloud environment -- and maybe in your local environment too

!s3cmd ls s3://aws-publicdatasets/common-crawl/parse-output/valid_segments.txt

2012-11-09 11:28      2478   s3://aws-publicdatasets/common-crawl/parse-output/valid_segments.txt

Reading keys hanging off of s3://aws-publicdatasets/common-crawl/parse-output/¶

In [119]:

# http://boto.s3.amazonaws.com/s3_tut.html

import boto
from boto.s3.connection import S3Connection

from itertools import islice

conn = S3Connection(KEY,SECRET)
bucket = conn.get_bucket('aws-publicdatasets')
for key in islice(bucket.list(prefix="common-crawl/parse-output/", delimiter="/"),None):
    print key.name.encode('utf-8')

common-crawl/parse-output/checkpoint_staging_$folder$
common-crawl/parse-output/checkpoints_$folder$
common-crawl/parse-output/segment_$folder$
common-crawl/parse-output/valid_segments.txt
common-crawl/parse-output/valid_segments2_$folder$
common-crawl/parse-output/valid_segments_$folder$
common-crawl/parse-output/checkpoint_staging/
common-crawl/parse-output/checkpoints/
common-crawl/parse-output/segment/
common-crawl/parse-output/valid_segments2/

In [121]:

# get valid_segments
# https://commoncrawl.atlassian.net/wiki/display/CRWL/About+the+Data+Set

import boto
from boto.s3.connection import S3Connection

conn = S3Connection(KEY,SECRET)
bucket = conn.get_bucket('aws-publicdatasets')

k = bucket.get_key("common-crawl/parse-output/valid_segments.txt")
s = k.get_contents_as_string()

In [122]:

# how many valid segments in current crawl
len(s.split("\n"))

Out[122]:

In [123]:

valid_segments = s.split("\n")

In [125]:

# get sample valid segment
valid_segments[0]

Out[125]:

'1346823845675'

In [40]:

# what to do with a valid segment instance?
# https://groups.google.com/forum/#!msg/common-crawl/QYTmnttZZyo/NPiXvK8ZeiMJ

In [41]:

# "s3n://aws-publicdatasets/common-crawl/parse-output/segment/"+segmentId+"/*.arc.gz";
!s3cmd ls s3://aws-publicdatasets/common-crawl/parse-output/segment/1346823845675 

                       DIR   s3://aws-publicdatasets/common-crawl/parse-output/segment/1346823845675/
2012-09-05 19:18         0   s3://aws-publicdatasets/common-crawl/parse-output/segment/1346823845675_$folder$

In [42]:

from itertools import islice

conn = S3Connection(KEY,SECRET)
bucket = conn.get_bucket('aws-publicdatasets')
for key in islice(bucket.list(prefix="common-crawl/parse-output/segment/1346823845675/", delimiter="/"),10):
    print key.name.encode('utf-8')

common-crawl/parse-output/segment/1346823845675/1346864466526_10.arc.gz
common-crawl/parse-output/segment/1346823845675/1346864469604_0.arc.gz
common-crawl/parse-output/segment/1346823845675/1346864469638_1.arc.gz
common-crawl/parse-output/segment/1346823845675/1346864471290_4.arc.gz
common-crawl/parse-output/segment/1346823845675/1346864477152_29.arc.gz
common-crawl/parse-output/segment/1346823845675/1346864479613_6.arc.gz
common-crawl/parse-output/segment/1346823845675/1346864480261_2.arc.gz
common-crawl/parse-output/segment/1346823845675/1346864480936_5.arc.gz
common-crawl/parse-output/segment/1346823845675/1346864484063_39.arc.gz
common-crawl/parse-output/segment/1346823845675/1346864484163_3.arc.gz

In [126]:

# WARNING -- this might take a bit of time to run

%time all_files = list(islice(bucket.list(prefix="common-crawl/parse-output/segment/1346823845675/", delimiter="/"),None))

CPU times: user 3.77 s, sys: 0.24 s, total: 4.01 s
Wall time: 30.45 s

In [127]:

len(all_files), all_files[0]

Out[127]:

(20659,
 <Key: aws-publicdatasets,common-crawl/parse-output/segment/1346823845675/1346864466526_10.arc.gz>)

In [128]:

!s3cmd ls s3://aws-publicdatasets/common-crawl/parse-output/segment/1346823845675/1346864466526_10.arc.gz 

2012-09-05 17:17 100011998   s3://aws-publicdatasets/common-crawl/parse-output/segment/1346823845675/1346864466526_10.arc.gz

In [129]:

file0 = all_files[0]

In [51]:

# http://boto.readthedocs.org/en/latest/ref/s3.html#module-boto.s3.key

type(file0), file0.size, file0.content_type

Out[51]:

(boto.s3.key.Key, 100011998, 'application/octet-stream')

In [135]:

sum([f.size for f in all_files])

Out[135]:

289226018

In [138]:

# estimate of size
len(valid_segments)*__builtin__.sum([f.size for f in all_files])

Out[138]:

228638231658916L

In [59]:

all_files[-10:]

Out[59]:

[<Key: aws-publicdatasets,common-crawl/parse-output/segment/1346823845675/textData-04371>,
 <Key: aws-publicdatasets,common-crawl/parse-output/segment/1346823845675/textData-04372>,
 <Key: aws-publicdatasets,common-crawl/parse-output/segment/1346823845675/textData-04373>,
 <Key: aws-publicdatasets,common-crawl/parse-output/segment/1346823845675/textData-04374>,
 <Key: aws-publicdatasets,common-crawl/parse-output/segment/1346823845675/textData-04375>,
 <Key: aws-publicdatasets,common-crawl/parse-output/segment/1346823845675/textData-04376>,
 <Key: aws-publicdatasets,common-crawl/parse-output/segment/1346823845675/textData-04377>,
 <Key: aws-publicdatasets,common-crawl/parse-output/segment/1346823845675/textData-04378>,
 <Key: aws-publicdatasets,common-crawl/parse-output/segment/1346823845675/textData-04379>,
 <Key: aws-publicdatasets,common-crawl/parse-output/segment/1346823845675/textData-04380>]

types of files

*.arc.gz
textData-*
metadata-*

everything belongs into one of those classes?

In [81]:

from collections import Counter

def cc_file_type(path):

    fname = path.split("/")[-1]
    
    if fname[-7:] == '.arc.gz':
        return 'arc.gz'
    elif fname[:9] == 'textData-':
        return 'textData'
    elif fname[:9] == 'metadata-':
        return 'metadata'
    elif fname == '_SUCCESS':
        return 'success'
    else:
        print path
        return 'other'
    

In [82]:

Counter([cc_file_type(f.name) for f in all_files])

Out[82]:

Counter({'arc.gz': 11904, 'textData': 4377, 'metadata': 4377, 'success': 1})

In [101]:

all_files[0]

Out[101]:

<Key: aws-publicdatasets,common-crawl/parse-output/segment/1346823845675/1346864466526_10.arc.gz>

Integration with url index¶

http://urlsearch.commoncrawl.org/download?q=edu.berkeley.ischool

In [98]:

import requests
import json
s = requests.get("http://urlsearch.commoncrawl.org/download?q=edu.berkeley.ischool")
data = [json.loads(row) for row in s.content.split("\n") if row]

In [102]:

u = data[0]

In [100]:

# http://urlsearch.commoncrawl.org/page/1346876860493/1346901517112/422/320051/596

In [104]:

Out[104]:

{u'arcFileDate': 1346901517112L,
 u'arcFileOffset': 320051,
 u'arcFileParition': 422,
 u'arcSourceSegmentId': 1346876860493L,
 u'compressedSize': 596,
 u'url': u'http://people.ischool.berkeley.edu/~rosario/papers.html'}

In [111]:

urlsearch_url = "http://urlsearch.commoncrawl.org/page/{arcSourceSegmentId}/{arcFileDate}/{arcFileParition}/{arcFileOffset}/{compressedSize}".format(**u)
urlsearch_url

Out[111]:

'http://urlsearch.commoncrawl.org/page/1346876860493/1346901517112/422/320051/596'

In [112]:

!s3cmd ls s3://aws-publicdatasets/common-crawl/parse-output/segment/1346876860493/1346901517112_422.arc.gz 

2012-09-06 04:03 100067216   s3://aws-publicdatasets/common-crawl/parse-output/segment/1346876860493/1346901517112_422.arc.gz

In [113]:

# how to grab 320051/596 out of that file?
# hints at https://github.com/trivio/common_crawl_index