from wwod import common_crawl
reload(common_crawl)
<module 'wwod.common_crawl' from 'wwod/common_crawl.pyc'>
valid_segments = common_crawl.valid_segments()
valid_segments[:5]
['1346823845675', '1346823846036', '1346823846039', '1346823846110', '1346823846125']
jids = common_crawl.run_jobs(valid_segments, local=False)
jids
xrange(2677, 2854)
common_crawl.print_iresults(jids,local=False)
0 967409519222 1 3553203682764 2 3820954411597 3 4029974708066 4 4938023527469 5 6380060821398 6 7315551291172 7 8334659708028 8 9187150699597 9 11896043186281 10 13246916964401 11 13631424495444 12 14552849094730 13 15763174860108 14 16792378536403 15 17908079183527 16 18687986010390 17 19687744362335 18 20473269448488 19 21703240961143 20 22309169351458 21 23298934201330 22 25966145601312 23 27646931258933 24 30150302592003 25 32899405077684 26 34824837406778 27 36305658641145 28 38413069044828 29 39474839617312 30 40378846349842 31 41311134689724 32 42166812307925 33 43243896348334 34 44393423324102 35 44881325004723 36 45437469541448 37 46600817536866 38 47257528037624 39 48236801055067 40 49126078679164 41 50074359855347 42 52421877984584 43 53191394123130 44 53587646117654 45 54407568590805 46 55635338515638 47 56940072470679 48 58647521873731 49 59019879634240 50 59840956881260 51 60950777222782 52 62426055563924 53 63432768843301 54 64087753572980 55 64948840594427 56 64993772524195 57 65049903329490 58 65107642958459 59 65155629215137 60 65189010571432 61 65245327260222 62 65300894860127 63 65357528919644 64 65413280968973 65 65468946001606 66 65516134166545 67 65546030637997 68 65566085292522 69 65592895948031 70 65651682131318 71 65708766433391 72 65764282761683 73 65818061576506 74 65871826478215 75 65922021410922 76 65951294327983 77 65981514305027 78 66014100565148 79 66045390567503 80 66100227420131 81 66155211409152 82 66210522886965 83 66265384445983 84 66315938484916 85 66347090805261 86 66376322305136 87 66403565894545 88 66441935397566 89 66500205895008 90 66557385159877 91 66615604279942 92 66673123534852 93 66730435775699 94 66788598764403 95 66846231689611 96 66899638179359 97 66953250132531 98 67008458035944 99 67063620666288 100 67119441760857 101 67174714098931 102 67229485648427 103 67285429023650 104 67341182493562 105 67394715773406 106 67450388470442 107 67506579324518 108 67563202716872 109 67619164740435 110 67673686039454 111 67727144313179 112 67782946305396 113 67839313951652 114 67895744716941 115 67951630598755 116 68003963040374 117 68060302836609 118 68116998096389 119 68172627665624 120 68228752479508 121 68285076646511 122 68329327651313 123 68378420697174 124 68434859137325 125 68490152728193 126 68544678871135 127 68600886597908 128 68657000938195 129 68713818967443 130 68768956966210 131 68822398420466 132 68877107765261 133 68932377655373 134 68987268920833 135 69024953430220 136 69069102319415 137 69125633967258 138 69181773768234 139 69237958470847 140 69294250936591 141 69345949012163 142 69401728459428 143 69458122391478 144 69514738676565 145 69570842996541 146 69626665474111 147 69682124503218 148 69725238149318 149 69783223611693 150 69822505395198 151 69869478614916 152 69925791407855 153 69980593433946 154 70016563055463 155 70064767551174 156 70118360102607 157 70171890819408 158 70225460974161 159 70259840730405 160 70311861936521 161 70369027326245 162 70422347307315 163 70463358792608 164 70506415334261 165 70560187547795 166 70614477397165 167 70660609372718 168 70716046844854 169 70771466684867 170 70827111399073 171 70880433312611 172 70936093589472 173 70992275114599 174 71047941547468 175 71103070723002 176 71106384571350
r = common_crawl.tally_results(jids,local=False)
r['count'], r['size'], r['runtime'], r['cost']
({'arc.gz': 856589, 'metadata': 341517, 'other': 17, 'success': 71, 'textData': 341525}, {'arc.gz': 71106384571350L, 'metadata': 11010558690874L, 'other': 1626219, 'success': 0, 'textData': 6978342039325L}, 1269.396531000001, 0.017630507375000017)
plot(r["cores_vs_time_x"], r["cores_vs_time_y"])
[<matplotlib.lines.Line2D at 0x55af750>]