using DataFrames
using GLM
using Gadfly
data = readtable("/Users/ysekky/Downloads/data4a.csv")
#Fをカテゴリカル変数が扱えるようにPooledDataArrayに変換する
data[:f] = convert(PooledDataArray,data[:f])
describe(data)
plot(data, x="x", y="y", color="f")
logistic(z) = 1/(1+exp(-z))
plot(logistic,-6, 6)
#6.5でも言われている通り本来はこれで動作させたい
data[:t] = hcat(data[:y], data[:N] - data[:y])
glm(t~x+f , data, Binomial(), LogitLink())
#一応これでも同じ結果は得られるが, これはNがすべて共通だから成立するものと思われる
data[:p] = data[:y]/8.0
glm(p~x+f , data, Binomial(), LogitLink())
#カテゴリカル変数と実数値を演算にした線形予測子は用いることができないようだ
glm(p~x+f+x*f , data, Binomial(), LogitLink())
#こっちも無理
data[:x] * data[:f]