#!/usr/bin/env python
# -*- coding: latin-1 -*-
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import scipy
import seaborn as sns
from sklearn import ensemble
from sklearn import feature_extraction
from sklearn import linear_model
from sklearn import pipeline
from sklearn import cross_validation
from sklearn import metrics
# Load module that will load the instances
import load
X, y, label_names = load.get_instances_from_directory('data/text')
X_train, X_test, y_train, y_test = cross_validation.train_test_split(X,
y,
test_size=0.2,
random_state=0)
print(X[0])
ويكيبيديا (تلفظ [wiːkiːbiːdijaː] وتلحن [wikipiːdia] ؛ تلفظ بالإنجليزية /ˌwɪkiˈpiːdi.ə/ ) هي مشروع موسوعة متعددة اللغات، مبنية على الويب ، ذات محتوى حر، تشغلها مؤسسة ويكيميديا ، التي هي منظمة غير ربحية . ويكيبيديا هي موسوعة يمكن لأي مستخدم تعديل وتحرير وإنشاء مقالات جديدة فيها.
print(X[2000])
Am 28. Jänner 1756 – einen Tag nach seiner Geburt – wurde Mozart auf die Namen Joannes Chrysostomus Wolfgangus Theophilus getauft. Der erste und letzte der genannten Vornamen verweisen auf den Taufpaten Joannes Theophilus Pergmayr, Senator et Mercator Civicus , der mittlere Vorname Wolfgang auf Mozarts Großvater Wolfgang Nicolaus Pertl. Das griechische Theophilus („ Gottlieb “) hat Mozart später in seine französische Entsprechung Amadé bzw. (selten) latinisierend Amadeus übersetzt.
print(X[1000])
故宫
print(X[3000])
195,046 foreign nationals became British citizens in 2010, [ 348 ] compared to 54,902 in 1999. [ 348 ] [ 349 ] A record 241,192 people were granted permanent settlement rights in 2010, of whom 51 per cent were from Asia and 27 per cent from Africa. [ 350 ] 25.5 per cent of babies born in England and Wales in 2011 were born to mothers born outside the UK, according to official statistics released in 2012. [ 351 ]
print(X[4000])
La intervención romana se produjo en la Segunda Guerra Púnica (218 a. C.), que inició una paulatina conquista romana de Hispania , no completada hasta casi doscientos años más tarde. La derrota cartaginesa permitió una relativamente rápida incorporación de las zonas este y sur, que eran las más ricas y con un nivel de desarrollo económico, social y cultural más compatible con la propia civilización romana. Mucho más dificultoso se demostró el sometimiento de los pueblos de la Meseta, más pobres ( guerras lusitanas y guerras celtíberas ), que exigió enfrentarse a planteamientos bélicos totalmente diferentes a la guerra clásica (la guerrilla liderada por Viriato —asesinado el 139 a. C.—, resistencias extremas como la de Numancia —vencida el 133 a. C.—). En el siglo siguiente, las provincias romanas de Hispania , convertidas en fuente de enriquecimiento de funcionarios y comerciantes romanos y de materias primas y mercenarios, estuvieron entre los principales escenarios de las guerras civiles romanas , con la presencia de Sertorio , Pompeyo y Julio César . La pacificación ( pax romana ) fue el propósito declarado de Augusto , que pretendió dejarla definitivamente asentada con el sometimiento de cántabros y astures (29—19 a. C.), aunque no se produjo su efectiva romanización. En el resto del territorio, la romanización de Hispania fue tan profunda como para que algunas familias hispanorromanas alcanzaran la dignidad imperial ( Trajano , Adriano y Teodosio ) y hubiera hispanos entre los más importantes intelectuales romanos (el filósofo Lucio Anneo Séneca , los poetas Lucano , Quintiliano o Marcial , el geógrafo Pomponio Mela o el agrónomo Columela ), si bien, como escribió Tito Livio en tiempos de Augusto, "aunque fue la primera provincia importante invadida por los romanos fue la última en ser dominada completamente y ha resistido hasta nuestra época", atribuyéndolo a la naturaleza del territorio y al carácter recalcitrante de sus habitantes. La asimilación del modo de vida romano, larga y costosa, ofreció una gran diversidad desde los grados avanzados en la Bética a la incompleta y superficial romanización del norte peninsular.
print(X[6000])
Il est, par la suite, déchu par le Sénat le 3 avril et exilé à l’ île d’Elbe , selon le traité de Fontainebleau signé le 11 avril, conservant le titre d’Empereur [ 45 ] mais ne régnant que sur cette petite île. Son convoi de Fontainebleau jusqu'à la Méditerranée avant son embarquement pour l'île d'Elbe passe par des villages provençaux royalistes qui le conspuent, il risque d'être lynché à Orgon , ce qui l'oblige à se déguiser [ 46 ] .
print(X[8000])
Также насчитывается 7 изолированных и 9 неклассифицированных языков . К наиболее популярным исконно африканским языкам относятся языки банту ( суахили , конго ), фула .
print(X[-10])
Yerel çeşitlere ve bunların arasında karşılıklı alışveriş ve zenginleştirmeye dayalı olması dünyanın herhangi bir büyük mutfağı için olağandır. Ama aynı zamanda büyükşehir geleneğinin zarif tadı ile homojenize ve uyumludur. [129]
vectorizer = feature_extraction.text.TfidfVectorizer(ngram_range=(1, 6),
analyzer='char',)
# use_idf=False)
pipe = pipeline.Pipeline([
('vectorizer', vectorizer),
('clf', linear_model.LogisticRegression())
])
pipe.fit(X_train, y_train)
y_predicted = pipe.predict(X_test)
cm = metrics.confusion_matrix(y_test, y_predicted)
# Predict the result on some short new sentences:
sentences = [
u'Je ne dis pas ce que je faisais',
u'Ich habe nich erzahlt was ich gemacht habe',
u'Ne yaptığımı söylemedim',
u'Yo no dije lo que hice'
]
# We could pass not "feature" but raw data, pretty neat!
predicted_languages = pipe.predict(sentences)
for sentence, lang in zip(sentences, predicted_languages):
print(u'{} ----> {}'.format(sentence, label_names[lang]))
Je ne dis pas ce que je faisais ----> fr Ich habe nich erzahlt was ich gemacht habe ----> de Ne yaptığımı söylemedim ----> tr Yo no dije lo que hice ----> es
plt.figure(figsize=(16, 16))
sns.heatmap(cm, annot=True, fmt='', xticklabels=label_names, yticklabels=label_names);
print(metrics.classification_report(y_test, y_predicted,
target_names=label_names))
precision recall f1-score support ar 1.00 0.99 0.99 152 cn 0.91 1.00 0.95 148 de 1.00 0.98 0.99 217 en 0.93 0.97 0.95 232 es 0.98 0.92 0.95 265 fr 0.99 1.00 0.99 291 ru 1.00 0.99 1.00 312 tr 1.00 1.00 1.00 117 avg / total 0.98 0.98 0.98 1734