Zurück zum Blog
·Honza Tyl·1 min Lesezeit·Archiv 2018

Neue Herausforderung!

Vor kurzem fand auf Kaggle (https://www.kaggle.com/c/jigsaw-toxic-comment-classificatio…) ein interessantes Wettbewerb statt, bei dem ein Detektor entwickelt werden sollte, der Beleidigungen, toxische und obszöne Äußerungen erkennen kann – Toxic Comment Classification Challenge….

Neue Herausforderung!

Vor kurzem fand auf Kaggle (https://www.kaggle.com/c/jigsaw-toxic-comment-classificatio…) ein interessantes Wettbewerb statt, bei dem ein Detektor entwickelt werden sollte, der Beleidigungen, toxische und obszöne Äußerungen erkennen kann – Toxic Comment Classification Challenge.

Ich habe davon spät erfahren, aber ich habe trotzdem ein tiefes neuronales Netzwerk basierend auf LTSM + FastText geschrieben (die Erfolgsquote des Algorithmus hätte im Kaggle-Ranking für eine Goldmedaille gereicht). Ein Kollege von Alpha Industries hat den Trainingsdatensatz ins Tschechische übersetzt (70 Mega Text!) und auf einem Amazon-Server bereitgestellt. Sie können es jetzt hier ausprobieren: www.detector.alphai.cz.

Der Algorithmus ist nicht perfekt, funktioniert jedoch anständig sowohl in Tschechisch als auch in Englisch.

Aufgabe für Sie – Können Sie einen Satz oder sogar einen längeren Text finden, den der Algorithmus als nicht vulgär (toxisch) bewertet, der aber beleidigend ist?

Původní zdroj: wordpress

Související články