This page contains samples of offensive/inappropriate language in Turkish.

This page (guidelines in English) is for reference. Annotators were instructed to follow the guidelines in Turkish.

Thank you for helping us out for annotating this Twitter data set to identify offensive statements. The definitions of offensive language and its types are not necessarily clear-cut, and opinions differ to some extent. Nevertheless, we would like to get as unified annotations as possible.

Before starting please read the following guidelines carefully. A short reference is provided in the annotations system (click on the book icon on the upper left corner).

Label set

We classify the tweets with one or more or the following labels:

When appropriate, you may chose multiple labels. However, you should try to pick the smallest set of applicable labels. For example, a tweet may contain both an offense to an individual and a discriminating/hate attitude toward a group as in example (10) below. In general, a non-offensive tweet should not have any of the other labels above.

We also mark the use of self-censored or contracted words like examples (13) and (14) below as profanity or offensive as if the respective words were used in their full form.

The annotation process

We describe the labels above in a “flat” manner. However, the annotation process we follow is hierarchical. The following QA pairs give a more flowchart-like procedure to follow

  1. Is the tweet in Turkish and understandable?
    • No: mark tweet X for exclusion, and go to next tweet
    • Yes: continue to step 2
  2. Is the tweet include offensive/inappropriate language?
    • No: mark the tweet non go to step 4
    • Yes: continue to step 3
  3. Is the offense in the tweet targeted?
    • No: mark the tweet prof go to step 4
    • Yes: chose one (or more) of grp, ind, *oth based on the definitions above. Please try to limit the number of labels unless it is clear that the tweet includes offense against multiple categories.
  4. Was the labeling decision difficult (precise answer needs more context, tweets includes irony, or for another reason)?
    • No: go to next tweet
    • Yes: add the label X, go to next tweet

Examples

    (1) Amına kodumun zencisi ben de senin koca götünü sikeyim piç
        orospu çocuğu
    (2) İSTÖ İsrail Siyonist terör örgütü tüm müslümanların yok etmesi 
        gereken insanlık düşmanı bir terör örgütüdür...
    (3) Ahlak, namus deyince sadece kadından konuşan herkes ahlaksız
        ve namussuzdur. 
    (4) Lan liseliler yolda yürürken telefona değil yola bakın. üç beş
        tanenizi ibrati alem için tokat manyağı yaparım
    (5) Böyle devam et seni gerizekalı
    (6) Mazlatası olan acımasın buna bassın mazlatayı
    (7) Sensiz uyandığım her günün sabahını sikeyim
    (8) Komple yicem şimdi ikisini de gidip götüme falan sokucam
    (9) teyze olurken bile heyecandan ölüyosam bn doğum falan yapamam
        heralde a dostlar
   (10) Selcuk Dereli @selcuk_dereli Ulann siyasete ne zaman atildin
        diyecemde,zaten soyunuza sopunuza atilmis rum tohumu var.Serefsiz
        a.q cocugu Selcuk Dereli.
   (11) Bugün sokağa davet eden ve sokakta olan herkes ile 
        hesaplaşacağız... ELBET BİRGÜN !
   (12) Allah size fırsat vermesin inşallah
   (13) Yeni sürecinde bunların da ta...
   (14) Akpliler ortalığın a.ina koyuyor kimse ses çıkarmıyor.
   (15) @TalipErdal davranıldığı bedelini nedenlerle Değer verir
        gerektiğinden baktığı şey Söylediğiniz dokunur duygusuz Ceplerime
   (16) Yine gavura sorar gibi sorulan sorular, yine gırık galpleerr ,
        ağlayan yüzler
   (17) @tgmcelebi Sen şimdi vekilsin ve bu yapılanı tavsip ediyorsun
        öylemi amk.. Piçi demokratik tepki ha amk piçi sizin ben amk
        gavur ermeniler amk