index.html

<!DOCTYPE html>
<html lang="en">
  <head>
    <meta charset="utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
    <meta name="color-scheme" content="light" />
    <title>DreamsLab WP1</title>

    <!-- Pico.css -->
    <link
      rel="stylesheet"
      href="https://cdn.jsdelivr.net/npm/@picocss/pico@2.0.6/css/pico.min.css"
    />
  </head>

  <body>
    <!-- Header -->
    <header class="container">
      <div style="display: flex; justify-content: space-between;">
        <hgroup>
          <h1>DreamsLab WP1</h1>
          <p>Repository for datasets, models, and publications </p>
        </hgroup>
        <nav>
          <ul>
            <li>
              <details class="dropdown">
                <summary role="button" class="secondary">Theme</summary>
                <ul>
                  <li><a href="#" data-theme-switcher="light">Light</a></li>
                  <li><a href="#" data-theme-switcher="dark">Dark</a></li>
                  <li><a href="#" data-theme-switcher="auto">Auto</a></li>
                </ul>
              </details>
            </li>
          </ul>
        </nav>
      </div>
    </header>
    <!-- ./ Header -->

    <!-- Main -->
    <main class="container">
      <h3> Datasets</h3>
        <table class="tg">
        <thead>
          <tr>
            <th class="tg-0lax">ID</th>
            <th class="tg-0lax">Dataset</th>
            <th class="tg-0lax">URL</th>
            <th class="tg-0lax">Languages</th>
            <th class="tg-0lax">Annotation</th>
            <th class="tg-0lax">Size</th>
          </tr>
        </thead>
        <tbody>
          <tr>
            <!-- <td class="tg-0lax" rowspan="4">HateXplain Target Spans</td> -->
            <!-- <td class="tg-0lax">Code &amp; Data</td> -->
            <!-- <td class="tg-0lax"><a href="https://github.com/cltl/Target-Spans-Detection">github.com/cltl/Target-Spans-Detection</a></td> -->
            <td class="tg-0lax">D1.1</td>
            <td class="tg-0lax">Included in D3.2 </td>
            <td class="tg-0lax"><a href="https://github.com/cltl/grounding-toxicity">github.com/cltl/grounding-toxicity</a></td>
            <td class="tg-0lax">English, German, Spanish, Dutch, Turkish, Arabic</td>
            <td class="tg-0lax">Target spans, Target category, toxic reasoning</td>
            <td class="tg-0lax">24 threads, 125 comments</td>
          </tr>
          <tr>
            <td class="tg-0lax">D2.1</td>
            <td class="tg-0lax">HateXplain Target Spans</td>
            <td class="tg-0lax"><a href="https://github.com/cltl/Target-Spans-Detection">github.com/cltl/Target-Spans-Detection</a></td>
            <td class="tg-0lax">English</td>
            <td class="tg-0lax">Target spans</td>
            <td class="tg-0lax">3,480 comments</td>
          </tr>
          <tr>
            <td class="tg-0lax">D1.2</td>
            <td class="tg-0lax">Reddit data from Banned subreddits </td>
            <td class="tg-0lax">Refer the drive link</td>
            <td class="tg-0lax">English</td>
            <td class="tg-0lax">Toxicity</td>
            <td class="tg-0lax">1.3 million comments</td>
          </tr>
          <tr>
            <td class="tg-0lax">D1.3</td>
            <td class="tg-0lax">Test set selected from D1.2 that reflects inappropriate languages spans</td>
            <td class="tg-0lax"><a href="https://github.com/cltl/InappropriateLanguageDetection">github.com/cltl/Target-Spans-Detection</a></td>
            <td class="tg-0lax">English</td>
            <td class="tg-0lax">Inappropriate language spans, Target spans and category</td>
            <td class="tg-0lax">498 subthreads, 4-5 comments per subthread (ca. 20K comments)</td>
          </tr>
          <tr>
            <td class="tg-0lax">D1.4</td>
            <td class="tg-0lax">Test m D1.2 that reflects inappropriate and target spans with types</td>
            <td class="tg-0lax"><a href="https://github.com/cltl/InappropriateLanguageDetection">github.com/cltl/Target-Spans-Detection</a></td>
            <td class="tg-0lax">English</td>
            <td class="tg-0lax">Inappropriate language spans, Target spans & category</td>
            <td class="tg-0lax">498 subthreads, 4-5 comments per subthread (ca. 20K comments)</td>
          </tr>
          <tr>
            <td class="tg-0lax">D3.1</td>
            <td class="tg-0lax">Topic based comment threads from Reddit communities</td>
            <td class="tg-0lax"><a href="https://github.com/cltl/Reddit_topic_toxicity">github.com/cltl/Reddit_topic_toxicity</a></td>
            <td class="tg-0lax">English, German, Spanish, Dutch, Turkish, Arabic</td>
            <td class="tg-0lax">Topic, Toxicity</td>
            <td class="tg-0lax">1.5 million comments</td>
          </tr>
          <tr>
            <td class="tg-0lax">D3.2</td>
            <td class="tg-0lax">Comment and threads related to Real world social and political events</td>
            <td class="tg-0lax"><a href="https://github.com/cltl/grounding-toxicity">github.com/cltl/grounding-toxicity</a></td>
            <td class="tg-0lax">English, German, Spanish, Dutch, Turkish, Arabic</td>
            <td class="tg-0lax">World events, Toxicity, Sentiment, Emotions</td>
            <td class="tg-0lax">4.5 million comments</td>
          </tr>
          <tr>
            <td class="tg-0lax">D3.4</td>
            <td class="tg-0lax">Toxic reasoning data in English - Expert and ChatGPT</td>
            <td class="tg-0lax">In Progress </td>
            <td class="tg-0lax">English</td>
            <td class="tg-0lax">Toxic reasoning</td>
            <td class="tg-0lax"></td>
          </tr>
          <tr>
            <td class="tg-0lax">D3.5</td>
            <td class="tg-0lax">Toxic reasoning dynamic context data on sample from D3.2 - Expert and ChatGPT</td>
            <td class="tg-0lax">In Progress</td>
            <td class="tg-0lax">English, German, Spanish, Dutch, Turkish, Arabic</td>
            <td class="tg-0lax">Toxic reasoning</td>
            <td class="tg-0lax">1275</td>
          </tr>
            <tr>
            <td class="tg-0lax">D3.6</td>
            <td class="tg-0lax">Toxic reasoning dynamic context data on full D3.2 </td>
            <td class="tg-0lax">In Progress </td>
            <td class="tg-0lax">English, German, Spanish, Dutch, Turkish, Arabic</td>
            <td class="tg-0lax">Toxic reasoning</td>
            <td class="tg-0lax">4.5 million</td>
          </tr>
             <tr>
            <td class="tg-0lax">D6 </td>
            <td class="tg-0lax">RefNews-12: news articles</td>
            <td class="tg-0lax"><a href="https://github.com/cltl/refnews">github.com/cltl/refnews</a></td>
            <td class="tg-0lax">English</td>
            <td class="tg-0lax">Topics and entities</td>
            <td class="tg-0lax">106,167 documents</td>
          </tr>
          <tr>
            <td class="tg-0lax">D7 </td>
            <td class="tg-0lax">RADD-Wikidata-5-EN</td>
            <td class="tg-0lax"><a href="https://github.com/cltl/exploiting-ambiguity">github.com/cltl/exploiting-ambiguity</a></td>
            <td class="tg-0lax">English</td>
            <td class="tg-0lax">Ambiguity (De Dicto / De Re)</td>
            <td class="tg-0lax">500 sentence pairs</td>
          </tr>
        </tbody>
        </table>
        <h3> Models</h3>
        <table class="tg">
        <thead>
          <tr>
            <th class="tg-0lax">ID</th>
            <th class="tg-0lax">Model</th>
            <th class="tg-0lax">URL</th>
            <th class="tg-0lax">Languages</th>
            <th class="tg-0lax">Input</th>
            <th class="tg-0lax">Output</th>
          </tr>
        </thead>
        <tbody>
          <tr>
            <!-- <td class="tg-0lax" rowspan="4">HateXplain Target Spans</td> -->
            <!-- <td class="tg-0lax">Code &amp; Data</td> -->
            <!-- <td class="tg-0lax"><a href="https://github.com/cltl/Target-Spans-Detection">github.com/cltl/Target-Spans-Detection</a></td> -->
            <td class="tg-0lax">M2.1</td>
            <td class="tg-0lax">Target Span Detection</td>
            <td class="tg-0lax"><a href="https://github.com/cltl/Target-Spans-Detection">github.com/cltl/Target-Spans-Detection</a></td>
            <td class="tg-0lax">English</td>
            <td class="tg-0lax">comment</td>
            <td class="tg-0lax">0: not part of the target span / 1: beginning of the target span / 2: inside the target span</td>
          </tr>
          <tr>
            <td class="tg-0lax">M2</td>
            <td class="tg-0lax">Target Span Detection</td>
            <td class="tg-0lax"><a href="https://github.com/sybmo/MA_thesis">github.com/sybmo/MA_thesis</a></td>
            <td class="tg-0lax">English</td>
            <td class="tg-0lax">Comment</td>
            <td class="tg-0lax">0: not part of the target span / 1: beginning of the target span / 2: inside the target span </td>
          </tr>
          <tr>
            <td class="tg-0lax">M3.2</td>
            <td class="tg-0lax">Lexicon-based toxicity scores</td>
            <td class="tg-0lax"><a href="https://github.com/cltl/Reddit_topic_toxicity">github.com/cltl/Reddit_topic_toxicity</a></td>
            <td class="tg-0lax">English, German, Spanish, Dutch, Turkish, Arabic</td>
            <td class="tg-0lax">comment w/o context</td>
            <td class="tg-0lax">toxicity between 0 and 1</td>
          </tr>
             <tr>
            <td class="tg-0lax">M3.2</td>
            <td class="tg-0lax">Lexicon-based toxicity, sentiment and emotion scores</td>
            <td class="tg-0lax"><a href="https://github.com/cltl/grounding-toxicity/tree/main">github.com/cltl/grounding-toxicity/tree/main</a></td>
            <td class="tg-0lax">English, German, Spanish, Dutch, Turkish, Arabic</td>
            <td class="tg-0lax">comment w/o context</td>
            <td class="tg-0lax">toxicity, sentiment and emotion scores between 0 and </td>
          </tr>
             <tr>
            <td class="tg-0lax">_</td>
            <td class="tg-0lax">Probing the representations of named entities in Transformer-based Language Models</td>
            <td class="tg-0lax"><a href="https://github.com/cltl/entity-news">github.com/cltl/entity-news</a></td>
            <td class="tg-0lax">English</td>
            <td class="tg-0lax">News articles</td>
            <td class="tg-0lax">Topic classifications</td>
          </tr>
          <tr>
            <td class="tg-0lax">_</td>
            <td class="tg-0lax">Reasoning about Ambiguous Definite Descriptions
(Pre-trained only! no fine-tuned models)</td>
            <td class="tg-0lax"><a href="https://github.com/cltl/exploiting-ambiguity">github.com/cltl/exploiting-ambiguity</a></td>
            <td class="tg-0lax">English</td>
            <td class="tg-0lax">Questions about ambiguous statements</td>
            <td class="tg-0lax">Predictions and explanations</td>
          </tr>
             <tr>
            <td class="tg-0lax">M6</td>
            <td class="tg-0lax">Context models </td>
            <td class="tg-0lax">Being trained at Huawei office right now</td>
            <td class="tg-0lax">English</td>
            <td class="tg-0lax">Comments in context</td>
            <td class="tg-0lax">Message-level toxicity</td>
          </tr>
             <tr>
            <td class="tg-0lax">M7</td>
            <td class="tg-0lax">Cross-domain toxic spans</td>
            <td class="tg-0lax"><a href="https://github.com/sfschouten/toxic-cross-domain">github.com/sfschouten/toxic-cross-domain</a></td>
            <td class="tg-0lax">English</td>
            <td class="tg-0lax">Comment</td>
            <td class="tg-0lax">Toxic spans</td>
          </tr>
             <tr>
            <td class="tg-0lax">_</td>
            <td class="tg-0lax">A WordNet View on Crosslingual Contextualized Language Models</td>
            <td class="tg-0lax"><a href="https://github.com/cltl/probing-cross-linqual-model">github.com/cltl/probing-cross-linqual-model</a></td>
            <td class="tg-0lax">English, German, Dutch</td>
            <td class="tg-0lax"></td>
            <td class="tg-0lax"></td>
          </tr>
          <tr>
            <td class="tg-0lax">M3.1</td>
            <td class="tg-0lax">The Constant in HATE: Patterns of Toxicity in Reddit across Topics and Languages</td>
            <td class="tg-0lax"><a href="https://github.com/cltl/Reddit_topic_toxicity/tree/main">github.com/cltl/Reddit_topic_toxicity/tree/main</a></td>
            <td class="tg-0lax">English, German, Spanish, Dutch, Turkish, Arabic</td>
            <td class="tg-0lax">Comment</td>
            <td class="tg-0lax">Toxicity score</td>
          </tr>
          <tr>
            <td class="tg-0lax">M3.2 </td>
            <td class="tg-0lax">Grounding Toxicity in Real-World Events across Languages</td>
            <td class="tg-0lax"><a href="https://github.com/cltl/grounding-toxicity">github.com/cltl/grounding-toxicity</a></td>
            <td class="tg-0lax">English, German, Spanish, Dutch, Turkish, Arabic</td>
            <td class="tg-0lax">Comment</td>
            <td class="tg-0lax">Toxicity, sentiment and emotion scores</td>
          </tr>
          <tr>
            <td class="tg-0lax"> - </td>
            <td class="tg-0lax">Fine-tuning various models on ChatGPT's and experts' toxic reasoning annotations</td>
            <td class="tg-0lax">In progress</td>
            <td class="tg-0lax">English, German, Spanish, Dutch, Turkish, Arabic</td>
            <td class="tg-0lax">Comments in context</td>
            <td class="tg-0lax">Toxic reasoning schema</td>
          </tr>
        </tbody>
        </table>
        <h3> Publications</h3>
        <table class="tg">
        <thead>
          <tr>
            <th class="tg-0lax">ID</th>
            <th class="tg-0lax">Paper</th>
            <th class="tg-0lax">URL</th>
            <th class="tg-0lax">Languages</th>
            </tr>
        <tbody>
          <tr>
            <td class="tg-0lax">P1.3</td>
            <td class="tg-0lax">Content Moderation in Online Platforms: A Study of Annotation
Methods for Inappropriate Language</td>
            <td class="tg-0lax"><a href="https://aclanthology.org/2024.trac-1.11.pdf">aclanthology.org/2024.trac-1.11.pdf</a></td>
            <td class="tg-0lax">English, German, Spanish, Dutch, Turkish, Arabic</td>
          </tr>
          <tr>
            <td class="tg-0lax">P1.4</td>
            <td class="tg-0lax">Assessing and Refining ChatGPT’s Performance in Identifying Targeting and Inappropriate Language: A Comparative Study</td>
            <td class="tg-0lax">Under review</td>
            <td class="tg-0lax">English</td>
          </tr>
          <tr>
            <td class="tg-0lax">P1.1</td>
            <td class="tg-0lax">SeqL at SemEval-2022 Task 11: An Ensemble of Transformer Based
Models for Complex Named Entity Recognition Task
</td>
            <td class="tg-0lax"><a href="https://aclanthology.org/2022.semeval-1.218.pdf">aclanthology.org/2022.semeval-1.218</a></td>
            <!-- <td class="tg-0lax">German,Dutch,English,Turkish,Chinese, -->
              <!-- Spanish,Korean,Hindi,Bangla,Farsi,Russian</td> -->
              <td class="tg-0lax">11 Languages </td>
          </tr>
          <tr>
            <td class="tg-0lax">P1.1</td>
            <td class="tg-0lax">Unknown Script: Impact of Script on Cross-Lingual Transfer</td>
            <td class="tg-0lax"><a href="https://aclanthology.org/2024.naacl-srw.14.pdf">aclanthology.org/2024.naacl-srw</a></td>
            <td class="tg-0lax">English,Arabic,Amharic, English </td>
          </tr>
          
          <tr>
            <td class="tg-0lax">P2.1</td>
            <td class="tg-0lax">Cross-domain toxic span detection</td>
            <td class="tg-0lax"><a href="https://www.springerprofessional.de/en/cross-domain-toxic-spans-detection/25483414">cross-domain-toxic-spans-detection</a></td>
            <td class="tg-0lax">English</td>
          </tr>
          <tr>
            <td class="tg-0lax">P2.2</td>
            <td class="tg-0lax">Annotating Targets of Toxic Language at the Span Level</td>
            <td class="tg-0lax"><a href="https://aclanthology.org/2022.trac-1.6.pdf">aclanthology.org/2022.trac-1.6</a></td>
            <td class="tg-0lax">English</td>
          </tr>
             <tr>
            <td class="tg-0lax">P2.3</td>
            <td class="tg-0lax">The Role of Context in Detecting the Target of Hate Speech</td>
            <td class="tg-0lax"><a href="https://aclanthology.org/2022.trac-1.5.pdf">aclanthology.org/2022.trac-1.5</a></td>
            <td class="tg-0lax">Dutch</td>
          </tr>
          <tr>
            <td class="tg-0lax">P2.4</td>
            <td class="tg-0lax">Technical report on the role of discourse context for toxicity classification</td>
            <td class="tg-0lax"></td>
            <td class="tg-0lax">English</td>
          </tr>
          <tr>
            <td class="tg-0lax">P3.1</td>
            <td class="tg-0lax">The Constant in HATE: Patterns of Toxicity in Reddit across Topics and Language</td>
            <td class="tg-0lax"><a href="https://aclanthology.org/2024.trac-1.1.pdf">aclanthology.org/2024.trac-1.1</a></td>
            <td class="tg-0lax">English, German, Spanish, Dutch, Turkish, Arabic</td>
          </tr>

          <tr>
            <td class="tg-0lax">P3.2 </td>
            <td class="tg-0lax">Grounding Toxicity in Real-World Events across Languages</td>
            <td class="tg-0lax"><a href="https://arxiv.org/pdf/2405.13754">arxiv.org/pdf/2405.13754</a></td>
            <td class="tg-0lax">English, German, Spanish, Dutch, Turkish, Arabic</td>
          </tr>
          <tr>
            <td class="tg-0lax">P3.3 </td>
            <td class="tg-0lax">Reasoning about Ambiguous Definite Descriptions</td>
            <td class="tg-0lax"><a href="https://aclanthology.org/2023.findings-emnlp.296.pdf">aclanthology.org/2023.findings-emnlp.296</a></td>
            <td class="tg-0lax">English</td>
          </tr>
          <tr>
            <td class="tg-0lax">P3.4 </td>
            <td class="tg-0lax">Toxic Reasoning on implicit hatespeech</td>
            <td class="tg-0lax">In progress</td>
            <td class="tg-0lax">English</td>
          </tr>
          <tr>
            <td class="tg-0lax">P3.4 </td>
            <td class="tg-0lax">Probing the representations of named entities in Transformer-based Language Models</td>
            <td class="tg-0lax"><a href="https://aclanthology.org/2022.blackboxnlp-1.32/">aclanthology.org/2022.blackboxnlp-1.32</a></td>
            <td class="tg-0lax">English</td>
          </tr>
          <tr>
            <td class="tg-0lax">_</td>
            <td class="tg-0lax"> A WordNet View on Crosslingual Contextualized Language Models</td>
            <td class="tg-0lax"><a href="https://aclanthology.org/2023.gwc-1.2/">aclanthology.org/2023.gwc-1.2</a></td>
            <td class="tg-0lax">English, German, Dutch</td>
          </tr>
          <tr>
            <td class="tg-0lax">_</td>
            <td class="tg-0lax"> Confidently Wrong: Exploring the Calibration and Expression of (Un)Certainty of Large Language Models in a Multilingual Setting</td>
            <td class="tg-0lax"><a href="https://aclanthology.org/2023.mmnlg-1.1/">aclanthology.org/2023.mmnlg-1.1</a></td>
            <td class="tg-0lax">Amharic, Dutch, English, German, Hindi,and Spanish</td>
          </tr>
          <tr>
            <td class="tg-0lax">_</td>
            <td class="tg-0lax">Understanding and Analyzing Inappropriately Targeting Language in Online Discourse: A Comparative Annotation Study</td>
            <td class="tg-0lax">Under review</td>
            <td class="tg-0lax">English</td>
          </tr>
        </tbody>
        </table>


    <!-- Minimal theme switcher -->
    <script src="js/minimal-theme-switcher.js"></script>

    <!-- Modal -->
    <script src="js/modal.js"></script>
  </body>
</html>