Skip to content

Commit

Permalink
Update chapters/ru/chapter2/4.mdx
Browse files Browse the repository at this point in the history
Co-authored-by: Maria Khalusova <[email protected]>
  • Loading branch information
artyomboyko and MKhalusova authored Feb 13, 2024
1 parent 7889838 commit 98b0f47
Showing 1 changed file with 1 addition and 1 deletion.
2 changes: 1 addition & 1 deletion chapters/ru/chapter2/4.mdx
Original file line number Diff line number Diff line change
Expand Up @@ -40,7 +40,7 @@ Jim Henson was a puppeteer

<Youtube id="nhJxYji1aho"/>

Первый тип токенайзера, который приходит на ум, - это _на основе слов (word-based)_. Как правило, ее очень легко настроить и использовать с помощью всего нескольких правил, и она часто дает достойные результаты. Например, на изображении ниже цель состоит в том, чтобы разбить исходный текст на слова и найти для каждого из них числовое представление:
Первый тип токенайзера, который приходит на ум, - это _на основе слов (word-based)_. Как правило, его очень легко настроить и использовать с помощью всего нескольких правил, и он часто дает достойные результаты. Например, на изображении ниже цель состоит в том, чтобы разбить исходный текст на слова и найти для каждого из них числовое представление:

<div class="flex justify-center">
<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter2/word_based_tokenization.svg" alt="An example of word-based tokenization."/>
Expand Down

0 comments on commit 98b0f47

Please sign in to comment.