OU Portal
Log In
Welcome
Applicants
Z6_60GI02O0O8IDC0QEJUJ26TJDI4
Error:
Javascript is disabled in this browser. This page requires Javascript. Modify your browser's settings to allow Javascript to execute. See your browser's documentation for specific instructions.
{}
Zavřít
Publikační činnost
Probíhá načítání, čekejte prosím...
publicationId :
tempRecordId :
actionDispatchIndex :
navigationBranch :
pageMode :
tabSelected :
isRivValid :
Typ záznamu:
stať ve sborníku (D)
Domácí pracoviště:
Ústav pro výzkum a aplikace fuzzy modelování (94410)
Název:
Stealing Brains: From English to Czech Language Model
Citace
Hyner, P., Adamczyk, D., Hůla, J., Šedivý, J. a Marek, P. Stealing Brains: From English to Czech Language Model.
In:
IJCCI 2024: 16th International Joint Conference on Computational Intelligence: Proceedings of the 16th International Joint Conference on Computational Intelligence 2024-11-20 Porto.
s. 604-610. ISBN 978-989-758-721-4.
Podnázev
Rok vydání:
2024
Obor:
Počet stran:
Strana od:
604
Strana do:
610
Forma vydání:
Kód ISBN:
978-989-758-721-4
Kód ISSN:
2184-3236
Název sborníku:
Proceedings of the 16th International Joint Conference on Computational Intelligence
Sborník:
Název nakladatele:
Místo vydání:
Stát vydání:
Název konference:
IJCCI 2024: 16th International Joint Conference on Computational Intelligence
Místo konání konference:
Porto
Datum zahájení konference:
Typ akce podle státní
příslušnosti účastníků akce:
Celosvětová akce
Kód UT WoS:
EID:
Klíčová slova anglicky:
Language Models, Neural Networks, Transfer Learning, Vocabulary Swap.
Popis v původním jazyce:
Popis v anglickém jazyce:
We present a simple approach for efficiently adapting pre-trained English language models to generate text in lower-resource language, specifically Czech. We propose a vocabulary swap method that leverages parallel corpora to map tokens between languages, allowing the model to retain much of its learned capabilities. Experiments conducted on a Czech translation of the TinyStories dataset demonstrate that our approach significantly outperforms baseline methods, especially when using small amounts of training data. With only 10% of the data, our method achieves a perplexity of 17.89, compared to 34.19 for the next best baseline. We aim to contribute to work in the field of cross-lingual transfer in natural language processing and we propose a simple to implement, computationally efficient method tested in a controlled environment.
Seznam ohlasů
Ohlas
R01:
Complementary Content
Deferred Modules
${title}
${badge}
${loading}
Deferred Modules