goldendict-ng/src/langcoder.cc

/* This file is (c) 2008-2013 Konstantin Isakov <ikm@goldendict.org>
 * Part of GoldenDict. Licensed under GPLv3 or later, see the LICENSE file */

#include "langcoder.hh"
#include "language.hh"
#include "text.hh"

#include <QFileInfo>
#include <QLocale>
#include <QRegularExpression>

// Language codes

QMap< QString, GDLangCode > LangCoder::LANG_CODE_MAP = {
  { "aa", { "aa", "aar", -1, "Afar" } },
  { "ab", { "ab", "abk", -1, "Abkhazian" } },
  { "ae", { "ae", "ave", -1, "Avestan" } },
  { "af", { "af", "afr", -1, "Afrikaans" } },
  { "ak", { "ak", "aka", -1, "Akan" } },
  { "am", { "am", "amh", -1, "Amharic" } },
  { "an", { "an", "arg", -1, "Aragonese" } },
  { "ar", { "ar", "ara", 1, "Arabic" } },
  { "as", { "as", "asm", -1, "Assamese" } },
  { "av", { "av", "ava", -1, "Avaric" } },
  { "ay", { "ay", "aym", -1, "Aymara" } },
  { "az", { "az", "aze", 0, "Azerbaijani" } },
  { "ba", { "ba", "bak", 0, "Bashkir" } },
  { "be", { "be", "bel", 0, "Belarusian" } },
  { "bg", { "bg", "bul", 0, "Bulgarian" } },
  { "bh", { "bh", "bih", -1, "Bihari" } },
  { "bi", { "bi", "bis", -1, "Bislama" } },
  { "bm", { "bm", "bam", -1, "Bambara" } },
  { "bn", { "bn", "ben", -1, "Bengali" } },
  { "bo", { "bo", "tib", -1, "Tibetan" } },
  { "br", { "br", "bre", -1, "Breton" } },
  { "bs", { "bs", "bos", 0, "Bosnian" } },
  { "ca", { "ca", "cat", -1, "Catalan" } },
  { "ce", { "ce", "che", -1, "Chechen" } },
  { "ch", { "ch", "cha", -1, "Chamorro" } },
  { "co", { "co", "cos", -1, "Corsican" } },
  { "cr", { "cr", "cre", -1, "Cree" } },
  { "cs", { "cs", "cze", 0, "Czech" } },
  { "cu", { "cu", "chu", 0, "Church Slavic" } },
  { "cv", { "cv", "chv", 0, "Chuvash" } },
  { "cy", { "cy", "wel", 0, "Welsh" } },
  { "da", { "da", "dan", 0, "Danish" } },
  { "de", { "de", "ger", 0, "German" } },
  { "dv", { "dv", "div", -1, "Divehi" } },
  { "dz", { "dz", "dzo", -1, "Dzongkha" } },
  { "ee", { "ee", "ewe", -1, "Ewe" } },
  { "el", { "el", "gre", 0, "Greek" } },
  { "en", { "en", "eng", 0, "English" } },
  { "eo", { "eo", "epo", 0, "Esperanto" } },
  { "es", { "es", "spa", 0, "Spanish" } },
  { "et", { "et", "est", 0, "Estonian" } },
  { "eu", { "eu", "baq", 0, "Basque" } },
  { "fa", { "fa", "per", -1, "Persian" } },
  { "ff", { "ff", "ful", -1, "Fulah" } },
  { "fi", { "fi", "fin", 0, "Finnish" } },
  { "fj", { "fj", "fij", -1, "Fijian" } },
  { "fo", { "fo", "fao", -1, "Faroese" } },
  { "fr", { "fr", "fre", 0, "French" } },
  { "fy", { "fy", "fry", -1, "Western Frisian" } },
  { "ga", { "ga", "gle", 0, "Irish" } },
  { "gd", { "gd", "gla", 0, "Scottish Gaelic" } },
  { "gl", { "gl", "glg", -1, "Galician" } },
  { "gn", { "gn", "grn", -1, "Guarani" } },
  { "gu", { "gu", "guj", -1, "Gujarati" } },
  { "gv", { "gv", "glv", -1, "Manx" } },
  { "ha", { "ha", "hau", -1, "Hausa" } },
  { "he", { "he", "heb", 1, "Hebrew" } },
  { "hi", { "hi", "hin", -1, "Hindi" } },
  { "ho", { "ho", "hmo", -1, "Hiri Motu" } },
  { "hr", { "hr", "hrv", 0, "Croatian" } },
  { "ht", { "ht", "hat", -1, "Haitian" } },
  { "hu", { "hu", "hun", 0, "Hungarian" } },
  { "hy", { "hy", "arm", 0, "Armenian" } },
  { "hz", { "hz", "her", -1, "Herero" } },
  { "ia", { "ia", "ina", -1, "Interlingua" } },
  { "id", { "id", "ind", -1, "Indonesian" } },
  { "ie", { "ie", "ile", -1, "Interlingue" } },
  { "ig", { "ig", "ibo", -1, "Igbo" } },
  { "ii", { "ii", "iii", -1, "Sichuan Yi" } },
  { "ik", { "ik", "ipk", -1, "Inupiaq" } },
  { "io", { "io", "ido", -1, "Ido" } },
  { "is", { "is", "ice", -1, "Icelandic" } },
  { "it", { "it", "ita", 0, "Italian" } },
  { "iu", { "iu", "iku", -1, "Inuktitut" } },
  { "ja", { "ja", "jpn", 0, "Japanese" } },
  { "jv", { "jv", "jav", -1, "Javanese" } },
  { "ka", { "ka", "geo", 0, "Georgian" } },
  { "kg", { "kg", "kon", -1, "Kongo" } },
  { "ki", { "ki", "kik", -1, "Kikuyu" } },
  { "kj", { "kj", "kua", -1, "Kwanyama" } },
  { "kk", { "kk", "kaz", 0, "Kazakh" } },
  { "kl", { "kl", "kal", -1, "Kalaallisut" } },
  { "km", { "km", "khm", -1, "Khmer" } },
  { "kn", { "kn", "kan", -1, "Kannada" } },
  { "ko", { "ko", "kor", 0, "Korean" } },
  { "kr", { "kr", "kau", -1, "Kanuri" } },
  { "ks", { "ks", "kas", -1, "Kashmiri" } },
  { "ku", { "ku", "kur", -1, "Kurdish" } },
  { "kv", { "kv", "kom", 0, "Komi" } },
  { "kw", { "kw", "cor", -1, "Cornish" } },
  { "ky", { "ky", "kir", -1, "Kirghiz" } },
  { "la", { "la", "lat", 0, "Latin" } },
  { "lb", { "lb", "ltz", 0, "Luxembourgish" } },
  { "lg", { "lg", "lug", -1, "Ganda" } },
  { "li", { "li", "lim", -1, "Limburgish" } },
  { "ln", { "ln", "lin", -1, "Lingala" } },
  { "lo", { "lo", "lao", -1, "Lao" } },
  { "lt", { "lt", "lit", 0, "Lithuanian" } },
  { "lu", { "lu", "lub", -1, "Luba-Katanga" } },
  { "lv", { "lv", "lav", 0, "Latvian" } },
  { "mg", { "mg", "mlg", -1, "Malagasy" } },
  { "mh", { "mh", "mah", -1, "Marshallese" } },
  { "mi", { "mi", "mao", -1, "Maori" } },
  { "mk", { "mk", "mac", 0, "Macedonian" } },
  { "ml", { "ml", "mal", -1, "Malayalam" } },
  { "mn", { "mn", "mon", -1, "Mongolian" } },
  { "mr", { "mr", "mar", -1, "Marathi" } },
  { "ms", { "ms", "may", -1, "Malay" } },
  { "mt", { "mt", "mlt", -1, "Maltese" } },
  { "my", { "my", "bur", -1, "Burmese" } },
  { "na", { "na", "nau", -1, "Nauru" } },
  { "nb", { "nb", "nob", 0, "Norwegian Bokmal" } },
  { "nd", { "nd", "nde", -1, "North Ndebele" } },
  { "ne", { "ne", "nep", -1, "Nepali" } },
  { "ng", { "ng", "ndo", -1, "Ndonga" } },
  { "nl", { "nl", "dut", -1, "Dutch" } },
  { "nn", { "nn", "nno", -1, "Norwegian Nynorsk" } },
  { "no", { "no", "nor", 0, "Norwegian" } },
  { "nr", { "nr", "nbl", -1, "South Ndebele" } },
  { "nv", { "nv", "nav", -1, "Navajo" } },
  { "ny", { "ny", "nya", -1, "Chichewa" } },
  { "oc", { "oc", "oci", -1, "Occitan" } },
  { "oj", { "oj", "oji", -1, "Ojibwa" } },
  { "om", { "om", "orm", -1, "Oromo" } },
  { "or", { "or", "ori", -1, "Oriya" } },
  { "os", { "os", "oss", -1, "Ossetian" } },
  { "pa", { "pa", "pan", -1, "Panjabi" } },
  { "pi", { "pi", "pli", -1, "Pali" } },
  { "pl", { "pl", "pol", 0, "Polish" } },
  { "ps", { "ps", "pus", -1, "Pashto" } },
  { "pt", { "pt", "por", 0, "Portuguese" } },
  { "qu", { "qu", "que", -1, "Quechua" } },
  { "rm", { "rm", "roh", -1, "Raeto-Romance" } },
  { "rn", { "rn", "run", -1, "Kirundi" } },
  { "ro", { "ro", "rum", 0, "Romanian" } },
  { "ru", { "ru", "rus", 0, "Russian" } },
  { "rw", { "rw", "kin", -1, "Kinyarwanda" } },
  { "sa", { "sa", "san", -1, "Sanskrit" } },
  { "sc", { "sc", "srd", -1, "Sardinian" } },
  { "sd", { "sd", "snd", -1, "Sindhi" } },
  { "se", { "se", "sme", -1, "Northern Sami" } },
  { "sg", { "sg", "sag", -1, "Sango" } },
  { "sh", { "sh", "shr", 0, "Serbo-Croatian" } },
  { "si", { "si", "sin", -1, "Sinhala" } },
  { "sk", { "sk", "slo", 0, "Slovak" } },
  { "sl", { "sl", "slv", 0, "Slovenian" } },
  { "sm", { "sm", "smo", -1, "Samoan" } },
  { "sn", { "sn", "sna", -1, "Shona" } },
  { "so", { "so", "som", -1, "Somali" } },
  { "sq", { "sq", "alb", 0, "Albanian" } },
  { "sr", { "sr", "srp", 0, "Serbian" } },
  { "ss", { "ss", "ssw", -1, "Swati" } },
  { "st", { "st", "sot", -1, "Southern Sotho" } },
  { "su", { "su", "sun", -1, "Sundanese" } },
  { "sv", { "sv", "swe", 0, "Swedish" } },
  { "sw", { "sw", "swa", -1, "Swahili" } },
  { "ta", { "ta", "tam", -1, "Tamil" } },
  { "te", { "te", "tel", -1, "Telugu" } },
  { "tg", { "tg", "tgk", 0, "Tajik" } },
  { "th", { "th", "tha", -1, "Thai" } },
  { "ti", { "ti", "tir", -1, "Tigrinya" } },
  { "tk", { "tk", "tuk", 0, "Turkmen" } },
  { "tl", { "tl", "tgl", -1, "Tagalog" } },
  { "tn", { "tn", "tsn", -1, "Tswana" } },
  { "to", { "to", "ton", -1, "Tonga" } },
  { "tr", { "tr", "tur", 0, "Turkish" } },
  { "ts", { "ts", "tso", -1, "Tsonga" } },
  { "tt", { "tt", "tat", -1, "Tatar" } },
  { "tw", { "tw", "twi", -1, "Twi" } },
  { "ty", { "ty", "tah", -1, "Tahitian" } },
  { "ug", { "ug", "uig", -1, "Uighur" } },
  { "uk", { "uk", "ukr", -1, "Ukrainian" } },
  { "ur", { "ur", "urd", -1, "Urdu" } },
  { "uz", { "uz", "uzb", 0, "Uzbek" } },
  { "ve", { "ve", "ven", -1, "Venda" } },
  { "vi", { "vi", "vie", -1, "Vietnamese" } },
  { "vo", { "vo", "vol", 0, "Volapuk" } },
  { "wa", { "wa", "wln", -1, "Walloon" } },
  { "wo", { "wo", "wol", -1, "Wolof" } },
  { "xh", { "xh", "xho", -1, "Xhosa" } },
  { "yi", { "yi", "yid", -1, "Yiddish" } },
  { "yo", { "yo", "yor", -1, "Yoruba" } },
  { "za", { "za", "zha", -1, "Zhuang" } },
  { "zh", { "zh", "chi", 0, "Chinese" } },
  { "zu", { "zu", "zul", -1, "Zulu" } },
  { "jb", { "jb", "jbo", 0, "Lojban" } },
};

QString LangCoder::decode( quint32 _code )
{
  if ( auto code = intToCode2( _code ); code2Exists( code ) ) {
    return QString::fromStdString( LANG_CODE_MAP[ code ].lang );
  }

  return {};
}
bool LangCoder::code2Exists( const QString & _code )
{
  return LANG_CODE_MAP.contains( _code );
}

QString LangCoder::intToCode2( quint32 val )
{
  if ( !val || val == 0xFFffFFff ) {
    return {};
  }

  QByteArray ba;
  ba.append( val & 0xFF );
  ba.append( ( val >> 8 ) & 0xFF );

  return QString::fromLatin1( ba );
}

quint32 LangCoder::findIdForLanguage( std::u32string const & lang )
{
  const auto langFolded = QByteArrayView( Text::toUtf8( lang ) );

  for ( auto const & lc : LANG_CODE_MAP ) {
    if ( langFolded.compare( lc.lang, Qt::CaseInsensitive ) == 0 ) {
      return code2toInt( lc.code2.toStdString().c_str() );
    }
  }

  return Language::findBlgLangIDByEnglishName( lang );
}

quint32 LangCoder::findIdForLanguageCode3( std::string const & code )
{
  for ( auto const & lc : LANG_CODE_MAP ) {
    if ( code == lc.code3 ) {
      return code2toInt( lc.code2 );
    }
  }

  return 0;
}

quint32 LangCoder::guessId( const QString & lang )
{
  QString lstr = lang.simplified().toLower();

  // too small to guess
  if ( lstr.size() < 2 ) {
    return 0;
  }

  // check if it could be the whole language name
  if ( lstr.size() >= 3 ) {
    for ( auto const & lc : LANG_CODE_MAP ) {
      if ( lstr == ( lstr.size() == 3 ? QString::fromStdString( lc.code3 ) : QString::fromStdString( lc.lang ) ) ) {
        return code2toInt( lc.code2 );
      }
    }
  }

  // still not found - try to match by 2-symbol code
  return code2toInt( lstr.left( 2 ).toLatin1().data() );
}


std::pair< quint32, quint32 > LangCoder::findLangIdPairFromName( QString const & name )
{
  static QRegularExpression reg( "(?=([a-z]{2,3})-([a-z]{2,3}))", QRegularExpression::CaseInsensitiveOption );

  auto matches = reg.globalMatch( name );
  while ( matches.hasNext() ) {
    auto m = matches.next();

    auto fromId = guessId( m.captured( 1 ).toLower() );
    auto toId   = guessId( m.captured( 2 ).toLower() );

    if ( code2Exists( intToCode2( fromId ) ) && code2Exists( intToCode2( toId ) ) ) {
      return { fromId, toId };
    }
  }
  return { 0, 0 };
}

std::pair< quint32, quint32 > LangCoder::findLangIdPairFromPath( std::string const & p )
{
  return findLangIdPairFromName( QFileInfo( QString::fromStdString( p ) ).fileName() );
}

bool LangCoder::isLanguageRTL( quint32 _code )
{
  if ( auto code = intToCode2( _code ); code2Exists( code ) ) {
    GDLangCode lc = LANG_CODE_MAP[ code ];
    if ( lc.isRTL < 0 ) {
      lc.isRTL = static_cast< int >( QLocale( lc.code2 ).textDirection() == Qt::RightToLeft );
    }
    return lc.isRTL != 0;
  }

  return false;
}