Reorganize file structure of entries modules

2023-07-26 19:28:50 -05:00 · 2023-07-26 19:28:50 -05:00 · 9b3fdc86d1
parent 0cd530585f
commit 9b3fdc86d1
35 changed files with 863 additions and 913 deletions
--- a/bot/entries/base/entry.py
+++ b/bot/entries/base/entry.py
--- a/bot/entries/base/expressions.py
+++ b/bot/entries/base/expressions.py
@ -85,40 +85,3 @@ def expand_abbreviation_list(expressions):
            if new_exp not in new_exps:
                new_exps.append(new_exp)
    return new_exps
 def expand_smk_alternatives(text):
    """Return a list of strings described by △ notation."""
    m = re.search(r"△([^（]+)（([^（]+)）", text)
    if m is None:
        return [text]
    alt_parts = [m.group(1)]
    for alt_part in m.group(2).split("・"):
        alt_parts.append(alt_part)
    alts = []
    for alt_part in alt_parts:
        alt_exp = re.sub(r"△[^（]+（[^（]+）", alt_part, text)
        alts.append(alt_exp)
    return alts
 def expand_daijirin_alternatives(text):
    """Return a list of strings described by ＝ notation."""
    group_pattern = r"([^＝]+)(＝([^（]+)（＝([^（]+)）)?"
    groups = re.findall(group_pattern, text)
    expressions = [""]
    for group in groups:
        new_exps = []
        for expression in expressions:
            new_exps.append(expression + group[0])
        expressions = new_exps.copy()
        if group[1] == "":
            continue
        new_exps = []
        for expression in expressions:
            new_exps.append(expression + group[2])
        for expression in expressions:
            for alt in group[3].split("・"):
                new_exps.append(expression + alt)
        expressions = new_exps.copy()
    return expressions
--- a/bot/entries/base/jitenon_entry.py
+++ b/bot/entries/base/jitenon_entry.py
@ -3,11 +3,11 @@ from abc import abstractmethod
 from datetime import datetime, date
 from bs4 import BeautifulSoup
-from bot.entries.entry import Entry
+from bot.entries.base.entry import Entry
-import bot.entries.expressions as Expressions
+import bot.entries.base.expressions as Expressions
-class _JitenonEntry(Entry):
+class JitenonEntry(Entry):
    def __init__(self, target, entry_id):
        super().__init__(target, entry_id)
        self.expression = ""
@ -140,104 +140,3 @@ class _JitenonEntry(Entry):
            elif isinstance(attr_val, list):
                colvals.append("；".join(attr_val))
        return ",".join(colvals)
 class JitenonYojiEntry(_JitenonEntry):
    def __init__(self, target, entry_id):
        super().__init__(target, entry_id)
        self.origin = ""
        self.kanken_level = ""
        self.category = ""
        self.related_expressions = []
    def _get_column_map(self):
        return {
            "四字熟語": "expression",
            "読み方":   "yomikata",
            "意味":     "definition",
            "異形":     "other_forms",
            "出典":     "origin",
            "漢検級":   "kanken_level",
            "場面用途": "category",
            "類義語":   "related_expressions",
        }
    def _add_variant_expressions(self, headwords):
        for expressions in headwords.values():
            Expressions.add_variant_kanji(expressions)
 class JitenonKotowazaEntry(_JitenonEntry):
    def __init__(self, target, entry_id):
        super().__init__(target, entry_id)
        self.origin = ""
        self.example = ""
        self.related_expressions = []
    def _get_column_map(self):
        return {
            "言葉":   "expression",
            "読み方": "yomikata",
            "意味":   "definition",
            "異形":   "other_forms",
            "出典":   "origin",
            "例文":   "example",
            "類句":   "related_expressions",
        }
    def _get_headwords(self):
        if self.expression == "金棒引き・鉄棒引き":
            headwords = {
                "かなぼうひき": ["金棒引き", "鉄棒引き"]
            }
        else:
            headwords = super()._get_headwords()
        return headwords
    def _add_variant_expressions(self, headwords):
        for expressions in headwords.values():
            Expressions.add_variant_kanji(expressions)
            Expressions.add_fullwidth(expressions)
 class JitenonKokugoEntry(_JitenonEntry):
    def __init__(self, target, entry_id):
        super().__init__(target, entry_id)
        self.example = ""
        self.alt_expression = ""
        self.antonym = ""
        self.attachments = ""
        self.compounds = ""
        self.related_words = ""
    def _get_column_map(self):
        return {
            "言葉":   "expression",
            "読み方": "yomikata",
            "意味":   "definition",
            "例文":   "example",
            "別表記": "alt_expression",
            "対義語": "antonym",
            "活用":   "attachments",
            "用例":   "compounds",
            "類語":   "related_words",
        }
    def _get_headwords(self):
        headwords = {}
        for reading in self.yomikata.split("・"):
            if reading not in headwords:
                headwords[reading] = []
            for expression in self.expression.split("・"):
                headwords[reading].append(expression)
            if self.alt_expression.strip() != "":
                for expression in self.alt_expression.split("・"):
                    headwords[reading].append(expression)
        return headwords
    def _add_variant_expressions(self, headwords):
        for expressions in headwords.values():
            Expressions.add_variant_kanji(expressions)
            Expressions.add_fullwidth(expressions)
            Expressions.remove_iteration_mark(expressions)
            Expressions.add_iteration_mark(expressions)
--- a/bot/entries/base/sanseido_entry.py
+++ b/bot/entries/base/sanseido_entry.py
@ -0,0 +1,60 @@
 from abc import abstractmethod
 from bs4 import BeautifulSoup
 from bot.entries.base.entry import Entry
 import bot.entries.base.expressions as Expressions
 class SanseidoEntry(Entry):
    def set_page(self, page):
        page = self._decompose_subentries(page)
        self._page = page
    def get_page_soup(self):
        soup = BeautifulSoup(self._page, "xml")
        return soup
    def get_global_identifier(self):
        parent_part = format(self.entry_id[0], '06')
        child_part = hex(self.entry_id[1]).lstrip('0x').zfill(4).upper()
        return f"@{self.target.value}-{parent_part}-{child_part}"
    def _decompose_subentries(self, page):
        soup = BeautifulSoup(page, features="xml")
        for x in self._get_subentry_parameters():
            subentry_class, tags, subentry_list = x
            for tag in tags:
                tag_soup = soup.find(tag)
                while tag_soup is not None:
                    tag_soup.name = "項目"
                    subentry_id = self.id_string_to_entry_id(tag_soup.attrs["id"])
                    self.SUBENTRY_ID_TO_ENTRY_ID[subentry_id] = self.entry_id
                    subentry = subentry_class(self.target, subentry_id)
                    page = tag_soup.decode()
                    subentry.set_page(page)
                    subentry_list.append(subentry)
                    tag_soup.decompose()
                    tag_soup = soup.find(tag)
        return soup.decode()
    @abstractmethod
    def _get_subentry_parameters(self):
        pass
    def _add_variant_expressions(self, headwords):
        for expressions in headwords.values():
            Expressions.add_variant_kanji(expressions)
            Expressions.add_fullwidth(expressions)
            Expressions.remove_iteration_mark(expressions)
            Expressions.add_iteration_mark(expressions)
    @staticmethod
    def id_string_to_entry_id(id_string):
        parts = id_string.split("-")
        if len(parts) == 1:
            return (int(parts[0]), 0)
        elif len(parts) == 2:
            # subentries have a hexadecimal part
            return (int(parts[0]), int(parts[1], 16))
        else:
            raise Exception(f"Invalid entry ID: {id_string}")
--- a/bot/entries/daijirin2.py
+++ b/bot/entries/daijirin2.py
@ -1,231 +0,0 @@
 from bs4 import BeautifulSoup
 import bot.entries.expressions as Expressions
 import bot.soup as Soup
 from bot.data import load_phrase_readings
 from bot.data import load_daijirin2_kana_abbreviations
 from bot.entries.entry import Entry
 from bot.entries.daijirin2_preprocess import preprocess_page
 class _BaseDaijirin2Entry(Entry):
    def __init__(self, target, entry_id):
        super().__init__(target, entry_id)
        self.children = []
        self.phrases = []
        self._kana_abbreviations = load_daijirin2_kana_abbreviations()
    def get_global_identifier(self):
        parent_part = format(self.entry_id[0], '06')
        child_part = hex(self.entry_id[1]).lstrip('0x').zfill(4).upper()
        return f"@{self.target.value}-{parent_part}-{child_part}"
    def set_page(self, page):
        page = self.__decompose_subentries(page)
        self._page = page
    def get_page_soup(self):
        soup = BeautifulSoup(self._page, "xml")
        return soup
    def get_part_of_speech_tags(self):
        if self._part_of_speech_tags is not None:
            return self._part_of_speech_tags
        self._part_of_speech_tags = []
        soup = self.get_page_soup()
        for pos_group in soup.find_all("品詞G"):
            if pos_group.parent.name == "大語義":
                self._set_part_of_speech_tags(pos_group)
        return self._part_of_speech_tags
    def _set_part_of_speech_tags(self, el):
        pos_names = ["品詞", "品詞活用", "品詞行", "用法"]
        for child in el.children:
            if child.name is not None:
                self._set_part_of_speech_tags(child)
                continue
            pos = str(child)
            if el.name not in pos_names:
                continue
            elif pos in ["［", "］"]:
                continue
            elif pos in self._part_of_speech_tags:
                continue
            else:
                self._part_of_speech_tags.append(pos)
    def _get_regular_headwords(self, soup):
        self._fill_alts(soup)
        reading = soup.find("見出仮名").text
        expressions = []
        for el in soup.find_all("標準表記"):
            expression = self._clean_expression(el.text)
            if "—" in expression:
                kana_abbrs = self._kana_abbreviations[self.entry_id]
                for abbr in kana_abbrs:
                    expression = expression.replace("—", abbr, 1)
            expressions.append(expression)
        expressions = Expressions.expand_abbreviation_list(expressions)
        if len(expressions) == 0:
            expressions.append(reading)
        headwords = {reading: expressions}
        return headwords
    def _add_variant_expressions(self, headwords):
        for expressions in headwords.values():
            Expressions.add_variant_kanji(expressions)
            Expressions.add_fullwidth(expressions)
            Expressions.remove_iteration_mark(expressions)
            Expressions.add_iteration_mark(expressions)
    def __decompose_subentries(self, page):
        soup = BeautifulSoup(page, features="xml")
        subentry_parameters = [
            [Daijirin2ChildEntry, ["子項目"], self.children],
            [Daijirin2PhraseEntry, ["句項目"], self.phrases],
        ]
        for x in subentry_parameters:
            subentry_class, tags, subentry_list = x
            for tag in tags:
                tag_soup = soup.find(tag)
                while tag_soup is not None:
                    tag_soup.name = "項目"
                    subentry_id = self.id_string_to_entry_id(tag_soup.attrs["id"])
                    self.SUBENTRY_ID_TO_ENTRY_ID[subentry_id] = self.entry_id
                    subentry = subentry_class(self.target, subentry_id)
                    page = tag_soup.decode()
                    subentry.set_page(page)
                    subentry_list.append(subentry)
                    tag_soup.decompose()
                    tag_soup = soup.find(tag)
        return soup.decode()
    @staticmethod
    def id_string_to_entry_id(id_string):
        parts = id_string.split("-")
        if len(parts) == 1:
            return (int(parts[0]), 0)
        elif len(parts) == 2:
            # subentries have a hexadecimal part
            return (int(parts[0]), int(parts[1], 16))
        else:
            raise Exception(f"Invalid entry ID: {id_string}")
    @staticmethod
    def _delete_unused_nodes(soup):
        """Remove extra markup elements that appear in the entry
        headword line which are not part of the entry headword"""
        unused_nodes = [
            "漢字音logo", "活用分節", "連語句活用分節", "語構成",
            "表外字マーク", "表外字マーク", "ルビG"
        ]
        for name in unused_nodes:
            Soup.delete_soup_nodes(soup, name)
    @staticmethod
    def _clean_expression(expression):
        for x in ["〈", "〉", "《", "》", " "]:
            expression = expression.replace(x, "")
        return expression
    @staticmethod
    def _fill_alts(soup):
        for gaiji in soup.find_all(class_="gaiji"):
            if gaiji.name == "img" and gaiji.has_attr("alt"):
                gaiji.name = "span"
                gaiji.string = gaiji.attrs["alt"]
 class Daijirin2Entry(_BaseDaijirin2Entry):
    def __init__(self, target, page_id):
        entry_id = (page_id, 0)
        super().__init__(target, entry_id)
    def set_page(self, page):
        page = preprocess_page(page)
        super().set_page(page)
    def _get_headwords(self):
        soup = self.get_page_soup()
        self._delete_unused_nodes(soup)
        if soup.find("漢字見出") is not None:
            headwords = self._get_kanji_headwords(soup)
        elif soup.find("略語G") is not None:
            headwords = self._get_acronym_headwords(soup)
        else:
            headwords = self._get_regular_headwords(soup)
        return headwords
    def _get_kanji_headwords(self, soup):
        readings = []
        for el in soup.find_all("漢字音"):
            hira = Expressions.kata_to_hira(el.text)
            readings.append(hira)
        if soup.find("漢字音") is None:
            readings.append("")
        expressions = []
        for el in soup.find_all("漢字見出"):
            expressions.append(el.text)
        headwords = {}
        for reading in readings:
            headwords[reading] = expressions
        return headwords
    def _get_acronym_headwords(self, soup):
        expressions = []
        for el in soup.find_all("略語"):
            expression_parts = []
            for part in el.find_all(["欧字", "和字"]):
                expression_parts.append(part.text)
            expression = "".join(expression_parts)
            expressions.append(expression)
        headwords = {"": expressions}
        return headwords
 class Daijirin2ChildEntry(_BaseDaijirin2Entry):
    def _get_headwords(self):
        soup = self.get_page_soup()
        self._delete_unused_nodes(soup)
        headwords = self._get_regular_headwords(soup)
        return headwords
 class Daijirin2PhraseEntry(_BaseDaijirin2Entry):
    def get_part_of_speech_tags(self):
        # phrases do not contain these tags
        return []
    def _get_headwords(self):
        soup = self.get_page_soup()
        headwords = {}
        expressions = self._find_expressions(soup)
        readings = self._find_readings()
        for idx, expression in enumerate(expressions):
            reading = readings[idx]
            if reading in headwords:
                headwords[reading].append(expression)
            else:
                headwords[reading] = [expression]
        return headwords
    def _find_expressions(self, soup):
        self._delete_unused_nodes(soup)
        text = soup.find("句表記").text
        text = self._clean_expression(text)
        alternatives = Expressions.expand_daijirin_alternatives(text)
        expressions = []
        for alt in alternatives:
            for exp in Expressions.expand_abbreviation(alt):
                expressions.append(exp)
        return expressions
    def _find_readings(self):
        phrase_readings = load_phrase_readings(self.target)
        text = phrase_readings[self.entry_id]
        alternatives = Expressions.expand_daijirin_alternatives(text)
        readings = []
        for alt in alternatives:
            for reading in Expressions.expand_abbreviation(alt):
                readings.append(reading)
        return readings
--- a/bot/entries/daijirin2/base_entry.py
+++ b/bot/entries/daijirin2/base_entry.py
@ -0,0 +1,88 @@
 import bot.soup as Soup
 from bot.data import load_daijirin2_kana_abbreviations
 from bot.entries.base.sanseido_entry import SanseidoEntry
 import bot.entries.base.expressions as Expressions
 class BaseEntry(SanseidoEntry):
    def __init__(self, target, entry_id):
        super().__init__(target, entry_id)
        self.children = []
        self.phrases = []
        self._kana_abbreviations = load_daijirin2_kana_abbreviations()
    def get_part_of_speech_tags(self):
        if self._part_of_speech_tags is not None:
            return self._part_of_speech_tags
        self._part_of_speech_tags = []
        soup = self.get_page_soup()
        for pos_group in soup.find_all("品詞G"):
            if pos_group.parent.name == "大語義":
                self._set_part_of_speech_tags(pos_group)
        return self._part_of_speech_tags
    def _set_part_of_speech_tags(self, el):
        pos_names = ["品詞", "品詞活用", "品詞行", "用法"]
        for child in el.children:
            if child.name is not None:
                self._set_part_of_speech_tags(child)
                continue
            pos = str(child)
            if el.name not in pos_names:
                continue
            elif pos in ["［", "］"]:
                continue
            elif pos in self._part_of_speech_tags:
                continue
            else:
                self._part_of_speech_tags.append(pos)
    def _get_regular_headwords(self, soup):
        self._fill_alts(soup)
        reading = soup.find("見出仮名").text
        expressions = []
        for el in soup.find_all("標準表記"):
            expression = self._clean_expression(el.text)
            if "—" in expression:
                kana_abbrs = self._kana_abbreviations[self.entry_id]
                for abbr in kana_abbrs:
                    expression = expression.replace("—", abbr, 1)
            expressions.append(expression)
        expressions = Expressions.expand_abbreviation_list(expressions)
        if len(expressions) == 0:
            expressions.append(reading)
        headwords = {reading: expressions}
        return headwords
    def _get_subentry_parameters(self):
        from bot.entries.daijirin2.child_entry import ChildEntry
        from bot.entries.daijirin2.phrase_entry import PhraseEntry
        subentry_parameters = [
            [ChildEntry, ["子項目"], self.children],
            [PhraseEntry, ["句項目"], self.phrases],
        ]
        return subentry_parameters
    @staticmethod
    def _delete_unused_nodes(soup):
        """Remove extra markup elements that appear in the entry
        headword line which are not part of the entry headword"""
        unused_nodes = [
            "漢字音logo", "活用分節", "連語句活用分節", "語構成",
            "表外字マーク", "表外字マーク", "ルビG"
        ]
        for name in unused_nodes:
            Soup.delete_soup_nodes(soup, name)
    @staticmethod
    def _clean_expression(expression):
        for x in ["〈", "〉", "《", "》", " "]:
            expression = expression.replace(x, "")
        return expression
    @staticmethod
    def _fill_alts(soup):
        for gaiji in soup.find_all(class_="gaiji"):
            if gaiji.name == "img" and gaiji.has_attr("alt"):
                gaiji.name = "span"
                gaiji.string = gaiji.attrs["alt"]
--- a/bot/entries/daijirin2/child_entry.py
+++ b/bot/entries/daijirin2/child_entry.py
@ -0,0 +1,9 @@
 from bot.entries.daijirin2.base_entry import BaseEntry
 class ChildEntry(BaseEntry):
    def _get_headwords(self):
        soup = self.get_page_soup()
        self._delete_unused_nodes(soup)
        headwords = self._get_regular_headwords(soup)
        return headwords
--- a/bot/entries/daijirin2/entry.py
+++ b/bot/entries/daijirin2/entry.py
@ -0,0 +1,50 @@
 import bot.entries.base.expressions as Expressions
 from bot.entries.daijirin2.base_entry import BaseEntry
 from bot.entries.daijirin2.preprocess import preprocess_page
 class Entry(BaseEntry):
    def __init__(self, target, page_id):
        entry_id = (page_id, 0)
        super().__init__(target, entry_id)
    def set_page(self, page):
        page = preprocess_page(page)
        super().set_page(page)
    def _get_headwords(self):
        soup = self.get_page_soup()
        self._delete_unused_nodes(soup)
        if soup.find("漢字見出") is not None:
            headwords = self._get_kanji_headwords(soup)
        elif soup.find("略語G") is not None:
            headwords = self._get_acronym_headwords(soup)
        else:
            headwords = self._get_regular_headwords(soup)
        return headwords
    def _get_kanji_headwords(self, soup):
        readings = []
        for el in soup.find_all("漢字音"):
            hira = Expressions.kata_to_hira(el.text)
            readings.append(hira)
        if soup.find("漢字音") is None:
            readings.append("")
        expressions = []
        for el in soup.find_all("漢字見出"):
            expressions.append(el.text)
        headwords = {}
        for reading in readings:
            headwords[reading] = expressions
        return headwords
    def _get_acronym_headwords(self, soup):
        expressions = []
        for el in soup.find_all("略語"):
            expression_parts = []
            for part in el.find_all(["欧字", "和字"]):
                expression_parts.append(part.text)
            expression = "".join(expression_parts)
            expressions.append(expression)
        headwords = {"": expressions}
        return headwords
--- a/bot/entries/daijirin2/phrase_entry.py
+++ b/bot/entries/daijirin2/phrase_entry.py
@ -0,0 +1,67 @@
 import re
 import bot.entries.base.expressions as Expressions
 from bot.data import load_phrase_readings
 from bot.entries.daijirin2.base_entry import BaseEntry
 class PhraseEntry(BaseEntry):
    def get_part_of_speech_tags(self):
        # phrases do not contain these tags
        return []
    def _get_headwords(self):
        soup = self.get_page_soup()
        headwords = {}
        expressions = self._find_expressions(soup)
        readings = self._find_readings()
        for idx, expression in enumerate(expressions):
            reading = readings[idx]
            if reading in headwords:
                headwords[reading].append(expression)
            else:
                headwords[reading] = [expression]
        return headwords
    def _find_expressions(self, soup):
        self._delete_unused_nodes(soup)
        text = soup.find("句表記").text
        text = self._clean_expression(text)
        alternatives = parse_phrase(text)
        expressions = []
        for alt in alternatives:
            for exp in Expressions.expand_abbreviation(alt):
                expressions.append(exp)
        return expressions
    def _find_readings(self):
        phrase_readings = load_phrase_readings(self.target)
        text = phrase_readings[self.entry_id]
        alternatives = parse_phrase(text)
        readings = []
        for alt in alternatives:
            for reading in Expressions.expand_abbreviation(alt):
                readings.append(reading)
        return readings
 def parse_phrase(text):
    """Return a list of strings described by ＝ notation."""
    group_pattern = r"([^＝]+)(＝([^（]+)（＝([^（]+)）)?"
    groups = re.findall(group_pattern, text)
    expressions = [""]
    for group in groups:
        new_exps = []
        for expression in expressions:
            new_exps.append(expression + group[0])
        expressions = new_exps.copy()
        if group[1] == "":
            continue
        new_exps = []
        for expression in expressions:
            new_exps.append(expression + group[2])
        for expression in expressions:
            for alt in group[3].split("・"):
                new_exps.append(expression + alt)
        expressions = new_exps.copy()
    return expressions
--- a/bot/entries/daijirin2/preprocess.py
+++ b/bot/entries/daijirin2/preprocess.py
--- a/bot/entries/factory.py
+++ b/bot/entries/factory.py
@ -1,20 +1,7 @@
-from bot.targets import Targets
+import importlib
 from bot.entries.jitenon import JitenonKokugoEntry
 from bot.entries.jitenon import JitenonYojiEntry
 from bot.entries.jitenon import JitenonKotowazaEntry
 from bot.entries.smk8 import Smk8Entry
 from bot.entries.daijirin2 import Daijirin2Entry
 from bot.entries.sankoku8 import Sankoku8Entry
 def new_entry(target, page_id):
-    entry_map = {
+    module_path = f"bot.entries.{target.name.lower()}.entry"
-        Targets.JITENON_KOKUGO:   JitenonKokugoEntry,
+    module = importlib.import_module(module_path)
-        Targets.JITENON_YOJI:     JitenonYojiEntry,
+    return module.Entry(target, page_id)
        Targets.JITENON_KOTOWAZA: JitenonKotowazaEntry,
        Targets.SMK8:             Smk8Entry,
        Targets.DAIJIRIN2:        Daijirin2Entry,
        Targets.SANKOKU8:         Sankoku8Entry,
    }
    return entry_map[target](target, page_id)
--- a/bot/entries/jitenon_kokugo/entry.py
+++ b/bot/entries/jitenon_kokugo/entry.py
@ -0,0 +1,45 @@
 from bot.entries.base.jitenon_entry import JitenonEntry
 import bot.entries.base.expressions as Expressions
 class Entry(JitenonEntry):
    def __init__(self, target, entry_id):
        super().__init__(target, entry_id)
        self.example = ""
        self.alt_expression = ""
        self.antonym = ""
        self.attachments = ""
        self.compounds = ""
        self.related_words = ""
    def _get_column_map(self):
        return {
            "言葉":   "expression",
            "読み方": "yomikata",
            "意味":   "definition",
            "例文":   "example",
            "別表記": "alt_expression",
            "対義語": "antonym",
            "活用":   "attachments",
            "用例":   "compounds",
            "類語":   "related_words",
        }
    def _get_headwords(self):
        headwords = {}
        for reading in self.yomikata.split("・"):
            if reading not in headwords:
                headwords[reading] = []
            for expression in self.expression.split("・"):
                headwords[reading].append(expression)
            if self.alt_expression.strip() != "":
                for expression in self.alt_expression.split("・"):
                    headwords[reading].append(expression)
        return headwords
    def _add_variant_expressions(self, headwords):
        for expressions in headwords.values():
            Expressions.add_variant_kanji(expressions)
            Expressions.add_fullwidth(expressions)
            Expressions.remove_iteration_mark(expressions)
            Expressions.add_iteration_mark(expressions)
--- a/bot/entries/jitenon_kotowaza/entry.py
+++ b/bot/entries/jitenon_kotowaza/entry.py
@ -0,0 +1,35 @@
 from bot.entries.base.jitenon_entry import JitenonEntry
 import bot.entries.base.expressions as Expressions
 class Entry(JitenonEntry):
    def __init__(self, target, entry_id):
        super().__init__(target, entry_id)
        self.origin = ""
        self.example = ""
        self.related_expressions = []
    def _get_column_map(self):
        return {
            "言葉":   "expression",
            "読み方": "yomikata",
            "意味":   "definition",
            "異形":   "other_forms",
            "出典":   "origin",
            "例文":   "example",
            "類句":   "related_expressions",
        }
    def _get_headwords(self):
        if self.expression == "金棒引き・鉄棒引き":
            headwords = {
                "かなぼうひき": ["金棒引き", "鉄棒引き"]
            }
        else:
            headwords = super()._get_headwords()
        return headwords
    def _add_variant_expressions(self, headwords):
        for expressions in headwords.values():
            Expressions.add_variant_kanji(expressions)
            Expressions.add_fullwidth(expressions)
--- a/bot/entries/jitenon_yoji/entry.py
+++ b/bot/entries/jitenon_yoji/entry.py
@ -0,0 +1,27 @@
 import bot.entries.base.expressions as Expressions
 from bot.entries.base.jitenon_entry import JitenonEntry
 class Entry(JitenonEntry):
    def __init__(self, target, entry_id):
        super().__init__(target, entry_id)
        self.origin = ""
        self.kanken_level = ""
        self.category = ""
        self.related_expressions = []
    def _get_column_map(self):
        return {
            "四字熟語": "expression",
            "読み方":   "yomikata",
            "意味":     "definition",
            "異形":     "other_forms",
            "出典":     "origin",
            "漢検級":   "kanken_level",
            "場面用途": "category",
            "類義語":   "related_expressions",
        }
    def _add_variant_expressions(self, headwords):
        for expressions in headwords.values():
            Expressions.add_variant_kanji(expressions)
--- a/bot/entries/sankoku8.py
+++ b/bot/entries/sankoku8.py
@ -1,260 +0,0 @@
 from bs4 import BeautifulSoup
 import bot.entries.expressions as Expressions
 import bot.soup as Soup
 from bot.entries.entry import Entry
 from bot.data import load_phrase_readings
 from bot.entries.sankoku8_preprocess import preprocess_page
 class _BaseSankoku8Entry(Entry):
    def __init__(self, target, entry_id):
        super().__init__(target, entry_id)
        self.children = []
        self.phrases = []
        self._hyouki_name = "表記"
        self._midashi_name = None
        self._midashi_kana_name = None
    def get_global_identifier(self):
        parent_part = format(self.entry_id[0], '06')
        child_part = hex(self.entry_id[1]).lstrip('0x').zfill(4).upper()
        return f"@{self.target.value}-{parent_part}-{child_part}"
    def set_page(self, page):
        page = self.__decompose_subentries(page)
        self._page = page
    def get_page_soup(self):
        soup = BeautifulSoup(self._page, "xml")
        return soup
    def _get_headwords(self):
        soup = self.get_page_soup()
        self._delete_unused_nodes(soup)
        readings = self._find_readings(soup)
        expressions = self._find_expressions(soup)
        headwords = {}
        for reading in readings:
            headwords[reading] = []
        if len(readings) == 1:
            reading = readings[0]
            if soup.find(self._midashi_name).find(self._hyouki_name) is None:
                headwords[reading].append(reading)
            for exp in expressions:
                if exp not in headwords[reading]:
                    headwords[reading].append(exp)
        elif len(readings) > 1 and len(expressions) == 0:
            for reading in readings:
                headwords[reading].append(reading)
        elif len(readings) > 1 and len(expressions) == 1:
            if soup.find(self._midashi_name).find(self._hyouki_name) is None:
                for reading in readings:
                    headwords[reading].append(reading)
            expression = expressions[0]
            for reading in readings:
                if expression not in headwords[reading]:
                    headwords[reading].append(expression)
        elif len(readings) > 1 and len(expressions) == len(readings):
            if soup.find(self._midashi_name).find(self._hyouki_name) is None:
                for reading in readings:
                    headwords[reading].append(reading)
            for idx, reading in enumerate(readings):
                exp = expressions[idx]
                if exp not in headwords[reading]:
                    headwords[reading].append(exp)
        else:
            raise Exception()  # shouldn't happen
        return headwords
    def _add_variant_expressions(self, headwords):
        for expressions in headwords.values():
            Expressions.add_variant_kanji(expressions)
            Expressions.add_fullwidth(expressions)
            Expressions.remove_iteration_mark(expressions)
            Expressions.add_iteration_mark(expressions)
    def get_part_of_speech_tags(self):
        if self._part_of_speech_tags is not None:
            return self._part_of_speech_tags
        self._part_of_speech_tags = []
        soup = self.get_page_soup()
        for midashi in soup.find_all([self._midashi_name, "見出部要素"]):
            pos_group = midashi.find("品詞G")
            if pos_group is None:
                continue
            for tag in pos_group.find_all("a"):
                if tag.text not in self._part_of_speech_tags:
                    self._part_of_speech_tags.append(tag.text)
        return self._part_of_speech_tags
    def _find_expressions(self, soup):
        expressions = []
        for hyouki in soup.find_all(self._hyouki_name):
            for expression in parse_hyouki_soup(hyouki, [""]):
                expressions.append(expression)
        return expressions
    def _find_readings(self, soup):
        midasi_kana = soup.find(self._midashi_kana_name)
        readings = parse_hyouki_soup(midasi_kana, [""])
        return readings
    def __decompose_subentries(self, page):
        soup = BeautifulSoup(page, features="xml")
        subentry_parameters = [
            [Sankoku8ChildEntry, ["子項目"], self.children],
            [Sankoku8PhraseEntry, ["句項目"], self.phrases],
        ]
        for x in subentry_parameters:
            subentry_class, tags, subentry_list = x
            for tag in tags:
                tag_soup = soup.find(tag)
                while tag_soup is not None:
                    tag_soup.name = "項目"
                    subentry_id = self.id_string_to_entry_id(tag_soup.attrs["id"])
                    self.SUBENTRY_ID_TO_ENTRY_ID[subentry_id] = self.entry_id
                    subentry = subentry_class(self.target, subentry_id)
                    page = tag_soup.decode()
                    subentry.set_page(page)
                    subentry_list.append(subentry)
                    tag_soup.decompose()
                    tag_soup = soup.find(tag)
        return soup.decode()
    @staticmethod
    def id_string_to_entry_id(id_string):
        parts = id_string.split("-")
        if len(parts) == 1:
            return (int(parts[0]), 0)
        elif len(parts) == 2:
            # subentries have a hexadecimal part
            return (int(parts[0]), int(parts[1], 16))
        else:
            raise Exception(f"Invalid entry ID: {id_string}")
    @staticmethod
    def _delete_unused_nodes(soup):
        """Remove extra markup elements that appear in the entry
        headword line which are not part of the entry headword"""
        unused_nodes = [
            "語構成", "平板", "アクセント", "表外字マーク", "表外音訓マーク",
            "アクセント分節", "活用分節", "ルビG", "分書"
        ]
        for name in unused_nodes:
            Soup.delete_soup_nodes(soup, name)
 class Sankoku8Entry(_BaseSankoku8Entry):
    def __init__(self, target, page_id):
        entry_id = (page_id, 0)
        super().__init__(target, entry_id)
        self._midashi_name = "見出部"
        self._midashi_kana_name = "見出仮名"
    def set_page(self, page):
        page = preprocess_page(page)
        super().set_page(page)
 class Sankoku8ChildEntry(_BaseSankoku8Entry):
    def __init__(self, target, page_id):
        super().__init__(target, page_id)
        self._midashi_name = "子見出部"
        self._midashi_kana_name = "子見出仮名"
 class Sankoku8PhraseEntry(_BaseSankoku8Entry):
    def get_part_of_speech_tags(self):
        # phrases do not contain these tags
        return []
    def _get_headwords(self):
        soup = self.get_page_soup()
        self._delete_unused_nodes(soup)
        expressions = self._find_expressions(soup)
        readings = self._find_readings(soup)
        headwords = {}
        if len(expressions) != len(readings):
            raise Exception(f"{self.entry_id[0]}-{self.entry_id[1]}")
        for idx, expression in enumerate(expressions):
            reading = readings[idx]
            if reading in headwords:
                headwords[reading].append(expression)
            else:
                headwords[reading] = [expression]
        return headwords
    def _find_expressions(self, soup):
        phrase_soup = soup.find("句表記")
        expressions = parse_hyouki_soup(phrase_soup, [""])
        return expressions
    def _find_readings(self, soup):
        reading_patterns = load_phrase_readings(self.target)
        reading_pattern = reading_patterns[self.entry_id]
        readings = parse_hyouki_pattern(reading_pattern)
        return readings
 def parse_hyouki_soup(soup, base_exps):
    omitted_characters = [
        "／", "〈", "〉", "（", "）", "⦅", "⦆", "：", "…"
    ]
    exps = base_exps.copy()
    for child in soup.children:
        new_exps = []
        if child.name == "言換G":
            for alt in child.find_all("言換"):
                parts = parse_hyouki_soup(alt, [""])
                for exp in exps:
                    for part in parts:
                        new_exps.append(exp + part)
        elif child.name == "補足表記":
            alt1 = child.find("表記対象")
            alt2 = child.find("表記内容G")
            parts1 = parse_hyouki_soup(alt1, [""])
            parts2 = parse_hyouki_soup(alt2, [""])
            for exp in exps:
                for part in parts1:
                    new_exps.append(exp + part)
                for part in parts2:
                    new_exps.append(exp + part)
        elif child.name == "省略":
            parts = parse_hyouki_soup(child, [""])
            for exp in exps:
                new_exps.append(exp)
                for part in parts:
                    new_exps.append(exp + part)
        elif child.name is not None:
            new_exps = parse_hyouki_soup(child, exps)
        else:
            text = child.text
            for char in omitted_characters:
                text = text.replace(char, "")
            for exp in exps:
                new_exps.append(exp + text)
        exps = new_exps.copy()
    return exps
 def parse_hyouki_pattern(pattern):
    replacements = {
        "（": "<省略>（",
        "）": "）</省略>",
        "｛": "<補足表記><表記対象>",
        "・": "</表記対象><表記内容G>（<表記内容>",
        "｝": "</表記内容>）</表記内容G></補足表記>",
        "〈": "<言換G>〈<言換>",
        "／": "</言換>／<言換>",
        "〉": "</言換>〉</言換G>",
        "⦅": "<補足表記><表記対象>",
        "＼": "</表記対象><表記内容G>⦅<表記内容>",
        "⦆": "</表記内容>⦆</表記内容G></補足表記>",
    }
    markup = f"<span>{pattern}</span>"
    for key, val in replacements.items():
        markup = markup.replace(key, val)
    soup = BeautifulSoup(markup, "xml")
    hyouki_soup = soup.find("span")
    exps = parse_hyouki_soup(hyouki_soup, [""])
    return exps
--- a/bot/entries/sankoku8/base_entry.py
+++ b/bot/entries/sankoku8/base_entry.py
@ -0,0 +1,97 @@
 import bot.soup as Soup
 from bot.entries.base.sanseido_entry import SanseidoEntry
 from bot.entries.sankoku8.parse import parse_hyouki_soup
 class BaseEntry(SanseidoEntry):
    def __init__(self, target, entry_id):
        super().__init__(target, entry_id)
        self.children = []
        self.phrases = []
        self._hyouki_name = "表記"
        self._midashi_name = None
        self._midashi_kana_name = None
    def _get_headwords(self):
        soup = self.get_page_soup()
        self._delete_unused_nodes(soup)
        readings = self._find_readings(soup)
        expressions = self._find_expressions(soup)
        headwords = {}
        for reading in readings:
            headwords[reading] = []
        if len(readings) == 1:
            reading = readings[0]
            if soup.find(self._midashi_name).find(self._hyouki_name) is None:
                headwords[reading].append(reading)
            for exp in expressions:
                if exp not in headwords[reading]:
                    headwords[reading].append(exp)
        elif len(readings) > 1 and len(expressions) == 0:
            for reading in readings:
                headwords[reading].append(reading)
        elif len(readings) > 1 and len(expressions) == 1:
            if soup.find(self._midashi_name).find(self._hyouki_name) is None:
                for reading in readings:
                    headwords[reading].append(reading)
            expression = expressions[0]
            for reading in readings:
                if expression not in headwords[reading]:
                    headwords[reading].append(expression)
        elif len(readings) > 1 and len(expressions) == len(readings):
            if soup.find(self._midashi_name).find(self._hyouki_name) is None:
                for reading in readings:
                    headwords[reading].append(reading)
            for idx, reading in enumerate(readings):
                exp = expressions[idx]
                if exp not in headwords[reading]:
                    headwords[reading].append(exp)
        else:
            raise Exception()  # shouldn't happen
        return headwords
    def get_part_of_speech_tags(self):
        if self._part_of_speech_tags is not None:
            return self._part_of_speech_tags
        self._part_of_speech_tags = []
        soup = self.get_page_soup()
        for midashi in soup.find_all([self._midashi_name, "見出部要素"]):
            pos_group = midashi.find("品詞G")
            if pos_group is None:
                continue
            for tag in pos_group.find_all("a"):
                if tag.text not in self._part_of_speech_tags:
                    self._part_of_speech_tags.append(tag.text)
        return self._part_of_speech_tags
    def _find_expressions(self, soup):
        expressions = []
        for hyouki in soup.find_all(self._hyouki_name):
            for expression in parse_hyouki_soup(hyouki, [""]):
                expressions.append(expression)
        return expressions
    def _find_readings(self, soup):
        midasi_kana = soup.find(self._midashi_kana_name)
        readings = parse_hyouki_soup(midasi_kana, [""])
        return readings
    def _get_subentry_parameters(self):
        from bot.entries.sankoku8.child_entry import ChildEntry
        from bot.entries.sankoku8.phrase_entry import PhraseEntry
        subentry_parameters = [
            [ChildEntry, ["子項目"], self.children],
            [PhraseEntry, ["句項目"], self.phrases],
        ]
        return subentry_parameters
    @staticmethod
    def _delete_unused_nodes(soup):
        """Remove extra markup elements that appear in the entry
        headword line which are not part of the entry headword"""
        unused_nodes = [
            "語構成", "平板", "アクセント", "表外字マーク", "表外音訓マーク",
            "アクセント分節", "活用分節", "ルビG", "分書"
        ]
        for name in unused_nodes:
            Soup.delete_soup_nodes(soup, name)
--- a/bot/entries/sankoku8/child_entry.py
+++ b/bot/entries/sankoku8/child_entry.py
@ -0,0 +1,8 @@
 from bot.entries.sankoku8.base_entry import BaseEntry
 class ChildEntry(BaseEntry):
    def __init__(self, target, page_id):
        super().__init__(target, page_id)
        self._midashi_name = "子見出部"
        self._midashi_kana_name = "子見出仮名"
--- a/bot/entries/sankoku8/entry.py
+++ b/bot/entries/sankoku8/entry.py
@ -0,0 +1,14 @@
 from bot.entries.sankoku8.base_entry import BaseEntry
 from bot.entries.sankoku8.preprocess import preprocess_page
 class Entry(BaseEntry):
    def __init__(self, target, page_id):
        entry_id = (page_id, 0)
        super().__init__(target, entry_id)
        self._midashi_name = "見出部"
        self._midashi_kana_name = "見出仮名"
    def set_page(self, page):
        page = preprocess_page(page)
        super().set_page(page)
--- a/bot/entries/sankoku8/parse.py
+++ b/bot/entries/sankoku8/parse.py
@ -0,0 +1,65 @@
 from bs4 import BeautifulSoup
 def parse_hyouki_soup(soup, base_exps):
    omitted_characters = [
        "／", "〈", "〉", "（", "）", "⦅", "⦆", "：", "…"
    ]
    exps = base_exps.copy()
    for child in soup.children:
        new_exps = []
        if child.name == "言換G":
            for alt in child.find_all("言換"):
                parts = parse_hyouki_soup(alt, [""])
                for exp in exps:
                    for part in parts:
                        new_exps.append(exp + part)
        elif child.name == "補足表記":
            alt1 = child.find("表記対象")
            alt2 = child.find("表記内容G")
            parts1 = parse_hyouki_soup(alt1, [""])
            parts2 = parse_hyouki_soup(alt2, [""])
            for exp in exps:
                for part in parts1:
                    new_exps.append(exp + part)
                for part in parts2:
                    new_exps.append(exp + part)
        elif child.name == "省略":
            parts = parse_hyouki_soup(child, [""])
            for exp in exps:
                new_exps.append(exp)
                for part in parts:
                    new_exps.append(exp + part)
        elif child.name is not None:
            new_exps = parse_hyouki_soup(child, exps)
        else:
            text = child.text
            for char in omitted_characters:
                text = text.replace(char, "")
            for exp in exps:
                new_exps.append(exp + text)
        exps = new_exps.copy()
    return exps
 def parse_hyouki_pattern(pattern):
    replacements = {
        "（": "<省略>（",
        "）": "）</省略>",
        "｛": "<補足表記><表記対象>",
        "・": "</表記対象><表記内容G>（<表記内容>",
        "｝": "</表記内容>）</表記内容G></補足表記>",
        "〈": "<言換G>〈<言換>",
        "／": "</言換>／<言換>",
        "〉": "</言換>〉</言換G>",
        "⦅": "<補足表記><表記対象>",
        "＼": "</表記対象><表記内容G>⦅<表記内容>",
        "⦆": "</表記内容>⦆</表記内容G></補足表記>",
    }
    markup = f"<span>{pattern}</span>"
    for key, val in replacements.items():
        markup = markup.replace(key, val)
    soup = BeautifulSoup(markup, "xml")
    hyouki_soup = soup.find("span")
    exps = parse_hyouki_soup(hyouki_soup, [""])
    return exps
--- a/bot/entries/sankoku8/phrase_entry.py
+++ b/bot/entries/sankoku8/phrase_entry.py
@ -0,0 +1,37 @@
 from bot.data import load_phrase_readings
 from bot.entries.sankoku8.base_entry import BaseEntry
 from bot.entries.sankoku8.parse import parse_hyouki_soup
 from bot.entries.sankoku8.parse import parse_hyouki_pattern
 class PhraseEntry(BaseEntry):
    def get_part_of_speech_tags(self):
        # phrases do not contain these tags
        return []
    def _get_headwords(self):
        soup = self.get_page_soup()
        self._delete_unused_nodes(soup)
        expressions = self._find_expressions(soup)
        readings = self._find_readings(soup)
        headwords = {}
        if len(expressions) != len(readings):
            raise Exception(f"{self.entry_id[0]}-{self.entry_id[1]}")
        for idx, expression in enumerate(expressions):
            reading = readings[idx]
            if reading in headwords:
                headwords[reading].append(expression)
            else:
                headwords[reading] = [expression]
        return headwords
    def _find_expressions(self, soup):
        phrase_soup = soup.find("句表記")
        expressions = parse_hyouki_soup(phrase_soup, [""])
        return expressions
    def _find_readings(self, soup):
        reading_patterns = load_phrase_readings(self.target)
        reading_pattern = reading_patterns[self.entry_id]
        readings = parse_hyouki_pattern(reading_pattern)
        return readings
--- a/bot/entries/sankoku8/preprocess.py
+++ b/bot/entries/sankoku8/preprocess.py
--- a/bot/entries/smk8.py
+++ b/bot/entries/smk8.py
@ -1,221 +0,0 @@
 from bs4 import BeautifulSoup
 import bot.entries.expressions as Expressions
 import bot.soup as Soup
 from bot.data import load_phrase_readings
 from bot.entries.entry import Entry
 from bot.entries.smk8_preprocess import preprocess_page
 class _BaseSmk8Entry(Entry):
    def __init__(self, target, entry_id):
        super().__init__(target, entry_id)
        self.children = []
        self.phrases = []
        self.kanjis = []
    def get_global_identifier(self):
        parent_part = format(self.entry_id[0], '06')
        child_part = hex(self.entry_id[1]).lstrip('0x').zfill(4).upper()
        return f"@{self.target.value}-{parent_part}-{child_part}"
    def set_page(self, page):
        page = self.__decompose_subentries(page)
        self._page = page
    def get_page_soup(self):
        soup = BeautifulSoup(self._page, "xml")
        return soup
    def get_part_of_speech_tags(self):
        if self._part_of_speech_tags is not None:
            return self._part_of_speech_tags
        self._part_of_speech_tags = []
        soup = self.get_page_soup()
        headword_info = soup.find("見出要素")
        if headword_info is None:
            return self._part_of_speech_tags
        for tag in headword_info.find_all("品詞M"):
            if tag.text not in self._part_of_speech_tags:
                self._part_of_speech_tags.append(tag.text)
        return self._part_of_speech_tags
    def _add_variant_expressions(self, headwords):
        for expressions in headwords.values():
            Expressions.add_variant_kanji(expressions)
            Expressions.add_fullwidth(expressions)
            Expressions.remove_iteration_mark(expressions)
            Expressions.add_iteration_mark(expressions)
    def _find_reading(self, soup):
        midasi_kana = soup.find("見出仮名")
        reading = midasi_kana.text
        for x in [" ", "・"]:
            reading = reading.replace(x, "")
        return reading
    def _find_expressions(self, soup):
        clean_expressions = []
        for expression in soup.find_all("標準表記"):
            clean_expression = self._clean_expression(expression.text)
            clean_expressions.append(clean_expression)
        expressions = Expressions.expand_abbreviation_list(clean_expressions)
        return expressions
    def __decompose_subentries(self, page):
        soup = BeautifulSoup(page, features="xml")
        subentry_parameters = [
            [Smk8ChildEntry, ["子項目F", "子項目"], self.children],
            [Smk8PhraseEntry, ["句項目F", "句項目"], self.phrases],
            [Smk8KanjiEntry, ["造語成分項目"], self.kanjis],
        ]
        for x in subentry_parameters:
            subentry_class, tags, subentry_list = x
            for tag in tags:
                tag_soup = soup.find(tag)
                while tag_soup is not None:
                    tag_soup.name = "項目"
                    subentry_id = self.id_string_to_entry_id(tag_soup.attrs["id"])
                    self.SUBENTRY_ID_TO_ENTRY_ID[subentry_id] = self.entry_id
                    subentry = subentry_class(self.target, subentry_id)
                    page = tag_soup.decode()
                    subentry.set_page(page)
                    subentry_list.append(subentry)
                    tag_soup.decompose()
                    tag_soup = soup.find(tag)
        return soup.decode()
    @staticmethod
    def id_string_to_entry_id(id_string):
        parts = id_string.split("-")
        if len(parts) == 1:
            return (int(parts[0]), 0)
        elif len(parts) == 2:
            # subentries have a hexadecimal part
            return (int(parts[0]), int(parts[1], 16))
        else:
            raise Exception(f"Invalid entry ID: {id_string}")
    @staticmethod
    def _delete_unused_nodes(soup):
        """Remove extra markup elements that appear in the entry
        headword line which are not part of the entry headword"""
        unused_nodes = [
            "表音表記", "表外音訓マーク", "表外字マーク", "ルビG"
        ]
        for name in unused_nodes:
            Soup.delete_soup_nodes(soup, name)
    @staticmethod
    def _clean_expression(expression):
        for x in ["〈", "〉", "｛", "｝", "…", " "]:
            expression = expression.replace(x, "")
        return expression
    @staticmethod
    def _fill_alts(soup):
        for el in soup.find_all(["親見出仮名", "親見出表記"]):
            el.string = el.attrs["alt"]
        for gaiji in soup.find_all("外字"):
            gaiji.string = gaiji.img.attrs["alt"]
 class Smk8Entry(_BaseSmk8Entry):
    def __init__(self, target, page_id):
        entry_id = (page_id, 0)
        super().__init__(target, entry_id)
    def set_page(self, page):
        page = preprocess_page(page)
        super().set_page(page)
    def _get_headwords(self):
        soup = self.get_page_soup()
        self._delete_unused_nodes(soup)
        self._fill_alts(soup)
        reading = self._find_reading(soup)
        expressions = []
        if soup.find("見出部").find("標準表記") is None:
            expressions.append(reading)
        for expression in self._find_expressions(soup):
            if expression not in expressions:
                expressions.append(expression)
        headwords = {reading: expressions}
        return headwords
 class Smk8ChildEntry(_BaseSmk8Entry):
    def _get_headwords(self):
        soup = self.get_page_soup()
        self._delete_unused_nodes(soup)
        self._fill_alts(soup)
        reading = self._find_reading(soup)
        expressions = []
        if soup.find("子見出部").find("標準表記") is None:
            expressions.append(reading)
        for expression in self._find_expressions(soup):
            if expression not in expressions:
                expressions.append(expression)
        headwords = {reading: expressions}
        return headwords
 class Smk8PhraseEntry(_BaseSmk8Entry):
    def __init__(self, target, entry_id):
        super().__init__(target, entry_id)
        self.__phrase_readings = load_phrase_readings(self.target)
    def get_part_of_speech_tags(self):
        # phrases do not contain these tags
        return []
    def _get_headwords(self):
        soup = self.get_page_soup()
        headwords = {}
        expressions = self._find_expressions(soup)
        readings = self._find_readings()
        for idx, expression in enumerate(expressions):
            reading = readings[idx]
            if reading in headwords:
                headwords[reading].append(expression)
            else:
                headwords[reading] = [expression]
        return headwords
    def _find_expressions(self, soup):
        self._delete_unused_nodes(soup)
        self._fill_alts(soup)
        text = soup.find("標準表記").text
        text = self._clean_expression(text)
        alternatives = Expressions.expand_smk_alternatives(text)
        expressions = []
        for alt in alternatives:
            for exp in Expressions.expand_abbreviation(alt):
                expressions.append(exp)
        return expressions
    def _find_readings(self):
        text = self.__phrase_readings[self.entry_id]
        alternatives = Expressions.expand_smk_alternatives(text)
        readings = []
        for alt in alternatives:
            for reading in Expressions.expand_abbreviation(alt):
                readings.append(reading)
        return readings
 class Smk8KanjiEntry(_BaseSmk8Entry):
    def _get_headwords(self):
        soup = self.get_page_soup()
        self._delete_unused_nodes(soup)
        self._fill_alts(soup)
        reading = self.__get_parent_reading()
        expressions = self._find_expressions(soup)
        headwords = {reading: expressions}
        return headwords
    def __get_parent_reading(self):
        parent_id = self.SUBENTRY_ID_TO_ENTRY_ID[self.entry_id]
        parent = self.ID_TO_ENTRY[parent_id]
        reading = parent.get_first_reading()
        return reading
--- a/bot/entries/smk8/base_entry.py
+++ b/bot/entries/smk8/base_entry.py
@ -0,0 +1,73 @@
 import bot.soup as Soup
 import bot.entries.base.expressions as Expressions
 from bot.entries.base.sanseido_entry import SanseidoEntry
 class BaseEntry(SanseidoEntry):
    def __init__(self, target, entry_id):
        super().__init__(target, entry_id)
        self.children = []
        self.phrases = []
        self.kanjis = []
    def get_part_of_speech_tags(self):
        if self._part_of_speech_tags is not None:
            return self._part_of_speech_tags
        self._part_of_speech_tags = []
        soup = self.get_page_soup()
        headword_info = soup.find("見出要素")
        if headword_info is None:
            return self._part_of_speech_tags
        for tag in headword_info.find_all("品詞M"):
            if tag.text not in self._part_of_speech_tags:
                self._part_of_speech_tags.append(tag.text)
        return self._part_of_speech_tags
    def _find_reading(self, soup):
        midasi_kana = soup.find("見出仮名")
        reading = midasi_kana.text
        for x in [" ", "・"]:
            reading = reading.replace(x, "")
        return reading
    def _find_expressions(self, soup):
        clean_expressions = []
        for expression in soup.find_all("標準表記"):
            clean_expression = self._clean_expression(expression.text)
            clean_expressions.append(clean_expression)
        expressions = Expressions.expand_abbreviation_list(clean_expressions)
        return expressions
    def _get_subentry_parameters(self):
        from bot.entries.smk8.child_entry import ChildEntry
        from bot.entries.smk8.phrase_entry import PhraseEntry
        from bot.entries.smk8.kanji_entry import KanjiEntry
        subentry_parameters = [
            [ChildEntry, ["子項目F", "子項目"], self.children],
            [PhraseEntry, ["句項目F", "句項目"], self.phrases],
            [KanjiEntry, ["造語成分項目"], self.kanjis],
        ]
        return subentry_parameters
    @staticmethod
    def _delete_unused_nodes(soup):
        """Remove extra markup elements that appear in the entry
        headword line which are not part of the entry headword"""
        unused_nodes = [
            "表音表記", "表外音訓マーク", "表外字マーク", "ルビG"
        ]
        for name in unused_nodes:
            Soup.delete_soup_nodes(soup, name)
    @staticmethod
    def _clean_expression(expression):
        for x in ["〈", "〉", "｛", "｝", "…", " "]:
            expression = expression.replace(x, "")
        return expression
    @staticmethod
    def _fill_alts(soup):
        for elm in soup.find_all(["親見出仮名", "親見出表記"]):
            elm.string = elm.attrs["alt"]
        for gaiji in soup.find_all("外字"):
            gaiji.string = gaiji.img.attrs["alt"]
--- a/bot/entries/smk8/child_entry.py
+++ b/bot/entries/smk8/child_entry.py
@ -0,0 +1,17 @@
 from bot.entries.smk8.base_entry import BaseEntry
 class ChildEntry(BaseEntry):
    def _get_headwords(self):
        soup = self.get_page_soup()
        self._delete_unused_nodes(soup)
        self._fill_alts(soup)
        reading = self._find_reading(soup)
        expressions = []
        if soup.find("子見出部").find("標準表記") is None:
            expressions.append(reading)
        for expression in self._find_expressions(soup):
            if expression not in expressions:
                expressions.append(expression)
        headwords = {reading: expressions}
        return headwords
--- a/bot/entries/smk8/entry.py
+++ b/bot/entries/smk8/entry.py
@ -0,0 +1,26 @@
 from bot.entries.smk8.base_entry import BaseEntry
 from bot.entries.smk8.preprocess import preprocess_page
 class Entry(BaseEntry):
    def __init__(self, target, page_id):
        entry_id = (page_id, 0)
        super().__init__(target, entry_id)
    def set_page(self, page):
        page = preprocess_page(page)
        super().set_page(page)
    def _get_headwords(self):
        soup = self.get_page_soup()
        self._delete_unused_nodes(soup)
        self._fill_alts(soup)
        reading = self._find_reading(soup)
        expressions = []
        if soup.find("見出部").find("標準表記") is None:
            expressions.append(reading)
        for expression in self._find_expressions(soup):
            if expression not in expressions:
                expressions.append(expression)
        headwords = {reading: expressions}
        return headwords
--- a/bot/entries/smk8/kanji_entry.py
+++ b/bot/entries/smk8/kanji_entry.py
@ -0,0 +1,22 @@
 from bot.entries.smk8.base_entry import BaseEntry
 class KanjiEntry(BaseEntry):
    def get_part_of_speech_tags(self):
        # kanji entries do not contain these tags
        return []
    def _get_headwords(self):
        soup = self.get_page_soup()
        self._delete_unused_nodes(soup)
        self._fill_alts(soup)
        reading = self.__get_parent_reading()
        expressions = self._find_expressions(soup)
        headwords = {reading: expressions}
        return headwords
    def __get_parent_reading(self):
        parent_id = self.SUBENTRY_ID_TO_ENTRY_ID[self.entry_id]
        parent = self.ID_TO_ENTRY[parent_id]
        reading = parent.get_first_reading()
        return reading
--- a/bot/entries/smk8/phrase_entry.py
+++ b/bot/entries/smk8/phrase_entry.py
@ -0,0 +1,64 @@
 import re
 import bot.entries.base.expressions as Expressions
 from bot.data import load_phrase_readings
 from bot.entries.smk8.base_entry import BaseEntry
 class PhraseEntry(BaseEntry):
    def __init__(self, target, entry_id):
        super().__init__(target, entry_id)
        self.__phrase_readings = load_phrase_readings(self.target)
    def get_part_of_speech_tags(self):
        # phrase entries do not contain these tags
        return []
    def _get_headwords(self):
        soup = self.get_page_soup()
        headwords = {}
        expressions = self._find_expressions(soup)
        readings = self._find_readings()
        for idx, expression in enumerate(expressions):
            reading = readings[idx]
            if reading in headwords:
                headwords[reading].append(expression)
            else:
                headwords[reading] = [expression]
        return headwords
    def _find_expressions(self, soup):
        self._delete_unused_nodes(soup)
        self._fill_alts(soup)
        text = soup.find("標準表記").text
        text = self._clean_expression(text)
        alternatives = parse_phrase(text)
        expressions = []
        for alt in alternatives:
            for exp in Expressions.expand_abbreviation(alt):
                expressions.append(exp)
        return expressions
    def _find_readings(self):
        text = self.__phrase_readings[self.entry_id]
        alternatives = parse_phrase(text)
        readings = []
        for alt in alternatives:
            for reading in Expressions.expand_abbreviation(alt):
                readings.append(reading)
        return readings
 def parse_phrase(text):
    """Return a list of strings described by △ notation."""
    match = re.search(r"△([^（]+)（([^（]+)）", text)
    if match is None:
        return [text]
    alt_parts = [match.group(1)]
    for alt_part in match.group(2).split("・"):
        alt_parts.append(alt_part)
    alts = []
    for alt_part in alt_parts:
        alt_exp = re.sub(r"△[^（]+（[^（]+）", alt_part, text)
        alts.append(alt_exp)
    return alts
--- a/bot/entries/smk8/preprocess.py
+++ b/bot/entries/smk8/preprocess.py
--- a/bot/yomichan/terms/daijirin2.py
+++ b/bot/yomichan/terms/daijirin2.py
@ -1,4 +1,4 @@
-from bot.entries.daijirin2 import Daijirin2PhraseEntry as PhraseEntry
+from bot.entries.daijirin2.phrase_entry import PhraseEntry
 from bot.yomichan.terms.terminator import Terminator
 from bot.yomichan.glossary.daijirin2 import make_glossary
@ -6,9 +6,6 @@ from bot.yomichan.grammar import sudachi_rules, tags_to_rules
 class Daijirin2Terminator(Terminator):
    def __init__(self, target):
        super().__init__(target)
    def _definition_tags(self, entry):
        return ""
--- a/bot/yomichan/terms/sankoku8.py
+++ b/bot/yomichan/terms/sankoku8.py
@ -1,4 +1,4 @@
-from bot.entries.sankoku8 import Sankoku8PhraseEntry as PhraseEntry
+from bot.entries.sankoku8.phrase_entry import PhraseEntry
 from bot.yomichan.terms.terminator import Terminator
 from bot.yomichan.glossary.sankoku8 import make_glossary
@ -6,9 +6,6 @@ from bot.yomichan.grammar import sudachi_rules, tags_to_rules
 class Sankoku8Terminator(Terminator):
    def __init__(self, target):
        super().__init__(target)
    def _definition_tags(self, entry):
        return ""
--- a/bot/yomichan/terms/smk8.py
+++ b/bot/yomichan/terms/smk8.py
@ -1,5 +1,5 @@
-from bot.entries.smk8 import Smk8KanjiEntry as KanjiEntry
+from bot.entries.smk8.kanji_entry import KanjiEntry
-from bot.entries.smk8 import Smk8PhraseEntry as PhraseEntry
+from bot.entries.smk8.phrase_entry import PhraseEntry
 from bot.yomichan.terms.terminator import Terminator
 from bot.yomichan.glossary.smk8 import make_glossary
--- a/tests/test_daijirin_phrases.py
+++ b/tests/test_daijirin_phrases.py
@ -0,0 +1,21 @@
 import unittest
 from bot.entries.daijirin2.phrase_entry import parse_phrase
 class TestDaijirin2PhraseParse(unittest.TestCase):
    def test1(self):
        text = "同じ穴の＝狢（＝狐・狸）"
        exps = parse_phrase(text)
        self.assertEqual(len(exps), 3)
        self.assertIn("同じ穴の狢", exps)
        self.assertIn("同じ穴の狐", exps)
        self.assertIn("同じ穴の狸", exps)
    def test2(self):
        text = "聞くは＝一時（＝一旦）の恥、聞かぬは＝末代（＝一生）の恥"
        exps = parse_phrase(text)
        self.assertEqual(len(exps), 4)
        self.assertIn("聞くは一時の恥、聞かぬは末代の恥", exps)
        self.assertIn("聞くは一時の恥、聞かぬは一生の恥", exps)
        self.assertIn("聞くは一旦の恥、聞かぬは末代の恥", exps)
        self.assertIn("聞くは一旦の恥、聞かぬは一生の恥", exps)
--- a/tests/test_expressions.py
+++ b/tests/test_expressions.py
@ -1,5 +1,5 @@
 import unittest
-import bot.entries.expressions as Expressions
+import bot.entries.base.expressions as Expressions
 class TestExpressions(unittest.TestCase):
@ -69,28 +69,3 @@ class TestExpressions(unittest.TestCase):
        self.assertIn("有合わせ", abbrs)
        self.assertIn("有り合せ", abbrs)
        self.assertIn("有合せ", abbrs)
    def test_smk_expand_alternatives(self):
        text = "△金（時間・暇）に飽かして"
        exps = Expressions.expand_smk_alternatives(text)
        self.assertEqual(len(exps), 3)
        self.assertIn("金に飽かして", exps)
        self.assertIn("時間に飽かして", exps)
        self.assertIn("暇に飽かして", exps)
    def test_daijirin_expand_alternatives(self):
        text = "同じ穴の＝狢（＝狐・狸）"
        exps = Expressions.expand_daijirin_alternatives(text)
        self.assertEqual(len(exps), 3)
        self.assertIn("同じ穴の狢", exps)
        self.assertIn("同じ穴の狐", exps)
        self.assertIn("同じ穴の狸", exps)
    def test_daijirin_expand_alternatives2(self):
        text = "聞くは＝一時（＝一旦）の恥、聞かぬは＝末代（＝一生）の恥"
        exps = Expressions.expand_daijirin_alternatives(text)
        self.assertEqual(len(exps), 4)
        self.assertIn("聞くは一時の恥、聞かぬは末代の恥", exps)
        self.assertIn("聞くは一時の恥、聞かぬは一生の恥", exps)
        self.assertIn("聞くは一旦の恥、聞かぬは末代の恥", exps)
        self.assertIn("聞くは一旦の恥、聞かぬは一生の恥", exps)
--- a/tests/test_sankoku_phrases.py
+++ b/tests/test_sankoku_phrases.py
@ -1,16 +1,16 @@
 import unittest
-from bot.entries.sankoku8 import parse_hyouki_pattern
+from bot.entries.sankoku8.parse import parse_hyouki_pattern
-class TestSankokuPhrases(unittest.TestCase):
+class TestSankoku8PhraseParse(unittest.TestCase):
-    def test_sankoku_phrases1(self):
+    def test1(self):
        pattern = '耳にたこ（ができる）'
        exps = parse_hyouki_pattern(pattern)
        self.assertEqual(len(exps), 2)
        self.assertIn("耳にたこ", exps)
        self.assertIn("耳にたこができる", exps)
-    def test_sankoku_phrases2(self):
+    def test2(self):
        pattern = '一斑を〈見て／もって〉全豹を〈卜す／推す〉'
        exps = parse_hyouki_pattern(pattern)
        self.assertEqual(len(exps), 4)
@ -19,14 +19,14 @@ class TestSankokuPhrases(unittest.TestCase):
        self.assertIn("一斑をもって全豹を卜す", exps)
        self.assertIn("一斑をもって全豹を推す", exps)
-    def test_sankoku_phrases3(self):
+    def test3(self):
        pattern = '｛かじ・舵｝を切る'
        exps = parse_hyouki_pattern(pattern)
        self.assertEqual(len(exps), 2)
        self.assertIn("かじを切る", exps)
        self.assertIn("舵を切る", exps)
-    def test_sankoku_phrases4(self):
+    def test4(self):
        pattern = '重箱の隅を（⦅ようじ＼楊枝⦆で）〈つつく／ほじくる〉'
        exps = parse_hyouki_pattern(pattern)
        self.assertEqual(len(exps), 6)
@ -37,7 +37,7 @@ class TestSankokuPhrases(unittest.TestCase):
        self.assertIn("重箱の隅をようじでほじくる", exps)
        self.assertIn("重箱の隅を楊枝でほじくる", exps)
-    def test_sankoku_phrases5(self):
+    def test5(self):
        pattern = '群盲象を〈｛な・撫｝でる／評する〉'
        exps = parse_hyouki_pattern(pattern)
        self.assertEqual(len(exps), 3)
--- a/tests/test_smk_phrases.py
+++ b/tests/test_smk_phrases.py
@ -0,0 +1,19 @@
 import unittest
 from bot.entries.smk8.phrase_entry import parse_phrase
 class TestSmk8PhraseParse(unittest.TestCase):
    def test1(self):
        text = "目と鼻の△先（間）"
        exps = parse_phrase(text)
        self.assertEqual(len(exps), 2)
        self.assertIn("目と鼻の先", exps)
        self.assertIn("目と鼻の間", exps)
    def test2(self):
        text = "△金（時間・暇）に飽かして"
        exps = parse_phrase(text)
        self.assertEqual(len(exps), 3)
        self.assertIn("金に飽かして", exps)
        self.assertIn("時間に飽かして", exps)
        self.assertIn("暇に飽かして", exps)