jitenbot/bot/entries/sankoku8/phrase_entry.py

from bot.data import load_phrase_readings
from bot.entries.sankoku8.base_entry import BaseEntry
from bot.entries.sankoku8.parse import parse_hyouki_soup
from bot.entries.sankoku8.parse import parse_hyouki_pattern


class PhraseEntry(BaseEntry):
    def get_part_of_speech_tags(self):
        # phrases do not contain these tags
        return []

    def _get_headwords(self):
        soup = self.get_page_soup()
        self._delete_unused_nodes(soup)
        expressions = self._find_expressions(soup)
        readings = self._find_readings(soup)
        headwords = {}
        if len(expressions) != len(readings):
            raise Exception(f"{self.entry_id[0]}-{self.entry_id[1]}")
        for idx, expression in enumerate(expressions):
            reading = readings[idx]
            if reading in headwords:
                headwords[reading].append(expression)
            else:
                headwords[reading] = [expression]
        return headwords

    def _find_expressions(self, soup):
        phrase_soup = soup.find("句表記")
        expressions = parse_hyouki_soup(phrase_soup, [""])
        return expressions

    def _find_readings(self, soup):
        reading_patterns = load_phrase_readings(self.target)
        reading_pattern = reading_patterns[self.entry_id]
        readings = parse_hyouki_pattern(reading_pattern)
        return readings
Reorganize file structure of entries modules 2023-07-27 00:28:50 +00:00			`from bot.data import load_phrase_readings`
			`from bot.entries.sankoku8.base_entry import BaseEntry`
			`from bot.entries.sankoku8.parse import parse_hyouki_soup`
			`from bot.entries.sankoku8.parse import parse_hyouki_pattern`


			`class PhraseEntry(BaseEntry):`
			`def get_part_of_speech_tags(self):`
			`# phrases do not contain these tags`
			`return []`

			`def _get_headwords(self):`
			`soup = self.get_page_soup()`
			`self._delete_unused_nodes(soup)`
			`expressions = self._find_expressions(soup)`
			`readings = self._find_readings(soup)`
			`headwords = {}`
			`if len(expressions) != len(readings):`
			`raise Exception(f"{self.entry_id[0]}-{self.entry_id[1]}")`
			`for idx, expression in enumerate(expressions):`
			`reading = readings[idx]`
			`if reading in headwords:`
			`headwords[reading].append(expression)`
			`else:`
			`headwords[reading] = [expression]`
			`return headwords`

			`def _find_expressions(self, soup):`
			`phrase_soup = soup.find("句表記")`
			`expressions = parse_hyouki_soup(phrase_soup, [""])`
			`return expressions`

			`def _find_readings(self, soup):`
			`reading_patterns = load_phrase_readings(self.target)`
			`reading_pattern = reading_patterns[self.entry_id]`
			`readings = parse_hyouki_pattern(reading_pattern)`
			`return readings`