Coverage for src/crawler/by_source/cambridge

1from urllib.parse import urljoin

3from bs4 import BeautifulSoup, Tag

4from dateutil import parser

5from ptf.cmds.xml.xml_utils import escape

6from ptf.model_data import create_abstract, create_articledata

8from crawler.base_crawler import BaseCollectionCrawler

9from crawler.cmds.mixed_citation import (

10 ExtLinkXml,

11 GenericRefElement,

12 MixedCitation,

13)

14from crawler.utils import cleanup_str

17class CambridgeCrawler(BaseCollectionCrawler):

18 source_name = "Cambridge University Press"

19 source_domain = "CAMBRIDGE"

20 source_website = "https://www.cambridge.org/"

22 delimiter_disp_formula = "$$"

24 def parse_collection_content(self, content):

25 xissues = []

26 soup = BeautifulSoup(content, "html.parser")

27 items = soup.select(".journal-all-issues .item")

28 for item in items:

29 href = item.get("href")

30 if not isinstance(href, str):

31 raise ValueError("Couldn't parse issue")

32 href = urljoin(self.collection_url, href)

34 volume_tag = item.select_one(".issue")

35 if not volume_tag:

36 raise ValueError("Couldn't parse issue number")

37 volume_number = cleanup_str(volume_tag.text).removeprefix("Volume ")

39 year_tag = item.select_one(".date")

40 if not year_tag:

41 raise ValueError("Couldn't parse issue year")

42 year = parser.parse(year_tag.text).year

44 xissue = self.create_xissue(

45 href, volume_number=volume_number, year=str(year), issue_number=None

46 )

47 xissues.append(xissue)

49 return xissues

51 def parse_issue_content(self, content, xissue):

52 if not xissue.url:

53 raise ValueError("Issue must have an url")

54 soup = BeautifulSoup(content, "html.parser")

55 article_tag = soup.select(".journal-reader .part-link")

57 for index_article, article_node in enumerate(article_tag):

58 url = article_node.get("href")

59 if not isinstance(url, str):

60 raise ValueError("Couldn't find article href")

61 xarticle = create_articledata()

62 xarticle.pid = "a" + str(index_article)

63 xarticle.url = urljoin(xissue.url, url)

65 xissue.articles.append(xarticle)

67 has_pagination = soup.select_one("ul.pagination a:-soup-contains-own('Next »')")

68 if has_pagination:

69 pagination_link = has_pagination.get("href")

70 if isinstance(pagination_link, str):

71 page_url = urljoin(xissue.url, pagination_link)

72 content = self.download_file(page_url)

74 self.parse_issue_content(content, xissue)

76 def parse_article_content(self, content, xissue, xarticle, url):

77 """

78 Parse the content with Beautifulsoup and returns an ArticleData

79 """

81 xarticle.lang = "en"

83 soup = BeautifulSoup(content, "html5lib")

84 self.get_metadata_using_citation_meta(xarticle, xissue, soup, ["pdf", "author", "doi"])

85 title_tag = soup.select_one("#maincontent hgroup")

86 if not title_tag:

87 raise ValueError("Couldn't find title tag")

88 xarticle.title_tex = cleanup_str(title_tag.text)

90 abstract_header = soup.select_one("h2:-soup-contains-own('Abstract')")

91 if abstract_header:

92 abstract_parent = abstract_header.parent

93 abstract_header.decompose()

95 no_content = abstract_parent.select_one(".no-content")

96 if no_content:

97 no_content.decompose()

99 xarticle.abstracts.append(

100 create_abstract(

101 lang="en", tag="abstract", value_tex=cleanup_str(abstract_parent.text)

102 )

103 )

104 references_list = soup.select_one("#references-list")

105 if references_list:

106 xarticle.bibitems = self.parse_cambridge_references(references_list)

107 return xarticle

108

109 def parse_cambridge_references(self, soup: Tag):

110 bibitems = []

111 for item in soup.select(".circle-list__item"):

112 citation_builder = MixedCitation()

113 label_tag = item.select_one(".circle-list__item__number")

114 if label_tag:

115 citation_builder.label = escape(cleanup_str(label_tag.text))

116 citation_content = item.select_one(".circle-list__item__grouped__content")

117 if citation_content:

118 self.parse_cambridge_ref_nodes(citation_content, citation_builder)

119

120 # Group all StringNames into one PersonGroup object

121 persongroup_builder = GenericRefElement()

122 persongroup_builder.name = "person-group"

123 # Index of StringNames objects

124 i = [

125 index

126 for index, element in enumerate(citation_builder.elements)

127 if isinstance(element, GenericRefElement) and element.name == "string-name"

128 ]

129 if len(i) > 0:

130 persongroup_builder.elements = citation_builder.elements[i[0] : i[-1] + 1]

131 del citation_builder.elements[i[0] : i[-1] + 1]

132 citation_builder.elements.insert(i[0], persongroup_builder)

133

134 bibitems.append(citation_builder.get_jats_ref())

135 return bibitems

136

137 def parse_cambridge_ref_nodes(

138 self,

139 current_tag: Tag,

140 current_builder: GenericRefElement,

141 ):

142 "recursive function that parses references tags"

143 for element in current_tag.children:

144 if isinstance(element, str):

145 current_builder.elements.append(escape(element))

146 continue

147 if isinstance(element, Tag):

148 tag_class = element.get("class")

149 if isinstance(tag_class, list):

150 if len(tag_class) > 0:

151 tag_class = tag_class[0]

152 else:

153 tag_class = None

154

155 if not tag_class:

156 continue

157 if tag_class in ("mathjax-tex-wrapper", "aop-lazy-load-image"):

158 continue

159 if element.name == "a":

160 href = element.get("href")

161 if isinstance(href, str):

162 current_builder.elements.append(" ")

163 current_builder.elements.append(

164 ExtLinkXml(escape(href), escape(element.text))

165 )

166 continue

167

168 if tag_class in [

169 "surname",

170 "given-names",

171 "string-name",

172 "person-group",

173 "publisher-name",

174 "source",

175 "volume",

176 "year",

177 "fpage",

178 "lpage",

179 "article-title",

180 "issue",

181 "chapter-title",

182 "inline-formula",

183 "collab",

184 "alternatives",

185 "italic",

186 "publisher-loc",

187 "roman",

188 "edition",

189 "suffix",

190 ]:

191 refnode_builder = GenericRefElement()

192 refnode_builder.name = tag_class

193 current_builder.elements.append(refnode_builder)

194 self.parse_cambridge_ref_nodes(element, refnode_builder)

195 continue

196

197 self.logger.warning(f"Couldn't insert tag into mixed citation : {tag_class}")

198 current_builder.elements.append(escape(element.text))

Coverage for src / crawler / by_source / cambridge_crawler.py: 10%

121 statements