同じクラス名があり必要でない情報まで抜き出してしまう
相変わらず、スクレイピングを楽しんでいる者です。
今回は欲しい情報を取得する際に
「おい、欲しい情報これだけなのにclass名が同じで必要ない情報までついてきてる。。だる」
ってことが起きました。
多分様々な手段があると思うんですが、私はそこにhrefがついていたのでreで指定して
「邪魔な所は消してしまえ!」っとなりました。
parser_html = beautifulsoup(xxx, 'html.parser')
for tag in parser_html.find_all(href=re.compile("yyyyyyyy")):
tag.decompose()
はい、魔法のコードdecomposeメソッド
これで見たくない物は消せます👏
その後に実際取り出したい
ddd = []
for a in parser_html.find_all(class_='iiiiiiiiiiiiiii')
ddd.append(a)
print(ddd)
完成!!