konbumankunの日記

同じクラス名があり必要でない情報まで抜き出してしまう

相変わらず、スクレイピングを楽しんでいる者です。

今回は欲しい情報を取得する際に

「おい、欲しい情報これだけなのにclass名が同じで必要ない情報までついてきてる。。だる」

ってことが起きました。

多分様々な手段があると思うんですが、私はそこにhrefがついていたのでreで指定して

「邪魔な所は消してしまえ！」っとなりました。

parser_html = beautifulsoup(xxx, 'html.parser')

for tag in parser_html.find_all(href=re.compile("yyyyyyyy")):

tag.decompose()

はい、魔法のコードdecomposeメソッド

これで見たくない物は消せます👏

その後に実際取り出したい

ddd = []

for a in parser_html.find_all(class_='iiiiiiiiiiiiiii')

ddd.append(a)

print(ddd)

完成！！