同じクラス名があり必要でない情報まで抜き出してしまう

相変わらず、スクレイピングを楽しんでいる者です。 今回は欲しい情報を取得する際に 「おい、欲しい情報これだけなのにclass名が同じで必要ない情報までついてきてる。。だる」 ってことが起きました。 多分様々な手段があると思うんですが、私はそこにhref…

windows10環境によるスクレイピングheadless ~python~

今回はどうしても、headlessモード(非表示)でwebdriverを動かし情報をサイトから抜き出したいと考えコードを書いたので、復習で記事書きます。 今回は相当苦労しました。 様々な記事を参考にさせてもらいましたが、全然できない。 自分自身が出ているエラ…

selenium beautifulsoup エクセルへの保存

エクセルへの保存におけるエラー対応。 encoding="cp932"と設定しているが、時々エラーが発生してしまう。 今回私がでたエラーは”¥/n2013”が悪さをしていたみたいです。 んーどうしようかな。文字コード変えてもエラーなるしな・・と考えたあげく with open …

様々なサイトのスクレイピングで苦労した所まとめ!

今回は自分自身が様々なサイトのスクレイピングを行うにあたって、何時間も作業にかかったり大変だった所をまとめてアウトプット&備忘録にしたいと思い書きます。 ①まず、取得したデータをdataframe化させること (項目;内容)この形でまとめたかった。 bea…

selenium &beautifulsoupデータ収集

今日は時間が取れたので、復習とアウトプットのためデータ収集のためにseleniumとbeautifulsoupをまとめます。 ・今回はマイナビから『会社名』と『年収』と『勤務地』『仕事内容』を取得し、csvファイルに保存する方法を書きます。 環境: windows10 python…

#1

はじめまして、初ブログになります。 たぶん、読みづらい記事にはなりますがご了承ください。 自分自身のプロフィールとして 3年半勤めていた企業の営業からエンジニアに就職した人です。 私は独学では挫折すると思いスクールに通っていました。 現在は無事…