トップページ > プログラム > 2020年04月02日 > LyfVZOwj

書き込み順位&時間帯一覧

27 位/153 ID中時間01234567891011121314151617181920212223Total
書き込み数0000000000000010010000002



使用した名前一覧書き込んだスレッド一覧
デフォルトの名無しさん
くだすれPython(超初心者用) その47【Ruby禁止】

書き込みレス一覧

くだすれPython(超初心者用) その47【Ruby禁止】
340 :デフォルトの名無しさん[]:2020/04/02(木) 14:11:06.61 ID:LyfVZOwj
いつもありがとうございます。こちらで回答をいただきながらスクレイピングを行っている者です。
個別でURL、タイトルなど取得し無事に出力することができたのでページ内の全URLを出力してみたところ、
予定では別々な25件のURLが出力されると思ったのですが、
同じURLが220件出力されてしまいました。原因はenumerateの使い方が間違っている。
取得する場所が間違っているからだったりするのでしょうか?

import requests
import re
from bs4 import BeautifulSoup

page_url ="https://news.yahoo.co.jp/topics/top-picks"
r = requests.get(page_url)

soup = BeautifulSoup(r.text, features="html.parser")

item_list = soup.find_all(class_=re.compile(r"newsFeed*"))

for num,item in enumerate(item_list):
news_url = news.find(class_="newsFeed_item_link").get("href")
print("num:", num)
print("url", news_url)
print("*" * 100)
くだすれPython(超初心者用) その47【Ruby禁止】
347 :デフォルトの名無しさん[]:2020/04/02(木) 17:36:27.73 ID:LyfVZOwj
>>341
正規表現です。該当してる中から取得するやり方ではいけないんですね。

>>342
わかりました。セレクターも入力してみて何が取得できるのかなど一通りやってみます。

>>343
基礎学習の後にスクレイピングがおすすめと記載されていることもあるので簡単な方だと思っていました。
よく見るサイトやフリマ系など必要なデータを取れるようになれば時間の時間の短縮になると思いましたがそのレベルになるのは難しそうですね…

皆さまご丁寧にありがとうございます。参考にさせていただきます。


※このページは、『2ちゃんねる』の書き込みを基に自動生成したものです。オリジナルはリンク先の2ちゃんねるの書き込みです。
※このサイトでオリジナルの書き込みについては対応できません。
※何か問題のある場合はメールをしてください。対応します。