必死チェッカーもどきプログラム > 2020年04月02日 > LyfVZOwj

トップページ > プログラム > 2020年04月02日 > LyfVZOwj

書き込み順位＆時間帯一覧

27 位/153 ID中	時間	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	Total
27 位/153 ID中	書き込み数	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1	0	0	1	0	0	0	0	0	0	2

使用した名前一覧	書き込んだスレッド一覧
デフォルトの名無しさん	くだすれPython(超初心者用) その47【Ruby禁止】

書き込みレス一覧

くだすれPython(超初心者用) その47【Ruby禁止】
340 ：デフォルトの名無しさん[]：2020/04/02(木) 14:11:06.61 ID:LyfVZOwj: いつもありがとうございます。こちらで回答をいただきながらスクレイピングを行っている者です。
個別でURL、タイトルなど取得し無事に出力することができたのでページ内の全URLを出力してみたところ、
予定では別々な25件のURLが出力されると思ったのですが、
同じURLが220件出力されてしまいました。原因はenumerateの使い方が間違っている。
取得する場所が間違っているからだったりするのでしょうか？

import requests
import re
from bs4 import BeautifulSoup

page_url ="https://news.yahoo.co.jp/topics/top-picks"
r = requests.get(page_url)

soup = BeautifulSoup(r.text, features="html.parser")

item_list = soup.find_all(class_=re.compile(r"newsFeed*"))

for num,item in enumerate(item_list):
news_url = news.find(class_="newsFeed_item_link").get("href")
print("num:", num)
print("url", news_url)
print("*" * 100)

くだすれPython(超初心者用) その47【Ruby禁止】
347 ：デフォルトの名無しさん[]：2020/04/02(木) 17:36:27.73 ID:LyfVZOwj: >>341
正規表現です。該当してる中から取得するやり方ではいけないんですね。

>>342
わかりました。セレクターも入力してみて何が取得できるのかなど一通りやってみます。

>>343
基礎学習の後にスクレイピングがおすすめと記載されていることもあるので簡単な方だと思っていました。
よく見るサイトやフリマ系など必要なデータを取れるようになれば時間の時間の短縮になると思いましたがそのレベルになるのは難しそうですね…

皆さまご丁寧にありがとうございます。参考にさせていただきます。

※このページは、『２ちゃんねる』の書き込みを基に自動生成したものです。オリジナルはリンク先の２ちゃんねるの書き込みです。
※このサイトでオリジナルの書き込みについては対応できません。
※何か問題のある場合はメールをしてください。対応します。