- Ruby 初心者スレッド Part 58 [無断転載禁止]©2ch.net
831 :デフォルトの名無しさん[sage]:2016/09/13(火) 16:29:06.06 ID:aXWSAFy4 - あるサイトページをnokogiriで拾うと、正規のURLと文字化けしたURL(%などが含まれる)の2種類のURLで同一の情報を拾ってしまいます。
正規のURLだけの情報えお拾いたいのですがどのような方法がありますでしょうか?
|
- Ruby 初心者スレッド Part 58 [無断転載禁止]©2ch.net
832 :デフォルトの名無しさん[sage]:2016/09/13(火) 16:35:24.92 ID:aXWSAFy4 - ちなみに、
anemone.skip_links_like /除外対象のURLパターン/ で文字化け部分を指定しても改善にはいたりませんでした。
|
- Ruby 初心者スレッド Part 58 [無断転載禁止]©2ch.net
834 :デフォルトの名無しさん[sage]:2016/09/13(火) 16:45:49.24 ID:aXWSAFy4 - >>833
URLエンコードです。 デコードすると正規のURLに変換できます。
|
- Ruby 初心者スレッド Part 58 [無断転載禁止]©2ch.net
838 :デフォルトの名無しさん[sage]:2016/09/13(火) 17:19:43.00 ID:aXWSAFy4 - >>836
参考リンクの情報ありがとうございます。 一通り試してみますm(_ _)m >>837 ご返信ありがとうございます。 具体的に申しますと、 [ → %5B ] → %5D のように、カッコ部分がエンコード/デコードで重複して出力されます。 link.to_s.matchで[●●]や%5B●●%5Dといった条件付けで巡回ページを指定しても、 両方のパラメータが出力されてしまうようです。
|