- Pythonのお勉強 Part50
490 :デフォルトの名無しさん[sage]:2015/03/10(火) 06:09:14.15 ID:XNSpCIll - 普段過疎ってるのに答えられない質問が来ればこれだよ
レベルが低すぎる。分からないなら黙ってろよ
|
- Pythonのお勉強 Part50
492 :デフォルトの名無しさん[sage]:2015/03/10(火) 08:46:34.14 ID:XNSpCIll - >>491
lxmlが失敗する原因は何? 答えられないのにデタラメの妄想を垂れ流した挙句に質問者を罵倒するとかヤフー知恵袋以下じゃないかね >>487で答えになってると思ってるあたりがこのスレの限界だろうか このスレの住人がこれをデバッグしない理由は何?そんなに難しいことなのか たとえば5分あってもできないことなのか?上級者なら教えてくれよ
|
- Pythonのお勉強 Part50
494 :デフォルトの名無しさん[sage]:2015/03/10(火) 08:55:06.57 ID:XNSpCIll - >>493
試しても分からないから、初心者に説教垂れてる上級者に聞いてるんだろ 回答者は教えたがりなのに少しの労力すら惜しみ、そのくせ罵詈雑言を並べて優越感に浸ることだけは余念がない、ということ?
|
- Pythonのお勉強 Part50
496 :デフォルトの名無しさん[sage]:2015/03/10(火) 09:02:33.19 ID:XNSpCIll - 余裕がないなら黙っておけよ
なんでこのスレを読んでるのかすら理解できない
|
- Pythonのお勉強 Part50
497 :デフォルトの名無しさん[sage]:2015/03/10(火) 09:03:01.09 ID:XNSpCIll - というか、答えられない言い訳は聞き飽きた
|
- Pythonのお勉強 Part50
500 :デフォルトの名無しさん[sage]:2015/03/10(火) 09:04:15.13 ID:XNSpCIll - >>498
お前はデバッグせずにlxmlが動かない理由が分かるのか?
|
- Pythonのお勉強 Part50
506 :デフォルトの名無しさん[sage]:2015/03/10(火) 09:57:35.09 ID:XNSpCIll - 自称回答者がこのスレを見てる意味がよく分からん
いつも実行もせずに妄想で答えてるのか
|
- Pythonのお勉強 Part50
513 :デフォルトの名無しさん[sage]:2015/03/10(火) 11:37:23.31 ID:XNSpCIll - どういうことなのかさっぱり分からん
ここの人らはソースをちらっとは見たけど、どこが問題なのかは特定できなかった、ということで良いのか? スレの構造はどう考えても同じだろうに
|
- Pythonのお勉強 Part50
519 :デフォルトの名無しさん[sage]:2015/03/10(火) 13:01:01.34 ID:XNSpCIll - できた。やっぱりスクレイピング対策とかHTMLの構造は関係なかった
parseが自動で見つける文字コード(shift_jis)とHTML内の機種依存文字(V)が矛盾しているのが原因っぽい だからfromstring使ってunicodeにデコードした文字列を渡せば良いだけだったわ from lxml.html import fromstring from urllib.request import urlopen url = 'http://wc2014.2ch.net/test/read.cgi/sci/1343188288/' doc = fromstring(urlopen(url).read().decode('cp932')) print(len(doc.text_content())) # 126937
|
- Pythonのお勉強 Part50
521 :デフォルトの名無しさん[sage]:2015/03/10(火) 15:19:51.05 ID:XNSpCIll - は?
|
- Pythonのお勉強 Part50
523 :デフォルトの名無しさん[sage]:2015/03/10(火) 15:21:32.81 ID:XNSpCIll - 何の参考にもならないこと言っておいて「やっぱり」はねえだろ
文字コードだと言うのならまだしも、データ? そりゃデータだろ。馬鹿かよ
|
- Pythonのお勉強 Part50
524 :デフォルトの名無しさん[sage]:2015/03/10(火) 15:23:27.55 ID:XNSpCIll - >>522
このスレの誰一人として、プログラミングに向いてると思える片鱗が一ミリも見えないんだけど なぜか、俺はプログラミング上級者でございみたいな顔でレスしてる方が謎
|
- Pythonのお勉強 Part50
525 :デフォルトの名無しさん[sage]:2015/03/10(火) 15:26:30.88 ID:XNSpCIll - ROMってるやつはたくさんいるようだが、自分が分からないと様子見しているようだ。それはまあ良いよ
>>480からやっとレスが付いたのが3日後、しかも妄想回答 妄想であることを指摘してやると切れ始める。どうせ何の答えも出せないんだから最初から黙っていて欲しかったよ 次に誰か質問した時もそうだ。絶対お前らは口を出すなよ。どうせクソの役にも立たないんだから
|
- Pythonのお勉強 Part50
527 :デフォルトの名無しさん[sage]:2015/03/10(火) 15:29:08.32 ID:XNSpCIll - 何のためにお勉強スレに常駐してるんだ?
少しは役に立つレスをしろよ
|
- Pythonのお勉強 Part50
532 :デフォルトの名無しさん[sage]:2015/03/10(火) 19:05:33.59 ID:XNSpCIll - >>529
pythonはうまく行かなかったらエラーを吐いて止まるところが良いのに parseは失敗しても読み込めた場所までのetreeを返しているように見える。これは嫌な仕様だ 何か値が返ってくるので一見成功しているように見えるから、なぜ中身が中途半端なのか分からない パース前のデータを見ようとurlopen(url).read().decode('shift_jis')とすると、そこでエラーを吐いてやっと何が問題なのか分かる htmlファイルをそのまま見比べ続けたりdiff取ったりしても無理だっただろう decodeなら、errorsオプションを指定することでデコードできない文字に対してエラーを吐くか読み飛ばすかを選択できるけど parseにはそういったオプションはなく、何をやってるのか分からない。失敗したくせになぜ停止しないんだ というか結局どの文字コードでもエラーになるスレがあるけど 重要じゃない文字っぽいのでスルーすることにした doc = fromstring(urlopen(url).read().decode('cp932', errors='ignore')) 文字コードは闇。おわり。正解があるならplz しかしこの問題は少しでも経験がある人なら一瞬で気付けたと思うので 数日後に上級者ぶって的はずれな説教を始めるこのスレはやはり使い物にならないと言わざるを得ない
|
- Pythonのお勉強 Part50
535 :デフォルトの名無しさん[sage]:2015/03/10(火) 19:45:25.31 ID:XNSpCIll - >>534
プログラミング分からないなら黙ってたほうが良いのでは
|
- Pythonのお勉強 Part50
540 :デフォルトの名無しさん[sage]:2015/03/10(火) 23:24:20.49 ID:XNSpCIll - フェアウェル・プログラムの結果発表
この板全体の単語頻度(ただし'C'や'#'は簡単のためにノイズとして除去されてる) 大文字と小文字どちらかに統一すれば良かったとあとから思ったけどまあ良いや なんと馬鹿 (1644)は65位でした! 何の生産性もない、貶し合うだけの板なんて、そろそろおいとましよう 1: 言語 (12722) 2: コード (8511) 3: 人 (7336) 4: 関数 (6599) 5: 問題 (6194) 6: スレ (5836) 7: ファイル (5710) 8: 必要 (5595) 9: 場合 (5434) 10: 自分 (5245) 11: 文字 (4289) 12: ソース (4235) 13: Java (4215) 14: 今 (3858) 15: データ (3804) 16: 方法 (3703) 17: クラス (3691) 18: 環境 (3574) 19: Windows (3405) 20: int (3402) 21: 変数 (3198) 22: ライブラリ (3168) 23: 仕様 (3125) 24: Ruby (3093) 25: アプリ (2969) 26: 前 (2800) 27: if (2780) 28: 情報 (2676) 29: 感じ (2675) 30: 可能 (2667) 31: for (2641) 32: 部分 (2626) 33: 普通 (2564) 34: オブジェクト (2424) 35: 他 (2391) 36: 日本語 (2346) 37: コンパイル (2317) 38: 簡単 (2292) 39: 本 (2288) 40: 結果 (2258) 41: 時間 (2234) 42: 名前 (2220) 43: 列 (2197) 44: hoge (2141) 45: レベル (2068) 46: メソッド (2036) 47: Python (1961) 48: 値 (1946) 49: メモリ (1896) 50: 型 (1890) https://www.dropbox.com/s/omwbh5clw3hvb4a/word_frequency.csv?dl=0
|