BloggerAds

2012年9月15日 星期六

java - Html內容切割字串(正則表示式)

有關正則表示式的一些精華網頁


http://www.javaworld.com.tw/jute/post/view?bid=20&id=130126&sty=1&tpg=1&age=0


http://caterpillar.onlyfun.net/Gossip/JavaGossip-V1/RegularExpression.htm


因為剛好要解析網頁的一些字串


裡面有提到一個很方便的規則


String info = info.replaceAll("</?[a-z][a-z0-9]*[^<>]*>", "@");


這條規則就是幫你把字串內<>夾起來的字取代成@


利用到裡面寫的:


HTML TAG
</?[a-z][a-z0-9]*[^<>]*> 
開始是<,接著有0或1個/,接著是一個英文字,再接著是不限次數的英文或數字,之後是非"<"或">"的字元不限次數個,最後以">"結尾。
相符的是"<html>" "</html>" "<h0>"等。
不相符字串 "<123>"