提取HTML代码中文字的C#函数

/// <summary>
/// 去除HTML标记
/// </summary>
/// <param>包括HTML的源码 </param>
/// <returns>已经去除后的文字</returns>
public static string StripHTML(string strHtml)
{
string [] aryReg ={
@”<script[^>]*?>.*?</script>”,

};

string [] aryRep = {
           “”,
           “”,
           “”,
           “\””,
           “&”,
           “<“,
           “>”,
           ” “,
           “\xa1”,//chr(161),
           “\xa2”,//chr(162),
           “\xa3”,//chr(163),
           “\xa9”,//chr(169),
           “”,
           “\r\n”,
           “”
          };

string newReg =aryReg[0];
   string strOutput=strHtml;
   for(int i = 0;i<aryReg.Length;i++)
   {
    Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
    strOutput = regex.Replace(strOutput,aryRep[i]);
   }

strOutput.Replace(“<“,””);
strOutput.Replace(“>”,””);
strOutput.Replace(“\r\n”,””);

return strOutput;
}

站长网

提取HTML代码中文字的C#函数

作者: dawei

联系我们

作者: dawei

相关文章

ASP调用带参数存储过程的几种方式

ASP多重查询的解决方法

ASP子程序的浅析

ASP Access数据库的安全法则介绍

如何在ASP中显示Application集合的内容

在ASP中调用SQL Server数据库视图

联系我们