站长网 Asp教程 提取HTML代码中文字的C#函数

提取HTML代码中文字的C#函数

/// summary /// 去除HTML标记 /// /summary /// param包括HTML的源码 /param /// returns已经去除后的文字/returns public static string StripHTML(string strHtml) string [] aryReg = @”script[^]*?.*?/script”, @”(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s

/// <summary>
  /// 去除HTML标记
  /// </summary>
  /// <param>包括HTML的源码 </param>
  /// <returns>已经去除后的文字</returns>
  public static string StripHTML(string strHtml)
  {
   string [] aryReg ={
          @”<script[^>]*?>.*?</script>”,

@”<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([“”‘])(*)?>”,
          @”([\r\n])[\s]+”,
          @”&(quot|#34);”,
          @”&(amp|#38);”,
          @”&(lt|#60);”,
          @”&(gt|#62);”,
          @”&(nbsp|#160);”,
          @”&(iexcl|#161);”,
          @”&(cent|#162);”,
          @”&(pound|#163);”,
          @”&(copy|#169);”,
          @”&#(\d+);”,
          @”–>”,
          @”<!–.*\n”

         };

string [] aryRep = {
           “”,
           “”,
           “”,
           “\””,
           “&”,
           “<“,
           “>”,
           ” “,
           “\xa1”,//chr(161),
           “\xa2”,//chr(162),
           “\xa3”,//chr(163),
           “\xa9”,//chr(169),
           “”,
           “\r\n”,
           “”
          };

string newReg =aryReg[0];
   string strOutput=strHtml;
   for(int i = 0;i<aryReg.Length;i++)
   {
    Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
    strOutput = regex.Replace(strOutput,aryRep[i]);
   }

strOutput.Replace(“<“,””);
   strOutput.Replace(“>”,””);
   strOutput.Replace(“\r\n”,””);


   return strOutput;
  }

本文来自网络,不代表站长网立场,转载请注明出处:https://www.tzzz.com.cn/html/jc/asp/2021/0717/13420.html

作者: dawei

【声明】:站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。
联系我们

联系我们

0577-28828765

在线咨询: QQ交谈

邮箱: xwei067@foxmail.com

工作时间:周一至周五,9:00-17:30,节假日休息

返回顶部