考虑如下需求
现有某表字段值 'A'AA-BB
现在要实现把A替换成1,把B替换成2 ,但被单引号包起来的'A'不被替换,最终的替换结果是'A'11-22 。
注意:'A'引号部分的位置不固定
引叫里的内容不止一个字符
简单来说,就是要把没有位于引号中的A替换成1,B替换成2;而在引号中的则保持不变。
拿到这个问题的时候,我一直在想怎样写出这样的正则表达式来,想一步到位。后来仔细一想,采用分而治之的办法不是更为简单?
就是把引号部分单独提出来用一个不可能出现的字符串代替,然后对剩下的部分直接采用简单的替换不就OK了么?
如下所示:
第一步,把带引号的部分提取出来,并使用占位符记住其位置
如下图所示:
SOURCE_STRAB
'A'AABB'A'#AABB
'ABCD'AABB'ABCD'#AABB
BA'ABCD'AABB'ABCD'BA#AABB
BA'BACD'AABB'BACD'BA#AABB
BA'BACD'BB'BACD'BA#BB
select source_str,
REGEXP_substr('','(''[^'']+'')') a,
REGEXP_replace(source_str,'(''[^'']+'')','#') b
from regxp_test
第二步,这样就可以放心的替换A、B了。
replace(replace(b,'A',1),'B',2)
第三步,把引号部分放回占位符的位置
replace(replace(replace(b,'A',1),'B',2),'#',a)
最终的SQL如下:
select source_str,replace(replace(replace(b,'A',1),'B',2),'#',a) from (
select source_str,
REGEXP_substr(source_str,'(''[^'']+'')') a,
REGEXP_replace(source_str,'(''[^'']+'')','#') b
from regxp_test)
结果如下:
SOURCE_STRREPLACE(REPLACE(REPLACE(B,'A',
'A'AABB'A'1122
'ABCD'AABB'ABCD'1122
BA'ABCD'AABB21'ABCD'1122
BA'BACD'AABB21'BACD'1122
BA'BACD'BB21'BACD'22
OK,大功告成!
这告诉我们,有的时候我们不必刻意追求一步到位,分而治之也是不错的办法。
复杂着意味着容易需要更多的时间,也更容易出错(比如正则表达式写的有问题,),而分开则简化了逻辑,也变得更为易懂,效率上则不分伯仲。
所以,我们应该在两者之间找到较好的平衡点