Power-Fx/src/tests/Microsoft.PowerFx.Core.Tests.Shared/Helpers/RegEx_JavaScript.cs at 9651c13cb5bb27fb1b474871e2d23a850e3d5963 · microsoft/Power-Fx · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
// Copyright (c) Microsoft Corporation.
// Licensed under the MIT license.

// This file contains the source for AlterRegex in JavaScript.
// It is included here so that the test suite can compare results from .NET, JavaScript, and PCRE2.
// It is here in the Core library so that it can be extracted in the Canvas build and compared against the version stored there.

namespace Microsoft.PowerFx.Functions
{
    public class RegEx_JavaScript
    {
        // This JavaScript function assumes that the regular expression has already been compiled and comforms to the Power Fx regular expression language.
        // For example, no affodance is made for nested character classes or inline options on a subexpression, as those would have already been blocked.
        // Stick to single ticks for strings to keep this easier to read and maintain here in C#.
        public const string AlterRegex_JavaScript = @"
            function AlterRegex_JavaScript(regex, flags)
            {
                var index = 0;

                const inlineFlagsRE = /^\(\?(?<flags>[imnsx]+)\)/;
                const inlineFlags = inlineFlagsRE.exec( regex );
                if (inlineFlags != null)
                {
                    flags = flags.concat(inlineFlags.groups['flags']);
                    index = inlineFlags[0].length;
                }

                const freeSpacing = flags.includes('x');
                const multiline = flags.includes('m');
                const dotAll = flags.includes('s');
                const ignoreCase = flags.includes('i');
                const numberedSubMatches = flags.includes('N');

                // rebuilding from booleans avoids possible duplicate letters
                // x has been handled in this function and does not need to be passed on (and would cause an error)
                const alteredFlags = 'v'.concat((ignoreCase ? 'i' : ''), (multiline ? 'm' : ''), (dotAll ? 's' : ''));

                var openCharacterClass = false;       // are we defining a character class?
                var altered = '';
                var spaceWaiting = false;
                var mainCharacterClass = '';
                var orCharacterClass = '';

                for ( ; index < regex.length; index++)
                {
                    var alteredToken = '';

                    switch (regex.charAt(index) )
                    {
                        case '[':
                            openCharacterClass = true;
                            mainCharacterClass = '';
                            orCharacterClass = '';
                            spaceWaiting = false;
                            break;

                        case ']':
                            openCharacterClass = false;
                            if (mainCharacterClass != '' && orCharacterClass != '')
                                altered = altered.concat('(?:[', mainCharacterClass, ']', orCharacterClass, ')');
                            else if(mainCharacterClass != '')
                                altered = altered.concat('[', mainCharacterClass, ']');
                            else
                                altered = altered.concat(orCharacterClass.substring(1));   // strip leading '|' deliniator
                            spaceWaiting = false;
                            break;

                        case '\\':
                            if (++index < regex.length)
                            {
                                const wordChar = '\\p{Ll}\\p{Lu}\\p{Lt}\\p{Lo}\\p{Lm}\\p{Mn}\\p{Nd}\\p{Pc}';
                                const spaceChar = '\\f\\n\\r\\t\\v\\x85\\p{Z}';
                                const digitChar = '\\p{Nd}';

                                switch (regex.charAt(index))
                                {
                                    case 'w':
                                        alteredToken = ''.concat(openCharacterClass ? '' : '[', wordChar, openCharacterClass ? '' : ']');
                                        break;
                                    case 'W':
                                        if (openCharacterClass)
                                            orCharacterClass = orCharacterClass.concat( '|[^', wordChar, ']' );
                                        else
                                            alteredToken = ''.concat('[^', wordChar, ']');
                                        break;

                                    case 'b':
                                        alteredToken = `(?:(?<=[${wordChar}])(?![${wordChar}])|(?<![${wordChar}])(?=[${wordChar}]))`;
                                        break;
                                    case 'B':
                                        alteredToken = `(?:(?<=[${wordChar}])(?=[${wordChar}])|(?<![${wordChar}])(?![${wordChar}]))`;
                                        break;

                                    case 's':
                                        alteredToken = ''.concat(openCharacterClass ? '' : '[', spaceChar, openCharacterClass ? '' : ']');
                                        break;
                                    case 'S':
                                        if (openCharacterClass)
                                            orCharacterClass = orCharacterClass.concat( '|[^', spaceChar, ']' );
                                        else
                                            alteredToken = ''.concat('[^', spaceChar, ']');
                                        break;

                                    case 'd':
                                        alteredToken = digitChar;
                                        break;
                                    case 'D':
                                        if (openCharacterClass)
                                            orCharacterClass = orCharacterClass.concat( '|[^', digitChar, ']' );
                                        else
                                            alteredToken = ''.concat('[^', digitChar, ']');
                                        break;

                                    // needed for free spacing, needs to be unescaped to avoid /v error
                                    case '#': case ' ':
                                        alteredToken = regex.charAt(index);
                                        break;

                                    default:
                                        alteredToken = '\\'.concat(regex.charAt(index));
                                        break;
                                }
                            }
                            else
                            {
                                // backslash at end of regex
                                alteredToken = '\\';
                            }
                            spaceWaiting = false;
                            break;

                        case '.':
                            alteredToken = !openCharacterClass && !dotAll ? '[^\\r\\n]' : '.';
                            spaceWaiting = false;
                            break;

                        case '^':
                            alteredToken = !openCharacterClass && multiline ? '(?<=^|\\r\\n|\\r|\\n)' : '^';
                            spaceWaiting = false;
                            break;

                        case '$':
                            alteredToken = openCharacterClass ? '$' : (multiline ? '(?=$|\\r\\n|\\r|\\n)' : '(?=$|\\r\\n$|\\r$|\\n$)');
                            spaceWaiting = false;
                            break;

                        case '(':
                            if (regex.length - index > 2 && regex.charAt(index+1) == '?' && regex.charAt(index+2) == '#')
                            {
                                // inline comment
                                for ( index++; index < regex.length && regex.charAt(index) != ')'; index++)
                                {
                                    // eat characters until a close paren, it doesn't matter if it is escaped (consistent with .NET)
                                }

                                spaceWaiting = true;
                            }
                            else
                            {
                                alteredToken = '(';
                                spaceWaiting = false;
                            }

                            break;

                        case ' ': case '\f': case '\n': case '\r': case '\t':
                            if (freeSpacing && !openCharacterClass)
                            {
                                spaceWaiting = true;
                            }
                            else
                            {
                                alteredToken = regex.charAt(index);
                                spaceWaiting = false;
                            }

                            break;

                        case '#':
                            if (freeSpacing && !openCharacterClass)
                            {
                                for ( index++; index < regex.length && regex.charAt(index) != '\r' && regex.charAt(index) != '\n'; index++)
                                {
                                    // eat characters until the end of the line
                                    // leaving dangling whitespace characters will be eaten on next iteration
                                }

                                spaceWaiting = true;
                            }
                            else
                            {
                                alteredToken = '#';
                                spaceWaiting = false;
                            }

                            break;

                        case '*': case '+': case '?': case '{':
                            if (spaceWaiting && altered.length > 0 && altered.charAt(altered.length-1) == '(')
                            {
                                alteredToken = '(?:)';
                                spaceWaiting = false;
                            }
                            alteredToken = alteredToken.concat(regex.charAt(index));
                            spaceWaiting = false;
                            break;

                        default:
                            if (spaceWaiting)
                            {
                                alteredToken = '(?:)';
                                spaceWaiting = false;
                            }
                            alteredToken = alteredToken.concat(regex.charAt(index));
                            break;
                    }

                    if (openCharacterClass)
                        mainCharacterClass = mainCharacterClass.concat(alteredToken);
                    else
                        altered = altered.concat(alteredToken);
                }

                if (flags.includes('^'))
                {
                    altered = '^' + altered;
                }

                if (flags.includes('$'))
                {
                    altered = altered + '$';
                }

                return [altered, alteredFlags];
            }
        ";
    }
}