Grouping and backreferences

suppressPackageStartupMessages(library("tidyverse"))

package 㤼㸱tidyverse㤼㸲 was built under R version 3.6.3

1. Describe, in words, what these expressions will match:

(.)\1\1: The same character appearing three times in a row. E.g. "aaa"
"(.)(.)\\2\\1": A pair of characters followed by the same pair of characters in reversed order. E.g. "abba".
(..)\1: Any two characters repeated. E.g. "a1a1".
"(.).\\1.\\1": A character followed by any character, the original character, any other character, the original character again. E.g. "abaca", "b8b.b".
"(.)(.)(.).*\\3\\2\\1": Three characters followed by zero or more characters of any kind followed by the same three characters but in reverse order. E.g. "abcsgasgddsadgsdgcba" or "abccba" or "abc1cba".

2. Construct regular expressions to match words that:

1. Start and end with the same character.

str_subset(words, "^(.)((.*\\1$)|\\1?$)")

 [1] "a"          "america"    "area"       "dad"        "dead"       "depend"     "educate"   
 [8] "else"       "encourage"  "engine"     "europe"     "evidence"   "example"    "excuse"    
[15] "exercise"   "expense"    "experience" "eye"        "health"     "high"       "knock"     
[22] "level"      "local"      "nation"     "non"        "rather"     "refer"      "remember"  
[29] "serious"    "stairs"     "test"       "tonight"    "transport"  "treat"      "trust"     
[36] "window"     "yesterday"

2. Contain a repeated pair of letters (e.g. church contains ‘ch’ repeated twice.)

str_subset("church", "([A-Za-z][A-Za-z]).*\\1")

[1] "church"

Now, find all matching words in words.

str_subset(words, "([A-Za-z][A-Za-z]).*\\1")

 [1] "appropriate" "church"      "condition"   "decide"      "environment" "london"     
 [7] "paragraph"   "particular"  "photograph"  "prepare"     "pressure"    "remember"   
[13] "represent"   "require"     "sense"       "therefore"   "understand"  "whether"

The \\1 pattern is called a backreference. It matches whatever the first group matched. This allows the pattern to match a repeating pair of letters without having to specify exactly what pair letters is being repeated.

Note that these patterns are case sensitive. Use the case insensitive flag if you want to check for repeated pairs of letters with different capitalization.

3. Contain one letter repeated in at least three places (e.g. eleven contains three e’s.)

First, check that regex works with th example given in the question.

str_subset("eleven", "([a-z]).*\\1.*\\1")

[1] "eleven"

Now, retrieve the matching words in words.

str_subset(words, "([a-z]).*\\1.*\\1")

 [1] "appropriate" "available"   "believe"     "between"     "business"    "degree"     
 [7] "difference"  "discuss"     "eleven"      "environment" "evidence"    "exercise"   
[13] "expense"     "experience"  "individual"  "paragraph"   "receive"     "remember"   
[19] "represent"   "telephone"   "therefore"   "tomorrow"

LS0tDQp0aXRsZTogIkdyb3VwaW5nIGFuZCBiYWNrcmVmZXJlbmNlcyINCm91dHB1dDogDQogIGh0bWxfbm90ZWJvb2s6DQogICAgdG9jOiB0cnVlDQogICAgdG9jX2Zsb2F0OiB0cnVlDQotLS0NCg0KYGBge3J9DQpzdXBwcmVzc1BhY2thZ2VTdGFydHVwTWVzc2FnZXMobGlicmFyeSgidGlkeXZlcnNlIikpDQpgYGANCg0KIyMjIDEuIERlc2NyaWJlLCBpbiB3b3Jkcywgd2hhdCB0aGVzZSBleHByZXNzaW9ucyB3aWxsIG1hdGNoOg0KDQoxLiBgKC4pXDFcMWA6IFRoZSBzYW1lIGNoYXJhY3RlciBhcHBlYXJpbmcgdGhyZWUgdGltZXMgaW4gYSByb3cuIEUuZy4gYCJhYWEiYA0KMi4gYCIoLikoLilcXDJcXDEiYDogQSBwYWlyIG9mIGNoYXJhY3RlcnMgZm9sbG93ZWQgYnkgdGhlIHNhbWUgcGFpciBvZiBjaGFyYWN0ZXJzIGluIHJldmVyc2VkIG9yZGVyLiBFLmcuIGAiYWJiYSJgLg0KMy4gYCguLilcMWA6IEFueSB0d28gY2hhcmFjdGVycyByZXBlYXRlZC4gRS5nLiBgImExYTEiYC4NCjQuIGAiKC4pLlxcMS5cXDEiYDogQSBjaGFyYWN0ZXIgZm9sbG93ZWQgYnkgYW55IGNoYXJhY3RlciwgdGhlIG9yaWdpbmFsIGNoYXJhY3RlciwgYW55IG90aGVyIGNoYXJhY3RlciwgdGhlIG9yaWdpbmFsIGNoYXJhY3RlciBhZ2Fpbi4gRS5nLiBgImFiYWNhImAsIGAiYjhiLmIiYC4NCjUuIGAiKC4pKC4pKC4pLipcXDNcXDJcXDEiYDogVGhyZWUgY2hhcmFjdGVycyBmb2xsb3dlZCBieSB6ZXJvIG9yIG1vcmUgY2hhcmFjdGVycyBvZiBhbnkga2luZCBmb2xsb3dlZCBieSB0aGUgc2FtZSB0aHJlZSBjaGFyYWN0ZXJzIGJ1dCBpbiByZXZlcnNlIG9yZGVyLiBFLmcuIGAiYWJjc2dhc2dkZHNhZGdzZGdjYmEiYCBvciBgImFiY2NiYSJgIG9yIGAiYWJjMWNiYSJgLg0KDQojIyMgMi4gQ29uc3RydWN0IHJlZ3VsYXIgZXhwcmVzc2lvbnMgdG8gbWF0Y2ggd29yZHMgdGhhdDoNCg0KKioxLiBTdGFydCBhbmQgZW5kIHdpdGggdGhlIHNhbWUgY2hhcmFjdGVyLioqDQoNCmBgYHtyfQ0Kc3RyX3N1YnNldCh3b3JkcywgIl4oLikoKC4qXFwxJCl8XFwxPyQpIikNCmBgYA0KDQoqKjIuIENvbnRhaW4gYSByZXBlYXRlZCBwYWlyIG9mIGxldHRlcnMgKGUuZy4gY2h1cmNoIGNvbnRhaW5zICdjaOKAmSByZXBlYXRlZCB0d2ljZS4pKioNCg0KYGBge3J9DQpzdHJfc3Vic2V0KCJjaHVyY2giLCAiKFtBLVphLXpdW0EtWmEtel0pLipcXDEiKQ0KYGBgDQoNCk5vdywgZmluZCBhbGwgbWF0Y2hpbmcgd29yZHMgaW4gd29yZHMuDQoNCmBgYHtyfQ0Kc3RyX3N1YnNldCh3b3JkcywgIihbQS1aYS16XVtBLVphLXpdKS4qXFwxIikNCmBgYA0KDQpUaGUgYFxcMWAgcGF0dGVybiBpcyBjYWxsZWQgYSBiYWNrcmVmZXJlbmNlLiBJdCBtYXRjaGVzIHdoYXRldmVyIHRoZSBmaXJzdCBncm91cCBtYXRjaGVkLiBUaGlzIGFsbG93cyB0aGUgcGF0dGVybiB0byBtYXRjaCBhIHJlcGVhdGluZyBwYWlyIG9mIGxldHRlcnMgd2l0aG91dCBoYXZpbmcgdG8gc3BlY2lmeSBleGFjdGx5IHdoYXQgcGFpciBsZXR0ZXJzIGlzIGJlaW5nIHJlcGVhdGVkLg0KDQpOb3RlIHRoYXQgdGhlc2UgcGF0dGVybnMgYXJlIGNhc2Ugc2Vuc2l0aXZlLiBVc2UgdGhlIGNhc2UgaW5zZW5zaXRpdmUgZmxhZyBpZiB5b3Ugd2FudCB0byBjaGVjayBmb3IgcmVwZWF0ZWQgcGFpcnMgb2YgbGV0dGVycyB3aXRoIGRpZmZlcmVudCBjYXBpdGFsaXphdGlvbi4NCg0KKiozLiBDb250YWluIG9uZSBsZXR0ZXIgcmVwZWF0ZWQgaW4gYXQgbGVhc3QgdGhyZWUgcGxhY2VzIChlLmcuIGVsZXZlbiBjb250YWlucyB0aHJlZSBl4oCZcy4pKioNCg0KRmlyc3QsIGNoZWNrIHRoYXQgcmVnZXggd29ya3Mgd2l0aCB0aCBleGFtcGxlIGdpdmVuIGluIHRoZSBxdWVzdGlvbi4NCg0KYGBge3J9DQpzdHJfc3Vic2V0KCJlbGV2ZW4iLCAiKFthLXpdKS4qXFwxLipcXDEiKQ0KYGBgDQoNCk5vdywgcmV0cmlldmUgdGhlIG1hdGNoaW5nIHdvcmRzIGluIHdvcmRzLg0KDQpgYGB7cn0NCnN0cl9zdWJzZXQod29yZHMsICIoW2Etel0pLipcXDEuKlxcMSIpDQpgYGANCg==