This notebook outlines the process of transforming text into numerical embeddings, capturing the semantic relationships between words (tokens) within their respective contexts. Context level is determined by the level of analysis applied to the data, encompasses various forms such as WhatsApp messages, experimental responses, social media posts, and more.
We’ll be using the quanteda package for text processing
and quanteda.textmodels for embedding tasks.
library(quanteda)
library(quanteda.textmodels)
library(tidyverse)
Our raw data should meet the following structure:
CSV file with 2 columns: one for ID (Subject.ID) and
another for text (Words.Spoken).
For Example
data <- read.csv("full_text.csv")
head(data, n = 2)
## Subject.ID
## 1 117
## 2 118
## Words.Spoken
## 1 & – טוב, מוכן, אודי? – יאללה, שלוש, ארבע... – אוקי. דוגמה למסך יש לי... נתקדם בטח... – אה, אוקי, אז אני פשוט לא התקדמתי בהוראות, חיכיתי ש... בסדר, אז... אוקי. – הנה, "מה אתה לומד או עושה בחיים". אז אני אמור להתחיל, הוא אמר, נכון? – כן, אוקי. עכשיו אני... טוב, שנינו באוניברסיטת תל אביב, בטח... אז אני כרגע לומד בתואר של פסיכולוגיה-מדעי המחשב עם הדגש מוח, ו... – כן, כן. לומד שנה א' כרגע. השאלה אם זה מתרכז רק בלימודים... " או עושה", טוב, האמת שכל החיים כרגע זה די... זה די זה, כן? האמת ש... – גם לספורט... הייתי משחק סקווש יותר... אין לזה זמן. גם האטרקציות... הכל מתנקז ללימודים עכשיו. בטח שבתקופת מבחנים... – די. – וואי. – די, נו. – וואי, כן, אנחנו נהיה בסדר עם המבחן הזה, אני לא דואג. – כן. – די, מגניב. – כן. – וואלה. - פרט חשוב, אחלה ים שם. – זה משהו שקשור לשחייה, ספורט ימי כלשהו, או שפשוט זה מקום ש... – וואו. – קשור לזה ממש, וואו. טוב, אצלי האמת זה גם מתקשר לים. זה... אני גר בנתניה, כאילו, יותר על ציר נתניה-מודיעין, כאילו... הבת זוג שלי במודיעין, ואני בנתניה, אז דיי נע על זה, והמקום הוא צוקי ארסוף, אם אתה מכיר, שהם נמצאים לא רחוק. – זה ממש קרוב לפולג, זה כאילו בין פולג ל... באיזור שפיים כזה, אז יש שם... – כן... מקום מדהים לדייטים, ולשבת עם חברים ולעשות פק"ל קפה, ו... – לראות ככה את הים וזה אדיר. – כן, כן. – צפית בהכל מהים, אתה אומר... – וואי, יש שם את הגבעות האלה, עם החולות, ו... – יואו. לא, לא חוויות נעימות, אני מניח. – – אז בדיעבד, להיזכר... – סבבה. נתקדם? – משתדל לא להדליף יותר מדי מידע, ככה שיהיה לנו חומר לעבוד איתו. – אוקי. "ספר על משהו שאתה אוהב לעשות". אצלי זה חדרי בריחה. אני, כאילו... הייתי יותר חזק בעסק לפני הלימודים, כאילו, עשיתי חדרים, הייתי כאילו... הייתי בלוגר, מכרתי כאילו תסריטים, הייתי ממש בתוך זה, ממש, ממש אוהב את הדבר הזה. – כן, יש בזה ריגוש שממש עושה לי את זה. זה מבחינתי. – כן? – די. – יש לזה, אני אומר, סימנים מאחורה, נכון? אני רואה... – כאילו, מה... מה אתה אוהב לצייר? איך זה מתחלק? – , וואי, זה די אדיר, אבל עם כל הלחץ, כאילו יש לך מוזה לזה? – כן? – וואי, אדיר. – אדיר ממש. – ממש. – – נראה לי מתכוונים פשוט לגור איפשהו, כאילו... – מה קרה? מה, קרה משהו? – אתה קפוא אבל אני שומע אותך. זהו. – לא נורא. – כן, כן. שומע אותך מצוין. – די. – כן? ממש שמעתי שיש שם אחלה אוכל שתדע. – כן? וואלה? – אגב, למה דווקא לונדון? – כן. מעיר גדולה אחת לאחרת אה? חיפה, לונדון... יש פה... – וואי, וואי. אני בדיוק ההפך. אני, כאילו... אני גר גם בנתניה, בעיר גדולה יחסית, אבל... אם הייתי מהגר, זה למקום שקט, ועם נופים... היה כאילו מקום כזה בתחילת הטיול הגדול שלי כזה, ב... – קבוצת איים בין סקוטלנד לאיסלנד בשם איי פארו, שהם מקום באמת מדהים, ואין כמעט אנשים, ו... – הכל שם נופים, וזה יחסית קטן ומשפחתי כזה. אז מקום כזה שמרגישים משפחתיות, שזה מה שהיה חסר לי, ו... רגע, אני רואה ששלחו לנו הודעה. אה, אוקי. – בסדר, אז דיי... דיי סיימתי. – אוקיי. – שלוש, ארבע, ו... – סגור. אתה נראה לי מתחיל. או אני? – אני, אוקי. "אם היית רוצה להיות מפורסם? באיזה צורה? למה?" וואי, מה זה לא הייתי רוצה להיות מפורסם כאילו... – וואו, זה נראה לי מה זה חיסרון. אתה מאבד את ה... את הפרטיות שלך. אם הייתי רוצה להיות מפורסם, זה בעקבות איזשהי המצאה ש... שעלתה לי, איזשהו משהו שפיתחתי, לא איזה מעשה מטורף שקרה, או משהו שהייתי נוכח בו, לא... משהו שפיתחתי ועזר באיזשהי צורה. – אני רואה אותך מצוין. – כן, להשפיע לטובה על אנשים ולברוח, שלא יזכרו אותך, אתה אומר. – מגניב, מגניב ממש. – נתקדם? – יאללה. – שלוש, ארבע, ו... – נורא. – אבל זה חייב להיות רגוע, זה התנאי, כאילו... – כן. – כן, אני מסכים איתך. ממש. מבחינתי, כאילו, יום מושלם זה יום שמשולבים בו אנשים, מה שלא קורה הרבה לאחרונה, אז אין לי הרבה ימים מושלמים... – אבל יום כאילו שיש לי חוויות בו עם אנשים, במיוחד אם הוא מתפתח לדברים לא צפויים, ולנסוע פתאום בספונטניות למקום כלשהו... בטעות, פתאום, להגיע לאיזשהו מקום יפה, כאילו... אם יש התפתחויות לא צפויות עם אנשים, אז אני אוהב את זה. – שלוש, ארבע, ו... – "על מה בחייך אתה מרגיש אסיר תודה?" וואו, וואו, איזה שאלות הם מביאים לנו... – וואו, אסיר תודה. אוקי. – האמת שזה על האנשים ש... שאני, כאילו, מוקף בהם. על זה. אני מרגיש שאני מוקף באמת באנשים שעושים לי טוב, בין אם זה המשפחה שלי, או הבת זוג שלי, או החברים הממש טובים שלי. זה, כאילו... על זה הכי שמח, כי זה ממש בונה אותי, כזה... כל יום, לדעת שיש סביבה... סביבה שאני מרגיש איתה בנוח. אז על זה. – וואלה? – מה הכוונה? – יש לך את כל התנאים להגיע למקומות שאתה רוצה? – וואו. – נחמד, נחמד. – סבבה. שלוש, ארבע, ו... – – וואי, וואי, וואי. – יאללה, הרווחת. רגע, אני? – אני? כן, אני הייתי אחרון? אני לא... לא זוכר כבר. טוב, בסדר. – אני לא זוכר. – מה היתה השאלה הקודמת? שאלה קודמת? – אתה, כן. – – \t – וואו. – וואלה. – לא נשמע שירות פשוט. – אני אומר, לא שירות פשוט, לא נשמע שירות קל. – – מתרגלים מתישהו? – כמה זמן? – מה, די! יואו. – וואו. לפי הספר, ממש. – אבל נשמע שנהנית, כאילו, מהדרך. – השירות שלך, אתה...? – כן? – וואלה, וואו. לא נשארת קבע או משהו, ישר כאילו השתחררתי... – הבנתי אותך. וואלה, וואו. מגניב, מגניב. מבחינתי, גם כאילו... אין לי יותר מדי מה לספר על הילדות... ילדות די רגילה, כאילו עד גיל 18, אני מגדיר את זה שגרתי מאוד, ילד חנון, ביישן מאוד, ציונים, כאילו, ממוקד כזה... אבל אז כאילו המשכתי לעתודה, עתודה של שנה, פסגות-תוכנה כזה, בטכניון. הבנתי בשנה הזאת שזה ממש לא השלב שלי לזה. כאילו, זה היתה השנה הראשונה כזה שיצאתי מהבית, רחוק ההורים, וזה... – הפסקתי די מהר שם. והתגייסתי... – מכיר, מכיר את חיפה. – לא שהיה לי זמן להגיע לחופים, וזה, כן? – אבל... אחרי זה התגייסתי, וכזה התגלגלו הדברים ובסוף הגעתי לתפקיד שבאמת עשה לי שינוי כזה בחיים, שזה הכשרת מפקדים בחיל האוויר, הייתי שם ראש צוות. והיה שירות... כאילו, מטורף, הכי קיצוני שיכול להיות בכל היבט – מהשעות שינה, בכמות האחריות עליך, וכזה... פתאום, הבהיר לי שאני רוצה להיות איש של אנשים, כאילו, להתעסק באנשים. אחרי השירות, גם... ישר טסתי. השתחררתי, עשרה ימים אחרי טסתי לחו"ל. – כן... כן, ממש התחלתי כזה בכרטיס לכיוון אחד, מנותק מהכל... באיי פארו, המשכתי לתאילנד, אחרי זה לוויאטנם, סיימתי בטייוואן, כאילו... היה טיול באמת מדהים, שם הבנתי שאני רוצה, כאילו, ללכת יותר לכיוון של פסיכולוגיה, מדעי המחשב, משהו משולב כזה. לקחתי שנה של חופש לפני שאני מתחיל, ככה להיות בטוח שזה זה ולא לעשות שוב טעות של להתחיל מהר, אז בזמן הזה עבדתי בחדר בריחה, עשיתי קורס מנחים מגניב כזה של מיכאל, וזהו, ואז התחלתי. – טוב. – שלוש, ארבע, ו... – סבבה, אז עכשיו אנחנו אמורים להגדיל את החלון... – בלי אחד את השני... ונעבור. – טוב, יאללה. – שאלון קצר, בסדר. – כן, אני מוכן. – יאללה. – אוקי. מי אמור להתחיל? – סבבה, נכון, נכון. "אם כדור בדולח היה יכול לספר לך את האמת על עצמך, העתיד או כל דבר אחר, מה היית רוצה לדעת?" וואי. – כאילו, בגדול, לא הייתי רוצה לדעת כלום. זה משנה לך כזה את כל הנתיב חיים, בעצם, ואני לא בטוח שהייתי רוצה שהוא ישתנה כזה מהר. אבל אם משהו..? וואו. אני לא הייתי רוצה לדעת כלום. שום דבר. אתה יודע, יש את היצר סקרנות, יש את היצר שרוצה לדעת מה, אבל זה היה משנה הכל, ואני לא בטוח שהייתי רוצה את זה, כאילו... – יכול להיות חתיכת סטארט-אפ, וואו. – האמת שאתה צודק, להבין אולי מנגנונים בעולם, זה אולי היה נותן לנו... נקודות זכות. – כן, ממש. פתאום עולות לי עכשיו שאלות שאני דווקא רוצה לדעת, חייזרים, כל מיני דברים מעניינים, אתה יודע... – סבבה. יאללה. שלוש, ארבע, ו... - אוקי, תורך. – לך על זה. – וואי... – תהיה הזדמנות מתישהו, באיזה טיול... – וואי, מגניב, מגניב. וואו. האמת היא שהחלום היה אז, כשהייתי ממש בעסק של החדרי בריחה היה להקים אחד, ממש רציתי, הרגשתי שזה בוער בי כזה, וממש, כאילו, הייתי על זה... אבל לא יצא לעשות את זה כי לא הייתי בתזמון נכון בחיים. כאילו, איך שזה התחיל לפרוח זיהיתי את הפוטנציאל, כשהיו עוד 10 חדרים בארץ, לא כשהיו כמו שהיו בהמשך, אבל... התגייסתי, וזה היה כאילו התזמון הכי לא טוב בעולם. – אז זה פספוס, כי ידעתי שזה יהיה משהו ממש מוצלח, אבל... יש גם את הדברים היותר בנאליים, כן? דברים יותר בנאליים... יש לעשות קורס קונדיטוריה, ו... – כן. – כשזה מגיע, אתה כזה "וואו, איך עד עכשיו לא עשיתי את זה". – טוב. שלוש, ארבע, ו... – שלי? שלך? – שלי, נכון, נכון. אני כל הזמן שוכח, אני לא טוב בדברים האלה. – "מהו ההישג הכי גדול בחייך?" וואו. שהצלחתי לפרוש מהטכניון. זה. – זה, כי אני נוטה לעשות דברים, אני נוטה לסיים אותם, ו... בוא נגיד שהיתה גם מערכת לחצים שלמה, מסביבה, לא לעשות את זה. ו... בוא נגיד, אחרי שהייתי הכי עמוק בתוך זה, לקום וללכת ולהגיע למקום שטוב לי עם אנשים, להבין שזה הכיוון שלי, זה... לגמרי. – כן, לגמרי, תודה. – בטח שרפת על זה כל כך הרבה אנרגיות, וואי. – וואי. – המערכת ציפיות היתה עליך מטורפת. – וואי, היסטרי. – כן, לא תשכח אותו, נראה לי. לא, לא, שילמת על זה. – ארבע, ו... – וואי, וואי, וואי, איזה הנחתות. – וואי, חזק. – אגב, אני לא רוצה לסיים את השיחה מבלי לראות איזה משהו שלך, כאילו... – הזדמנות, כאילו... מטורף. – וואי, האמת היא ש... כמוני, כמוך, כאילו... מה זה לטייל, ממש, הייתי רוצה להפסיק הכל ולטוס, אבל גם הייתי רוצה להספיק, כאילו, לבלות עם האנשים שאני אוהב, החברים, המשפחה והכל. כאילו, כנראה שהייתי פורש מהתואר, מפסיק אותו. כאילו, הייתי מרגיש כזה אין טעם... הייתי לומד דברים אחרים, כי אני לא מסוגל לא לעשות כלום, אבל... כן, הייתי מפסיק, וטס, והייתי מחפש גם לנסות דברים שלא עשיתי עד היום. לא יודע. – הכל, לירות בחץ וקשת... דברים כאלה. – סתם או דברים בז'אנר... דברים כאילו, מגניבים, ואתה יודע, לעשות איזה שיעורים ולהתחיל לנפץ צלחות באוויר, דברים כאלה... – טוב, נזוז, נתקדם. – ו... – זה היה מפתיע, זה היה מפתיע. – כן, מגניב. – יאללה, נתקדם? – שלוש, ארבע, ו... – אוקי... מי זה היה? זה היה אני? אתה? – אני, אוקי, בסדר. – "אמרו שלושה משפטים כל אחד שנכונים לגבי שניכם. לדוגמה: "שנינו בחדר הזה מרגישים..."". אוקי, וואו, בסדר... סבבה. – אוקי. אני מקווה שהם נכונים, אבל מרגיש לי ככה. שנינו בחדר הזה מרגישים שהצד השני קשוב לגבי השיחה, נראה לי. שנינו בחדר הזה מרגישים, בוא נגיד... תחושה של יצירתיות, של ליצור דברים, כל אחד בדרך שלו, בחיים. ושנינו בחדר הזה מרגישים רצון לחוות דברים שעוד לא חווינו, נראה לי. – גם לי! – לא, לא, לא, מה, תורך. – גם לי, גם לי, אוקי. – אה, רגע, לא, אני רוצה לשמוע. – בא לי... לא? – – דוגמה טובה! – איזה מדויק, מדויק ממש. – אהבתי ממש. – מה?! – אלוהים אדירים, זה סיפור. – וואי, וואי, באמת זה קרה? – וואי, אשכרה. – אשכרה! – וואי, אודי. מטורף. – קורה! אוקי. – כן. – כן, הציורים? – זה ממש לא חומרי. כן. אני גם, כאילו... בוא נגיד שלא הייתי רץ, במבט ראשוני, להציל משהו, כאילו, הייתי אומר "אוקי, בסדר, בואו נתקדם", כאילו, הכל טוב. אבל אם משהו, זה היה כנראה ה... הכונן קשיח, כי יש בו את התמונות שלי, כאילו, את כל התמונות וסרטונים וחוויות וזה... משהו שהייתי רוצה לשמר. – שלוש, ארבע, ו... – "אם היית מת הערב בלי הזדמנות לתקשר עם אחרים", איזה דרמטיות! מלא דרמטיות... – בכל סיטואציה משהו נהרס, מישהו מת. "מה היית מתחרט שלא אמרת למישהו? למה עדיין לא אמרת לו?" או אה. – וואו. יואו. – "מתחרט שלא אמרת למישהו..." וואו, זה... זה קשוח. – כן, זה... ההומור פה הוא באמת ראשוני, אחרי זה אתה צריך לענות. – איך עונים על דבר כזה? – וואו. נראה לי... בעיקר, שכאילו, ש... טוב, זה יוצא כזה כבחור שהולך לקרב והולך למות, אבל כאילו ש... ש... ש... לא יודע, שזה חלק מהמעגל של החיים, שכאילו צריך להיות עצובים ולהמשיך, וכאילו... קדימה, כאילו, צחוקים. זכרונות תמיד יישארו, לצחוק על זה, קצת לבכות על זה. אבל אין מה... אין מה להתעמק על זה. ככה הייתי אומר לאנשים הקרובים, כאילו... תתקדמו! – – וואי, אהבתי, אהבתי. – זה מסוכן, לשרוף עוגיות. – כן, וואו. – האמת היא שזה גם תשובה, כן? כאילו... לא יודע. – לא, בסדר, כאילו, אתה... אתה מביע מה ש... איך הייתי אומר את זה? לא יודע, אתה מביע בציניות ואתה אומר כאילו, "קחו בקלות", במילים אחרות. – זה יכול לקרות, הבית יכול לעלות באש, אתה יכול לא יודע מה... – טוב, שלוש, ארבע, ו... – כן? – אשכרה. כשהיית רחוק. – יואו... איזה עצוב. זה ממש עצוב, כאילו... – אין, אין, אין, אין. עכשיו אנחנו בדיוק עושים אומנה, אני והבת זוג שלי, לכלבה שכזה מצאו ברחוב במודיעין, מתוקה מתוקה, ונקשרים אליה גם, יותר מדי. אז כאילו, חיות אין... אני כל כך מבין לליבך בפן הזה. – הפעם האחרונה? זה... כאילו, האמת שזה היה... יש את הפעם האחרונה שבכיתי, שזה כשסבא שלי נפטר לפני 9 חודשים, והייתי ממש קשור אליו. אז כל התהליך של השבעה, וזה, הכל היה נורא, ומלא דמעות, וממש עד הסוף... אבל דמעות? זה היה כשהכלב של הבת זוג שלי נפטר, היה לה כלב, 5-6 שנים, שהיא היתה ממש קשורה אליו, וכאילו הוא היה הכלב המשפחתי של כולם, וזה... ואז שידעו שהוא הולך למות כולם כזה הגיעו, כל המשפחה שלה, וכל ה... לבית חולים ליד בית שמש, ואז היה כזה התכנסות של דמעות משפחתיות ושלחו אותו להרדמה. – היה לי גם קשה יותר בשבילה, כאילו, לראות בנאדם ככה ש... – שהכי אוהב, הולך... – טוב. שלוש, ארבע, ו... – זה קופץ? גם לך? – כן, כן. – עכשיו עברתי למסך גדול, כן. – כן, הוא כותב לי כזה לצאת מהניסוי, ללחוץ על החצים... – רגע, כאילו, לחצת בסוף על החצים האחרונים? – זה, זה. – סבבה, ואז לחצת על ה... חצים האחרונים? אפשר ללחוץ עליהם? – אה, אוקי. אז זה זהו. כן, גם אני עכשיו לחצתי והגעתי לאותו מקום. – סגור. ועכשיו אנחנו אמורים לחכות למישהו? כי אמרו שיש עוד חלק, חלק רביעי... – אני תוהה אם מישהו יגיע. אם המעבדה של SOCON תגיע. – כן, פסיכולוגיה-מוח, גם. כן, כן. – טוב, נחכה עוד שתי דקות, כזה, נראה לי, לפחות. אבל הם מדויקים, תראה, כאילו בעשר סיימנו את הניסוי. – יכול להיות... אבל ראית, כל השאלות הופיעו. כאילו כל השאלות... הספקנו. – אולי הם מדלגים אם לא בזמנים... – אתה גם עושה את זה? אני לא מאמין, אני חשבתי שאני הפסיכי היחידי. – מלא, מלא, גם לי. על כמה אתה כבר? – וואלה. לא, בסדר, האחד הזה הוא משמעותי. – וואי, וואי, אני מסכים איתך. ממש מזדהה. לאחרונה יותר, אגב. בשבוע-שבועיים האחרונים, כאילו, עוד יותר... מת לסיים עם זה. – כן, זה הגיוני. כאילו, אמרו שבסוף סמסטר ב', בכלל כאילו. – אבל אני לא דואג, יש המון המון שעושים את זה, שצריכים לעשות את הניסויים. – לא, אתה הבנאדם הראשון שאני שומע ש... שהסכים לזה. תקשיב, זה מעניין, זה מעניין דווקא. כאילו, אני לא הייתי עושה את זה, אבל... – מה? באמת? – איזה באסה, לפחות היית מקבל את הקרדיט, היית הולך על זה, אבל... – מה זה לנסות... אין... – כן. וואי, זה ממש מיותר אם אתה עושה חיסון ומגלה בסוף ש... שלא. – וואי. יואו, תשמע, כאילו, נראה לי שהם לא הולכים להגיע. – אה, טוב, הוא אומר שסיימנו, אבל כאילו אמרו שיהיו ארבע חלקים של וידיאו, לא? – ארבע שאלונים. – אה, כן? של משחקי הכס? – לא, נראה לי זה של צ'לסי. – רק לפי הסמל אני אומר. כאילו, האריה הכחול. – צ'ל, משהו. – עכשיו מתחילים לחקור לו את ה... – הבד של המצעים, ומה יש לו שם... יצפו בזה בהקלטות ולא יבינו מה... – כן. וואי. טוב, נראה לי שאני... כאילו, אסיים את הניסוי. – נראה לי ש... – 10? – תשמע, באמת היה כיף להתחיל איתך את הבוקר ככה, כאילו... – סבבה, אז אני יודע איך למצוא אותך, אם אתה בקבוצה של ה... אה, בעצם... – כן? – עזוב, אין לנו קבוצה. חשבתי שיש לנו קבוצה. – מסלולים שונים, כן. כן. רוצה להביא לי את המספר, שנשמור על קשר? – 05... אה, שלחת לי כבר. – 2...0...1...6... אני אשלח לך הודעה ואז... – גם לך, נראה לי שנסתדר, כפרה. – אז אני אשלח לך הודעה אחי. – יאללה, ביי.
## 2 – אני מוכן. – ארבע, ו... – אה, לי יש "מה אתה לומד או עושה בחיים". – כן. – שנה א'? – כן. – נכון, נכון. טוב, אני גם סטודנט, שנה א', בפסיכולוגיה-ביולוגיה-מדעי המוח. – כן. – ממש מקביל, ממש... כן, האמת ש... שאני לומד מהסיכום שלך למבחן היום. – נשבע! – ברור, ברור... – אין לי ספק. – כן. שאלה הבאה? – יאללה. – "ספר על מקום שאתה אוהב". אני מאוד ללכת לים, ממש... ממש אוהב, גם בחורף, גם בקיץ. אני גר בחיפה, דרך אגב, אז אם לא... – כן. – כן, כן. זה חשוב. אז... אז הולך הרבה לים שם. – גם, כאילו, גם אוהב לשחות, גם אוהב כזה... הייתי גם בחיל הים, אז מלא ים. – כן, כן, כן. מלא מלא ים. – זה פולג כזה? – דרומית כאילו? – כן, כן. – זה ממש איפה שווינגייט, נכון? – כאילו... אני יודע אז איפה זה. – לא, האמת שבצבא יצא לי לעשות קורס בווינגייט, והיו לוקחים אותנו לרוץ שם כל הזמן. – כן, כן. נכון. – אם... אם מוציאים את ה... את הסבל... – אז כן, נופים מדהימים, כאילו. – בדיעבד, בדיעבד בעיקר, כן. – כן. – יאללה. – איזה מגניב. – וואו. האמת שיצא לי לעשות שלושה בחיי, וזה היה ממש כיף. – אז מקווה שייצא עוד, משהו שאני אוהב לעשות... אני אוהב לצייר. – זה כזה תחביב שמלווה אותי כל החיים, וזה. כן, ממש... – אה, כן, נכון, יש... יש את הכן, וזה. יש לי מלא ציורים בבית. – וואו, זה... זה בא בתקופות. הרבה פעמים שכאילו... כזה... תקופה ציירתי על קנבסים, ממש כזה גדולים, ואקריליק, וכזה כל הבוג'רס, אבל גם כאילו עפרונות, ועטים, וכאילו דברים יותר פשוטים. וגם עכשיו עם המחשב, כזה חדש לאוניברסיטה, אז הוא כזה עם עט, ואני יכול לצייר מה שבא לי. – לפעמים. האמת שלפעמים. – כן. – כן. – יאללה. הלאה. – " אם היית חייב להגר מישראל, לאן היית מהגר ולמה היית הכי מתגעגע?" וואו, זה שאלה קשה. – וואו. אם הייתי חייב להגר... – זה להגר לתמיד או להגר לכמה... כאילו, אני... – אוקי. או אה, או אה. וואי, זה שאלה קשה, נראה לי שהייתי מהגר... פאק, לא! – חזר? חזר? יופי. – לא, זה האינטרנט, סתם הוא... קופץ קצת. – אוקי. אני, שניה, מקווה שזה הסתדר גם. הסתדר? – אוקי. אם הייתי חייב להגר, וואו... אני חושב שהייתי מהגר ל... ללונדון, נראה לי. – כן, ממש... ממש אהבתי שם. הייתי הכי מתגעגע... לא יודע, לאוכל נראה לי. – יש שם אחלה אוכל, אבל אני ממש אוהב את האוכל בישראל. – כן. – זה נראה לי, כאילו... מין פשרה טובה כזאת, כי היא עיר ממש ממש מגניבה, ואני אוהב לגור בעיר, וגם זה ארץ, כאילו... לא יודע, אנשים, זה כזה... הם לא יותר מדי אנטיפתיים, זה כאילו... עיר מתקדמת זה מגניב, וגם יש כזה נופים ממש מגניב בבריטניה, שכזה אפשר לטייל... נראה לי... נראה לי זה אחלה של מקום. – כן, ממש מטרופולין ענק – איפה עשית? – כן. – כן, זה כזה, אנחנו צריכים לסיים ואז לעבור. – סבבה. – יאללה, נעשה 'שלוש, ארבע, ו...' – ארבע, ו... – כן. אתה. – אוי, זה שאלה קשה. אני גם, אני גם. – שאלה קשה ממש. אני גם, אני ממש לא מחפש את ה... זה חזר? זה עוד פעם...? זה בסדר? – אוקי. לא הייתי רוצה להיות מפורסם בכלל, כי אני ממש שונא את התשומת לב, ואני ממש כזה ביישן. אבל, נגיד, אם הייתי רוצה להיות מפורסם, נראה לי זה היה כזה לרגעון כזה, אתה יודע, שזה... לא יודע, הצלתי זקנה באוטובוס או משהו כאילו כזה בקטנה, איזה פינונת בעיתון, וזהו. כאילו, לא... זהו. – כן, כן, כזה... בחור אלמוני... בסדר, אין לי בעיה עם זה. – כן. – יאללה. – הלאה. – "מה היה גורם ליום להיות מושלם עבורך?" וואו. וואו, זה שאלה... מושלם עבורי? אני אוהב לקום מאוחר, אני בחור של לילה. – אז כנראה זה יכלול לקום מאוחר. וכזה... לא יודע, יום רגוע, פשוט יום רגוע, אולי לטייל איפשהו, אוכל טעים... אני לא צריך יותר מזה, באמת. – חייב... אני בחור די רגוע, מטבעי. – אבל... זה... זה לא צריך יותר מזה, באמת. – נכון, נכון. – מגניב. יאללה, הלאה. – ממש, עמוקות כאלה... – וואו. – וואו. ממש יפה. אני מרגיש בעיקר אסיר תודה על ההזדמנויות שהיו לי, ועל המזל, בעיקר. – כאילו, אני מרגיש... כן, כאילו... – ברוך ה', יש לי הכל, ו... וכאילו... לא, לא חסר שום דבר, וכאילו כל מה ש... לא היה מה שעצר אותי, נגיד, מ... לא יודע, ל... לא יודע, להתקבל לתואר או להתקבל למקום טוב בצבא, או לטוס לחו"ל, או כאילו... מה ש... כאילו, הזדמנויות טובות מאוד. זהו. – בדיוק. – זה היה וואו... הלאה. – כן. – ארבע, ו... – אוי ואבוי, וואו. – וואי, וואי. – זה עכשיו אתה, נראה לי. כן. – אני, או...? רגע. – בלבלתי את הספירה. – על הדברים שאתה מודה עליהם. אז כן, זה אני סליחה. – אז "ספר בקצרה את סיפור חייך". וואו, אוקי. נולדתי... – כן. ו... גן, בית ספר, – הייתי 7 שנים בהתעמלות מכשירים... – ו... ו... כן. הרבה זמן. אז זה היה כזה הרבה בתיכון וחטיבה. ו... כזה, ציירתי תוך כדי גם, אז כאילו היה לי ממש כיף, והתגייסתי... אני גם יליד נובמבר, אז היה לי כזה חצי שנה לפני הגיוס, לעבוד... אפילו יותר. – כן. אז עבדתי כזה הרבה בחוגים של התעמלות מכשירים, זה גם היה נחמד. התגייסתי, חיל הים, הייתי לוחם בסטילים, ויצא לי לעשות מלא דברים מגניבים, כאילו... גם את הקורס, וגם כזה מלא דברים... הפלגות לחו"ל, וזה, מלא דברים ממש מגניבים. – השתחררתי... מה? – לא, לא, הקאתי מלא. לא חשוב. – קיצר... – כן, האמת שיש איזה מידה של התרגלות, אבל... לא במאה אחוז. השתחררתי, פסיכומטרי, טסתי... דרום אמריקה... – היה מגניב, היה מטורף... הספקתי חודש וחצי ואז קורונה. – כן. חזרתי... ואז לימודים. – ממש לפי הספר. – היה לי מטורף, היה ממש כיף. ממש ממש כיף. – השירות ממש קשה, אבל גם ממש טוב. ממש טוב. – כן. – לא, קבע לא, אמרתי בהתחלה, לא תודה, אבל תודה. – כן, כן. – אז אתה מכיר את חיפה. גדול. – כן. – ברור, ברור. – יואו, אמאל'ה. – מגניב ממש. אחלה של... – יאללה. – ארבע, הלאה. – אה, סיימנו את החלק. – כן. – אוקי. – יאללה. – אתה מוכן? – סבבה. – שלוש, ארבע, ו... – אתה הפעם, נראה לי. – אווו. – אני גם, אני גם. אני גם איתך בדיוק, אני לא... לא הייתי רוצה לדעת שום דבר. הייתי רוצה לדעת איך הוא עושה את זה, אולי אני אעשה מזה... משהו. – כן, נראה לי... – יכול להיות אחלה של דבר, כן. – כן. – שלוש, ארבע, ו... – "האם יש משהו שחלמת לעשות במשך זמן רב? למה עדיין לא עשית את זה?" וואי, יש לי... יש לי כל מיני רשימות משאלות משונות. – וואי... אבל הדבר הכי בנאלי ש... שיש שם, נראה לי, זה לירות בחץ וקשת, זה נראה לי ממש מגניב ואף פעם לא עשיתי, אני ממש רוצה לנסות. – למה עדיין לא עשיתי? לא יודע, זה דבר ממש רנדומלי, כאילו, לרצות לעשות וממש לעשות את זה, אז נראה לי זה מתישהו יקרה. – כן, כן. – כן... – די... אני אומר, זה בדברים הקטנים, באמת. זה... – זה הדברים האלה. – כן, כן, באמת. – ארבע, ו... – שלך, נראה לי. – אני, אני... אני משתדל להיות על זה. – וואו. – וואו. זה... זה הישג פנימי, כאילו, זה לא... זה יפה. לדעתי. – כן. מה ההישג הכי גדול בחיי... וואי, זה שאלה קשה, וואו. אני... אני לא יודע. אבל אני יכול להגיד שאחד מההישגים שאני ממש זוכר לעצמי לטובה זה שהייתי ממש ממש לא בכושר, אוקיי? בצבא. כאילו, בכושר ריצה, ממש רצתי גרוע בטירוף, ולא הייתי יכול לרוץ. ובשביל לצאת לקורס בווינגייט הייתי חייב לעבור איזשהו רף מסוים בבר אור, וכאילו, בציון די טוב. ואמרתי... וכאילו, חבר שלי שרצה שאני אצא לקורס, הוא אמר לי "אין, אודי, אף פעם אנחנו לא רצים מלא, ואתה עובר את זה", ובבחינות שהגעתי לשם, אז באמת עברתי ממש על הקשקש אבל עברתי. – מלא, מלא, מלא, והייתי כל כך לחוץ שאני לא אעבור כי זה בושה, כאילו, לצאת ולא לחזור ל... משהו באמת אבל. – מזל, מזל גדול. – יואו, ממש ממש. – אז זה הישג שאני זוכר לעצמי ממש טוב. – כן. יאללה, שלוש, ארבע, ו... – "אם היית יודע שתמות בפתאומיות עוד שנה מעכשיו, האם היית משנה משהו בדרך בה אתה חי? למה?" וואו. – וואו. אם הייתי משנה משהו? כן, הייתי רוצה להספיק כמה שיותר דברים, הייתי רוצה, לא יודע, לטוס, לטייל... ונראה לי שהייתי גם... כאילו, אחד גם מהרשימת משאלות האלה זה שאחד מהציורים שלי יהיה תלוי באיזשהו מוזיאון, אז הייתי רוצה שזה יקרה גם. – כן. – וואו, אני... אני אחפש, אני אביא משהו. – כן, כן. – לגמרי. – כן, כן, כן. – לגמרי, לגמרי. באמת. – יאללה. שלוש, ארבע, ו... – וואי, סיימנו את החלק השני. – כן, זה עבר מהר. יאללה, להגדיל ולענות. שאלון קצר... אוקי. – יאללה. – כן. – ו... – אתה. – – "אמרו שלושה משפטים כל אחד"... וואו. – וואו. אוי, רגע, זה עבר. – – זה עבר... זה עבר בלי שעשיתי כלום. – טוב, אני... "הבית שלך, שמכיל את כל הרכוש..." – אה, אוקי. – אני, כן, לא, חשבתי... היה לי קלף, קלף... – אוקי. שנינו בחדר הזה מרגישים... מאוד כנים ושהשני מאוד כנה גם. שנינו בחדר הזה מרגישים נינוחים, נראה לי? בנחת, ברגוע. שנינו בחדר הזה מרגישים... לא יודע, שהם נהנים מהחיים, באמת. – שהחיים... שהחיים יפים, וטובים. – כן. זה מה שאני מרגיש. – יאללה. "הבית שלך שמכיל את כל הרכוש שלך עולה באש." איזה כיף, זה כבר קרה לי כמעט פעמיים. "אחרי שהצלת את כל..." – כן... לאנשים שגרים בחיפה זה לא כזה נדיר. – "אחרי שהצלת את כל האנשים החשובים לך ואת החיות מחמד שלך, אוקי... יש לך זמן להיכנס לביתך בפעם האחרונה ולהציל פריט כלשהו. מה הוא יהיה? ולמה?" וואו, טוב, מזל שהצלתי את כולם. – זה קרה פעמיים כמעט. כן. פעם אחת זה היה בכיתה ז', נראה לי, היה שריפות ממש ממש גדולות בכרמל, ופעם אחת שהייתי לפני הגיוס, גם. – כן, ממש עמדתי עם הצינור והרטבתי את הבית, כאילו, שלא יישרף. – כן. – כן, כן, כן. זה קורה. – וואי, איזה פריט... האמת שאני לא בנאדם חומרי במיוחד... – אין לי איזה משהו שאני כאילו חייב להציל יותר מדי... כאילו, הייתי מנסה להציל את הציורים שלי, כי זה כזה... יהיה לי קשה לשחזר, אבל אם... זה נראה לי זה. – כן. – כן. מסכים. יאללה. – ארבע הלאה... – למה אני חייב למות כל הזמן? – וואי, וואי, וואי. – וואו... וואו. – אז זהו, אני כאילו... תמיד שאלות כאלה של היכרויות ומשחקים כאלה, שזה לרוב אני אוהב לענות בהומור, כי זה סתם, אבל לא יודע, זה מרגיש לי שזה כזה שאלות שהם מאוד כבדות. – – כן. – כן, וואי, אני גם, לגמרי. מה הייתי מתחרט שלא אמרתי... וואו, שאלה קשה. כאילו, אם הייתי צריך לענות בהומור, זה היה כאילו... לא יודע, שיוציאו את העוגיות מהתנור, אחרת... – אחרת יישרף, או... – אבל... – כן, נכון. – וואו. זה לא קל. – כן... וואי, אני לא יודע. – לגמרי, לגמרי... כאילו... חרא קורה. כאילו... – לגמרי. נכון, נכון. אני מסכים. – ארבע, ו... – "מתי בפעם האחרונה בכית מול אדם אחר? או לבדך?" וואי, אני זוכר. – כן. בטיול לדרום אמריקה, אז... זה היה ממש איזה... כמה ימים לפני שהייתי צריך לחזור לארץ, וכבר התחלנו לדבר על לחזור לארץ, וכאילו... וזה. ו... והכלב שלי מת, הוא נפטר. וקיבלתי כאילו את ההודעה שהייתי שם, והיה לי ממש קשה. – כן. כן, כן. זה... אבל זה לא בכי יפה, זה כאילו מכוער כזה, וזה... לא, לא נעים. – כן, אני... אני... אני ממש אוהב חיות, וכאילו... מבחינת לראות בני אדם, אתה יודע, מתים, וגופות, ומשחקי הכס, ומה שאתה לא רוצה, באמת, אין לי בעיה בכלל לראות דברים כאלה, או לחשוב על זה, אבל חיות, כאילו, זה... לא טוב, כאילו, בכלל. – כן... – וואי, זה קשה, קשה, קשה... – כן נכון... – באמת קשה. – ארבע, ו... – סיימנו! אה, שאלונים. – זה קופץ לבד, כן. – זה גם במסך גדול? כי לא עברתי למסך גדול. – הנה, עבור... כן. אוקי. אז זהו? – מזתומרת? – זה היה כזה... רשום לי "תודה שהקדשת...". – אה, סבבה. – אין לי עוד חצים. – אה, סבבה. – כן, אני גם, אני גם... זה מה שאני זוכר. – אין לי בעיה לחכות. יש לך שיעור עכשיו? אה, אתה בביולוגיה גם. לא בביולוגיה. פסיכולוגיה. – נכון. – כן, באמת מדויקים. יכול שזה הקפיץ לנו לבד בגלל זה. – נכון. – באמת שאני נכנס לסונה יותר משאני נכנס לכל רשת חברתית אחרת לבדוק... – לא, לא, לא, אני באמת באובססיביות נכנס לשם לבדוק כל הזמן. – אני על 3.5 ואחד מחכה. – הוא ממש משמעותי. אני באמת ב... בנרות מחפש אותם. כאילו, על רבעי נקודות... – גם מישהו אמר שכאילו יותר ניסויים בסמסטר ב', אני מקווה שזה נכון, לא יודע. – אה, לקראת החופשת סמסטר, יש מצב, יש מצב. – כן, לא, אני גם אפילו הסכמתי למכור את נשמתי לחיסון צהבת הזה, אבל כאילו, הם אמרו שבסוף זה כזה אולי לא קרדיט, אולי כן קרדיט, אז אמרתי שיחזרו אליי כאילו אם זה בוודאות הקרדיט. – האמת ש... היה, היה דיבור על זה גם בקבוצה של ה... של המסלול שלנו, והיו כמה שהלכו לזה, וכאילו אמרו להם שזה כזה, בגלל שההנחיות שלהם לניסויים זה שרק ניסויים ממוחשבים, כאילו, הם מקבלים קרדיטים והם לא יכולים לתת אם זה לא. אז... – כן. – זהו, אז לא. הם לא יכולים להבטיח קרדיט, הם יכולים כאילו לשמור אותו ולנסות בסמסטר ב' שיהיה... – בדיוק. אני לא הולך לקבל חיסון בשביל סתם. – כן. – אני, אני לא יודע. זה באמת שאלה טובה. הוא אמר שמשאירים את... כן? נכון? משאירים פתוח... – לא, נראה לי הוא אמר שלושה חלקים... – כן. נראה לי שהוא גם רואה משחקי הכס, אני רואה יש מאחורה כזה דגלון קטן של... – אני מנסה להבין מה זה. – אה, של...? זה נראה כמו ה... לא יודע. – כן, האמת שזה רשום אפילו, צ'לסי, אני עכשיו רואה. – כן, כן כן. – אני ממש, אני... – לא, ממש אהבתי את התמונות גם במאחורה, וזה, ממש יפה. – כן? סבבה. – יש לי שיעור גם עוד איזה 10 דקות. – 10:15 כאילו, ביולוגיה. – האמת שממש. האמת שממש. – כן. רגע... – אתה לא בקבוצה? רגע, באיזה קבוצה? – יש קבוצה למסלול, אבל אנחנו מסלולים שונים. – כן, ברור, שנייה אני ארשום. – ברור. – סבבה. שיהיה בהצלחה במבחן היום! בזכותך אני אצליח... – כן, כן כן. – סבבה. – ביי.
Convert data into corpus format to apply NLP transformations in
quanteda by defining ID and text columns names.
# Define id and text column to conduct a text corpus
data_corp <- corpus(data,
docid_field = "Subject.ID",
text_field = "Words.Spoken")
head(data_corp)
## Corpus consisting of 6 documents.
## 117 :
## "& – טוב, מוכן, אודי? – יאללה, שלוש, ארבע... – אוקי. דוג..."
##
## 118 :
## " – אני מוכן. – ארבע, ו... – אה, לי יש "מה אתה לומד או עו..."
##
## 123 :
## " & – רגע, אני לא יודעת איפה זה. אוקיי. רגע... סבבה. עכשיו ..."
##
## 124 :
## " – שלוש, ארבע...? – יאללה. – אה, יש עוד דף כזה? לא, עברת..."
##
## 129 :
## "129_130 – קיצור מי ש… אני מתחילה אני שואלת את השאלה ואז אני..."
##
## 130 :
## " – בדיוק, יהיה בסדר יאללה. אנחנו מעבירות? -יאללה שלוש ארבע ..."
The corpus stores context at the document level. In this case, each document represents a participant’s transcript from the social experiment.
Text tokenization involves splitting each document into smaller
units, called tokens, which are typically individual words. By default,
the tokens() function splits the text at spaces, treating
each word as a separate token. In this case, we also remove punctuation
to further clean the data, ensuring only meaningful text is
analyzed.
# Text Tokenization: Split text into single words, remove punctuation
data_token <- tokens(data_corp,
remove_punct = TRUE)
head(data_token)
## Tokens consisting of 6 documents.
## 117 :
## [1] "טוב" "מוכן" "אודי" "יאללה" "שלוש" "ארבע" "אוקי" "דוגמה" "למסך"
## [10] "יש" "לי" "נתקדם"
## [ ... and 2,473 more ]
##
## 118 :
## [1] "אני" "מוכן" "ארבע" "ו" "אה" "לי" "יש" "מה" "אתה" "לומד"
## [11] "או" "עושה"
## [ ... and 2,110 more ]
##
## 123 :
## [1] "רגע" "אני" "לא" "יודעת" "איפה" "זה" "אוקיי" "רגע"
## [9] "סבבה" "עכשיו" "עוברים" "להבא"
## [ ... and 1,837 more ]
##
## 124 :
## [1] "שלוש" "ארבע" "יאללה" "אה" "יש" "עוד" "דף" "כזה" "לא"
## [10] "עברתי" "את" "העמוד"
## [ ... and 1,741 more ]
##
## 129 :
## [1] "129_130" "קיצור" "מי" "ש" "אני" "מתחילה" "אני"
## [8] "שואלת" "את" "השאלה" "ואז" "אני"
## [ ... and 1,671 more ]
##
## 130 :
## [1] "בדיוק" "יהיה" "בסדר" "יאללה" "אנחנו" "מעבירות" "יאללה"
## [8] "שלוש" "ארבע" "ו" "אוקי" "אה"
## [ ... and 2,865 more ]
data_token consists of all words spoken in the experiment by each subject(context).
We create a document-feature matrix (DFM) to examine word frequency distributions across participants. Each token acts as a feature in the frequency table, with rows representing subjects.
data_dfm <- dfm(data_token)
head(data_dfm)
## Document-feature matrix of: 6 documents, 14,220 features (94.79% sparse) and 0 docvars.
## features
## docs טוב מוכן אודי יאללה שלוש ארבע אוקי דוגמה למסך יש
## 117 19 2 2 8 12 15 18 2 2 17
## 118 9 2 1 14 5 13 11 0 1 17
## 123 12 0 0 0 3 5 0 0 0 10
## 124 3 0 0 4 3 3 0 1 0 16
## 129 24 0 0 0 16 18 8 0 0 8
## 130 11 1 0 5 13 15 8 0 0 13
## [ reached max_nfeat ... 14,210 more features ]
In this context, we construct a DFM to demonstrate how often each word appears across different subjects’ transcripts. The DFM serves as the basis for further text transformations, such as normalization.
The DFM includes many rare tokens, which can introduce noise into the analysis. To address this, we filter out tokens that occur in less than 1% of the documents, a common threshold for eliminating irrelevant words.
# Define Token Frequency Threshold within documents
data_trim <- data_dfm |> # Omit tokens the appear in less then 1% of documents
dfm_trim(min_docfreq = 0.01, docfreq_type = "prop")
head(data_trim)
## Document-feature matrix of: 6 documents, 6,215 features (89.34% sparse) and 0 docvars.
## features
## docs טוב מוכן אודי יאללה שלוש ארבע אוקי דוגמה למסך יש
## 117 19 2 2 8 12 15 18 2 2 17
## 118 9 2 1 14 5 13 11 0 1 17
## 123 12 0 0 0 3 5 0 0 0 10
## 124 3 0 0 4 3 3 0 1 0 16
## 129 24 0 0 0 16 18 8 0 0 8
## 130 11 1 0 5 13 15 8 0 0 13
## [ reached max_nfeat ... 6,205 more features ]
We significantly decreased the number of By trimming the DFM, we significantly reduce the number of features and focus on the most informative tokens.
Term Frequency-Inverse Document Frequency (TF-IDF) is a method to down-weight common, less informative words while emphasizing unique and meaningful tokens. This reduces the bias toward frequently occurring words and highlights important words in each document.
# TF-IDF scaled dfm
data_tfidf <- data_trim |>
dfm_tfidf(scheme_tf = "prop")
head(data_tfidf)
## Document-feature matrix of: 6 documents, 6,215 features (89.34% sparse) and 0 docvars.
## features
## docs טוב מוכן אודי יאללה שלוש
## 117 2.947137e-05 0.0004166595 0.0015178414 0.0003779711 0.0003397901
## 118 1.607300e-05 0.0004797215 0.0008737844 0.0007615608 0.0001630074
## 123 2.433673e-05 0 0 0 0.0001110670
## 124 6.567984e-06 0 0 0.0002667429 0.0001198988
## 129 5.308754e-05 0 0 0 0.0006460769
## 130 1.431846e-05 0.0001748269 0 0.0001982419 0.0003089084
## features
## docs ארבע אוקי דוגמה למסך יש
## 117 0.0006495368 0.0005096852 0.0008536065 0.0011781573 2.636912e-05
## 118 0.0006481323 0.0003586163 0 0.0006782365 3.036012e-05
## 123 0.0002830849 0 0 0 2.028061e-05
## 124 0.0001833572 0 0.0006024096 0 3.502925e-05
## 129 0.0011115262 0.0003230384 0 0 1.769585e-05
## 130 0.0005450804 0.0001900975 0 0 1.692181e-05
## [ reached max_nfeat ... 6,205 more features ]
TF-IDF helps normalize token frequencies and captures the unique aspects of each participant’s language, making the data more suitable for embedding.
Latent Semantic Analysis (LSA) reduces the complexity of text data by identifying patterns in the relationships between tokens (words) and documents (subjects) through Singular Value Decomposition (SVD). This approach enables us to capture the underlying semantic structure, focusing on the most relevant topics or concepts rather than relying solely on word frequencies. LSA effectively groups words into semantic fields, revealing trends where words commonly occur together within the same contexts—in this case, the subjects’ transcripts.
We’ve chosen to use 100 dimensions (nd = 100), which strikes a balance between preserving meaningful relationships and avoiding overfitting. You can adjust this number based on your performance goals, and metrics like AIC/BIC can be used to evaluate model complexity when required.
data_lsa <- textmodel_lsa(data_tfidf, nd = 100)
data_docmat <- data_lsa$docs
head(data_docmat)
## [,1] [,2] [,3] [,4] [,5] [,6]
## 117 0.08599903 0.03470501 0.002384939 0.028974901 -0.0183119444 0.01482819
## 118 0.07907858 0.03671107 0.013221917 0.020951832 -0.0078911998 0.01664782
## 123 0.09186379 -0.12046746 0.021569118 0.002153512 -0.0073652361 0.01811848
## 124 0.08688343 -0.07675220 -0.014969417 0.007533000 0.0192126194 0.02258709
## 129 0.07750103 -0.05416498 -0.065777072 -0.020197238 0.0004570762 0.01055139
## 130 0.07636400 -0.04601601 -0.069835018 -0.004834308 0.0039960080 0.01008526
## [,7] [,8] [,9] [,10] [,11]
## 117 -0.029819089 0.030434963 0.0187500453 -0.010351202 -0.008659468
## 118 -0.003031766 0.028817495 -0.0048743506 -0.007968482 -0.022662751
## 123 -0.005627815 0.003936529 0.0088243471 -0.003028694 -0.007550055
## 124 -0.004532230 0.007245072 0.0008248418 -0.029689537 0.023078012
## 129 0.009616623 0.009583370 -0.0169934943 -0.013698778 0.013013476
## 130 -0.007989175 0.002525726 -0.0111926550 0.011643297 0.017469577
## [,12] [,13] [,14] [,15] [,16]
## 117 0.026711337 0.035900337 0.022754991 0.004603835 -0.007069626
## 118 0.030335169 0.008910771 -0.015913993 -0.002110616 -0.004220209
## 123 -0.001017090 -0.014376627 -0.025615599 0.003647527 -0.000733821
## 124 0.031703361 -0.019255543 -0.002855008 -0.060976376 -0.023504210
## 129 0.008163002 0.034473994 -0.011945794 0.006151140 0.015135682
## 130 0.003011970 0.020709319 -0.007442332 -0.025001965 -0.005859991
## [,17] [,18] [,19] [,20] [,21]
## 117 0.016619044 -0.020475040 0.014300458 0.034035289 -1.160707e-02
## 118 0.004200259 -0.028206873 0.005529984 0.021828736 -3.763596e-03
## 123 0.011948984 -0.026498272 -0.022762784 0.008436586 -3.062704e-05
## 124 -0.014893264 -0.034473722 -0.004001261 0.039726462 -1.077761e-02
## 129 0.023813991 0.025102528 -0.013167526 0.020393713 9.466413e-03
## 130 0.002374379 -0.003802123 -0.003338198 0.022375223 9.374739e-03
## [,22] [,23] [,24] [,25] [,26]
## 117 -0.034991064 0.01698428 0.0336411178 0.0219737842 0.002967078
## 118 -0.025390280 0.01490113 0.0105329620 0.0141160794 0.031489718
## 123 -0.003737003 -0.02577296 0.0013487931 0.0171721616 0.020573563
## 124 -0.015185788 -0.01858882 0.0026585666 -0.0770546401 -0.026311446
## 129 0.035381294 0.01395324 -0.0004753681 -0.0169592568 0.005755144
## 130 -0.017754989 0.02928170 -0.0044360863 0.0008316322 -0.019387784
## [,27] [,28] [,29] [,30] [,31] [,32]
## 117 -0.0008427052 0.05349501 0.004516436 -0.011156859 -0.06109829 -0.027445993
## 118 -0.0032296721 0.03422970 0.009651422 -0.032071020 -0.04594881 0.004730105
## 123 0.0109400943 0.03591180 0.032976729 0.001595909 -0.04329807 0.026067905
## 124 0.0408827241 0.08994921 0.019247409 0.098786013 -0.08156164 0.035896287
## 129 0.0476252073 0.01659523 0.011572193 0.002711396 0.03191774 0.049742128
## 130 0.0002942404 -0.01932833 0.010896347 0.022303197 0.02602806 0.028900786
## [,33] [,34] [,35] [,36] [,37]
## 117 0.004341645 0.055988143 0.034086773 -0.0005141791 0.003400174
## 118 0.013992681 0.058239106 -0.009685130 -0.0157622337 0.002219336
## 123 0.014670519 0.001212144 -0.005005968 0.0394716269 0.024988923
## 124 -0.022787850 0.005590068 -0.072411214 0.0139528485 0.001424072
## 129 0.032153034 0.016533257 0.022974182 -0.0156596876 -0.024113369
## 130 0.020508836 -0.001047747 -0.005094882 0.0234757380 -0.011154092
## [,38] [,39] [,40] [,41] [,42] [,43]
## 117 0.02059031 0.022999953 -0.007177486 -0.040402299 0.100648359 0.010000738
## 118 0.02555112 -0.002359290 -0.014968620 -0.042443524 0.051753069 0.008331842
## 123 0.08536384 0.011015938 -0.013690906 -0.008396661 -0.054811863 0.076960841
## 124 0.11371992 0.006446891 -0.099534384 0.027435467 -0.147508648 0.135132823
## 129 0.02920025 -0.019289244 -0.017788622 -0.013816406 -0.006758086 0.008541295
## 130 0.03468265 -0.034300558 -0.029682552 -0.015147419 -0.022924566 -0.012446510
## [,44] [,45] [,46] [,47] [,48] [,49]
## 117 0.015195730 0.005040361 0.0548006958 0.04958191 -0.01582783 -0.04343671
## 118 -0.012354704 0.001403506 0.0542956012 0.01032196 -0.02389548 -0.04207369
## 123 -0.053486035 0.010697064 0.0966591866 0.03971925 -0.10899336 -0.05205680
## 124 -0.034846668 -0.020670698 0.1476793074 0.09764741 -0.25109345 -0.10933368
## 129 0.044573961 -0.017128665 -0.0158343466 -0.02828331 -0.01484683 0.06502922
## 130 -0.007756357 -0.004772284 -0.0009565512 0.01428639 -0.04040216 -0.01434468
## [,50] [,51] [,52] [,53] [,54]
## 117 0.002399143 -0.020533221 0.004373118 0.0059013619 -0.015299544
## 118 -0.033565578 -0.019271884 -0.028231085 0.0001141056 -0.053844996
## 123 0.046347797 -0.008218588 -0.014135118 0.0788879183 -0.065477246
## 124 0.042516800 -0.068484707 -0.039782444 0.1369231902 -0.012597759
## 129 -0.060851349 -0.040426793 -0.038195148 0.0653755220 -0.002548058
## 130 -0.007551444 -0.022127370 -0.033330113 0.0314278682 -0.001551592
## [,55] [,56] [,57] [,58] [,59]
## 117 -0.005489144 -0.012689177 -0.05580011 0.050596266 -0.0697382804
## 118 -0.002303555 -0.020372405 -0.03888827 0.038504505 0.0001768464
## 123 -0.045578702 -0.070868464 0.07470282 0.080215470 0.0112917487
## 124 -0.175690316 -0.101650498 0.25521789 0.141328656 0.1085961046
## 129 0.001541166 0.010848197 0.08692671 -0.015675827 0.0567144429
## 130 -0.012956320 0.006428545 0.02276670 -0.009431098 -0.0184929369
## [,60] [,61] [,62] [,63] [,64]
## 117 -0.033837560 -0.0372269237 -0.005388919 0.006215941 0.032772762
## 118 0.008649466 -0.0003790027 -0.021899483 0.019063536 0.007036579
## 123 -0.049993618 0.0040202428 -0.012545552 0.040569434 -0.038710642
## 124 -0.036596302 0.1186675491 0.026874588 -0.009098940 -0.385479527
## 129 0.012296029 0.0825175487 0.013641905 0.079392163 0.047582220
## 130 0.014173650 -0.0195799175 0.003876028 0.011896006 0.023285627
## [,65] [,66] [,67] [,68] [,69]
## 117 0.021951741 0.0617603670 0.056005349 -0.001967682 0.0520601466
## 118 0.014897068 0.0002312831 0.007463866 -0.025023199 0.0002935087
## 123 0.069031354 0.0464328968 -0.011555746 0.033999296 -0.0311428670
## 124 0.245912877 0.1549414231 0.002770172 -0.018016413 -0.1452315768
## 129 0.071051007 -0.0488105394 0.012342470 0.004226732 -0.1040699964
## 130 -0.002203986 -0.0329123222 0.024070979 -0.049164984 -0.0516173791
## [,70] [,71] [,72] [,73] [,74] [,75]
## 117 -0.02584549 -0.11584916 -0.004425164 0.009494893 -0.04846857 -0.09005451
## 118 -0.02008701 -0.06407514 0.007262457 -0.021679981 -0.01397737 0.01023537
## 123 0.02036772 0.01078044 0.130571967 0.023935465 0.03153587 0.01922109
## 124 -0.11955160 -0.01401106 0.294450358 -0.057808230 0.21577574 0.04060444
## 129 0.03032712 -0.07570560 0.041449631 0.017494274 0.05623752 -0.03350317
## 130 0.06634255 -0.02066452 -0.029566409 -0.008216498 0.04410756 -0.02481443
## [,76] [,77] [,78] [,79] [,80] [,81]
## 117 -0.19631782 -0.06693393 0.02808407 -0.202982697 0.065011787 0.037913330
## 118 -0.09877269 -0.04522822 -0.05210334 -0.068341644 -0.017899838 -0.060570581
## 123 -0.02666510 -0.05652339 -0.07663311 -0.012523527 0.008042778 0.007567013
## 124 -0.03843501 0.07597361 0.04915996 -0.002185703 -0.135312546 -0.011378315
## 129 0.08888528 0.05138126 0.01062441 0.194508866 -0.043215911 0.053046962
## 130 0.01845872 -0.03748747 -0.05389016 0.088868338 -0.023409467 0.017416923
## [,82] [,83] [,84] [,85] [,86] [,87]
## 117 0.11010821 -0.096502466 0.112245748 0.15102240 0.11859394 0.091774923
## 118 0.07623669 -0.049533792 0.069412732 0.03768895 0.07760932 0.043415087
## 123 -0.03186898 -0.026865982 -0.093830551 -0.04252220 -0.05156087 0.024975987
## 124 -0.10539960 -0.067578605 -0.006984709 -0.08552680 -0.01911073 -0.005795125
## 129 0.02933323 -0.094061404 0.120886865 0.25701472 -0.12681693 -0.095982645
## 130 0.01149530 0.003924905 -0.060116974 0.07664028 0.01798992 0.018935725
## [,88] [,89] [,90] [,91] [,92] [,93]
## 117 -0.29854685 -0.17869512 -0.02513175 -0.26732623 0.02176680 -0.144771010
## 118 -0.12174393 -0.16774573 0.04450106 -0.19912338 -0.05308399 -0.086799888
## 123 -0.08554999 -0.07999745 -0.05758318 -0.01064230 0.06805345 0.160524643
## 124 -0.03829610 0.02338492 0.02658127 -0.05691194 -0.01903070 0.045310168
## 129 0.19273939 0.23591398 0.13243010 0.05823635 0.33148030 -0.297949018
## 130 0.05350434 0.06493085 0.08741314 0.07430001 0.12425896 -0.008670617
## [,94] [,95] [,96] [,97] [,98] [,99]
## 117 -0.22116123 0.144444374 0.166815822 0.102653163 0.04778434 0.36036531
## 118 -0.17349064 0.053727006 0.134414885 0.044585816 0.09816864 0.11370066
## 123 -0.03928213 -0.049440991 -0.047004728 -0.137644143 -0.09614080 -0.07067728
## 124 -0.01774458 0.001837127 -0.008345466 0.006111032 0.01545823 0.03374081
## 129 0.20519050 0.199658103 0.221231808 0.221945064 -0.15053626 0.27923224
## 130 0.07446745 0.035767146 0.049192841 0.047736080 0.03256588 0.03261540
## [,100]
## 117 0.04511299
## 118 -0.04652041
## 123 -0.26998013
## 124 0.08956015
## 129 -0.14795390
## 130 -0.10412922
After applying LSA, the text data is embedded into a reduced-dimensional space. Each document (row) represents a specific context or subject, while the 100 dimensions (columns) capture distinct semantic relationships. Tokens are considered similar if they frequently appear in the same contexts (documents/subjects).