שכיחות אותיות בעברית

כבכל שפה, גם בעברית שכיחות האותיות אינה אחידה - ישנן אותיות הנמצאות בשימוש נרחב בשפה, ויש שהשימוש בהן מועט.

מידע על שכיחות האותיות (אנ') שימושי לפענוח צפנים המבוססים על החלפת אותיות, מסייע למחקר בלשני וחיוני בבלשנות חישובית ובעיבוד שפה טבעית.

התפלגות

להלן שכיחות האותיות בשלושה מאגרי טקסט (קורפוסים) של עברית מודרנית. הראשון הוא מאגר כתבות מעיתון הארץ מהשנים 19901991, השני מאגר פרוטוקולים של הכנסת משנת 2004[1] והשלישי הוא מוויקיפדיה העברית[2]. שני הקורפוסים הראשונים מכילים כ-40 מיליון אותיות והאחרון מכיל כ-500 מיליון אותיות.

שכיחות האותיות בעברית באחוזים, מהנדירות לנפוצות.
האותשכיחות (עיתון הארץ)שכיחות (כנסת)שכיחות (ויקיפדיה)ממוצע משוקלל
א6.25%4.83%4.66%4.78%
ב5.22%5.27%5.36%5.34%
ג1.15%1.43%1.78%1.71%
ד3.16%2.66%2.66%2.69%
ה9.22%8.78%8.40%8.48%
ו10.27%10.87%11.20%11.11%
ז1.11%0.85%0.93%0.94%
ח2.52%2.47%2.20%2.24%
ט0.90%1.32%1.78%1.69%
י11.22%11.78%11.70%11.67%
ך0.48%0.38%0.38%0.39%
כ2.62%2.27%1.88%1.96%
ל6.74%6.68%6.20%6.27%
ם3.00%3.01%2.63%2.68%
מ4.72%5.31%5.13%5.11%
ן1.48%1.27%1.36%1.36%
נ3.89%3.37%3.65%3.65%
ס1.69%1.73%2.23%2.16%
ע3.04%3.21%2.65%2.72%
ף0.16%0.23%0.22%0.22%
פ1.50%2.05%2.29%2.22%
ץ0.11%0.16%0.20%0.19%
צ1.37%1.34%1.30%1.31%
ק1.85%2.31%2.62%2.55%
ר5.56%5.83%6.65%6.52%
ש5.00%4.77%4.24%4.33%
ת5.65%5.68%5.46%5.49%

בשלושת הקורפוסים האותיות הנפוצות ביותר, לפי הסדר, הן שלוש מאותיות אהו"י: י, ו, ה.

להלן שכיחות אותיות לפי תקופות בפרויקט בן יהודה נכון ל-1 בינואר 2022 [1]:

שכיחות אותיות לפי תקופות בפרויקט בן יהודה
תקופהעת עתיקה ופיוטימי הביניים והרנסאנסההשכלההתחיהספרות עברית חדשההכול
שניםעד 900 לספירה900 עד 17001700 עד 18801880 עד 19481948 ואילך
API periodancientmedievalenlightenmentrevivalmodern
כמות יצירות5153,8371,21014,9429,21029,714
אותיות עבריות333,9503,229,27930,900,565195,997,978127,692,256358,154,028
א5.97%6.67%7.14%6.31%5.80%6.20%
ב5.40%5.60%5.47%5.25%5.15%5.24%
ג1.10%1.14%1.22%1.27%1.33%1.28%
ד2.58%2.91%2.99%2.90%2.71%2.84%
ה7.05%7.07%8.40%9.23%9.22%9.13%
ו12.10%12.00%11.20%11.53%11.42%11.47%
ז1.38%1.03%1.07%1.04%1.02%1.04%
ח2.43%2.63%2.46%2.43%2.47%2.45%
ט1.37%0.65%0.82%0.91%1.03%0.94%
י10.79%11.25%10.57%10.59%11.05%10.76%
כ \ ך3.81%3.93%3.56%3.18%2.99%3.15%
ל6.20%6.88%6.94%7.00%6.89%6.95%
מ \ ם8.68%8.45%8.24%8.21%8.15%8.19%
נ \ ן5.46%5.04%4.81%4.85%4.69%4.79%
ס1.51%0.96%1.08%1.30%1.46%1.33%
ע3.20%3.62%3.80%3.42%3.22%3.39%
פ \ ף2.49%1.89%2.05%2.10%2.21%2.14%
צ \ ץ1.28%1.35%1.28%1.36%1.42%1.37%
ק1.99%1.69%1.66%1.82%1.95%1.85%
ר5.43%5.81%5.90%5.53%5.52%5.56%
ש4.64%4.40%4.32%4.46%4.70%4.53%
ת5.14%5.03%5.03%5.33%5.59%5.40%

סוגי כתיב

כשעוסקים בשכיחות האותיות, חשוב להבחין כי הכתיב העברי אינו אחיד - נהוגים כתיב חסר, וכתיב מלא. ההבדל בין צורות כתיבה אלו מתבטא בעיקר בשימוש באותיות יו"ד ווָ"ו, ולכן שכיחותן של אותיות אלו (ובמידה מועטה יותר, שכיחות כל האותיות האחרות) שונה באופן משמעותי בין טקסטים הכתובים בצורות השונות. טקסטים מודרניים כתובים שאינם שירה או ספרי ילדים - כתובים בדרך כלל בגרסה כלשהי של כתיב מלא. לחלופין רוב הטקסט העברי שמנוקד כולו, כמו גם כל הטקסטים הישנים יותר, בין אם מנוקדים ובין אם לא, כתובים לפי כללי הכתיב החסר.

הבדלים נוספים צפויים בהשוואת טבלת שכיחויות מתקופות שונות של התפתחות העברית. עברית בת זמננו שאלה מילים רבות משפות לטיניות וגרמניות, ויש הטוענים[דרושה הבהרה] שגם מבנים דקדוקיים. ודאי הוא שאוצר המילים השתנה מאוד, כמו גם חלק ניכר מאופן השימוש במילים שמקורן קודם לעברית המודרנית.

ראו גם

קישורים חיצוניים

הערות שוליים

🔥 Top keywords: ערב אל-עראמשהעמוד ראשימיוחד:חיפושחטיפת חיילי צה"ל בהר דבליגת האלופותקטגוריה:זמרים ישראליםמלחמת חרבות ברזלמיוחד:שינויים אחרוניםקערת ליל הסדרקטגוריה:זמרים השרים בעבריתשקשוקה (סדרת טלוויזיה)התקיפה האיראנית על ישראל (2024)ריאל מדרידרותם אבוהבנמר אנטוליעדי אשכנזיאיראןיריחו (טיל)נעמי פולניג'קי אלקייםקרלו אנצ'לוטימרדכי שפרפייסבוקדרגות צה"לטיל בליסטיישראלמנצ'סטר סיטיחטיפת משפחת ביבסמיוחד:רשימת המעקבערוץ 77 באוקטובריוטיובעומר אדםיוסי כהןחטיבת עציוניפסחכלי טיס בלתי מאוישז'וזפ גוארדיולהעונת 2023/2024 בליגת האלופות