סיבית

יחידת מידע בסיסית

סִבִּית (קיצור של סִפְרָה בִּינָרִית[1] באנגלית bit או בִּיט, מתוך השם "binary digit") היא ספרה בינארית – יחידת הנתונים הקטנה ביותר שבה משתמש המחשב.

המושג bit נטבע לראשונה על ידי ג'ון טוקי והובא ב-1948 במאמרו המפורסם של קלוד שאנון[2], אבי תורת האינפורמציה, כדי לתאר את יחידת המידע הקטנה ביותר[3].

יצוג מידע

סיבית יכולה להכיל ערך 0 או 1 בלבד. הסיבה לשימוש בשיטה הבינארית היא פשטות המימוש האלקטרוני והלוגי של שיטה זו - נדרש טיפול בשני מצבים בלבד (למשל: יש זרם = 1, אין זרם = 0).

ניתן ליצג מידע באמצעות דפוסים של סיביות על ידי תהליך של דיגיטציה[3].

יחידות מידה מבוססות סיביות

בית (Byte) מורכב מ-8 סיביות. בית מיוצג באנגלית באות B. אין להתבלבל בינה לבין סיבית, שמיוצגת באות b.

בעבר גודל הבית לא היה מוגדר והיה תלוי מימוש. יחידה שהתייחסה במפורש ל-8 סיביות כונתה Octet אך מאחר שעם השנים בית התייחס באופן בלעדי ל-8 סיביות, כינוי זה הפך לפחות שכיח. גודל של ארבע סיביות מיוצג על ידי מונחים שונים כגון Nibble (אנ'), חצי בית (halfbyte), סמי-אוקטט (semi-octet) וקואדביט (quadbit). מאחר שגודל זה מייצג ספרה בבסיס הקסדצימלי, לעיתים מתייחסים לכך כספרת הקסה (Hex digit). כך למשל, לעיתים נוח יותר להציג בית כשתי ספרות הקסה.

שםסימול גודלערכים וחזקותבסיס 16בסיס 10
kilok210 = 1,024= 162.5> 103
megaM220 = 1,048,576= 165> 106
gigaG230 = 1,073,741,824= 167.5> 109
teraT240 = 1,099,511,627,776= 1610> 1012
petaP250 = 1,125,899,906,842,624= 1612.5> 1015
exaE260 = 1,152,921,504,606,846,976= 1615> 1018
zettaZ270 = 1,180,591,620,717,411,303,424= 1617.5> 1021
yottaY280 = 1,208,925,819,614,629,174,706,176= 1620> 1024

העברת מידע

מערכת תקשורת יכולה להעביר מידע דיגיטלי.

מהירות ההעברה של נתונים בקווי תקשורת נמדדת בסיביות לשנייה, או בכפולות של יחידה זו, כגון קילוביט לשנייה, מגה-ביט לשנייה וג'יגה-ביט לשנייה.

ייצוג בינארי של אותיות

באמצעות מחרוזת של סיביות, מושג במחשב ייצוג בינארי של אותיות (וסימנים אחרים).כאשר למטרה זו משמשת סיבית אחת, ניתן לייצג שתי אותיות שונות. ככל שמחרוזת הסיביות ארוכה יותר נוכל להגדיר יותר סימנים שונים, אך נשלם בצריכת מקום אחסון (לסוגיו השונים). רצף של סיביות המשמש להצגה של סימן אחד קרוי תו.

ייצוג בינארי של אותיות נכנס לשימוש שנים רבות לפני המצאת המחשב, במקרים שבהם נדרשה דרך פשוטה לכתיבה וקריאה. כתב ברייל הוא קוד בינארי בן שישה ביטים, כך שייתכנו בו סימנים שונים, אך צירופים אחדים אינם מנוצלים משום שהם עלולים להטעות את הקורא.

במכשירי טלפרינטר שימש להעברת המידע סרט מנוקב בקוד בודו, שבו כל תו יוצג באמצעות חמישה חורים, כלומר התאפשרו סימנים שונים. זה מספר קטן מדי של סימנים, שאינו מאפשר אפילו ייצוג של אותיות וספרות בלבד. לפתרון הבעיה נלקחו שני תווים להיות תווי בקרה, בעלי אופי דומה לזה של המקש Shift שבמקלדת, כלומר לעבור למערכת חלופית של סימנים. עוד שלושה תווי בקרה משותפים לשתי מערכות הסימנים, כך שבסך הכול מאפשרת שיטה זו ייצוג של 2X27=54 סימנים שונים, וזה מספיק לאותיות (גדולות בלבד), ספרות וסימני פיסוק.

במחשבי CDC, שפעלו בתחילת שנות השבעים, גודל מילה היה 60 ביטים (גודל זה נקבע משום שיש לו יתרון בולט בחישובים, שזו הייתה מטרתם העיקרית של מחשבים אלה). גודל סימן נקבע ל-6 ביטים, כך שבמילה אחת ניתן לאחסן 10 סימנים. מספר הסימנים השונים היה . זהו מספר קטן יחסית, אך, כאמור, עיקר פעילותם של מחשבים אלה הייתה חישובים ולא טיפול במידע תווי.

בקוד ASCII נקבעו תחילה 7 ביטים לייצוג תו, כך שהתאפשרו 128 סימנים שונים: אותיות (גדולות וקטנות), ספרות, סימני פיסוק ועוד. בקוד ASCII מורחב נוסף עוד ביט, כך שמתאפשרים 256 סימנים שונים, כולל אותיות עבריות, למשל, ועוד סימנים מיוחדים רבים. קוד זה משמש במרבית המחשבים הפועלים כיום. גם במחשבי IBM-Mainframe, שייצורם החל באמצע שנות השישים, נהוג קוד בן 8 ביטים, אך המשמעות שניתנת בו לכל צירוף של ביטים שונה. קוד זה קרוי EBCDIC.

קוד בן 8 ביטים די בו למערכות טקסטואליות מקובלות, שבהן משתמשים בשפה אחת, או לכל היותר בשתי שפות. במערכות רב לשוניות, שבהן נדרשות גם אותיות ערביות, קיריליות וכו', לא די בכך. פתרון אפשרי הוא זה שננקט במכשירי הטלגרף, כלומר שימוש בתווי בקרה הגורמים להחלפת מערכת האותיות. בפתרון זה יש אי-נוחות מסוימת, מה גם שאינו פותר את בעיית השפות של המזרח הרחוק, שבהן יש אלפי סימנים. פתרון יסודי לבעיה זו הוא המעבר למערכת יוניקוד, שבה משמשים אחד עד ארבעה בתים, כלומר עד 32 ביטים, לייצוג כל סימן. מערכת זו מאפשרת יותר ממיליון סימנים שונים, די והותר לכל סימני השפות המקובלות בעולמנו גם יחד.

בכל מערכות הסימנים שבהן עסקנו עד כה, ניתן אורך אחיד לכל הסימנים במערכת. זו שיטה פשוטה, אך היא אינה יעילה מבחינת נפח האחסון שהיא צורכת: יש סימנים נדירים שיכולנו לתת להם קוד ארוך יותר, ולעומתם להעדיף קוד קצר יותר לסימנים הנפוצים. יישום של גישה זו קיים כבר בקוד מורס לטלגרף אלחוטי (קוד זה משמש עד היום כשנדרשת תקשורת אמינה בתנאי קליטה גרועים, למשל לקשר עם אוניות בלב ים). לאות הנפוצה 'ו' משמש בקוד מורס הקוד '.', ואילו לאות 'ע' משמש הקוד '---.'.

יישום גישה זו במחשבים נהוג כאשר נדרש חיסכון בנפח האחסון, אך עקב מורכבותה נדרשת השקעה של זמן מעבד לפענוח הקוד. תוכניות לדחיסת נתונים מיישמות גישה זו. נפח האחסון המינימלי מושג באמצעות קוד האפמן.

טבלת המרה בין בסיסי מספרים נפוצים:

עשרוני:012345678910111213141516
הקסדצימלי:0123456789ABCDEF10
אוקטלי:01234567101112131415161720
בינארי:000000010010001101000101011001111000100110101011110011011110111110000


ראו גם

קישורים חיצוניים

הערות שוליים

🔥 Top keywords: עמוד ראשימיוחד:חיפושמרואן עיסאמלחמת חרבות ברזלסטפן לגרדן גולדפוספייסבוקמיוחד:שינויים אחרוניםהרצי הלויפוריםמגילת אסתרמרדכי כהנאאצטדיון בלומפילדיזהר שיכ"ד בתשריאלקס הרטמןמתקפת הפתע על ישראל (2023)דרגות צה"לישראלבני סלעעמי אילוןכראמל (סדרת טלוויזיה)ליגת העל בכדורגלערוץ 7מכבי חיפה (כדורגל)יום פטריק הקדושהצבי (סדרה ישראלית)שחר חסוןהגמד והענק (משחק)צבי קושלבסקינדירה שלהוב-קיבורקיאןרמדאןצבא דרום לבנוןחולי אהבה (סדרת טלוויזיה)מרדכי קידר (איש מודיעין)עמוס תמםאיל גולןיוטיובמלוח'יה