על המעגל

אם היו מבקשים ממני לציין אובייקט מתמטי “לא טריוויאלי” אחד שמופיע בצורה (או בתחפושת) כלשהי כמעט בכל תחום במתמטיקה, היה זה המעגל. לפני שאסביר למה, בוא נוודא שאנחנו על אותו קו. כשאני אומר מעגל, אני מתכוון למעגל היחידה במישור, כלומר לאוסף הנקודות \left(x,y\right) במישור המקיימות x^{2}+y^{2}=1. תמונה אחת שווה אלף מילים:

מעגל היחידה

כפי שהתמונה והמשוואה האלגברית x^{2}+y^{2}=1 ממחישים, ב”מעגל” הכוונה היא לנקודות השפה, כלומר הנקודות שמרחקן מראשית הצירים הוא בדיוק 1, ונקודות הפנים (אלה שמרחקן מהראשית הוא קטן מ-1) אינן נחשבות (בדרך כלל כשכוללים גם את נקודות הפנים, הצורה המתקבלת נקראת עיגול ולכן נוצר לעיתים בלבול מסוים). כבר כעת ניתן לראות תכונה אחת של המעגל שנותנת קצת הצדקה למשפט שאיתו התחלתי את הפוסט: אפשר לתאר אותו הן במונחים גאומטריים (כאוסף כל הנקודות שמרחקן מהראשית שווה בדיוק ל-1) והן במונחים אלגבריים (כאוסף הפתרונות הממשיים למשוואה האלגברית x^{2}+y^{2}=1). מתמטיקאי העוסק בגאומטריה של מרחבים מטריים כנראה חושב על המעגל בצורה הראשונה, בעוד שמתמטיקאי העוסק בגאומטריה אלגברית כנראה שחושב עליו בצורה השנייה. העובדה שניתן לתאר את המעגל בשתי צורות אלה אולי נדמית כטרוויאלית משום שאתם מכירים אותה עוד מהתיכון והתרגלתם אליה כבר מזמן, אבל היא חשובה ולדעתי אפילו מפתיעה. אם לא היו מספרים לי כלום בתיכון על גאומטריה אנליטית, אני לא חושב שהייתי מסוגל לייחס לתמונה דמיונית של חישוק איזושהי משוואה אלגברית, ודאי לא משוואה אלגברית פשוטה ואלגנטית כזו (זוגות המספרים שסכום ריבועיהם שווה למספר קבוע מסוים). עובדתית, אוקלידס, פיתגורס וגאומטריקנים רבים מהעבר פיתחו את הגאומטריה ללא שום בסיס אלגברי או אנליטי, אלא על סמך אקסיומות גאומטריות בלבד. עם זאת, האלגברה ניכרת כבר בעבודותיהם שלהם, למשל בדמות משפט פיתגורס, האומר שאם a,b,c הם אורכי הצלעות של משולש ישר זווית, כאשר c הוא אורך היתר במשולש (הצלע שאינה יוצרת זווית ישרה עם אף אחת משתי הצלעות האחרות), אזי a^{2}+b^{2}=c^{2}.

נחזור כעת למשפט מתחילת הפוסט. ראשית, למה הכוונה ב”לא טריוויאלי”? ניתן היה לומר למשל שהקבוצה הריקה מופיעה בצורה כלשהי בכל תחום במתמטיקה. למשל, ניתן לתאר את המשפט היסודי של האלגברה בתור הטענה שקבוצת הפולינומים בעלי מקדמים מרוכבים שאין להם אף שורש מרוכב היא הקבוצה הריקה, ובערך כל משפט מתמטי שהוא ניתן לנסח בצורה המצחיקה הזו. הקבוצה הריקה היא פשוט אובייקט מתמטי כל כך בסיסי ואלמנטרי שזה טריוויאלי וצפוי לחלוטין שהיא תופיע בכל מקום במתמטיקה. קיימים גם אובייקטים מתמטיים אחרים שמופיעים כמעט בכל מקום למתמטיקה, שהם לכאורה טריוויאליים אבל כשמנסים לפתח הבנה מלאה שלהם מגלים שהם לא כל כך טריוויאליים. דוגמה לכך היא המספרים הטבעיים. הם מופיעים כמעט בכל המתמטיקה, שהרי בכל תחום שהוא (אנליזה, גאומטריה, אלגברה, הסתברות,…) יש לעיתים קרובות צורך לספור דברים, ובדיוק לשם כך נועדו המספרים הטבעיים. לכאורה הם אובייקט טריוויאלי כמעט כמו הקבוצה הריקה, אבל העובדה שקיימות אינספור שאלות פתוחות בתורת המספרים (למשל השערת גולדבך) שקשורות אליהן מעידה בבירור שאין זה כך. כמו-כן, כיום ברור שהרבה מהשאלות הפתוחות הללו קשורות (או אפילו שקולות) לשאלות פתוחות בגאומטריה, בדינמיקה, באלגברה, בתורת הפונקציות המרוכבות וכו’, כך שאפילו הקשר בין המספרים הטבעיים לענפים מתמטיים אחרים הוא משמעותית עמוק יותר מאשר רק העובדה שהם משמשים לצורך ספירה. עם זאת, לא קל להסביר את הקשרים הללו, ולמספרים הטבעיים אין חזות גאומטרית מובהקת כפי שיש למעגל. המעגל נמצא בדיוק במקום המושלם כדוגמה לאובייקט מתמטי לא טריוויאלי כזה – הוא מספיק מורכב בכדי שיהיה אפשר להגיד עליו הרבה דברים מעניינים, אבל לא מורכב מדי: אין צורך להיכנס לנבכי תורות מתמטיות שלמות בכדי לתאר את תכונותיו המעניינות ואת הרלוונטיות שלו לענפים רבים במתמטיקה.

אז למה בעצם המעגל הוא כזה אובייקט מעניין ושכיח במתמטיקה? אחת הסיבות העיקריות לכך היא שהוא נושא עימו הרבה מבנה מעניין. הוא חבורה, הוא מרחב טופולוגי, הוא יריעה חלקה, הוא יריעה רימנית, הוא יריעה אלגברית, הוא מרחב הומוגני, הוא מרחב מידה, הוא מערכת דינמית (בהרבה מובנים), הוא מרחב פרויקטיבי, הוא מרחב הסתברות וכן הלאה. יתרה מזאת, כל המבנים האלה עליו הם “מתואמים” היטב זה עם זה, כלומר משפיעים ומושפעים אחד מהשני בצורה טבעית. אם אתם לא מכירים את חלק מהמבנים שהרגע הזכרתי או שחלק מהמילים שאמרתי לא אומרות לכם כלום, זה לא נורא (אני עצמי מבין לעומק רק חלק מהמבנים הללו). המטרה של פוסט זה (והפוסטים שיבואו אחריו) היא להציג חלק מהמבנים האלו שיש למעגל ובאותה הזדמנות “לגלות” באופן טבעי כמה מבנים מתמטיים כלליים (כמו חבורות ויריעות חלקות) דרך הדוגמה הפשוטה של המעגל. כאמור, המעגל הוא יצור מורכב בדיוק במידה המתאימה, כזו שמאפשרת לי להסביר (למשל) מה זה אומר שהוא מרחב פרויקטיבי מבלי להיכנס ממש להגדרה המופשטת של מרחב פרויקטיבי. אי לכך, פוסט זה (והפוסטים שימשיכו אותו) כנראה לא יחדשו הרבה למתמטיקאים הבוגרים. הכוונה שלי היא להסביר ולהוכיח הכול במסגרת של המעגל ולכל היותר לתאר (בצורה אינטואיטיבית ולא ריגורוזית) כיצד ניתן להכליל את התוצאות וההגדרות למרחבים כלליים יותר.

נתחיל את הטיול שלנו בסקירה קצרה של עובדות אלמנטריות הנוגעות למעגל. ראינו כבר שתי הגדרות שקולות שלו: בתור אוסף הנקודות \left(x,y\right)\in\mathbb{R}^{2} כך ש-x^{2}+y^{2}=1 ובתור אוסף כל הנקודות במישור שמרחקן מהראשית הוא בדיוק 1. השקילות בין ההגדרות נובעת בצורה טריוויאלית מהגדרת המרחק בין שתי נקודות במישור אבל כדאי לשים לב שבשתיהן, אנו מגדירים את המעגל, שהוא אובייקט גאומטרי, במונחי אובייקט גאומטרי אחר שאת ההגדרה שלנו אנחנו כבר מכירים, וזהו כמובן המישור האוקלידי \mathbb{R}^{2}. הרי בשני המקרים הוא מוגדר להיות תת-קבוצה מסוימת של \mathbb{R}^{2}. תופעה זו היא הן ברכה והן קללה. הברכה היא בכך שבעקבות זאת קל להגדיר כל מיני מושגים על המעגל, פשוט ע”י זה שלוקחים אותם מתוך \mathbb{R}^{2}. למשל, אם אנחנו רוצים לדבר על התכנסות של סדרה של נקודות שכולן על המעגל אל נקודה שגם היא על המעגל, אז אין שום בעיה: מתעלמים מהעובדה שכל הנקודות המדוברות הן דווקא על המעגל וחושבים עליהן כעל נקודות ב-\mathbb{R}^{2} וב-\mathbb{R}^{2} אנחנו כבר יודעים מה זה אומר שסדרה של נקודות מתכנסת לנקודה מסוימת.

אבל לעיתים זו קללה: לעיתים המושגים שאנחנו מקבלים “בחינם” מ-\mathbb{R}^{2} הם לא באמת מה שהיינו רוצים. למשל, נניח שאנחנו חיים על המעגל ונמצאים על הנקודה \left(1,0\right) (הנקודה הימנית ביותר על המעגל, אם תרצו), ואנו מעוניינים להגיע לנקודה \left(-1,0\right) (הנקודה הכי שמאלית) וללכת מרחק קטן ככל הניתן. אם נמדוד את המרחק בין הנקודות כאילו אנחנו חיים ב-\mathbb{R}^{2}, התשובה לבעייתנו תהיה שהמרחק הוא 2 ושהכי כדאי לנו ללכת בקו ישר בין שתי הנקודות (כלומר, על קוטר המעגל). אבל התשובה הזו היא חסרת כל רלוונטיות שהיא עבורנו, כיוון שהקו הישר בין שתי הנקודות לא נמצא על המעגל ולכן איננו מסוגלים ללכת עליו. במקרה זה ברור שהמסלול העדיף ביותר הוא ללכת לאורך אחת מהקשתות עד שנגיע לנקודה המדוברת. כיוון שהיקף מעגל היחידה הוא 2\pi, נעבור בצורה זו מרחק \pi. כיוון ש-\pi\approx3.14, אנחנו צריכים לעבור מרחק גדול משמעותית מזה שהיינו צריכים לעבור אם העולם שלנו היה \mathbb{R}^{2} כולו. זו התוצאה האינטואיטיבית שאנחנו מצפים לה, כך שבמקרה זה מושג המרחק שקיבלנו מתוך \mathbb{R}^{2} הוא לא מושג המרחק שאנחנו מעוניינים בו, והעובדה שהמעגל הוא תת-קבוצה של \mathbb{R}^{2} רק בלבלה אותנו ותו לא. מסיבה זו מוטב לעיתים לעבוד במתמטיקה עם אובייקטים שמוגדרים בצורה אינטרינזית, מבלי להסתמך על הגדרתם של אובייקטים קודמים, כל עוד הם לא רלוונטיים לנו באותו רגע. אחזור לנקודה זו בפוסטים בהמשך, ואראה איך אפשר לתת הגדרה אינטרינזית למעגל.

עכשיו זה כנראה זמן טוב להכניס כמה סימונים. נסמן את המעגל, בהגדרתו לעיל, ב-B_{1}:

B_{1}=\left\{ \left(x,y\right)\in\mathbb{R}^{2}:x^{2}+y^{2}=1\right\}

כדאי לציין שבאותה מידה יכולנו לדבר על המעגל שמרכזו נקודה \left(a,b\right)\in\mathbb{R}^{2} כלשהי ורדיוסו r>0 כלשהו, כלומר הקבוצה

\left\{ \left(x,y\right)\in\mathbb{R}^{2}:\left(x-a\right)^{2}+\left(y-b\right)^{2}=r^{2}\right\}

ההבדל אינו מהותי כלל וכלל, כיוון שניתן לעבור בין המעגלים על ידי הזזה שלהם (כך שהמרכז יעבור לראשית הצירים) ו”כיווץ” (או “ניפוח”, אם תרצו) שלהם, כך שהרדיוס יקטן או יגדל ל-1. לא אנסח זאת באופן ריגורוזי, אבל ברור אינטואיטיבית שמדובר באובייקטים זהים לכל צורך שהוא, ואנו מסוגלים להבדיל ביניהם רק כי שניהם חיים באותו המרחב –\mathbb{R}^{2}, עובדה שכאמור עדיף שלא להתעסק בה יותר מדי לעת עתה.

הנה עוד “מודל” למעגל – קבוצת המספרים המרוכבים z בעלי ערך מוחלט 1:

\mathbb{S}^{1}:=\left\{ z\in\mathbb{C}:\left|z\right|=1\right\}

אפשר לזהות בינה לבין מעגל היחידה ב-\mathbb{R}^{2} באופן טבעי, כאשר \left(x,y\right)\in B_{1} מתאים ל-x+iy\in\mathbb{S}^{1} (ואז \left|x+iy\right|=\sqrt{x^{2}+y^{2}}=1, כדרוש). מבחינה גאומטרית מדובר בדיוק באותו האובייקט. עם זאת, נקודת המבט הזו על המעגל חושפת משהו חדש עליו: יש עליו פעולת כפל טבעית, שהיא פשוט כפל מספרים מרוכבים: אם z,w\in\mathbb{S}^{1}, אז zw\in\mathbb{S}^{1} כי \left|zw\right|=\left|z\right|\left|w\right|=1\cdot1=1. נוסף לכך, אם z\in\mathbb{S}^{1} אז z\ne0 (כי \left|0\right|\ne1) ולכן z הפיך ב-\mathbb{C}. אבל הוא גם הפיך ב-\mathbb{S}^{1}, כלומר z^{-1}\in\mathbb{S}^{1}. זה נובע מכך ש-\left|z^{-1}\right|=\frac{1}{\left|z\right|}=\frac{1}{1}=1. לכן המעגל \mathbb{S}^{1} הוא חבורה, תחת הפעולה הטבעית של כפל שני איברי מעגל פשוט כפי שכופלים מספרים מרוכבים. איך הפעולה הזו נראית כשחושבים על המעגל כעל קבוצה ב-\mathbb{R}^{2}? ובכן, אם z_{1}=x_{1}+iy_{1} ו-z_{2}=x_{2}+iy_{2}, אז מכפלתם z_{1}z_{2} היא המספר

z_{1}z_{2}=\left(x_{1}+iy_{1}\right)\left(x_{2}+iy_{2}\right)=\left(x_{1}x_{2}-y_{1}y_{2}\right)+i\left(x_{1}y_{2}+x_{2}y_{1}\right)

כלומר ב-B_{1} ה”מכפלה” נראית כך:

\left(x_{1},y_{1}\right)\cdot\left(x_{2},y_{2}\right)=\left(x_{1}x_{2}-y_{1}y_{2},x_{1}y_{2}+x_{2}y_{1}\right)

אתם יכולים לבדוק לעצמכם שהמכפלה היא אכן ב-B_{1} (ולא רק ב-\mathbb{R}^{2}), אבל אין שום צורך לעשות בדיקה זו, שכן הערך המוחלט הקומפלקסי של מספר z=x+iy הוא \left|z\right|=x^{2}+y^{2} ולכן העובדה ש-\left|z_{1}z_{2}\right|=1 כבר גוררת את זה. באופן דומה ניתן למצוא ביטוי להופכי \left(x_{1},y_{1}\right)^{-1} של נקודה \left(x_{1},y_{1}\right)\in B_{1} שמתקבל מפעולה זו. לא אעשה את זה, אבל אתם מוזמנים לנסות.

כפי שאתם רואים, פעולת ה”כפל” הזו לא ניתנת בתור נוסחה יפה או טבעית כשעובדים ב-\mathbb{R}^{2}. אם לא היינו עוברים ל-\mathbb{C}, אז היה לנו די קשה לשכנע את עצמנו שהפעולה לעיל ב-B_{1} אכן נותנת מבנה של חבורה על B_{1}. זה עוד יתרון להסתכלות על המעגל מנקודות מבט שונות. על מבנה זה של חבורה אדבר בפוסטים הבאים. לעת עתה נעזוב אותו.

נוסף לעובדות הנ”ל, המעגל מהווה עקום במישור וליתר דיוק עקום סגור, כלומר כזה שנקודת ההתחלה שלו זהה לנקודת הסיום. מבחינה פורמלית, המתמטיקה היא כזו: ניתן למצוא פונקציה רציפה \gamma:\left[0,2\pi\right]\to\mathbb{R}^{2} (מסילה ב-\mathbb{R}^{2}) שתמונתה B_{1} ו-\gamma\left(0\right)=\gamma\left(2\pi\right), ואפילו ניתן לתת כזו באופן מפורש:

\gamma\left(t\right)=\left(\cos t,\sin t\right)

נקודת ההתחלה של המסילה היא \gamma\left(0\right)=\left(\cos0,\sin0\right)=\left(1,0\right) והמסילה נעה נגד כיוון השעון לאורך המעגל עד אשר היא מגיעה ל-\gamma\left(2\pi\right), שהיא הנקודה ממנה התחלנו \left(1,0\right) (בשל המחזוריות של הסינוס והקוסינוס). הפרמטר t, שאנחנו חושבים עליו בתור זמן, הוא למעשה פשוט הזווית הנוצרת מרגע שהתחלנו לנוע (כלומר מהנקודה \left(1,0\right)) עד לנקודה \gamma\left(t\right). אלה עובדות שאתם כנראה כבר מכירים, לפחות בדמות הציור המפורסם הבא:

מעגל היחידה כעקום במישור

אי לכך, לא אוכיח אותן פה ממש. למעשה, אחת ההגדרות האפשריות של הסינוס והקוסינוס (והיא ההגדרה שלומדים בתיכון, למיטב זכרוני) היא להגדיר אותך כך ש-\left(\cos t,\sin t\right) היא הנקודה \left(x,y\right) על המעגל שהזווית שהיא יוצרת באופן הנ”ל היא t, ואז כל מה שאמרתי נובע פחות או יותר מעצם ההגדרה. בכל אופן, זה נותן לנו דרך נוספת לחשוב על המעגל – כעקום סגור במישור:

B_{1}=\left\{ \left(\cos t,\sin t\right):0\le t<2\pi\right\}

זה מראה, בין היתר, שכדי לתאר נקודה שרירותית במעגל, די שתיתנו לי מספר ממשי יחיד t (בין 0 ל-2\pi, אם תרצו), והוא יתאים לנקודה \left(\cos t,\sin t\right) על המעגל. אינטואיטיבית, אנחנו חושבים על המעגל כעל אובייקט גאומטרי חד-ממדי ולא דו-ממדי (שהרי הוא בסך הכול קו ישר ש”עיקמו” אותו). לכן במובן מסוים ההצגה של נקודה במעגל במונחי פרמטר ממשי יחיד היא עדיפה על ההצגה שלה במונחי שני פרמטרים ממשיים \left(x,y\right). עוד על כך בפוסטים הבאים.

את אותו הסיפור אפשר לעשות גם ב-\mathbb{C} במקום \mathbb{R}^{2}. התוצאה היא פשוט:

\mathbb{S}^{1}=\left\{ \cos t+i\sin t:0\le t<2\pi\right\}

נוסחת אוילר אומרת ש-e^{it}=\cos t+i\sin t לכל t ממשי (לעיתים הנוסחה הזו היא פשוט חלק מההגדרה של האקספוננט המרוכב ותו לא), כך שדרך אחרת להציג את מעגל היחידה היא \left\{ e^{it}:0\le t<2\pi\right\} .

מעגל היחידה במישור המרוכב

זה גם מציג בצורה אחרת את פעולת החבורה על המעגל שראינו קודם, כיוון שהאקספוננט המרוכב “מחליף” בין כפל מספרים מרוכבים לחיבור מספרים ממשיים:

e^{it}\cdot e^{is}=e^{i\left(t+s\right)}

עוד על כך ועל תכונות אחרות של המעגל – בפוסט הבא. לסיום רק אציין שמעתה ואילך אחליף בין ההצגות הנ”ל של המעגל באופן חופשי. כשארצה לציין נקודה שרירותית על המעגל, הסימונים \left(x,y\right), z, \left(\cos t,\sin t\right), e^{it} הם כולם שקולים מבחינתי (כאשר בשני המקרים הראשונים, הכוונה הברורה היא ש-\left(x,y\right)\in B_{1} ו-z\in\mathbb{S}^{1}) ואשתמש בכל אחד מהם בהתאם לנוחות שלו בהקשר הספציפי.

עוד כמה מילים על משפט סטון-ויירשטראס

בפוסט הקודם דיברתי על משפט סטון-ויירשטראס והצגתי כמה משימושיו היפים. בפוסט זה אתאר כמה שימושים יותר עמוקים שלו ואתאר את ההוכחה הקלאסית של המשפט (קיימות גם הוכחות “מודרניות”יותר). אי לכך, בניגוד לפוסט הקודם, פוסט זה דורש ידע מסוים בטופולוגיה קבוצתית כדי להבינו במלואו.

אזכיר לכם מה אומר משפט סטון-ויירשטראס. אם X הוא מרחב האוסדורף קומפקטי ו-\mathcal{A} היא תת-אלגברה עם יחידה של C\left(X,\mathbb{R}\right) אז \mathcal{A} צפופה ב-C\left(X,\mathbb{R}\right) (ביחס לנורמת הסופרמום, כלומר הנורמה של התכנסות במידה שווה) אם ורק אם \mathcal{A} מפרידה נקודות. כזכור, אומרים ש-\mathcal{A} מפרידה נקודות אם לכל שתי נקודות x_{1}\ne x_{2} ב-X יש פונקציה f\in\mathcal{A} כך ש-f\left(x_{1}\right)\ne f\left(x_{2}\right). בפוסט הקודם הזכרתי גם גרסה של המשפט עבור פונקציות רציפות קומפלקסיות, כלומר עבור תתי-אלגבראות עם יחידה של C\left(X,\mathbb{C}\right). הוכחתי שבהנחה ותת-אלגברה כזו היא גם סגורה תחת הצמדה, היא מקיימת את הטענה במשפט סטון-ויירשטראס ונתתי דוגמה המראה שדרישת הסגירות תחת הצמדה היא הכרחית. אי לכך, אדבר בפוסט זה על המקרה הממשי בלבד.

לפני ההוכחה, אני רוצה להראות עוד כמה אפליקציות מרשימות (ושימושיות מאוד) של המשפט. נניח ש-X ו-Y הם מרחבי האוסדורף קומפקטיים ואנו מסתכלים במרחב המכפלה X\times Y, שגם הוא מרחב האוסדורף קומפקטי (עם טופולוגית המכפלה). איך נראות הפונקציות הרציפות f:X\times Y\to\mathbb{R}? אם ניקח פונקציה רציפה g:X\to\mathbb{R} ופונקציה רציפה h:Y\to\mathbb{R} אז הפונקציה f:X\times Y\to\mathbb{R} המוגדרת על ידי f\left(x,y\right)=g\left(x\right)h\left(y\right) היא בבירור פונקציה רציפה על X\times Y. נהוג לסמן אותה בתור f=g\otimes h. כמובן, באופן כללי, פונקציה ממשית רציפה על מרחב המכפלה לא חייבת להיות מצורה זו (למשל, הפונקציה f\left(x,y\right)=x+y על \mathbb{R}^{2}), אבל משפט סטון-ויירשטראס אומר לנו שכדי להבין פונקציות ממשיות רציפות על X\times Y באופן כללי, במובן מסוים מספיק לנו להבין פונקציות מהצורה המסוימת הזו. באופן יותר פורמלי, אם \mathcal{A} היא אוסף כל הצירופים הלינאריים של פונקציות מהצורה לעיל, אז \mathcal{A} היא בבירור אלגברה המכילה את היחידה (על ידי הבחירה g=h=1). באופן מפורש, איבר טיפוסי ב-\mathcal{A} הוא פונקציה מהצורה f\left(x,y\right)=\sum_{i=1}^{k}g_{i}\left(x\right)h_{i}\left(y\right) עבור איזשהו k טבעי, פונקציות רציפות g_{1},\dots,g_{k}:X\to\mathbb{R} ופונקציות רציפות h_{1},\dots,h_{k}:X\to\mathbb{R} (אין צורך להוסיף מקדמים a_{i} לפני g_{i}\left(x\right)h_{i}\left(y\right) שכן ניתן “להבליע” אותם לתוך אחת מהפונקציות g_{i},h_{i}).

האלגברה \mathcal{A} מפרידה נקודות ב-X\times Y וניתן לראות זאת באופן הבא: אם \left(x,y\right)\ne\left(x',y'\right) הן נקודות שונות ב-X\times Y אז או ש-x\ne x' או ש-y\ne y'. נניח ללא הגבלת הכלליות שמדובר במקרה הראשון. נמצא פונקציה g:X\to\mathbb{R} שמפרידה בין x ל-x', כלומר שמקיימת g\left(x\right)\ne g\left(x'\right) ואז הפונקציה f\left(x,y\right)=g\left(x\right) היא מהצורה הדרושה ומפרידה בין \left(x,y\right) ל-\left(x',y'\right). זה מסיים את ההוכחה, בהנחה שאתם מאמינים לי שניתן למצוא g כנ”ל (שמפרידה בין x ל-x'). במקרה בו X הוא מרחב מטרי קומפקטי, קל למצוא פונקציה כזו (למשל, g\left(x\right)=d\left(x,x'\right) כאשר d היא המטריקה על X). במקרה הכללי, יש תוצאה לא טריוויאלית בטופולוגיה בשם הלמה של אוריסון המבטיחה לנו קיום של פונקציה כזו. לא אכנס לזה כאן. בכל מקרה, משפט סטון-ויירשטראס מבטיח לנו כעת שכל פונקציה רציפה f:X\times Y\to\mathbb{R} היא גבול במידה שווה של פונקציות מהצורה \sum_{i=1}^{k}g_{i}\left(x\right)h_{i}\left(y\right), או בסימון מקוצר \sum_{i=1}^{k}g_{i}\otimes h_{i}. עובדה זו שימושית בהרבה בעיות באנליזה שהן במובן מסוים אינוריאנטיות תחת פעולות לינאריות ותחת לקיחת גבולות במידה שווה. במקרה זה ניתן לצמצם בעיה על פונקציות ממשיות רציפות כלליות על X\times Y לפונקציות רציפות מהצורה g\otimes h. זה במובן מסוים “מפרק”את הבעיה לשתי בעיות “חד-מימדיות”.

הטיעונים לעיל תקפים כמובן גם לכל מכפלה סופית X_{1}\times\cdots\times X_{n} של מרחבי האוסדורף קומפקטיים, כאשר עושים שימוש בפונקציות מהצורה g_{1}\otimes\cdots\otimes g_{n}, כש-g_{i}:X_{i}\to\mathbb{R} היא פונקציה רציפה כלשהי. שאלה שמיד צצה היא מה ניתן להגיד במקרה של מכפלות אינסופיות. אם \left\{ X_{\alpha}\right\} _{\alpha\in\Lambda} הוא אוסף כלשהו (גדול ככל שתרצו) של מרחבי האוסדורף קומפקטיים אז לפי משפט טיכונוף, המכפלה X:=\prod_{\alpha\in\Lambda}X_{\alpha} גם היא מרחב האוסדורף קומפקטי ולכן גם היא מגדירה לנו מרחב פונקציות C\left(X,\mathbb{R}\right) עם הנורמה של התכנסות במידה שווה. במקרה זה, כמו קודם, ניתן לשאול כיצד ניתן לקרב פונקציות במרחב C\left(X,\mathbb{R}\right) תוך שימוש בפונקציות רציפות ממשיות על המרחבים X_{\alpha} המופיעים במכפלה? משפט סטון-ויירשטראס מספק תשובה מרשימה לשאלה זו, אשר בתורה גוררת את המסקנה המרשימה הבאה: כל פונקציה רציפה מ-X ל-\mathbb{R} תלויה אך ורק במספר בן-מנייה של קואורדינטות. באופן יותר פורמלי, קיימת תת-קבוצה בת-מנייה I\subseteq\Lambda כך שהערך של f על נקודה מסוימת \left(x_{\alpha}\right)_{\alpha\in\Lambda} תלוי אך ורק בקואורדינטות x_{\alpha} המקיימות ש-\alpha\in I, כלומר שינוי של הקואורדינטות שלא שייכות ל-I לא ישנה את ערך הפונקציה. ניסוח אחר ושקול הוא כדלקמן: קיימת פונקציה רציפה g:\prod_{\alpha\in I}X_{\alpha}\to\mathbb{R} כך ש-f\left(\left(x_{\alpha}\right)_{\alpha\in\Lambda}\right)=g\left(\left(x_{\alpha}\right)_{\alpha\in I}\right) לכל נקודה \left(x_{\alpha}\right)_{\alpha\in\Lambda} במרחב המכפלה X. ניתן לתמצת זאת אפילו יותר בכך שנאמר ש-f=g\circ\pi_{I} כאשר \pi_{I}:X\to\prod_{\alpha\in I}X_{\alpha} היא ההטלה על “הרכיבים ה-I-ים” במכפלה, כלומר \pi_{I}\left(\left(x_{\alpha}\right)_{\alpha\in\Lambda}\right)=\left(x_{\alpha}\right)_{\alpha\in I}. במילים אחרות, הדרך היחידה לקבל פונקציה רציפה על מרחב המכפלה היא לבחור תת-אוסף בן-מנייה של מרחבים מתוך המכפלה, לקחת פונקציה רציפה שמוגדרת על המכפלה שמורכבת ממרחבים אלה בלבד ואז להרחיב אותה (תוך שימוש בהטלה \pi_{I}) למרחב המכפלה כולו.

העובדה לעיל נובעת מכך שניתן לקרב כל פונקציה ממשית רציפה על X באמצעות פונקציות רציפות שתלויות רק במספר סופי של קואורדינטות, כלומר פונקציות רציפות מהצורה g\circ\pi_{I} עבור תת-קבוצה I\subseteq\Lambda סופית. במילים אחרות, כל פונקציה f\in C\left(X,\mathbb{R}\right) היא גבול במידה שווה של סדרה של פונקציות ממשיות f_{1},f_{2},\dots כך שעבור כל i טבעי, הפונקציה f_{i} היא מהצורה f_{i}=g_{i}\circ\pi_{I_{i}} עבור איזושהי תת-קבוצה סופית I_{i}\subseteq\Lambda ועבור איזושהי פונקציה רציפה g_{i}:\prod_{\alpha\in I_{i}}X_{\alpha}\to\mathbb{R}. במקרה זה ברור שהפונקציה f תלויה רק בערכי הקואורדינטות \bigcup_{i=1}^{\infty}I_{i} וזוהי קבוצה בת-מנייה, בהיותה איחוד בן-מנייה של קבוצות סופיות. את הטענה על קירוב במידה שווה של פונקציה רציפה על X באמצעות פונקציה רציפה התלויה רק במספר סופי של קואורדינטות ניתן להוכיח באמצעות משפט סטון-ויירשטראס. סכום, כפל בסקלר וכפל של שתי פונקציות שתלויות רק במספר סופי של קואורדינטות גם הוא פונקציה כזו (אם כי הסכום או המכפלה יכולים להיות תלויים במספר גדול יותר של קואורדינטות מהפונקציות המקוריות) והיחידה, קרי הפונקציה הקבועה 1, לא תלויה באף קואורדינטה. לכן אוסף הפונקציות f\in C\left(X,\mathbb{R}\right) התלויות במספר סופי של קואורדינטות מהווה אלגברה שנסמן ב-\mathcal{A}. \mathcal{A} מפרידה נקודות ב-X מנימוק דומה לזה שהשתמשתי בו כשדיברנו על מכפלה של שני מרחבים. ספציפית, אם \left(x_{\alpha}\right)_{\alpha\in\Lambda}\ne\left(y_{\alpha}\right)_{\alpha\in\Lambda} הן שתי נקודות שונות ב-X אז הן שונות בקואורדינטה כלשהי \alpha_{0} ואז אם g:X_{\alpha_{0}}\to\mathbb{R} היא פונקציה רציפה כך ש-g\left(x_{\alpha_{0}}\right)\ne g\left(y_{\alpha_{0}}\right) (כאמור, תמיד ניתן למצוא פונקציה כזו), אז הפונקציה f\left(\left(x_{\alpha}\right)_{\alpha\in\Lambda}\right)=g\left(x_{\alpha_{0}}\right) היא רציפה, מפרידה בין שתי הנקודות ותלויה רק במספר סופי של קואורדינטות (ספציפית, רק בקואורדינטה ה-\alpha_{0}-ית). לכן משפט סטון-ויירשטראס נותן לנו את המסקנה הדרושה: \mathcal{A} צפופה ב-C\left(X,\mathbb{R}\right).

השימוש האחרון של משפט סטון-ויירשטראס שאזכיר כאן הוא בכדי להראות את העובדה הבאה: אם X הוא מרחב מטרי קומפקטי (ואז הוא בפרט האוסדורף) אז המרחב C\left(X,\mathbb{R}\right) הוא ספרבילי, כלומר מכיל תת-קבוצה צפופה בת-מנייה. באופן דומה, גם C\left(X,\mathbb{C}\right) הוא ספרבילי. ההוכחה של טענה זו אינה קשה, אבל אסתפק בלהראות איך זה נובע במקרה בו X הוא קטע סגור וחסום \left[a,b\right] ב-\mathbb{R}. במקרה זה אנחנו יודעים (ממשפט סטון-ויירשטראס) שאלגברת הפולינומים עם מקדמיים ממשיים על \left[a,b\right] מהווה קבוצה צפופה ב-C\left(\left[a,b\right],\mathbb{R}\right). אם נסתפק רק בפולינומים עם מקדמים רציונליים, ניתן להראות שעדיין נקבל קבוצה צפופה ב-C\left(\left[a,b\right],\mathbb{R}\right) (זה נובע בסופו של דבר מכך שהרציונליים צפופים ב-\mathbb{R}) אבל כעת מדובר בקבוצה בת-מנייה. ההוכחה של הטענה לעיל עבור מרחב מטרי קומפקטי כללי היא דומה, אך מעט מתוחכמת יותר.

לפני שאגש להוכחת המשפט, ראוי לציין שההוכחה (הקלאסית) של המשפט אינה נשענת בצורה מכרעת על העובדה שהאלגברה \mathcal{A} מכילה את היחידה. עובדה זו כמובן נחוצה במידה מסוימת, שכן אלגברת הפולינומים על \left[-1,1\right] עם מקדם חופשי 0 אינה צפופה ב-C\left(\left[0,1\right],\mathbb{R}\right) (למה?). למרות זאת, המצב לא יכול להיות “גרוע מדי”אם \mathcal{A} היא אלגברה שלא מכילה את היחידה. במקרה זה, ניתן לומר שהסגור של \mathcal{A} הוא C\left(X,\mathbb{R}\right) (דבר אשר מובטח כאשר \mathcal{A} מכילה את היחידה) או שהוא \left\{ f\in C\left(X,\mathbb{R}\right):f\left(x_{0}\right)=0\right\} עבור איזושהי נקודה x_{0}, כלומר הוא מורכב בדיוק מכל הפונקציות הממשיות הרציפות על X אשר מתאפסות בנקודה מסוימת x_{0}. במקרה ש-\mathcal{A} לא מכילה את היחידה, היא עדיין עלולה להיות צפופה ב-C\left(X,\mathbb{R}\right) – זה קורה בדיוק כאשר אין אף נקודה ב-X שעליה מתאפסות כל הפונקציות ב-\mathcal{A}. שימו לב שלא ייתכן שכל הפונקציות ב-\mathcal{A} יתאפסו על שתי נקודות שונות x_{0},x_{1} ב-X, שהרי אז האלגברה \mathcal{A} לא מפרידה בין הנקודות x_{0} ו-x_{1}.

אתאר כעת את הוכחת הנוסח לעיל של המשפט. אם כן, יהי X מרחב האוסדורף קומפקטי ותהי \mathcal{A} תת-אלגברה (אולי בלי יחידה) של C\left(X,\mathbb{R}\right) אשר מפרידה נקודות. המטרה שלנו היא להוכיח שהסגור של \mathcal{A} שווה ל-C\left(X,\mathbb{R}\right) או שווה ל-\left\{ f\in C\left(X,\mathbb{R}\right):f\left(x_{0}\right)=0\right\} עבור איזושהי נקודה x_{0}. קל לבדוק שהסגור של \mathcal{A} גם הוא תת-אלגברה וכמובן שאלגברה זו עדיין מפרידה נקודות. אי לכך, נוכל להניח ללא הגבלת הכלליות ש-\mathcal{A} היא תת-אלגברה סגורה ואז המטרה היא להוכיח ש-\mathcal{A} שווה ל-C\left(X,\mathbb{R}\right) או לקבוצת הפונקציות ב-C\left(X,\mathbb{R}\right) שמתאפסות בנקודה מסוימת. ראשית כל, נרצה להראות ש-\mathcal{A} סגורה תחת הפעולות של לקיחת מינימום ומקסימום. במילים אחרות, אם f,g\in\mathcal{A} אז \max\left(f,g\right) ו-\min\left(f,g\right) (שגם הן פונקציות ממשיות רציפות) גם הן שייכות ל-\mathcal{A}. הרעיון הוא שככל שנדע ש-\mathcal{A} סגורה תחת יותר פעולות (חיבור, כפל, לקיחת מקסימום,…) כך המשימה של מציאת פונקציה רציפה כללית בתוך \mathcal{A} תהיה פיזיבילית יותר – יהיו לנו יותר דרכים “לייצר”פונקציות רציפות “חדשות” מתוך פונקציות שאנחנו כבר יודעים ששייכות ל-\mathcal{A}.

הזהויות הפשוטות

\max\left(f,g\right)=\frac{1}{2}\left(f+g+\left|f-g\right|\right)

\min\left(f,g\right)=\frac{1}{2}\left(f+g-\left|f-g\right|\right)

\left|f\right|=\max\left(f,0\right)-\min\left(f,0\right)

מראות ש-\mathcal{A} סגורה תחת הפעולות של לקיחת מקסימום ומינימום אם ורק אם היא סגורה תחת לקיחת ערך מוחלט (כאן אנו עושים שימוש בכך ש-\mathcal{A} היא אלגברה). לכן די להראות שאם f\in\mathcal{A} אז גם \left|f\right|\in\mathcal{A}. נניח שהצלחנו למצוא סדרה של פולינומים p_{1},p_{2},\dots:\mathbb{R}\to\mathbb{R} המתכנסת לפונקצית הערך המוחלט t\mapsto\left|t\right| כאשר n\to\infty במידה שווה על הקטע \left[-1,1\right] ובנוסף מקיימת את התנאי שכל אחד מהפולינומים הוא בעל מקדם חופשי אפס, קרי p_{n}\left(0\right)=0 לכל n. במקרה זה, אם f:X\to\mathbb{R} היא פונקציה כלשהי ב-\mathcal{A}, אז ההרכבה p_{n}\circ f:X\to\mathbb{R} גם היא פונקציה רציפה וגם היא שייכת ל-\mathcal{A}, פשוט משום ש-\mathcal{A} היא אלגברה ולכן מותר לקחת חיבורים, כפלים בסקלר וכפלים של פונקציות ב-\mathcal{A}, כלומר פולינומים של פונקציות ב-\mathcal{A} (אם כי פולינומים אלו חייבים להיות בעלי מקדם חופשי אפס שכן אנו לא מניחים ש-\mathcal{A} מכילה את היחידה. לשם כך אנו דורשים ש-p_{n}\left(0\right)=0 לכל n). נרצה להגיד ש-p_{n}\circ f מתכנסת במידה שווה ל-\left|f\right| ואז נקבל ש-\left|f\right| שייכת ל-\mathcal{A} (שהרי אנו מניחים ש-\mathcal{A} היא סגורה וכל הפונקציות p_{n}\circ f שייכות ל-\mathcal{A}). הבעיה כאן היא שהתמונה של f ב-\mathbb{R} אינה בהכרח מוכלת בקטע \left[-1,1\right] ואת ההתכנסות במ”ש של p_{n} לפונקציית הערך המוחלט אנחנו יודעים רק על קטע סגור זה. אבל זו לא קטסטרופה – תהי \left\Vert f\right\Vert =\sup_{x\in X}\left|f\left(x\right)\right| הנורמה של f (כזכור, היא סופית כיוון ש-f פונקציה רציפה על מרחב קומפקטי) ונניח שהיא שונה מאפס (אחרת f היא זהותית אפס ואז ברור ש-\left|f\right|\in\mathcal{A}). אזי הפונקציה g:=\frac{1}{\left\Vert f\right\Vert }f שייכת ל-\mathcal{A} (ככפל בסקלר של פונקציה ב-\mathcal{A}) ולכל x\in X מתקיים

\left|g\left(x\right)\right|=\left|\frac{1}{\left\Vert f\right\Vert }f\left(x\right)\right|=\frac{1}{\left\Vert f\right\Vert }\left|f\left(x\right)\right|\le\frac{1}{\left\Vert f\right\Vert }\left\Vert f\right\Vert =1

כלומר תמונת הפונקציה g=\frac{1}{\left\Vert f\right\Vert }f מוכלת בקטע \left[-1,1\right]. מאחר ו-p_{n}\left(t\right)\to\left|t\right| במידה שווה עבור t\in\left[-1,1\right], הרי ש-p_{n}\circ g\left(x\right)\to\left|g\left(x\right)\right| במידה שווה על X. אבל אז \left\Vert f\right\Vert p_{n}\circ g היא סדרת פונקציות ב-\mathcal{A} המתכנסת במידה שווה ל-\left\Vert f\right\Vert \left|g\right|, כלומר ל-\left|f\right|, כדרוש.

אי לכך, הראנו שהאלגברה \mathcal{A} בהכרח סגורה תחת ערך מוחלט ולכן גם תחת לקיחת מינימום ומקסימום של שתי פונקציות. עשינו את זה תחת ההנחה הבאה: ניתן לקרב את פונקצית הערך המוחלט x\mapsto\left|x\right| במידה שווה על הקטע \left[-1,1\right] על ידי פולינומים ללא מקדם חופשי. עובדה זו פחות או יותר נובעת ממשפט ויירשטראס הקלאסי (שאומר שכל פונקציה רציפה על קטע סגור וחסום ניתנת לקירוב במידה שווה על ידי פולינומים), למעט הדרישה שהפולינומים יהיו חסרי מקדם חופשי. משפט זה הוא מקרה (מאוד) פרטי של המשפט שאנחנו מנסים להוכיח, אבל כמובן שהוא דורש הוכחה נפרדת. ההוכחה אינה קשה, אבל היא גם לא טריוויאלית (כזכור פונקציית הערך המוחלט היא לא גזירה באפס ולכן טור טיילור לא יעבוד פה, לפחות לא באופן ישיר). ברשותכם אדחה אותה לסוף.

הרדוקציה השנייה שנעשה היא הרבה יותר מרשימה. באופן פרוזאי, ניתן לומר שהיא הופכת את הבעיה ה”אינסוף-ממדית” שלנו (כי C\left(X,\mathbb{R}\right) הוא מרחב וקטורי אינסוף-ממדי) לבעיה דו-ממדית. באופן יותר פורמלי, במקום להביט ב-\mathcal{A}, נתבונן בתת-אלגברה מסוימת של \mathbb{R}^{2}. למען הסר ספק, הפעולות האלגבריות ב-\mathbb{R}^{2} הן חיבור, כפל וסקלר וכפל נקודתיים. באופן שקול, ניתן לחשוב על \mathbb{R}^{2} בתור האלגברה C\left(Y,\mathbb{R}\right) כאשר Y מכיל שתי נקודות בלבד. ספציפית, לכל שתי נקודות שונות x,y\in X נביט בתת-הקבוצה הבאה של \mathbb{R}^{2}:

\mathcal{A}_{x,y}=\left\{ \left(f\left(x\right),f\left(y\right)\right):f\in\mathcal{A}\right\}

שימו לב ש-\mathcal{A}_{x,y} היא אכן תת-אלגברה של \mathbb{R}^{2}, פשוט משום ש-\mathcal{A} היא אלגברה. יש שתי מוטיבציות להתבונן בתתי-האלגבראות \mathcal{A}_{x,y}. ראשית, התנאי של הפרדת נקודות מיתרגם לתנאי פשוט על תת-האלגברה \mathcal{A}_{x,y} ב-\mathbb{R}^{2} – הוא אומר ש-\mathcal{A}_{x,y} מכילה איבר שלא שייך לאלכסון \Delta=\left\{ \left(x,x\right):x\in\mathbb{R}\right\} . שנית, ב-\mathbb{R}^{2} יש מעט מאוד תתי-אלגבראות ולכן, בשילוב עם האבחנה הקודמת, קל להבין מהי \mathcal{A}_{x,y} כתת-קבוצה של \mathbb{R}^{2}.

מהן תתי-האלגבראות של \mathbb{R}^{2}? יש לנו את תת-האלגברה הטריביאלית \left\{ 0\right\} שבהכרח אינה שווה ל-\mathcal{A}_{x,y} כיוון שהיא מוכלת באלכסון. נוסף לכך, יש לנו את האלכסון כולו \Delta שהוא תת-אלגברה, אבל גם הוא לא יכול להיות שווה ל-\mathcal{A}_{x,y}. נותרות רק שלוש אפשרויות אחרות: האלגבראות \mathbb{R}\times\left\{ 0\right\} , \left\{ 0\right\} \times\mathbb{R} ו-\mathbb{R}^{2} כולה. כדי לראות זאת, שימו לב שאם \mathcal{B} היא תת-אלגברה של \mathbb{R}^{2} שמכילה איבר \left(a,b\right) כך ש-a\ne0,b\ne0 ו-a\ne b, אז \left(a,b\right) ו-\left(a^{2},b^{2}\right) (שגם הוא שייך ל-\mathcal{B}) הם בלתי תלויים לינארית ב-\mathbb{R}^{2} ולכן פורשים את כל \mathbb{R}^{2}. מכאן נובע ש-\mathcal{B}=\mathbb{R}^{2}.

אי לכך, עבור שתי נקודות שונות x\ne y ב-X, האלגברה \mathcal{A}_{x,y} שווה ל-\mathbb{R}\times\left\{ 0\right\} ,\left\{ 0\right\} \times\mathbb{R} או ל-\mathbb{R}^{2}. בכל אחד משני המקרים הראשונים אנו מקבלים שקיימת נקודה x_{0}\in X כך ש-f\left(x_{0}\right)=0 לכל f\in\mathcal{A}. כפי שהזכרתי קודם, לא ייתכן שתהיינה שתי נקודות ב-X בעלות התכונה הזו. אי לכך, אם x ו-y הן שתי נקודות שונות ב-X ששתיהן שונות מ-x_{0}, אז \mathcal{A}_{x,y}=\mathbb{R}^{2}. אם בכלל לא קיימת נקודה x_{0} כזו (מה שקורה למשל אם \mathcal{A} מכילה את היחידה) אזי \mathcal{A}_{x,y}=\mathbb{R}^{2} לכל x\ne y ב-X.

כעת עלינו להפריד לשני מקרים. המקרה הראשון הוא שקיימת נקודה x_{0} שעליה מתאפסות כל הפונקציות ב-\mathcal{A}. במקרה זה עלינו להראות שכל פונקציה ב-C\left(X,\mathbb{R}\right) אשר מתאפסת ב-x_{0} שייכת ל-\mathcal{A} וזה יסיים את ההוכחה למקרה זה. במקרה בו לא קיימת נקודה x_{0} כזו, עלינו להראות שכל פונקציה ב-C\left(X,\mathbb{R}\right) באשר היא שייכת ל-\mathcal{A}. אי לכך, נקבע כעת פונקציה כלשהי g\in C\left(X,\mathbb{R}\right) ואם מתקיים המקרה הראשון, נניח גם ש-g\left(x_{0}\right)=0. מטרתנו היא להראות ש-g שייכת ל-\mathcal{A} ובכך תסתיים ההוכחה. בשני המקרים המדוברים נטפל באופן סימולטני.

תהיינה x ו-y שתי נקודות שונות ב-X ונביט בזוג הסדור שנותן את ערכי g ב-x וב-y, כלומר ב-\left(g\left(x\right),g\left(y\right)\right). אם \mathcal{A}_{x,y}=\mathbb{R}^{2}, אז מן הסתם זוג זה שייך ל-\mathcal{A}_{x,y}, כלומר יש פונקציה f\in\mathcal{A} כך ש-f\left(x\right)=g\left(x\right) ו-f\left(y\right)=g\left(y\right). אם \mathcal{A}_{x,y} הוא לא \mathbb{R}^{2}, הרי שאחת הנקודות x,y היא x_{0}. נניח למשל ש-x=x_{0}. במקרה זה אנו יודעים ש-\mathcal{A}_{x,y}=\left\{ 0\right\} \times\mathbb{R} אבל מאחר שבמקרה זה אנו מניחים ש-g\left(x_{0}\right)=0, הרי שגם אז הזוג \left(g\left(x\right),g\left(y\right)\right) שייך ל-\mathcal{A}_{x,y}, כלומר קיימת פונקציה f\in\mathcal{A} שמזדהה עם g על x ועל y. אגב, מה קורה אם x ו-y הן זהות, כלומר x=y? במקרה זה לדרוש שפונקציה כלשהי f\in\mathcal{A} תזדהה עם g על x ועל y שקול לדרישה ש-f תזדהה עם g רק בנקודה אחת x וברור שיש פונקציה כזו (למה?). אי לכך, אנו מסיקים את המסקנה הבאה: לכל שתי נקודות x,y\in X, קיימת פונקציה f\in\mathcal{A} המזדהה עם g על x ועל y. מראש, זה נראה מוגזם לצפות שרק מכך ינבע ש-g עצמה שייכת ל-\mathcal{A}. אבל מסתבר שזה באמת נכון. ליתר דיוק, אני טוען את הטענה הבאה, באופן בלתי תלוי בכל ההוכחה שלנו עד כה: אם \mathcal{A} היא תת-אלגברה סגורה של C\left(X,\mathbb{R}\right), g\in C\left(X,\mathbb{R}\right) היא כלשהי ולכל שתי נקודות x,y\in X (שונות או זהות) קיימת פונקציה f\in\mathcal{A} המזדהה עם g על x ועל y, אזי g שייכת ל-\mathcal{A}.

הסיבה העיקרית לכך שהטענה המפתיעה הזו נכונה היא הקומפקטיות של X, שבה עוד לא ממש השתמשנו עד כה. קומפקטיות, כידוע, היא מילת קסם שקשה להפריז בחשיבותה. עוד עובדה שבה נשתמש כדי להוכיח את הטענה היא ש-\mathcal{A} סגורה תחת לקיחת מינימום ומקסימום, דבר אשר כבר ראינו. כדי להוכיח את הטענה, ראשית נכניס מספר סימונים. לכל שתי נקודות x,y\in X נסמן ב-f_{xy} פונקציה המזדהה עם g על x ועל y (פונקציה כזו מובטחת מההנחה שלנו ואם יש יותר מאחת כזו, נבחר שרירותית כלשהי). נראה שלכל \varepsilon>0 ניתן למצוא פונקציה f\in\mathcal{A} כך ש-\left\Vert f-g\right\Vert <\varepsilon ומכאן ינבע הדרוש (שכן \mathcal{A} היא סגורה). לשם כך נגדיר את הקבוצות הבאות לכל x,y\in X:

U_{x,y}=\left\{ z\in X:g\left(z\right)<f_{xy}\left(z\right)+\varepsilon\right\}

V_{x,y}=\left\{ z\in X:g\left(z\right)>f_{xy}\left(z\right)-\varepsilon\right\}

אם אנחנו ממש ברי מזל, אז קיימים x,y\in X שעבורם U_{x,y}=V_{x,y}=X ואז סיימנו (הפונקציה f_{xy} תשמש בתור f הדרושה). אחרת, הנה מה שנעשה. נקבע y\in X ונביט באוסף הקבוצות \left\{ U_{x,y}\right\} _{x\in X}. הקבוצות U_{x,y} הן קבוצות פתוחות וכל נקודה ב-X שייכת לקבוצה כלשהי באוסף (ספציפית, x שייכת ל-U_{x,y}, כיוון ש-g\left(x\right)=f_{xy}\left(x\right)). אי לכך, אוסף זה הוא כיסוי פתוח של X ומהקומפקטיות של X נובע שאנחנו יכולים למצוא תת-כיסוי סופי \left\{ U_{x_{j}y}\right\} _{j=1}^{n}. על הקבוצה U_{x_{j}y} מתקיים g\left(z\right)<f_{x_{j}y}\left(z\right)+\varepsilon ולכן עבור נקודה כללית z\in X מתקיים

g\left(z\right)<\max\left(f_{x_{1}}\left(z\right)+\varepsilon.\dots,f_{x_{n}}\left(z\right)+\varepsilon\right)=\max\left(f_{x_{1}}\left(z\right).\dots,f_{x_{n}}\left(z\right)\right)+\varepsilon

אי לכך, אם נגדיר f_{y}=\max\left(f_{x_{1}},\dots,f_{x_{n}}\right) אז f_{y} שייכת ל-\mathcal{A} (שכן \mathcal{A} סגורה תחת מקסימום) ו-g\left(z\right)<f_{y}\left(z\right)+\varepsilon לכל z\in X. כלומר כבר מצאנו פונקציה ב-\mathcal{A} שמקרבת טוב את g מלמעלה. כמו-כן, שימו לב ש-g\left(z\right)>f_{x_{j}y}\left(z\right)-\varepsilon עבור z\in V_{x_{j},y} (לפי הגדרה), לכל j=1,\dots,n. אם z שייכת לכל הקבוצות V_{x_{j},y} אז g\left(z\right)>f_{x_{j}}\left(z\right)-\varepsilon לכל j=1,\dots,n ולכן

g\left(z\right)>\max\left(f_{x_{1}}\left(z\right)-\varepsilon,\dots,f_{x_{n}}\left(z\right)-\varepsilon\right)=f_{y}\left(z\right)-\varepsilon

לכל z\in\bigcap_{j=1}^{n}V_{x_{j},y}. החיתוך \bigcap_{j=1}^{n}V_{x_{j},y} לא יכול להיות ריק, שכן כל אחת מהקבוצות המופיעות בו מכילה את הנקודה y (מאחר ו-f_{x_{j}y}\left(y\right)=g\left(y\right)). מאחר וזהו חיתוך סופי של קבוצות פתוחות, נסיק שהוא מהווה קבוצה פתוחה לא ריקה ונסמנו ב-V_{y}. מצאנו כעת ש-g<f_{y}+\varepsilon על כל X ו-g>f_{y}-\varepsilon על תת-הקבוצה V_{y}. כאמור, הקבוצות V_{y} הן קבוצות פתוחות וכל נקודה ב-X שייכת לאחת מהן. לכן \left\{ V_{y}\right\} _{y\in X} הוא כיסוי פתוח של X ונוכל להוציא ממנו תת-כיסוי סופי \left\{ V_{y_{j}}\right\} _{j=1}^{m}. כפי שראינו קודם, על הקבוצה V_{y_{j}} מתקיים g>f_{y_{j}}-\varepsilon ולכן אם z היא נקודה כלשהי ב-X, אז

g\left(z\right)>\min\left(f_{y_{1}}\left(z\right),\dots,f_{y_{m}}\left(z\right)\right)-\varepsilon

לכן אם נסמן f=\min\left(f_{y_{1}},\dots,f_{y_{m}}\right) אז f\in\mathcal{A} ו-g>f-\varepsilon על X. נוסף לכך, g<f+\varepsilon על X, שכן זה מתקיים עבור כל אחת מהפונקציות f_{y_{1}},\dots,f_{y_{m}} ו-f היא המינימום שלהן. אי לכך, \left|g\left(z\right)-f\left(z\right)\right|<\varepsilon לכל z\in X ולכן \left\Vert f-g\right\Vert <\varepsilon, כדרוש.

נותר לנו רק להשלים חור אחד בהוכחה – העובדה שקיימת סדרת פולינומים ממשיים p_{1},p_{2},\dots, ללא מקדם חופשי, המתכנסת במידה שווה לפונקצית הערך המוחלט על הקטע \left[-1,1\right]. יש הרבה דרכים לייצר סדרה כזו. אתאר דרך שעושה שימוש בפיתוח טיילור, אבל יש גם דרכים אחרות שהן יותר “נקיות” מאינפי. הפונקציה \left|x\right| אינה ניתנת לפיתוח לטור חזקות סביב אפס (היא אפילו לא גזירה שם) ולכן נחוץ פה טריק מסוים. נשים לב ש-

\left|x\right|=\sqrt{x^{2}}=\sqrt{1-\left(1-x^{2}\right)}=\sqrt{1-t}

לאחר ההצבה t=1-x^{2}. שימו לב שכאשר x\in\left[-1,1\right] מתקיים t\in\left[-1,1\right]. לפונקציה \sqrt{1-t} יש פיתוח טיילור סביב t=0 בעל רדיוס התכנסות 1. זו קצת עבודה שחורה, אבל לא קשה לבדוק שהפיתוח הזה הוא

\sqrt{1-t}=1-\frac{1}{2}t-\frac{1}{8}t^{2}-\frac{1}{16}t^{3}-\cdots=1-\sum_{n=1}^{\infty}c_{n}t^{n}

כאשר את המקדם c_{n} ניתן לכתוב באופן מפורש:

c_{n}=-\left(-\frac{1}{2}\right)\left(\frac{1}{2}\right)\left(\frac{3}{2}\right)\cdots\left(\frac{2n-3}{2}\right)\frac{1}{n!}

בפרט, שימו לב ש-c_{n}>0 לכל n. בעזרת מבחני התכנסות סטנדרטיים לטורים (למשל מבחן המנה) ניתן לראות שרדיוס ההתכנסות של הטור \sum c_{n}t^{n} הוא 1. כמובן, זה לא אומר שהטור מתכנס דווקא לפונקציה \sqrt{1-t} עבור \left|t\right|<1 אבל בעוד רגע נראה שזה אכן נכון. לעת עתה, נקבל את זה בתור עובדה. ברגע שקיבלתם את זה, שימוש במשפט אבל מראה שהטור מתכנס לפונקציה גם בקצוות t=-1,1. בפרט, \sum_{n=1}^{\infty}c_{n}=1. מאחר ו- \left|c_{n}t^{n}\right|\le\left|c_{n}\right| לכל \left|t\right|\le1 , ממבחן M של ויירשטראס נובע שטור טיילור של \sqrt{1-t} מתכנס אליה בהחלט ובמידה שווה על כל הקטע \left[-1,1\right]. זה פחות או יותר מסיים את העניינים. אם נציב כעת t=1-x^{2} חזרה נקבל ש-\left|x\right|=1-\sum_{n=1}^{\infty}c_{n}\left(1-x^{2}\right)^{n} וההתכנסות היא במידה שווה ובהחלט עבור x\in\left[-1,1\right]. לכן אם נגדיר q_{N}\left(x\right)=1-\sum_{n=1}^{N}c_{n}\left(1-x^{2}\right)^{n} נקבל שסדרת הפולינומים q_{N}\left(x\right) מתכנסת ל-\left|x\right| במ”ש ובהחלט על \left[-1,1\right]. המקדם החופשי של הפולינום q_{N} הוא

q_{N}\left(0\right)=1-\sum_{n=1}^{N}c_{n}

כזכור \sum_{1}^{\infty}c_{n}=1 ולכן הפולינומים q_{N} אינם בעלי מקדם חופשי אפס אבל המקדם החופשי של q_{N} שואף לאפס כאשר N\to\infty. לכן אם נגדיר p_{N}\left(x\right)=q_{N}\left(x\right)-q_{N}\left(0\right) אז נקבל סדרת פולינומים p_{1},p_{2},\dots ללא מקדם חופשי אשר מתכנסת במ”ש ובהחלט על \left[-1,1\right] ל-\left|x\right|-0, כלומר ל-\left|x\right|.

נותר רק להראות שטור טיילור של \sqrt{1-t} מתכנס אליה עבור t\in\left(-1,1\right). אפשר לעשות זאת על ידי בחינת השארית שבקירוב, תוך שימוש במשפט טיילור. כאן אציג דרך אחרת ואלגנטית יותר לטעמי, תוך שימוש במשוואות דיפרנציאליות. נראה שטור טיילור של \sqrt{1-t} מקיים משוואה דיפרנציאלית מסוימת ואז נראה שהפונקציה t\mapsto\sqrt{1-t} היא הפתרון היחיד של המשוואה (עד כדי קבוע). לפיכך הפונקציה שהטור מגדיר בהכרח מזדהה עם \sqrt{1-t}. נסמן מעתה f\left(t\right)=\sqrt{1-t}, כאשר t\in\left(-1,1\right). כזכור, טור הטיילור של f הוא

g\left(t\right):=1-\sum_{n=1}^{\infty}c_{n}t^{n}=1+\sum_{n=1}^{\infty}\left(-\frac{1}{2}\right)\left(\frac{1}{2}\right)\left(\frac{3}{2}\right)\cdots\left(\frac{2n-3}{2}\right)\frac{1}{n!}t^{n}

והוא מתכנס עבור t\in\left(-1,1\right). מטרתנו היא להראות ש-f=g בקטע \left(-1,1\right). מאחר ו-g היא טור חזקות, מותר לגזור אותה איבר-איבר ולכן

g'\left(t\right)=-\sum_{n=1}^{\infty}nc_{n}t^{n-1}=\sum_{n=1}^{\infty}\left(-\frac{1}{2}\right)\left(\frac{1}{2}\right)\left(\frac{3}{2}\right)\cdots\left(\frac{2n-3}{2}\right)\frac{1}{\left(n-1\right)!}t^{n-1}

g' נראית די דומה ל-g. ספציפית, אחרי קצת ניסוי וטעייה, ניתן למצוא את הקשר הפורמלי הבא ביניהן: g\left(t\right)=-2\left(1-t\right)g'\left(t\right). אכן, הצבה של g ו-g' נותנת:

1-\sum_{n=1}^{\infty}c_{n}t^{n}=2\sum_{n=0}^{\infty}\left(n+1\right)c_{n+1}t^{n}-2\sum_{n=1}^{\infty}nc_{n}t^{n}

ומהשוואות מקדמים נובע שהשוויון לעיל שקול לכך ש-1=2c_{1} (כפי שקל לבדוק) ולכך שהשוויון הבא מתקיים לכל n:

-c_{n}=2\left(n+1\right)c_{n+1}-2nc_{n}

כלומר c_{n+1}=\frac{2n-1}{2}\cdot\frac{1}{n+1}c_{n} וזוהי נוסחת נסיגה שמתקיימת באופן טריוויאלי עבור המקדמים c_{n}. אי לכך, g מקיימת את המשוואה הדיפרנציאלית y\left(t\right)=-2\left(1-t\right)y'\left(t\right) בקטע \left(-1,1\right). מצד שני, קל לבדוק ש-f\left(t\right)=\sqrt{1-t} גם היא מקיימת משוואה זו. תוך שימוש בשיטות סטנדרטיות של מד”ר (למשל הפרדת משתנים) קל לבדוק ש-f היא הפתרון היחיד (עד כדי קבוע כפלי) למשוואה זו, אבל הנה דרך יותר אד-הוקית לראות זאת: אם y הוא פתרון כלשהו למשוואה אז כל כפל שלו בקבוע גם נותן פתרון למשוואה. לכן אנו מצפים שהפתרון הכללי יהיה C\sqrt{1-t} כאשר C קבוע שרירותי. לשם כך די להראות ש-y\left(t\right)\left(1-t\right)^{-1/2} היא פונקציה קבועה, כאשר y הוא פתרון כלשהו של המשוואה. זהו תרגיל בגזירה פשוטה:

\frac{d}{dt}\left[y\left(t\right)\left(1-t\right)^{-1/2}\right]=y'\left(t\right)\left(1-t\right)^{-1/2}+\frac{1}{2}y\left(t\right)\left(1-t\right)^{-3/2}

וכעת אם נציב y\left(t\right)=-2\left(1-t\right)y'\left(t\right) נקבל אפס. על כן y\left(t\right)=C\sqrt{1-t} לאיזשהו קבוע C. בפרט, במקרה שלנו g\left(t\right)=C\sqrt{1-t} לקבוע מסוים C. מאחר ו-g\left(0\right)=1 מקבלים ש-C=1 ולכן טור טיילור של f אכן מזדהה עם f, כדרוש.

על משפט סטון-ויירשטראס וכמה משימושיו

משפט מפורסם של ויירשטראס אומר שאם f:\left[a,b\right]\to\mathbb{R} היא פונקציה רציפה, אז ניתן לקרב אותה טוב כרצוננו בקטע \left[a,b\right] על ידי פולינום, כלומר לכל \varepsilon>0 קיים פולינום p\left(x\right)=a_{0}+a_{1}x+\cdots+a_{n}x^{n} כך ש-\left|f\left(x\right)-p\left(x\right)\right|<\varepsilon לכל x\in\left[a,b\right]. בניסוח שקול, לכל פונקציה ממשית רציפה על קטע סגור וחסום יש סדרת פולינומים p_{1}\left(x\right),p_{2}\left(x\right),\dots המתכנסת לפונקציה במידה שווה על קטע זה. משפט זה יכול להיות מאוד מפתיע בפעם הראשונה שרואים אותו, כיוון שיש פונקציות רציפות מאוד מוזרות (למשל פונקציית ויירשטראס, שאינה גזירה באף נקודה), שלא היינו מצפים שניתן לקרב אותן במידה שווה על ידי פונקציות כל כך נחמדות כמו פולינומים. אחת מהעובדות שמאפשרות ל”נס” הזה להתרחש היא שאם סדרה של פונקציות f_{1},f_{2},\dots מתכנסת במידה שווה לפונקציה f (באיזשהו קטע \left[a,b\right]) וכל הפונקציות בסדרה הן גזירות בקטע, הפונקציה f בהחלט לא חייבת להיות גזירה בו, אפילו לא בנקודה אחת. רציפות, לעומת זאת, היא תכונה “רכה” יותר והיא עוברת בירושה לגבול של סדרת פונקציות המתכנסת במ”ש.

כמובן, יש מספר פונקציות רציפות מפורסמות שאנחנו כבר מכירים פולינומים שמקרבים אותן במידה שווה. למשל, אם f\left(x\right)=e^{x} ואנחנו מסתכלים על f באיזשהו קטע סגור וחסום \left[a,b\right], אז טור טיילור של f, שהוא \sum_{n=0}^{\infty}\frac{x^{n}}{n!} מתכנס ל-f במידה שווה, כלומר סדרת הפולינומים P_{N}\left(x\right)=\sum_{n=0}^{N}\frac{x^{n}}{n!} מתכנסת במידה שווה ל-f על \left[a,b\right] כאשר N\to\infty. אנחנו מכירים טורים דומים עבור פונקציות הסינוס, קוסינוס, הלוגריתם וכו’. למרות זאת, טור טיילור לא משחק תפקיד בהוכחת המשפט של ויירשטראס ואין שום סיבה שהוא ישחק תפקיד. הרי אם לפונקציה יש טור טיילור שמתכנס אליה אז היא בהכרח חלקה (כלומר גזירה אינסוף פעמים בקטע \left(a,b\right)) וכאמור, ההנחה היחידה במשפט ויירשטראס היא שהפונקציה היא רציפה (יתרה מזאת, יש הרבה פונקציות חלקות שטור טיילור שלהן לא מתכנס אליהן בשום נקודה פרט לזו שסביבה פותח הטור).

למשפט של ויירשטראס יש כמה הוכחות. אחת מהן היא הוכחה קונסטרוקטיבית יפה של סרגיי ברנשטיין, אשר נותנת סדרה קונקרטית של פולינומים p_{1},p_{2},\dots המתכנסת במידה שווה לפונקציה f. הרבה מההוכחות האחרות הן לא קונסטרוקטיביות ורק אומרות לנו שקיימת סדרת פולינומים כזו, אבל עבור מרבית האפליקציות של המשפט זה די והותר. בפוסט הזה לא אדבר על ההוכחה של ברנשטיין או על משפט ויירשטראס עצמו אלא על הכללה מרחיקת לכת שלו בשם משפט סטון-ויירשטראס. הכללה זו הוכחה על ידי מרשל סטון, אשר מצא מהי התכונה החשובה והמרכזית של פולינומים אשר בזכותה ניתן לקרב כל פונקציה על קטע סגור וחסום באמצעותם (אציין כבר עכשיו שלתכונה זו אין שום קשר לכך שפולינומים הם פונקציות חלקות או גזירות). יתרה מזאת, ההכללה של סטון תקפה לכל מרחב טופולוגי קומפקטי שמקיים את אקסיומת האוסדורף (שימו לב שכל קטע סגור וחסום \left[a,b\right] הוא כזה).

לפני שאתאר את ההכללה, מוטב לומר כמה מילים כלליות על פונקציות רציפות. דיברתי בעבר על אלגבראות בנך וציינתי שאם X הוא מרחב טופולוגי קומפקטי (לרוב מניחים שהוא גם האוסדורף וכך אעשה גם אני), אז C\left(X,\mathbb{R}\right), שהוא אוסף כל הפונקציות הרציפות מ-X ל-\mathbb{R}, מהווה אלגברת בנך קומוטטיבית ועם יחידה. במילים אחרות, אנחנו מציידים אוסף זה של פונקציות עם פעולות של חיבור, כפל בסקלר וכפל פונקציות (כל הפעולות נעשות נקודתית, כמובן) ועם נורמת הסופרמום, המוגדרת על ידי:

\left\Vert f\right\Vert =\sup_{x\in X}\left|f\left(x\right)\right|

שימו לב שהסופרמום סופי כיוון שפונקציה ממשית רציפה על מרחב קומפקטי היא חסומה. פעולות אלה מקיימות את האקסיומות האלגבריות המוכרות והפונקציה הקבועה 1 מהווה איבר יחידה באלגברה. \left\Vert \cdot\right\Vert מהווה נורמה תת-כפלית על האלגברה, כלומר היא מקיימת ש-\left\Vert f\cdot g\right\Vert \le\left\Vert f\right\Vert \left\Vert g\right\Vert לכל שתי פונקציות f,g\in C\left(X,\mathbb{R}\right) ולבסוף, C\left(X,\mathbb{R}\right) הוא מרחב מטרי שלם ביחס למטריקה המושרית d\left(f,g\right)=\left\Vert f-g\right\Vert , כלומר כל סדרת קושי היא סדרה מתכנסת. התכנסות במטריקה זו היא פשוט התכנסות במידה שווה, כך שזה פשוט אומר שסדרה של פונקציות רציפות על X המתכנסת במ”ש, מתכנסת לפונקציה רציפה על X. אם X=\left[a,b\right] ו-\mathcal{P}\left[a,b\right] מסמן את אוסף כל הפולינומים p:\left[a,b\right]\to\mathbb{R} (בעלי מקדמים ממשיים), אז המשפט של ויירשטראס פשוט אומר שכל איבר ב-C\left(\left[a,b\right],\mathbb{R}\right) ניתן לקירוב במידה שווה על ידי איבר ב-\mathcal{P}\left[a,b\right], ובמילים אחרות, \mathcal{P}\left[a,b\right] היא קבוצה צפופה ב-C\left(\left[a,b\right],\mathbb{R}\right).

סטון שם לב שלקבוצה \mathcal{P}\left[a,b\right] יש כמה תכונות נחמדות מאוד בתור תת-קבוצה של C\left(\left[a,b\right],\mathbb{R}\right). ראשית כל, היא מהווה תת-אלגברה. כלומר סכום, כפל בסקלר וכפל של פולינומים נותן פולינום. שנית, היא מכילה את איבר היחידה, כלומר את הפונקציה הקבועה 1 (פונקציה זו היא כמובן פולינום). במילים אחרות, \mathcal{P}\left[a,b\right] היא תת-אלגברה עם יחידה. סטון שאל שאלה כללית: אם X הוא מרחב האוסדורף קומפקטי ו-\mathcal{A} היא תת-אלגברה עם יחידה של C\left(X,\mathbb{R}\right), תחת אילו תנאים \mathcal{A} היא צפופה ב-C\left(X,\mathbb{R}\right)? (למעשה הוא שאל שאלה קצת אחרת, אבל זה לא כל כך משנה). בבירור דרוש תנאי כלשהו, שכן אוסף כל הפונקציות הקבועות מ-X ל-\mathbb{R} מהווה תת-אלגברה עם יחידה, אבל כל גבול במידה שווה של סדרת פונקציות קבועות הוא בהכרח פונקציה קבועה, כך שאוסף זה יהיה צפוף ב-C\left(X,\mathbb{R}\right) אם ורק אם C\left(X,\mathbb{R}\right) מכיל אך ורק פונקציות קבועות, שזה מאורע בלתי סביר בעליל (למעשה, ניתן להוכיח שזה אף פעם לא נכון, ובמקרה בו X=\left[a,b\right], זה ברור מאליו).

אם כן, סטון חיפש את התנאי המיוחד של אלגברת הפולינומים \mathcal{P}\left[a,b\right] אשר מביא לכך שהיא צפופה ב-C\left(\left[a,b\right],\mathbb{R}\right). מסתבר שהתכונה החשובה של \mathcal{P}\left[a,b\right] היא שהיא מפרידה נקודות. פירוש הדבר הוא שלכל שתי נקודות x_{1},x_{2}\in\left[a,b\right] אשר שונות זו מזו, יש פולינום p\in\mathcal{P}\left[a,b\right] כך ש-p\left(x_{1}\right)\ne p\left(x_{2}\right). למעשה, לא צריך ללכת רחוק מדי – פולינום הזהות p\left(x\right)\equiv x בבירור מקיים זאת. נניח כעת ש-X הוא מרחב האוסדורף קומפקטי ו-\mathcal{A} היא תת-אלגברה עם יחידה של C\left(X,\mathbb{R}\right). מה קורה אם \mathcal{A} אינה מפרידה נקודות? זה אומר שיש שתי נקודות x_{1},x_{2}\in\left[a,b\right] שונות זו מזו, כך שעבור כל פונקציה f\in\mathcal{A} מתקיים f\left(x_{1}\right)=f\left(x_{2}\right). במקרה זה, אם f_{1},f_{2},\dots היא סדרה של פונקציות מתוך \mathcal{A} המתכנסת במידה שווה לפונקציה f, אז f_{n}\left(x_{1}\right)=f_{n}\left(x_{2}\right) לכל n ולכן f\left(x_{1}\right)=f\left(x_{2}\right) (כיוון שהתכנסות במידה שווה גוררת התכנסות נקודתית) ולכן כל גבול במידה שווה של פונקציות מתוך \mathcal{A} ייתן ערך זהה ל-x_{1} ו-x_{2}. אי לכך, אם יש פונקציה ב-C\left(X,\mathbb{R}\right) אשר נותנת ערכים שונים ל-x_{1} ו-x_{2} (למעשה ניתן להוכיח שתמיד יש כזו), אז לא נוכל לקרבה באמצעות \mathcal{A} (בפרט, לא נוכל לקרב פונקציות רציפות שהן חד-חד-ערכיות). אי לכך, הפרדת נקודות היא תנאי הכרחי לכך ש-\mathcal{A} תהיה צפופה ב-C\left(X,\mathbb{R}\right). משפט סטון-ויירשטראס אומר שתנאי זה, אשר לכאורה חלש למדי, מהווה תנאי מספיק!

הנה כמה דוגמאות. הדוגמה הבסיסית, כמובן, היא ש-X=\left[a,b\right] (קטע סגור וחסום כלשהו) ו-\mathcal{A}=\mathcal{P}\left[a,b\right], שכמובן מהווה אלגברה עם יחידה שמפרידה נקודות. בוא נניח כעת ש-X=\left[-1,1\right] וניקח את \mathcal{A} להיות אוסף כל הפונקציות הזוגיות הרציפות מ-\left[-1,1\right] ל-\mathbb{R}, כלומר פונקציות רציפות f:\left[-1,1\right]\to\mathbb{R} המקיימות f\left(x\right)=f\left(-x\right) לכל x\in\left[-1,1\right]. קל לבדוק שסכום, כפל בסקלר וכפל של פונקציות זוגיות מהווה פונקציה זוגית ולכן \mathcal{A} היא אלגברה. הפונקציה הקבועה 1 היא פונקציה זוגית ולכן \mathcal{A} היא אלגברה עם יחידה. האם \mathcal{A} מפרידה נקודות? התשובה היא לא, למשל כי f\left(-1\right)=f\left(1\right) לכל f\in\mathcal{A}. אי לכך, \mathcal{A} אינה צפופה ב-C\left(\left[-1,1\right],\mathbb{R}\right). אם ניקח את \mathcal{A} להיות אוסף כל הפונקציות האי-זוגיות הרציפות על \left[-1,1\right], אז \mathcal{A} איננה אלגברה, מאחר ומכפלה של שתי פונקציות אי-זוגיות היא דווקא פונקציה זוגית (למשל, x\cdot x=x^{2}). ניתן לראות בכל מקרה ש-\mathcal{A} לא יכולה להיות צפופה ב-C\left(\left[-1,1\right],\mathbb{R}\right) כיוון שכל פונקציה ב-\mathcal{A} שווה ל-0 בראשית הצירים ולכן כל גבול במידה שווה של סדרה מתוך \mathcal{A} גם הוא יקיים זאת.

הנה דוגמה יותר מעניינת – תחילה נקבע מספר טבעי N\ge1. ניקח X=\left[a,b\right] ובתור \mathcal{A} נבחר את אוסף כל הפולינומים על \left[a,b\right] כך שהמקדמים של ה”מונומים” x,x^{2},x^{3},\dots,x^{N} בפולינום הם כולם אפס. במילים אחרות, איבר ב-\mathcal{A} הוא פולינום מהצורה p\left(x\right)=a_{0}+a_{N+1}x^{N+1}+\cdots+a_{M}x^{M} עבור איזשהו M\ge N+1. קל לבדוק ש-\mathcal{A} היא אלגברה עם יחידה. נוסף לכך, היא מפרידה נקודות: אם x_{1}\ne x_{2} הן נקודות שונות בקטע \left[a,b\right], אז ניקח את p\left(x\right) להיות פולינום ב-\mathcal{A} מהצורה x^{r}, כאשר r מספר טבעי אי-זוגי. אז p\left(x\right) היא פונקציה מונוטונית עולה ממש ולכן בפרט חד-חד-ערכית. לכן p\left(x_{1}\right)\ne p\left(x_{2}\right). אם כן, לפי משפט סטון-ויירשטראס, \mathcal{A} צפופה ב-C\left(\left[a,b\right],\mathbb{R}\right), כלומר כל פונקציה רציפה על \left[a,b\right] ניתנת לקירוב טוב כרצוננו על ידי פולינום שהמעריך הכי קטן של מונום בו הוא N+1 (את N עלינו לבחור מראש, אבל אין שום מגבלה בבחירתו. למשל, ניתן לקחת את N להיות מיליון).

הנה דוגמה שבה X הוא לא קטע ב-\mathbb{R}. נקבע טבעי כלשהו n וקבוצה K\subset\mathbb{R}^{n} שהיא קומפקטית (או באופן שקול, סגורה וחסומה). נסמן ב-\mathcal{A} את אוסף כל הפולינומים p\left(x_{1},x_{2},\dots,x_{n}\right) ב-n משתנים עם מקדמים ממשיים. אז \mathcal{A} היא בבירור תת-אלגברה עם יחידה של C\left(K,\mathbb{R}\right) והיא גם מפרידה נקודות: אם \left(t_{1},\dots,t_{n}\right),\left(s_{1},\dots,s_{n}\right) הן שתי נקודות ב-K, אז יש קואורדינטה כלשהי שבה הן שונות, כלומר t_{j}\ne s_{j} לאיזשהו 1\le j\le n. כעת אם ניקח p\left(x_{1},\dots,x_{n}\right)=x_{j}, אז p מחזיר את t_{j} עבור הנקודה \left(t_{1},\dots,t_{n}\right) ואת s_{j} עבור הנקודה האחרת ולכן הוא מפריד בין שתי הנקודות (p כמובן שייך ל-\mathcal{A}). לפיכך אלגברת הפולינומים ב-n משתנים על K צפופה באוסף הפונקציות הרציפות על K, כלומר כל פונקציה רציפה על K ניתן לקרב במידה שווה על ידי פולינום ב-n משתנים.

ניתוח קטן של התורה הכללית של אלגבראות מאפשר ליצור שלל דוגמאות נוספות. נניח ש-\mathcal{Y} היא אלגברת בנך (מעל \mathbb{R}) וש-y\in\mathcal{Y} הוא איבר כלשהו באלגברה (עבור אלה שלא מרגישים בנוח עם התורה הכללית, אני מציע לחשוב על \mathcal{Y} כעל מרחב של פונקציות רציפות ועל y כעל פונקציה ספציפית במרחב). אז יש תת-אלגברה מינימלית המכילה את y, אשר אסמן ב-\mathcal{A}\left[y\right]. תת-אלגברה זו היא פשוט חיתוך כל תתי-האלגבראות של \mathcal{Y} שמכילות את y. ניתן לתאר אותה גם באופן קונקרטי יותר: היא צריכה להיות סגורה תחת כפל ולכן צריכה להכיל את כל החזקות הטבעיות של y, כלומר את y,y^{2},y^{3},\dots. נוסף לכך, היא צריכה להיות סגורה תחת צירופים לינאריים ולכן כל צירוף לינארי של חזקות טבעיות של y צריך להיות שייך אליה: \sum_{i=1}^{n}a_{i}y^{i}. אי לכך \mathcal{A}\left[y\right] מכילה לפחות את כל הצירופים הלינאריים של חזקות טבעיות של y. אבל אם מחברים או כופלים בסקלר או כופלים שני צירופים לינאריים כאלה מקבלים עוד צירוף לינארי כזה ומאחר ו-\mathcal{A}\left[y\right] היא תת-האלגברה הקטנה ביותר המכילה את y, הרי שהיא מורכבת בדיוק מהצירופים הלינאריים של חזקות טבעיות של y. ניתן לחשוב עליה כעל אוסף כל ה”פולינומים ב-y ללא מקדם חופשי”, אבל לעיתים זה מוביל למסקנות מוטעות (למשל, ייתכן ש-y הוא איבר שמקיים y=y^{2}, כמו איבר האפס, וזה יחס שלא מתקיים בפולינומים). אם \mathcal{Y} היא אלגברת בנך עם יחידה, אז לרוב מעדיפים להסתכל על תת-האלגברה הקטנה ביותר שמכילה גם את y וגם את היחידה (שאסמן ב-1). תת-אלגברה זו היא פשוט \mathcal{A}\left[y\right]\cup\left\{ \lambda\cdot1:\lambda\in\mathbb{R}\right\} , כלומר איבריה הם “פולינומים ב-y עם מקדם חופשי”. בפוסט זה אסמן אותה ב-\mathcal{A}_{1}\left[y\right].

נחזור עכשיו למקרה הפרטי שלנו, בו \mathcal{Y}=C\left(X,\mathbb{R}\right), כאשר X מרחב האוסדורף קומפקטי, ונניח ש-h היא פונקציה ממשית רציפה על X. נסמן ב-h^{n} את החזקה ה-n-ית של h, כלומר את הפונקציה h^{n}\left(x\right):=\left(h\left(x\right)\right)^{n}. אז במקרה זה \mathcal{A}\left[h\right] הוא אוסף כל הצירופים הלינאריים של הפונקציות h,h^{2},h^{3},\dots ו-\mathcal{A}_{1}\left[y\right] הוא אוסף כל הצירופים הלינאריים של הפונקציות 1,h,h^{2},\dots. למעשה, אם X=\left[a,b\right] ו-h היא פונקציית הזהות, אז \mathcal{A}_{1}\left[h\right] הוא פשוט אוסף כל הפולינומים על \left[a,b\right]. כעת שיש לנו דרך כללית למדי ליצור תתי-אלגבראות עם יחידה, נרצה למצוא קריטריון נוח לבדיקה אם הן מפרידות נקודות או לא. נניח ש-h היא חד-חד-ערכית על X. אז במקרה זה \mathcal{A}_{1}\left[h\right] מפרידה נקודות, כי אם x_{1}\ne x_{2} הן ב-X, אז h\left(x_{1}\right)\ne h\left(x_{2}\right). מצד שני, אם \mathcal{A}_{1}\left[h\right] מפרידה נקודות, אז בהכרח h היא חד-חד-ערכית. כדי לראות זאת, נניח ש-x_{1}\ne x_{2} ונניח בשלילה ש-h\left(x_{1}\right)=h\left(x_{2}\right). אז כל פולינום ב-h (עם או בלי מקדם חופשי) גם הוא ייתן ערך זהה ל-x_{1} ול-x_{2}. בכך מתקבלת סתירה לכך ש-\mathcal{A}_{1}\left[h\right] מפרידה נקודות. אי לכך, אנחנו מקבלים את הטענה הפשוטה הבאה: אם h היא פונקציה רציפה על X, אז תת-האלגברה עם יחידה הנוצרת על ידה, \mathcal{A}_{1}\left[h\right], היא צפופה ב-C\left(X,\mathbb{R}\right) אם ורק אם h היא חד-חד-ערכית על X. במקרה בו X=\left[a,b\right], ידוע מאינפי שפונקציה רציפה על \left[a,b\right] היא חד-חד-ערכית אם ורק אם היא מונוטונית ממש. לכן במקרה זה ניתן להחליף את דרישת החד-חד-ערכיות בדרישה של מונוטוניות ממש.

זה מאפשר לנו לייצר מגוון של דוגמאות. אם \left[a,b\right] הוא קטע סגור וחסום כלשהו, אז פונקציית האקספוננט e^{x} היא מונוטונית עולה ממש בו ולכן האלגברה עם יחידה הנוצרת על ידה היא צפופה באוסף כל הפונקציות הרציפות על \left[a,b\right]. כלומר כל פונקציה רציפה על \left[a,b\right] ניתנת לקירוב במידה שווה על ידי צירוף לינארי של 1,e^{x},e^{2x},e^{3x},\dots, כלומר פונקציה מהצורה a_{0}+a_{1}e^{x}+a_{2}e^{2x}+\cdots+a_{k}e^{kx}, כאשר ה-a_{i}-ים הם סקלרים ממשיים. באופן דומה, אם ניקח את X להיות הקטע \left[-\frac{\pi}{2},\frac{\pi}{2}\right], אז פונקציית הסינוס h\left(x\right)=\sin x היא מונוטונית עולה ממש בו ולכן כל פונקציה רציפה על \left[-\frac{\pi}{2},\frac{\pi}{2}\right] ניתנת לקירוב במידה שווה על ידי צירוף לינארי של חזקות טבעיות של סינוס ושל הפונקציה הקבועה, כלומר פונקציה מהצורה a_{0}+a_{1}\sin x+a_{2}\sin^{2}x+\cdots+a_{k}\sin^{k}x. הקוראים מוזמנים למצוא דוגמאות משעשעות נוספות.

במקרים רבים יש עדיפות להסתכלות על פונקציות קומפלקסיות במקום פונקציות ממשיות וניתן לתהות אם משפט סטון-ויירשטראס, כפי שנוסח, נכון גם כאשר מחליפים את C\left(X,\mathbb{R}\right) ב-C\left(X,\mathbb{C}\right) שהוא אוסף הפונקציות הרציפות מ-X ל-\mathbb{C} (זוהי אלגברת בנך מעל \mathbb{C}, כפי שקל לבדוק). התשובה היא לא. אם למשל X הוא עיגול היחידה הסגור ב-\mathbb{C} ונביט באלגברה של כל הפולינומים הקומפלקסיים p\left(z\right) על X, אז אלגברה זו מפרידה נקודות (תוך שימוש בפונקצייה p\left(z\right)=z) ומכילה את היחידה, אבל היא לא יכולה להיות צפופה ב-C\left(X,\mathbb{C}\right) מסיבה פשוטה למדי – המכשלה שלא הייתה קיימת במקרה של פונקציות מ-\mathbb{R} ל-\mathbb{R} פתאום קיימת כאן: סדרה של פונקציות הולומורפיות המתכנסת במידה שווה בהכרח מקיימת שפונקציית הגבול היא הולומורפית. מאחר ופולינומים הם כמובן פונקציות הולומורפיות, הרי שכל פונקציה רציפה על עיגול היחידה הפתוח שאינה הולומורפית לא ניתנת לקירוב במידה שווה על ידי פולינומים.

היה ניתן לצפות מראש שתתעורר בעייתיות שכזו, שכן במקרה הממשי דרשנו מ-\mathcal{A} להיות סגורה תחת כל הפעולות האלגבריות שהוגדרו על C\left(X,\mathbb{R}\right) (חיבור, כפל בסקלר, כפל ולהכיל את היחידה). במקרה של C\left(X,\mathbb{C}\right) יש לנו פעולה נוספת – הצמדה קומפלקסית: אם f פונקציה רציפה על X, אז ההצמדה שלה, שהיא \bar{f}\left(x\right)=\overline{f\left(x\right)}, גם היא פונקציה רציפה על X. אם כן, ניתן לנחש שהדרישה ש-\mathcal{A} תהיה סגורה תחת הצמדה תיתן נוסח מתוקן של משפט סטון-ויירשטראס וזה אכן המצב. ההוכחה נובעת בצורה פשוטה למדי מגרסת המשפט במקרה הממשי: אם \mathcal{A} היא תת-אלגברה עם יחידה של C\left(X,\mathbb{C}\right) שסגורה תחת הצמדה, אז נגדיר תת-אלגברה \mathcal{B}\subseteq C\left(X,\mathbb{R}\right) באופן הבא:

\mathcal{B}=\left\{ \mbox{Re}\left(f\right):f\in\mathcal{A}\right\}

ראשית, זהו תת-מרחב של C\left(X,\mathbb{R}\right), שהרי אם f_{1},f_{2}\in\mathcal{A} ו-\alpha_{1},\alpha_{2}\in\mathbb{R}, אז

\alpha_{1}\mbox{Re}\left(f_{1}\right)+\alpha_{2}\mbox{Re}\left(f_{2}\right)=\mbox{Re}\left(\alpha_{1}f_{1}+\alpha_{2}f_{2}\right)

ו-\alpha_{1}f_{1}+\alpha_{2}f_{2}\in\mathcal{A} שהרי \mathcal{A} אלגברה. כעת נראה ש-\mathcal{B} סגורה תחת כפל. אם f,g\in\mathcal{A}, אז

\mbox{Re}\left(f\right)\mbox{Re}\left(g\right)=\frac{f+\bar{f}}{2}\cdot\frac{g+\bar{g}}{2}=\frac{fg+\bar{f}g+f\bar{g}+\bar{f}\bar{g}}{4}

מאחר ו-\mathcal{A} היא אלגברה שסגורה תחת הצמדה, הרי שהמכפלה לעיל לפחות נמצאת ב-\mathcal{A}. אבל המכפלה היא פונקציה ממשית (כמכפלה של פונקציות ממשיות) ולכן אם נסמן h=\frac{fg+\bar{f}g+f\bar{g}+\bar{f}\bar{g}}{4}, אז

\mbox{Re}\left(f\right)\mbox{Re}\left(g\right)=h=\mbox{Re}\left(h\right)

ו-h\in\mathcal{A}. לכן \mathcal{B} היא אכן תת-אלגברה של C\left(X,\mathbb{R}\right). היא מכילה את היחידה (שהיא הפונקציה הקבועה 1), כי זו פונקציה ממשית ו-\mathcal{A} מכילה אותה לפי הנחה. לבסוף, \mathcal{B} מפרידה נקודות, שכן אם x_{1}\ne x_{2} אז מההנחה על \mathcal{A}, יש f\in\mathcal{A} כך ש-f\left(x_{1}\right)\ne f\left(x_{2}\right). אם \mbox{Re}\left(f\left(x_{1}\right)\right)\ne\mbox{Re}\left(f\left(x_{2}\right)\right), אז הפונקציה \mbox{Re}\left(f\right) ב-\mathcal{B} מפרידה בין x_{1} ל-x_{2}. אחרת \mbox{Re}\left(f\left(x_{1}\right)\right)=\mbox{Re}\left(f\left(x_{2}\right)\right). מנימוק דומה לזה שלפיו \mathcal{B} סגורה תחת כפל, מקבלים ש-f-\mbox{Re}\left(f\right) גם היא שייכת ל-\mathcal{A} ואז מהסגירות של \mathcal{A} תחת כפל בסקלר (קומפלקסי!), מקבלים ש-\mbox{Im}\left(f\right) שייכת ל-\mathcal{A}. כיוון ש-f שונה על x_{1} ו-x_{2} אך חלקיה הממשיים זהים עליהם, הרי ש-\mbox{Im}\left(f\left(x_{1}\right)\right)\ne\mbox{Im}\left(f\left(x_{2}\right)\right) ומאחר ו-\mbox{Im}\left(f\right) היא פונקציה ממשית, זה שקול לכך ש-\mbox{Re}\left(\mbox{Im}\left(f\left(x_{1}\right)\right)\right)\ne\mbox{Re}\left(\mbox{Im}\left(f\left(x_{2}\right)\right)\right) וכזכור \mbox{Im}f היא ב-\mathcal{A}. לכן \mathcal{B} מפרידה נקודות. כעת לפי משפט סטון-ויירשטראס הממשי, \mathcal{B} צפופה ב-C\left(X,\mathbb{R}\right). כיוון ש-\mathcal{B} מוכלת ב-\mathcal{A} (מנימוקים דומים לנ”ל), הרי ש-\mathcal{A}\cap C\left(X,\mathbb{R}\right) צפופה ב-C\left(X,\mathbb{R}\right). אבל \mathcal{A} מכילה את הפונקציה הקבועה i (למה?) ומכאן קל להסיק ש-\mathcal{A} צפופה ב-C\left(X,\mathbb{C}\right).

תת-אלגברה שסגורה תחת הצמדה נקראת לעיתים גם תת-אלגברת-* (יש הגיון כללי מאחורי השם הזה, אבל לא אכנס לזה כרגע). למען השלמות, הנה הנוסח המלא של משפט סטון-ויירשטראס בגרסתו הקומפלקסית: אם X הוא מרחב האוסדורף קומפקטי ו-\mathcal{A} היא תת-אלגברת-* עם יחידה של C\left(X,\mathbb{C}\right), אז \mathcal{A} צפופה ב-C\left(X,\mathbb{C}\right) אם ורק אם היא מפרידה נקודות. כמו במקרה הממשי, עבור פונקציה h\in C\left(X,\mathbb{C}\right), ניתן להתבונן ב-\mathcal{A}_{1}\left[h\right], קרי תת-האלגברה הקטנה ביותר של C\left(X,\mathbb{C}\right) המכילה h. איבריה הם עדיין צירופים לינאריים של חזקות של h (ושל 1), אם כי כעת הסקלרים בכל צירוף לינארי יכולים להיות קומפלקסיים. כיוון שבמקרה הקומפלקסי אנחנו מתעניינים באלגבראות שסגורות גם תחת הצמדה, נסמן ב-\mathcal{A}_{1}^{*}\left[h\right] את תת-האלגברה הקטנה ביותר של C\left(X,\mathbb{C}\right) המכילה את 1 ו-h וסגורה תחת הצמדה. מנימוקים דומים לאלה שבמקרה הממשי, ניתן לראות שאיבר כללי ב-\mathcal{A}_{1}^{*}\left[h\right] הוא “פולינום בשני המשתנים h,\bar{h}“, כלומר משהו מהצורה \sum_{j,k=0}^{n}a_{j,k}h^{j}\bar{h}^{k}. כמו-כן, מנימוקים דומים, האלגברה \mathcal{A}_{1}^{*}\left[h\right] מפרידה נקודות אם ורק אם h היא חד-חד-ערכית על X.

הנוסח הנ”ל של המשפט מאפשר לי לסגור חור מהפוסט הקודם וגם לתקן טעות קטנה שאמרתי בו. כזכור, בפוסט הקודם התבוננו באוסף הפונקציות \left\{ e^{2\pi inx}\right\} _{n=-\infty}^{\infty} מ-\left[0,1\right] ל-\mathbb{C} וטענתי שכל פונקציה רציפה מ-\left[0,1\right] ל-\mathbb{C} היא גבול במידה שווה של צירופים לינאריים של פונקציות מאוסף זה. שימו לב שאוסף כל הצירופים הלינאריים הללו הוא לא פחות ולא יותר מאשר \mathcal{A}_{1}^{*}\left[e^{2\pi ix}\right], מאחר ומכפלה של שתי פונקציות (או הצמדה של פונקציה) מהצורה e^{2\pi inx} היא פונקציה מאותה צורה. לפיכך הטענה לעיל נכונה אם ורק אם הפונקציה e^{2\pi ix} היא חד-חד-ערכית על הקטע \left[0,1\right]. זה לא נכון משום שהיא שווה ל-1 בשתי קצוות הקטע. לכן הטענה, בניסוחה הנוכחי, שגויה. למרות זאת, הפונקציה לעיל היא “כמעט” חד-חד-ערכית, כלומר היא חח”ע אם מעיפים את 1 או את 0 מהקטע. הבעיה היא שאז הקטע כבר לא יהיה קומפקטי ולא נוכל להפעיל את משפט סטון-ויירשטראס. הפתרון הוא לבצע זיהוי בין שתי הנקודות 0 ו-1 לכדי נקודה אחת. כפי שציינתי בפוסט הקודם, זה שקול ללחשוב על הקטע כעל מעגל ולכן בכך מתקבל מרחב קומפקטי, שניתן לזהות בין פונקציות עליו לבין פונקציות על \left[0,1\right] שערכן ב-0 ו-1 הוא זהה. במקרה זה אכן ניתן להפעיל את משפט סטון-וירשטראס ולקבל ש-\mathcal{A}_{1}^{*}\left[e^{2\pi ix}\right] צפופה באוסף הפונקציות הרציפות על מרחב זה (או באופן שקול, אוסף הפונקציות הרציפות על \left[0,1\right] שערכן ב-0 ו-1 הוא זהה). זה לא גורע מההוכחה שנתתי להתפלגות במ”ש של x_{n}=\left\{ n\alpha\right\} בפוסט הקודם כיוון שהדרישה ש-

\frac{1}{N}\sum_{n=1}^{N}f\left(x_{n}\right)\to\int_{0}^{1}f\left(t\right)dt

לכל f:\left[0,1\right]\to\mathbb{C} רציפה שקולה לדרישה זו עבור כל f רציפה שערכה ב-0 ו-1 הוא זהה (הרי הסדרה x_{n} ממילא מוכלת בקטע \left[0,1\right) והאינטגרל של f לא תלוי בערכה של f ב-0 או ב-1).

כמובן, זה לא באמת מסיים את הסיפור, כי לא הוכחתי את משפט סטון-ויירשטראס (בגרסתו הממשית). את ההוכחה אתאר בפוסט הבא, יחד עם עוד כמה שימושים מעניינים של המשפט.

על התפלגות במידה שווה של סדרות בקטע היחידה

בפוסט הקודם אמרתי כמה מילים כלליות על התורה הארגודית, וכדוגמה נתתי את ה”מערכת” \left(\left[0,1\right),T_{\alpha}\right), כאשר T_{\alpha}:\left[0,1\right)\to\left[0,1\right) הוגדרה על ידי T_{\alpha}\left(x\right)=x+\alpha\,\left(\mbox{mod }1\right). הוכחתי, תוך שימוש בעקרון שובך היונים, שאם \alpha הוא מספר אי-רציונלי, אז כל מסלול של T_{\alpha} מהווה קבוצה צפופה בקטע \left[0,1\right). במילים אחרות, לכל x\in\left[0,1\right), הסדרה \left\{ x+n\alpha\,\left(\mbox{mod }1\right)\right\} _{n=0}^{\infty} מהווה קבוצה צפופה ב-\left[0,1\right). נוסף לכך, ציינתי שהמסלולים של T_{\alpha} מקיימים למעשה תכונה חזקה יותר – הם מפולגים במידה שווה בקטע \left[0,1\right) (כמובן, עדיין תחת ההנחה ש-\alpha הוא אי-רציונלי). בפוסט הזה ארחיב קצת על העובדה הזו וגם אספק הוכחה (פחות או יותר מלאה) לטענה.

נתחיל בלתת הגדרה פורמלית להתפלגות במידה שווה. אם כן, תהי \left\{ x_{n}\right\} _{n=1}^{\infty} סדרה של מספרים בקטע \left[0.1\right]. אומרים שהסדרה מתפלגת במידה שווה (או מתפלגת באופן אחיד) בקטע \left[0,1\right] אם לכל תת-קטע \left(a,b\right)\subset\left[0,1\right] מתקיים:

\lim_{N\to\infty}\frac{\left|\left\{ x_{n}\right\} _{n=1}^{N}\cap\left(a,b\right)\right|}{N}\to b-a

באופן מילולי, אחוז האיברים מתוך הסדרה ששייכים לקטע \left(a,b\right)שווה לאורך הקטע. למרות שהסדרה \left\{ x+n\alpha\,\left(\mbox{mod }1\right)\right\} _{n=0}^{\infty} שדיברנו עליה חיה בקטע \left[0,1\right), אין ממש חשיבות להוספת הנקודה 1 בהגדרה (זה לא יקשה או יקל על הסדרה להתפלג אחיד), אבל זה יועיל בהמשך מבחינות טכניות מסוימות (בעיקר משום ש-\left[0,1\right] הוא קטע קומפקטי).

ניתן לכתוב את ההגדרה לעיל גם בשפה מעט אחרת. אם \chi_{\left(a,b\right)} מסמן את הפונקציה המציינת של הקטע \left(a,b\right) (כלומר, היא 1 על \left(a,b\right) ו-0 מחוצה לו), אז קל לראות שמתקיים

\frac{\left|\left\{ x_{n}\right\} _{n=1}^{N}\cap\left(a,b\right)\right|}{N}=\frac{1}{N}\sum_{n=1}^{N}\chi_{\left(a,b\right)}\left(x_{n}\right)=\sum_{n=1}^{N}\chi_{\left(a,b\right)}\left(x_{n}\right)\cdot\frac{1}{N}

שימו לב שהביטוי שקיבלנו נראה כמו סכום רימן של הפונקציה \chi_{\left(a,b\right)} על הקטע \left[0,1\right], בחלוקה של \left[0,1\right] ל-N קטעים שווי-אורך, כך שאורכו של כל אחד מהם הוא \frac{1}{N}. זה לא באמת סכום רימן של \chi_{\left(a,b\right)} כי אין שום סיבה שהנקודות x_{n} יהיו שייכות לקטעים אלה בחלוקה של \left[0,1\right] (למשל אם x_{n} היא סדרה קבועה). למרות זאת, שימו לב שהאינטגרל של \chi_{\left(a,b\right)} על הקטע \left[0,1\right] הוא b-a, כלומר הדרישה להתפלגות במידה שווה שקולה לכך ש-

\lim_{N\to\infty}\frac{1}{N}\sum_{n=1}^{N}\chi_{\left(a,b\right)}\left(x_{n}\right)=\int_{0}^{1}\chi_{\left(a,b\right)}\left(t\right)dt

לכל קטע \left(a,b\right)\subset\left[0,1\right]. כלומר הסדרה \left\{ x_{n}\right\} מתפלגת במידה שווה על \left[0,1\right] אם “סכומי הרימן” של \chi_{\left(a,b\right)} שהיא יוצרת לעיל מתכנסים באמת לאינטגרל של \chi_{\left(a,b\right)}, עבור כל קטע \left(a,b\right)\subset\left[0,1\right], כאילו הם היו סכומי רימן אמיתיים.

זו בסך הכול הצגה אחרת של ההגדרה של התפלגות במידה שווה, במונחי פונקציות במקום במונחי קבוצות (ספציפית, תתי-קטעים \left(a,b\right)\subset\left[0,1\right]). למרות זאת, היא מיד תתגלה כהצגה נוחה ופורה במיוחד. הסיבה לכך היא שכאשר אנו עוסקים בפונקציות (או לפחות פונקציות “חלקות” מספיק) אנחנו יכולים לנסות להשתמש בשיטות מאנליזה ומתחומים מתמטיים אחרים, בעוד שעם קבוצות קצת קשה יותר לעבוד, אפילו כשהקבוצות הן נחמדות למדי (קטעים, במקרה זה). אז הנה מה שנעשה – נניח שיש לנו שתי פונקציות מציינות \chi_{\left(a,b\right)},\chi_{\left(c,d\right)} של תתי-קטעים של \left[0,1\right] ואנו מסתכלים על צירוף לינארי שלהן \alpha\chi_{\left(a,b\right)}+\beta\chi_{\left(c,d\right)}. אם הסדרה \left\{ x_{n}\right\} מתפלגת במידה שווה ב-\left[0,1\right], אז

\lim_{N\to\infty}\frac{1}{N}\sum_{n=1}^{N}\left[\alpha\chi_{\left(a,b\right)}+\beta\chi_{\left(c,d\right)}\right]\left(x_{n}\right)=\alpha\lim_{N\to\infty}\frac{1}{N}\sum_{n=1}^{N}\chi_{\left(a,b\right)}\left(x_{n}\right)+\beta\lim_{N\to\infty}\frac{1}{N}\sum_{n=1}^{N}\chi_{\left(c,d\right)}\left(x_{n}\right)

מלינאריות הגבול, ולכן הגבול לעיל שווה ל-

\alpha\int_{0}^{1}\chi_{\left(a,b\right)}\left(t\right)dt+\beta\int_{0}^{1}\chi_{\left(c,d\right)}\left(t\right)dt=\int_{0}^{1}\left[\alpha\chi_{\left(a,b\right)}+\beta\chi_{\left(c,d\right)}\right]\left(t\right)dt

במילים אחרות, אם הסדרה \left\{ x_{n}\right\} מתפלגת במידה שווה ב-\left[0,1\right), אז הביטוי \frac{1}{N}\sum_{n=1}^{N}f\left(x_{n}\right) שואף לאינטגרל של f לא רק כאשר f היא פונקציה מציינת של קטע \left(a,b\right), אלא גם כאשר היא צירוף לינארי של שתי פונקציות כאלה. בניסוח אחר, הטענה:

\left(\star\right)\quad\lim_{N\to\infty}\frac{1}{N}\sum_{n=1}^{N}f\left(x_{n}\right)\to\int_{0}^{1}f\left(t\right)dt

היא “לינארית ב-f“, כלומר מרגע שהיא נכונה עבור שתי פונקציות f,g, היא נכונה גם עבור כל צירוף לינארי שלהן. לכן באופן כללי אם f_{1},\dots,f_{k} הן פונקציות מציינות של קטעים ב-\left[0,1\right] ו-\alpha_{1},\dots,\alpha_{k} הם סקלרים ממשיים, אז \left(\star\right) נכון גם עבור f:=\sum_{i=1}^{k}\alpha_{i}f_{i}. פונקציה שכזו נקראת פונקציית מדרגות.

עבור אילו עוד פונקציות \left(\star\right) יתקיים אם \left\{ x_{n}\right\} מתפלגת במידה שווה? ובכן, אגף ימין מכיל אינטגרל של הפונקציה, כך שנגביל את עצמנו למחלקת הפונקציות האינטגרביליות רימן. כעת, מה עוד נוכל לומר על \left(\star\right)? ובכן, אם f_{1},f_{2},\dots היא סדרה של פונקציות אינטגרביליות רימן מ-\left[0,1\right] ל-\mathbb{R} שמתכנסת במידה שווה לפונקציה f וכל אחת מהפונקציות בסדרה מקיימת את \left(\star\right), אז גם פונקצית הגבול f מקיימת את \left(\star\right). כדי לראות זאת, שימו לב שלפי אי-שוויון המשולש:

\left|\frac{1}{N}\sum_{n=1}^{N}f\left(x_{n}\right)-\int_{0}^{1}f\left(t\right)dt\right|\le\left|\frac{1}{N}\sum_{n=1}^{N}f\left(x_{n}\right)-\frac{1}{N}\sum_{n=1}^{N}f_{k}\left(x_{n}\right)\right|+\left|\frac{1}{N}\sum_{n=1}^{N}f_{k}\left(x_{n}\right)-\int_{0}^{1}f_{k}\left(t\right)dt\right|+\left|\int_{0}^{1}f_{k}\left(t\right)dt-\int_{0}^{1}f\left(t\right)dt\right|

וזאת לכל k ו-N טבעיים. נרצה להראות שאם N הוא מספיק גדול, אז כל אחד משלושת המחוברים הוא קטן. את המחובר הראשון ניתן לרשום בצורה

\frac{1}{N}\left|\sum_{n=1}^{N}\left[f\left(x_{n}\right)-f_{k}\left(x_{n}\right)\right]\right|

וכעת באמצעות אי-שוויון המשולש, ניתן להעריך אותו מלעיל על ידי

\frac{1}{N}\sum_{n=1}^{N}\left|f\left(x_{n}\right)-f_{k}\left(x_{n}\right)\right|

נרצה להיפטר מההופעה של n בסכימה ולשם כך נעריך

\left|f\left(x_{n}\right)-f_{k}\left(x_{n}\right)\right|\le\sup_{0\le x\le1}\left|f\left(x\right)-f_{k}\left(x\right)\right|

זה שואף לאפס כאשר k\to\infty, פשוט משום שזוהי ההגדרה של התכנסות במידה שווה של f_{k} ל-f. באשר למחובר השני, כאשר מחזיקים את k קבוע ומשאיפים את N לאינסוף, הוא שואף לאפס (שהרי אנו מניחים ש-f_{k} מקיימת את \left(\star\right)). לגבי המחובר השלישי, עלינו רק להיזכר במשפט מאינפי שאומר שגבול במידה שווה של סדרת פונקציות אינטגרביליות רימן גם הוא פונקציה אינטגרבילית רימן והאינטגרלים של איברים הסדרה שואפים לאינטגרל של הגבול. לכן גם המחובר השלישי שואף לאפס. יש לנו למעשה את כל מה שאנחנו צריכים ועכשיו רק צריך לאחד בחוכמה את כל הקירובים האלו כדי לקבל את התוצאה הדרושה. יהי \varepsilon>0. תחילה ניקח את k להיות טבעי מספיק גדול כך ש-

\sup_{0\le x\le1}\left|f\left(x\right)-f_{k}\left(x\right)\right|<\varepsilon

וכך ש-

\left|\int_{0}^{1}f_{k}\left(t\right)dt-\int_{0}^{1}f\left(t\right)dt\right|<\varepsilon

לכן עבור k זה נקבל

\left|\frac{1}{N}\sum_{n=1}^{N}f\left(x_{n}\right)-\int_{0}^{1}f\left(t\right)dt\right|\le2\varepsilon+\left|\frac{1}{N}\sum_{n=1}^{N}f_{k}\left(x_{n}\right)-\int_{0}^{1}f_{k}\left(t\right)dt\right|

כעת, מאחר ועבור k זה, הפונקציה f_{k} מקיימת את \left(\star\right), יש N_{0} די גדול כך ש-

\left|\frac{1}{N}\sum_{n=1}^{N}f_{k}\left(x_{n}\right)-\int_{0}^{1}f_{k}\left(t\right)dt\right|<\varepsilon

לכל N>N_{0}. לכן לכל N>N_{0} נקבל ש-

\left|\frac{1}{N}\sum_{n=1}^{N}f\left(x_{n}\right)-\int_{0}^{1}f\left(t\right)dt\right|\le3\varepsilon

לכן (על פי הגדרת הגבול), \frac{1}{N}\sum_{n=1}^{N}f\left(x_{n}\right)\to\int_{0}^{1}f\left(t\right)dt כאשר N\to\infty.

מה המסקנה מכל זה? ראינו שהתפלגות במידה שווה גוררת ש-\left(\star\right) מתקיים לכל פונקציית מדרגות ושקיום של \left(\star\right) עבור סדרה מתכנסת במ”ש של פונקציות גורר שגם פונקציית הגבול מקיימת את \left(\star\right). מכאן נובע שכל גבול במידה שווה של פונקצייית מדרגות גם הוא מקיים את \left(\star\right). לכן \left(\star\right) מתקיים עבור מחלקה גדולה למדי של פונקציות. למשל, כל פונקציה רציפה על \left[0,1\right] היא גבול במידה שווה של פונקציית מדרגות (זה תרגיל לא קשה, אבל גם לא טריוויאלי, להראות זאת, ואני משאיר אותו לכם), אבל יש גם פונקציות לא רציפות שהן כאלה, למשל הפונקציות המציינות שהתחלנו איתן. למרות זאת, אני מציע את ההגדרה הבאה כהגדרה שקולה להתפלגות במ”ש: סדרה \left\{ x_{n}\right\} _{n=1}^{\infty} בקטע \left[0,1\right] מתפלגת במ”ש בקטע אם לכל פונקציה רציפה f:\left[0,1\right]\to\mathbb{R} מתקיים

\frac{1}{N}\sum_{n=1}^{N}f\left(x_{n}\right)\to\int_{0}^{1}f\left(t\right)dt

כאשר N\to\infty. הגדרה זו בבירור נגררת תחת ההגדרה הקודמת, לפי שרשרת הטיעונים שלנו. עם זאת, היא גם גוררת את ההגדרה הקודמת, אבל לא באופן מיידי. פונקציה מציינת של קטע, \chi_{\left(a,b\right)}, היא לא רציפה, אבל יש לה בסך הכול שתי נקודות אי-רציפות (מסוג קפיצה). אי לכך, ניתן לקרב אותה על ידי פונקציות רציפות פשוטות למדי – פונקציות לינאריות למקוטעין. כלומר, את החלק של הגרף של הפונקציה ש”נופל” מיד מ-1 ל-0 בנקודות a ו-b, נחליף בישרים שיורדים מ-1 ל-0 ובכך נקבל פונקציה רציפה שקרובה ל-\chi_{\left(a,b\right)}. אני משאיר לקוראים להפוך את הנימוק הזה לריגורוזי.

עוד הגדרה שהיא שקולה (באופן טריוויאלי למדי) היא לדרוש שהנ”ל יתקיים לכל פונקציה רציפה f:\left[0,1\right]\to\mathbb{C}. פונקציה כזו היא פשוט צירוף לינארי u+iv של פונקציות ממשיות רציפות u,v:\left[0,1\right]\to\mathbb{C} ולכן מיד מקבלים שזה שקול להגדרה הקודמת מעצם העובדה שטענת ההתכנסות היא “לינארית ב-f“, כפי שציינו כבר קודם. במקרים מסוימים זה נוח למדי לאפשר פונקציות קומפלקסיות וגם במקרה הזה זה קצת ייקל על החיים שלנו, כפי שנראה בהמשך.

להגדרה החדשה שלנו להתפלגות אחידה יש יתרון אחד מהותי ביחס להגדרה הקודמת. כעת כדי להראות שסדרה מסוימת היא מפולגת אחיד ב-\left[0,1\right], די להוכיח טענה מסוימת על פונקציות רציפות, ולא על קבוצות או על פונקציות מציינות, שהם אובייקטים פחות “רגולריים”. בוא נחזור למקרה הספציפי של הסדרה x_{n}=x+n\alpha\,\left(\mbox{mod }1\right) עבור \alpha אי-רציונלי. כזכור, התפלגות במ”ש שלה עבור x כלשהו שקולה להתפלגות במ”ש שלה לכל x, לכן נוכל להרשות לעצמנו להניח ש-x=0, כלומר להתעסק רק עם הסדרה x_{n}=n\alpha\,\left(\mbox{mod }1\right). כדי לפשט את הסימונים, מעתה אסמן ב-\left\{ y\right\} את החלק העשרוני של המספר y, במקום לרשום \left(\mbox{mod }1\right). בכתיב זה, הסדרה שלנו היא x_{n}=\left\{ n\alpha\right\} . הסימון הזה מתנגש עם הסימון של קבוצה ב-\left\{ \cdot\right\} , אבל קשה לי להאמין שזה יגרום לבלבול.

למרות היתרון המדובר של ההגדרה החדשה, היא עדיין לא הופכת את שאלת ההתפלגות האחידה של \left\{ n\alpha\right\} _{n=1}^{\infty} ב-\left[0,1\right] לטריוויאלית. העניין הוא שלמרות ש-n\alpha,\, n=1,2,\dots היא סדרה פשוטה למדי (זוהי סדרה חשבונית), x_{n}=\left\{ n\alpha\right\} היא פחות פשוטה וקשה ללמוד את ההתנהגות שלה ביחס לפונקציה רציפה כללית על \left[0,1\right]. למשל, אם ניקח את f להיות f\left(x\right)=x לכל x, אז לא ברור בכלל למה \frac{1}{N}\sum_{n=1}^{N}\left\{ n\alpha\right\} אמור לשאוף ל-\int_{0}^{1}x\, dx=\frac{1}{2} כאשר N\to\infty. המטרה שלנו היא לנסות למצוא פונקציות רציפות f:\left[0,1\right]\to\mathbb{C} שעבורן קל לענות על שאלת ההתכנסות. הנה משפחה שלמה של פונקציות כאלה שכנראה אתם כבר מכירים: עבור כל מספר שלם m, נגדיר את הפונקציה f_{m}:\left[0,1\right]\to\mathbb{C} שהיא

f_{m}\left(x\right)=e^{2\pi imx}=\cos\left(2\pi mx\right)+i\sin\left(2\pi mx\right)

למה ההתנהגות של x_{n} על פונקציות כאלה היא פשוטה להבנה? ובכן, אם נציב את x_{n} ב-f_{m}, נקבל

f_{m}\left(x_{n}\right)=e^{2\pi imx_{n}}=e^{2\pi im\left\{ n\alpha\right\} }

והפלא ופלא, זה פשוט שווה ל-e^{2\pi imn\alpha}, מסיבה פשוטה מאוד – אם y מספר ממשי כלשהו ו-\left[y\right] מסמן את חלקו השלם של y, אז

e^{2\pi im\left\{ y\right\} }=e^{2\pi im\left(y-\left[y\right]\right)}=e^{2\pi imy}e^{-2\pi im\left[y\right]}=e^{2\pi imy}

שהרי e^{2\pi ir}=1 לכל מספר שלם r. אם כן, האקספוננטים המרוכבים e^{2\pi imx} “מעיפים” את החלק השברי מ-n\alpha ובעיניהם x_{n} היא סדרה חשבונית למהדרין. זה עדיין לא אומר שקל להבין לאן מתכנס הממוצע \frac{1}{N}\sum_{n=1}^{N}e^{2\pi imx_{n}}, אבל במקרה הזה זה דווקא קל, כי כמו שאמרנו n\alpha,\, n=1,2,\dots היא סדרה חשבונית ולכן e^{2\pi imn\alpha} (עבור m קבוע) היא סדרה הנדסית. יש לנו נוסחה לסכום של סדרה הנדסית סופית: \sum_{n=1}^{N}q^{n}=q\cdot\frac{q^{N}-1}{q-1}. נוסחה זו נכונה כל עוד q\ne1 וזה אכן המקרה כאן כל עוד m\ne0. זאת משום שאצלנו q=e^{2\pi im\alpha} וזה שונה מ-1 אם ורק אם m\alpha איננו מספר שלם וכיוון ש-\alpha הוא אי-רציונלי, זה נכון אם ורק אם m שונה מאפס. אם כן, לפי נוסחה זו,

\sum_{n=1}^{N}e^{2\pi imn\alpha}=\sum_{n=1}^{N}\left(e^{2\pi im\alpha}\right)^{n}=e^{2\pi im\alpha}\cdot\frac{e^{2\pi im\alpha N}-1}{e^{2\pi im\alpha}-1}

לכל m שונה מאפס. שימו לב ש-\left|e^{2\pi im\alpha N}\right|=1 לא משנה מהו N ולכן

\left|\frac{1}{N}\sum_{n=1}^{N}e^{2\pi imn\alpha}\right|=\frac{1}{N}\left|e^{2\pi im\alpha}\right|\frac{\left|e^{2\pi im\alpha N}-1\right|}{\left|e^{2\pi im\alpha}-1\right|}\le\frac{1}{N}\cdot\frac{2}{\left|e^{2\pi im\alpha}-1\right|}

לפי אי-שוויון המשולש. לכן כאשר N\to\infty מתקיים \frac{1}{N}\sum_{n=1}^{N}e^{2\pi imn\alpha}\to0. האם זוהי התוצאה שאנו מצפים לה? ובכן,

\int_{0}^{1}e^{2\pi imt}dt=\left.\frac{e^{2\pi imt}}{2\pi im}\right|_{0}^{1}=\frac{1}{2\pi im}-\frac{1}{2\pi im}=0

עבור m\ne0. כאשר m=0, הפונקציה המתקבלת היא f_{0}\left(x\right)=e^{2\pi i\cdot0\cdot x}=1, כלומר פונקציה קבועה 1 ולכן \frac{1}{N}\sum_{n=0}^{N-1}f_{0}\left(x_{n}\right)=1 לכל N והגבול יהיה 1. זו גם התוצאה שצריכה להתקבל, שכן \int_{0}^{1}1dt=1.

לפיכך, הוכחנו שהממוצעים \frac{1}{N}\sum_{n=1}^{N}f\left(x_{n}\right) מתכנסים ל-\int_{0}^{1}f כל עוד f היא אחת מהפונקציות f_{m}\left(x\right)=e^{2\pi imx}. אבל איך זה עוזר לנו עם הטענה הכללית? ובכן, ראשית כל, מהסיבה הרגילה של לינאריות, אנחנו כעת יודעים שהטענה נכונה לכל פונקציה שהיא צירוף לינארי של פונקציות כאלה. כמו-כן, אנחנו יודעים שאם הטענה נכונה לסדרה כלשהי של פונקציות אשר מתכנסת במ”ש אז היא נכונה גם עבור פונקציית הגבול. לכן בכך הראנו שהטענה נכונה לכל פונקציה שהיא גבול במידה שווה של צירופים לינאריים של הפונקציות f_{m}. אבל אילו פונקציות רציפות f:\left[0,1\right]\to\mathbb{C} הן כאלה? מסתבר שכולן! זוהי אחת מהתוצאות היפות בתורה של טורי פורייה – עבור כל פונקציה רציפה מ-\left[0,1\right] ל-\mathbb{C} יש סדרה של פונקציות g_{1},g_{2},\dots מ-\left[0,1\right] ל-\mathbb{C} אשר מתכנסת אליה במ”ש, כך שכל אחת מהפונקציות g_{i} היא צירוף לינארי של פונקציות מתוך האוסף \left\{ f_{m}\right\} _{m=-\infty}^{\infty} (הערה: זה לא בדיוק נכון ודרוש פה תיקון קטן מסוים, אותו תיארתי בדיעבד בפוסט הבא). התוצאה לרוב מוכחת באמצעות משפט (יפה בפני עצמו) בשם משפט סטון-ויירשטראס, אשר אולי אדבר עליו בעתיד. לעת עתה נשים לב לשני דברים. ראשית, מעובדה זו אנחנו מיד מקבלים כעת שהסדרה x_{n}=\left\{ n\alpha\right\} מפולגת אחיד ב-\left[0,1\right]. שנית, הנימוקים לעיל מראים, באופן כללי לחלוטין, שאם x_{n} היא סדרה של מספרים בקטע \left[0,1\right], אז היא מתפלגת במידה שווה בו אם ורק אם לכל m\ne0 מתקיים:

\lim_{N\to\infty}\frac{1}{N}\sum_{n=1}^{N}e^{2\pi imx_{n}}=0

כלומר מספיק לבדוק את \left(\star\right) עבור אקספוננטים מרוכבים. עובדה זו ידועה בתור קריטריון וייל והיא משמשת כדי להוכיח תוצאות רבות על התפלגות במ”ש. עבור סדרות מורכבות יותר מ-x_{n}=\left\{ n\alpha\right\} , השימוש בקריטריון הוא פחות מיידי משהיה במקרה זה, אבל הוא עדיין נותן דרך אפקטיבית להתמודד עם הבעיה.

אולי כדאי לסכם כעת את שלבי ההוכחה שלנו. התחלנו בכך שניתחנו מה פירוש הדבר עבור סדרה כלשהי להיות מפולגת אחיד ב-\left[0,1\right]. עשינו שימוש בכך שהאובייקטים המופיעים בהגדרה של התפלגות במ”ש מכבדים צירופים לינאריים והתכנסות במ”ש והשתמשנו בכך בכדי “לתפוס”את כל הפונקציות הרציפות על \left[0,1\right] רק תוך שימוש בפונקציות שהתחלנו איתן (פונקציות מציינות של קטעים פתוחים, שהן פונקציות יחסית פשוטות). לאחר מכן שמנו לב שבכך קיבלנו הגדרה שקולה להתפלגות במ”ש, אשר עושה שימוש דווקא בפונקציות רציפות. מרגע שעשינו זאת, הפכנו את נקודת המבט שלנו – כעת הספיק לנו למצוא אוסף של פונקציות רציפות אשר עבורן הטענה קלה להוכחה, כך שכל פונקציה רציפה אחרת ניתנת לקירוב במידה שווה על ידי צירופים לינאריים של פונקציות באוסף זה (כאן שוב ניצלנו את העובדה שהתכונה שחיפשנו מכבדת צירופים לינאריים והתכנסות במ”ש). הפונקציות שמצאנו, האקספוננטים המרוכבים, “יוצרות” את אוסף כל הפונקציות הרציפות על \left[0,1\right] באותו מובן שפונקציות מציינות של קטעים פתוחים יוצרות אותו (כלומר, רק תוך שימוש בהתכנסות במ”ש של צירופים לינאריים), אבל עליהן ההתנהגות של הסדרה שלנו הייתה משמעותית קלה יותר להבנה. זוהי תופעה שכיחה למדי במתמטיקה – קשה לנו להבין מחלקה גדולה ומסובכת עם הרבה אובייקטים, אז אנחנו מנסים למצוא תת-מחלקה קטנה ונחמדה שלה שבעזרתה ניתן לקרב היטב כל איבר במחלקה הגדולה. בכך מקבלים רדוקציה של הבעיה לשאלה כלשהי על אובייקטים יותר נחמדים.

שימו לב שההגדרה הפשוטה והתמימה של התכנסות במ”ש הובילה אותנו די מהר לשימוש עמוק למדי באנליזה. נוסף לכך, משפט סטון-ויירשטראס הוא עובדה עמוקה למדי בטופולוגיה והרעיון הכללי של קירוב פונקציה רציפה באמצעות אקספוננטים מרוכבים מוביל לתורה העמוקה של טורי פורייה, העושה שימוש באלגברה לינארית ובאנליזה פונקציונלית. לנושא יש גם קשר הדוק עם תורה ארגודית, כפי שציינתי כבר בפוסט הקודם. למעשה, ניתן לתת הוכחה לכך ש-x_{n}=\left\{ n\alpha\right\} מפולגת אחיד ב-\left[0,1\right] גם בשיטות של תורה ארגודית, ואולי אראה זאת בעתיד. עובדה עמוקה יותר היא שלכל k טבעי, הסדרה \left\{ n^{k}\alpha\right\} ,\, n=1,2,\dots מפולגת אחיד ב-\left[0,1\right] עבור \alpha אי-רציונלי. במקרה זה אפילו העובדה שהסדרה צפופה ב-\left[0,1\right] היא לא ברורה ולא טריוויאלית. למרות זאת, זה אכן המצב וניתן להשתמש בקריטריון וייל או בשיטות של תורה ארגודית בכדי להראות זאת, אם כי כבר עבור k=2 יש צורך ביותר תחכום מאשר במקרה k=1. למשל, מראש לא ברור למה \frac{1}{N}\sum_{n=1}^{N}e^{2\pi imn^{2}\alpha} שואף לאפס כאשר N\to\infty, כאשר \alpha הוא אי-רציונלי ו-m\ne0 (שימו לב שכעת לא מדובר בטור הנדסי פשוט). בעיני זה יפה איך שהגדרה מתמטית פשוטה ואינטואיטיבית מובילה לתיאוריה עמוקה ומעניינת ומשתלבת בצורה טבעית למדי עם משפטים ותחומים אחרים במתמטיקה.

כמה מילים על התורה הארגודית

כפי שאתם רואים, הבלוג עבר לבית חדש, זאת בשל סגירתו הקרובה של בלוגלי. מעתה ואילך פוסטים חדשים יופיעו רק כאן. אני יודע שאני חייב לכם פוסטים על לא מעט דברים מעניינים (משפט גלפנד-מזור, מידת ומימד האוסדורף) ואני מבטיח להשלים חובות אלה, אבל יש נושא אחר שנראה לי שמתבקש להגיד עליו כמה מילים בעת זו. כפי שרבים מכם ודאי שמעו, פרופסור אילון לינדנשטראוס מהאוניברסיטה העברית קיבל לפני כשבועיים מדליית פילדס, שהיא כנראה הפרס הכי “נחשב” שניתן כיום למתמטיקאים (לעיתים אומרים שפרס פילדס הוא “פרס נובל למתמטיקה”). מחקרו של לינדנשטראוס, למיטב הבנתי, עוסק בהיבטים שונים של דינמיקה מתמטית, לרבות תורה ארגודית ושימושיה לתורת המספרים. ההבנה שלי של עבודתו הספציפית של לינדנשטראוס בתחום היא מאוד מצומצמת, כך שלא אוכל לומר עליה הרבה (יש סקירה קצרה של עבודתו, על ידי הלל פרסטנברג, כאן, אבל דרוש ידע מוקדם מסוים בכדי להבין אותה במלואה). מה שכן, החלטתי לומר כמה מילים כלליות על מה זה תורה ארגודית ומה עושים בה. ניסיתי לכתוב את הפוסט כך שכל מי שיש לו ידע בסיסי במתמטיקה יוכל להבין אותו, ואני מקווה שפחות או יותר הצלחתי בכך.

באופן תמציתי, ניתן לומר שהתורה הארגודית (ובכלל, דינמיקה מתמטית) מתעניינת בהתנהגות של מערכות דינמיות בטווח הארוך, מנקודת מבט סטטיסטית. זה משפט מעורפל למדי, שכנראה לא אומר הרבה למישהו שלא יודע מראש במה מתעסקים בתורה ארגודית, אבל כמה דוגמאות אמורות להסביר היטב במה מדובר. נביט בקטע החצי-פתוח \left[0,1\right) ונשים לב שמוגדרת עליו פעולה של חיבור מודולו 1. למה הכוונה? קחו שני מספרים x ו-y בקטע, תחברו אותם ותמחקו את החלק השלם מהתוצאה. תקבלו שוב מספר בקטע \left[0,1\right), שמסומן x+y\,\left(\mbox{mod }1\right). למעשה, פעולת החיבור הזו נותנת לקטע מבנה של חבורה אם כי זה לא כל כך חשוב כרגע. לעיתים ארשום בהמשך פשוט x+y (ואשמיט את ה-\left(\mbox{mod }1\right)) כדי לפשט את הסימונים, אבל תמיד הכוונה היא שהתוצאה נלקחת מודולו החלק השלם שלה. כעת נקבע מספר \alpha>0 ונביט בהעתקה T:\left[0,1\right)\to\left[0,1\right) המוגדרת על ידי T_{\alpha}\left(x\right)=x+\alpha\,\left(\mbox{mod }1\right). הדרך לחשוב על זה היא שאני עומד בהתחלה בנקודה x\in\left[0,1\right) וכעבור יחידת זמן אחת אני נמצא בנקודה x+\alpha\,\left(\mbox{mod }1\right)\in\left[0,1\right). אחרי שתי יחידות זמן אני נמצא בנקודה T_{\alpha}\left(T_{\alpha}\left(x\right)\right)=x+2\alpha (מודולו 1) וכולי. הסייג היחיד הוא שאחרי שאני יוצא מתחומי הקטע \left[0,1\right) אני צריך לחזור אליו על ידי מחיקת החלק השלם מהמיקום הנוכחי שלי. ניתן לחשוב על זה כעל תנועה מעגלית, כאילו עיקמתי את הקטע \left[0,1\right) לכדי מעגל (כך שבפרט שני קצוות הקטע מזוהים עם נקודה אחת בלבד) ואני הולך על המעגל במהירות קבועה.

מה שתיארתי לעיל הוא מערכת דינמית שמקובל לסמן למשל ב-\left(\left[0,1\right),T_{\alpha}\right). שאלה אחת שנוגעת להתנהגות ארוכת הטווח של המערכת היא כדלקמן: כתלות בנקודת ההתחלה x, האם המסע שלי במערכת הוא מחזורי, כלומר האם אני חוזר לנקודת ההתחלה x אחרי מספר סופי כלשהו של צעדים? בניסוח אחר, האם יש r>0 טבעי כך ש-T_{\alpha}^{r}\left(x\right)=x (כאן T_{\alpha}^{r} מסמן הרכבה של T_{\alpha} עם עצמה r פעמים, כמובן)? באופן שקול, השאלה היא האם ה”מסלול”\left\{ x,T_{\alpha}\left(x\right),T_{\alpha}^{2}\left(x\right),\dots\right\} הוא קבוצה סופית. אם לא, אז המסלול הוא קבוצה אינסופית וניתן לשאול עד כמה הוא מכסה את הקטע \left[0,1\right). המסלול הוא כמובן קבוצה בת-מנייה כך שהוא לעולם לא יהיה שווה לכל הקטע \left[0,1\right), אבל האם הוא מתקרב קרוב כרצוננו לכל נקודה בקטע, כלומר האם לכל \varepsilon>0 ולכל y\in\left[0,1\right) אוכל למצוא r>0 טבעי כך ש-T_{\alpha}^{r}\left(x\right) נמצא במרחק של \varepsilon לכל היותר מ-y? בניסוח אחר, אני שואל האם המסלול מהווה קבוצה צפופה בקטע \left[0,1\right). השאלות הללו אינן שאלות קשות, אך הן גם לא טריוויאליות. עובדה אחת, למשל, שהיא אולי מפתיעה, היא שבהכרח מתקיימת אחת מהאפשרויות לעיל (וכמובן רק אחת מהן) – או שהמסלול יהיה קבוצה סופית או שהוא יהיה צפוף בקטע \left[0,1\right). התשובה למעשה לא תלויה כלל בנקודה x (זה תרגיל פשוט למדי לבדוק זאת), אלא רק במספר \alpha שנבחר מראש. בוא ניקח לדוגמה \alpha=\frac{1}{3} ונביט במסלול של הנקודה x=0 תחת T_{\frac{1}{3}}. אז T_{\frac{1}{3}}\left(0\right)=0+\frac{1}{3}=\frac{1}{3} ואז T_{\frac{1}{3}}^{2}\left(0\right)=T_{\frac{1}{3}}\left(\frac{1}{3}\right)=\frac{2}{3} ולבסוף T_{\frac{1}{3}}^{3}\left(0\right)=\frac{2}{3}+\frac{1}{3}=0 (זיכרו שהפעולה שלנו היא חיבור מודולו 1). לכן ההעתקה T_{\frac{1}{3}} היא מחזורית ורואים שהמסלול של כל נקודה יהיה סופי. עבור x=0 המסלול הוא פשוט \left\{ 0,\frac{1}{3},\frac{2}{3}\right\} . באופן דומה, לא קשה לבדוק שאם \alpha הוא מספר רציונלי כלשהו, אז המסלול של כל x תחת T_{\alpha} הוא קבוצה סופית.

מה קורה אם \alpha הוא אי-רציונלי? זהו המקרה בו כל מסלול הוא צפוף ב-\left[0,1\right). כדי לראות זאת, ניתן להניח כי x=0 ואז המסלול הוא פשוט \left\{ n\alpha\,\left(\mbox{mod }1\right)\right\} _{n=0}^{\infty}. למה הוא צפוף? ובכן, בהינתן N>0 טבעי, נביט ב-N+1 האיברים הראשונים במסלול, כלומר 0,\alpha,2\alpha,\dots,N\alpha\,\left(\mbox{mod }1\right). נחלק את הקטע \left[0,1\right) ל-N תתי-קטעים שווי-אורך (כלומר ל-\left[0,\frac{1}{N}\right),\left[\frac{1}{N},\frac{2}{N}\right),\dots,\left[\frac{N-1}{N},1\right)). מעיקרון שובך היונים נובע ששניים מ-N+1 האיברים הראשונים במסלול נמצאים באותו תת-קטע, כלומר המרחק ביניהם קטן מ-\frac{1}{N}, נסמנם n\alpha,m\alpha ונניח ש-n>m. אז או ש-n\alpha-m\alpha\,\left(\mbox{mod }1\right) נמצא במרחק של פחות מ-\frac{1}{N} מ-0 או שהוא נמצא במרחק של פחות מ-\frac{1}{N} מ-1 (אם n\alpha>m\alpha מודולו 1, זו האפשרות הראשונה, ואחרת זו האפשרות השנייה). נשים לב ש-n\alpha-m\alpha=\left(n-m\right)\alpha\,\left(\mbox{mod }1\right) הוא איבר במסלול. אי לכך, נסיק שקיים במסלול איבר שנמצא במרחק קטן מ-\frac{1}{N} מ-0 או איבר שנמצא במרחק קטן מ-\frac{1}{N} מ-1. אבל זה נכון לכל N טבעי ולכן נסיק שניתן למצוא במסלול סדרה אינסופית \left\{ n_{i}\alpha\,\left(\mbox{mod }1\right)\right\} _{i=1}^{\infty} שיורדת ל-0 או שעולה ל-1. אם היא עולה ל-1, אז נביט בסדרת ההפרשים n_{i}\alpha-n_{i-1}\alpha\,\left(\mbox{mod }1\right). סדרה זו יורדת ל-0 ואיברה הכללי שווה ל-\left(n_{i}-n_{i-1}\right)\alpha, שהוא איבר במסלול. לפיכך בכל מקרה נוכל תמיד למצוא במסלול סדרה שיורדת ל-0. במילים אחרות, 0 הוא בהכרח נקודת הצטברות של המסלול. אבל להוכיח שהמסלול צפוף ב-\left[0,1\right) פירושו להראות שכל נקודה ב-\left[0,1\right) היא נקודת הצטברות שלו, אז איך זה עוזר? ובכן, למעשה לא צריך יותר מזה כדי להסיק את הצפיפות ואני משאיר לקוראים להבין למה (רמז: זה לא קשה!).

יש עוד הרבה שאלות מעניינות שאפשר לשאול על מערכות דינמיות, ובפרט על המערכת לעיל. למשל, ניתן לשאול לגבי תכונות ה”נשנות” (recurrence) של המערכת. במילים אחרות, אם התחלתי מנקודה x\in\left[0,1\right), האם מתישהו אחזור לנקודה הזו או לפחות קרוב אליה (כלומר האם T_{\alpha}^{n}\left(x\right) יהיה שווה או קרוב ל-x עבור n>1 טבעי כלשהו)? במקרה זה, הניתוח שלנו של המסלולים של T_{\alpha} מראה מיד שהתשובה היא כן. נניח כעת ש-\alpha הוא אי-רציונלי, כך שהמסלול של כל נקודה ב-\left[0,1\right) תחת T_{\alpha} הוא צפוף בקטע. בהינתן תת-קטע \left(a,b\right)\subset\left[0,1\right) אנחנו יודעים שכל מסלול יחתך איתו אינסוף פעמים (שהרי המסלול צפוף ב-\left[0,1\right)) וזה מעלה שאלה מעניינת – אם נקבע x\in\left[0,1\right) (נקודת התחלה), מה ה”גודל” של קבוצת ה-n-ים הטבעיים שעבורם T_{\alpha}^{n}\left(x\right) נמצא בקטע \left(a,b\right)? בניסוח יותר פרוזאי, כמה זמן מתוך המסע שלנו בילינו בתת-הקטע \left(a,b\right)? המובן של “גודל” פה הוא מעורפל, אבל הגדרה מדויקת וסבירה שלו היא כדלקמן: נביט ב-N האיברים הראשונים במסלול, כלומר ב-\left\{ T_{\alpha}^{n}\left(x\right)\right\} _{n=0}^{N-1}, ונשאל מהו אחוז האיברים מביניהם שנמצאים בקטע \left(a,b\right). במילים אחרות, נתעניין בערך \frac{\left|\left\{ T_{\alpha}^{n}\left(x\right)\right\} _{n=0}^{N-1}\cap\left(a,b\right)\right|}{N}. ככל שנגדיל את N, כך נכסה יותר את המסלול ולכן טבעי להביט בגבול הבא:

\lim_{N\to\infty}\frac{\left|\left\{ T_{\alpha}^{n}\left(x\right)\right\} _{n=0}^{N-1}\cap\left(a,b\right)\right|}{N}

ערך הגבול אומר לנו מהו אחוז האיברים במסלול שנכנסו לקטע \left(\alpha,\beta\right), באופן ממוצע. מראש לא ברור אם הגבול הוא מספר חיובי או אם הוא בכלל קיים. אבל משפט יסודי בתורה ארגודית אומר שהגבול קיים ואפילו אומר לנו מה ערכו – b-a. כלומר אחוז האיברים במסלול (או בסדרה) \left\{ x+n\alpha\,\left(\mbox{mod }1\right)\right\} _{n=0}^{\infty} ששייכים לקטע \left(a,b\right) שווה בדיוק לאורך הקטע. במילים אחרות, הסדרה המדוברת מתפלגת בקטע \left[0,1\right)במידה שווה“, כלומר היא מכסה את חלקה של כל תת-קבוצה של הקטע בהתאם לגודלה (כלומר אורכה, או אם תרצו, מידתה). שימו לב שאם לא היינו יודעים מראש שהסדרה צפופה בקטע \left[0,1\right), אז היינו מקבלים זאת כעת כמסקנה פשוטה. כמובן, אם \alpha הוא רציונלי אז שום דבר מזה לא נכון, שהרי במקרה זה המסלול הוא קבוצה סופית ולכן הגבול המדובר יהיה אפס.

לעובדה לעיל יש כמה הוכחות, שאינן מסובכות כל כך אבל עדיין דורשות יותר “טכנולוגיה” משדורשת הוכחת הצפיפות של הסדרה \left\{ x+n\alpha\,\left(\mbox{mod }1\right)\right\} _{n=0}^{\infty}, שעבורה למעשה רק היינו צריכים קומבינטוריקה בסיסית (עקרון שובך היונים). אם יש עניין בכך, אולי אציג כמה מהן בפוסט הבא. בכל מקרה, הנושא של התפלגות במידה שווה של מסלולים במערכת דינמית הוא רק אחת מהשאלות הרבות שמתעסקים בהן בתורה ארגודית, ויש עוד הרבה נושאים אחרים בתורה שניתן לדבר עליהם. במקום לעשות את זה, אתן תיאור קצת יותר כללי ופורמלי של התורה, בתקווה שהדוגמה לעיל נתנה לכם קצת אינטואיציה.

מגרש המשחקים הבסיסי בדינמיקה הוא כזה – יש לנו “מרחב”X ו”טרנספורמציה” T:X\to X ואנחנו רוצים ללמוד את ההתנהגות של T על X מבחינה דינמית – איך נראים המסלולים של נקודות ב-X תחת T, איך הם מתפלגים במרחב, האם יש נקודות מחזוריות (כאלה שאחרי הפעלה של T מספר סופי של פעמים מקבלים שוב את הנקודה ממנה התחלנו) וכולי. אלה שאלות טובות, אבל אם X היא “סתם” קבוצה ו-T היא “סתם”פונקציה כלשהי, לא נוכל ממש לומר הרבה. במקרה של הקטע \left[0,1\right) עם הטרנספורמציה T_{\alpha}, עשינו שימוש נרחב במבנה המטרי והטופולוגי של הקטע. למשל, ללא הטופולוגיה של הקטע, אין כל משמעות לטענה שקבוצה מסוימת היא צפופה בו. באשר לשאלת ההתפלגות במידה שווה של המסלולים של T_{\alpha}, כאן נכנס למשחק מבנה אחר שיש לקטע \left[0,1\right) – מידת האורך (או מידת לבג) שלו שמייחסת לכל תת-קטע \left(a,b\right) את אורכו b-a. שוב, בלי מובן של “מידה של קבוצה” (או אורך של קטע) אין משמעות לטענה שאחוז האיברים בסדרה מסוימת ששייכים לקטע ספציפי שווה לאורך הקטע. זה מוביל אותנו לשני תחומים נפרדים (אבל עדיין קשורים, במידה זו או אחרת) בדינמיקה מתמטית: הראשון נקרא דינמיקה טופולוגית, בו מניחים ש-X הוא מרחב טופולוגי ו-T:X\to X היא העתקה רציפה ועושים שימוש במסגרת הזו כדי לחקור את הדינמיקה של המערכת. התורה מפותחת היטב בעיקר במקרה בו X הוא מרחב קומפקטי, אך לא אכנס כרגע לסיבות לכך.

התחום השני הוא דינמיקה מדידה (או בשמו היותר נפוץ, תורה ארגודית) בו מניחים ש-X הוא מרחב מידה ו-T היא העתקה שומרת-מידה. כלומר, יש על X מידה \mu (המוגדרת על חלק מתתי-הקבוצות של X) ו-T מקיימת ש-\mu\left(T^{-1}\left(A\right)\right)=\mu\left(A\right) לכל קבוצה מדידה A, כלומר המידה של כל קבוצה (מדידה) שווה למידה של המקור של הקבוצה הזו תחת T (יש סיבה טובה לכך שעושים שימוש במקור של הקבוצה ולא בתמונתה, אך לא אכנס לזה כרגע). לעיתים קרובות מניחים ש-\mu היא מידה סופית או מידת הסתברות ומחזקים (או מחלישים) את ההנחות על T. בכל מקרה, המבנה ה”מידתי” שיש ל-X עושה את הדינמיקה של המערכת \left(X,T\right) ליותר מובנית ומעניינת ומאפשר לעשות שימוש במידה כדי לשאול שאלות איכותיות וכמותיות על התנהגות המערכת.

למעשה, אם תיתנו ל-X מבנה סביר כלשהו ותיקחו את T להיות פונקציה שמכבדת את המבנה הזה, סביר להניח שתיתקלו בתת-תחום מוכר של דינמיקה מתמטית. למשל, בדינמיקה חלקה חוקרים העתקות חלקות בין יריעות חלקות, בדינמיקה קומפלקסית חוקרים העתקות הולומורפיות בין יריעות מרוכבות, וכולי. כמובן, יש קשרים לא טריוויאליים כאלה ואחרים בין התחומים (קשרים שכאלה נוצרים למשל במצב בו X מצויד בשני מבנים שונים, כמו טופולוגיה ומידה, אם שני המבנים “תואמים” זה לזה ו-T מכבדת את שניהם). אי לכך, מדובר בתחום מתמטי רחב מאוד עם גבולות לא ברורים, והוא קשור בהרבה מובנים גם לתחומים אחרים במתמטיקה, כמו אנליזה הרמונית, אנליזה פונקציונלית, חבורות לי, תורת המספרים ועוד. בעייני זה גם מה שעושה אותו מאוד מעניין ואני מקווה לדבר על כך עוד בעתיד.