Jump to content
  • הצטרפו למשפחה

    היי, היי אתה (או את) שם!

    אנחנו יודעים, נחמד להיות אנונימי, ולמי בכלל יש כוח להירשם או להיות עכשיו "החדשים האלה".

    אבל בתור חברי פורום רשומים תוכלו להנות ממערכת הודעות פרטיות, לנהל מעקב אחרי כל הנושאים בהם הייתם פעילים, ובכלל, להיות חלק מקהילת הרכב הכי גדולה, הכי מגניבה, וכן - גם הכי שרוטה, באינטרנט הישראלי. 

    אז קדימה, למה אתם מחכים? בואו והצטרפו ותהיו חלק מהמשפחה הקצת דפוקה שלנו.
     

האם web scraping חוקי?


dir="rtl" style="text-align:right;"> שימו לב! השרשור הזה בן 1814 ימים, שזה ממש ממש הרבה ולכן הוא ננעל.

אם אתם פותחי השרשור ו/או יש לכם עדכון רלוונטי לנושא - פנו לאחד המנהלים ונפתח את השרשור חזרה לתגובות.

פוסטים מומלצים

פורסם

השאלה שנשאלת היא, לטובת מה?  

 

אינני משפטן אך ההיגיון אומר שכל עוד זה לשימושך האישי והן נשמרות על מחשבך, אין בעיה. זה מתחיל להסתבך כשאתה מתחיל להפיצן בכל צורה שהיא.  גם אם האתר חותם על התמונות שהמשתמשים מעלים את החתימה שלו, זה מסבך עוד יותר.

 

מצד שני, ישנם אתרים שמאפשרים למשוך את המידע המפורסם בהם ב-API ואז למעשה ישנה הרשאה בהסכמה למשיכת המידע.(אני מאמין שלא כולם מקבלים את האפשרות הזו).

 

אבל שוב, מה הצורך?

 

 

 

 

המכוניות שלי : Lantis-F 98 -> מאזדה מיאטה 95

המכוניות של אשתי : יונדאי אקסט 95, מאזדה 3 2006, מיאטה NB 2003, סיטרואן C3 2017

המכוניות ליסינג שהיו לי : מאזדה 3 2010, סוזוקי סוויפט 2014, סוזוקי ויטרה 2016, רנו גרנד קופה 2019, סקודה קאמיק

החלום : RX8

פורסם

האיסוף של תמונות - מאתרים שהגישה אליהם פומבית - חוקי. זה מה שהדפדפן שלך עושה בכל מקרה ושומר בצד.

אוכל את הכובע שהגיש לי avergel ומודה קבל עם ועדה שלפעמים מחשבים של אסוס מחזיקים מעמד אפילו מעל לשנה שלמה - אם נזכרים לעדכן את ה-bios.

פורסם

השימוש הוא לאימון מודל לזיהוי אובייקטים לשימוש אישי, התמונות נשמרות על מחשבי האישי בלבד.

 

אם אני עוקף חסימות של האתר בשביל למשוך באופן אוטומטי את התמונות האלו, האם לדעתכם זה עדיין בסדר משפטית?

 

האם אתר שבו כתוב בתנאי השימוש שלו: "שלא לבצע כל פעולה אשר תייצר ו/או אשר עלולה לייצר עומס על מערכות ושרתי האתר"

 

או: "הינך מצהיר ומתחייב שלא לאסוף נתונים מהאתר בכל צורה שהיא (למעט על דרך של צפייה רגילה במודעות ככל משתמש סביר) לרבות בכל אמצעי טכנולוגי ו/או אלקטרוני ו/או ממוחשב ו/או באמצעות תוכנות אוטומטיות (ובכלל זאת רובוטים, spiders, scrapers וכיו"ב). כל שימוש אחר"

 

או: "

  • שלא לעקוף או לנסות לעקוף כל אמצעי טכנולוגי הקיים באתר ו/או במערכות הקשורות אליו אשר תפקידו למנוע אלו מן הפעילויות האסורות תחת תקנון השימוש.

"

לפני שעתיים, Shmulik_Miata כתב:

השאלה שנשאלת היא, לטובת מה?  

 

אינני משפטן אך ההיגיון אומר שכל עוד זה לשימושך האישי והן נשמרות על מחשבך, אין בעיה. זה מתחיל להסתבך כשאתה מתחיל להפיצן בכל צורה שהיא.  גם אם האתר חותם על התמונות שהמשתמשים מעלים את החתימה שלו, זה מסבך עוד יותר.

 

מצד שני, ישנם אתרים שמאפשרים למשוך את המידע המפורסם בהם ב-API ואז למעשה ישנה הרשאה בהסכמה למשיכת המידע.(אני מאמין שלא כולם מקבלים את האפשרות הזו).

 

אבל שוב, מה הצורך?

 

 

 

 

יכול לכוון אותי לאתרים כאלו? (בדגש על API חינמי

פורסם
לפני 3 שעות, אסטון מרטין כתב:

אם אני עוקף חסימות של האתר בשביל למשוך באופן אוטומטי את התמונות האלו, האם לדעתכם זה עדיין בסדר משפטית?

האם אתר שבו כתוב בתנאי השימוש שלו: "שלא לבצע כל פעולה אשר תייצר ו/או אשר עלולה לייצר עומס על מערכות ושרתי האתר"

או: "הינך מצהיר ומתחייב שלא לאסוף נתונים מהאתר בכל צורה שהיא (למעט על דרך של צפייה רגילה במודעות ככל משתמש סביר) לרבות בכל אמצעי טכנולוגי ו/או אלקטרוני ו/או ממוחשב ו/או באמצעות תוכנות אוטומטיות (ובכלל זאת רובוטים, spiders, scrapers וכיו"ב). כל שימוש אחר"

או: "

  • שלא לעקוף או לנסות לעקוף כל אמצעי טכנולוגי הקיים באתר ו/או במערכות הקשורות אליו אשר תפקידו למנוע אלו מן הפעילויות האסורות תחת תקנון השימוש.

"

"אני רוצה לעשות פעולה שצויינה בבירור שהיא לא חוקית בהסכמי השימוש של האתר, האם זה חוקי?".

מצד שני...

אני מניח שהחוקים האלו נועדו לשמירה על פרטיות המשתמשים, וההגדרה נועדה בעיקר על המידע האישי כמו שמות וטלפונים, המקושרים למספרי הרישוי של הרכבים. 

אני לא משפטן ולא עו"ד. תצטרך להתייעץ עם אחד כזה. נשמע שאתה מעוניין לעשות ניסוי עבור הלימודים, האם יש לך מישהו מהבי"ס שאתה לומד בו שאחראי על דילמות אתיות ומשפטיות? תוכל להתייעץ איתו. 

ערוץ היוטיוב שלי: BuildiT - DIY Israel.

אם הייתי טוב במתמטיקה, לא הייתי דופק חשבון כל הזמן.

בתאריך 7.5.2025 בשעה 12:58, Night Driver כתב:

ברווז זה עוף ימי. גם מוח של ציפור וגם זיכרון של דג.

פורסם

אתה עובר על תנאי השימוש של האתר. 

 

בתור חברה מסחרית, מה הם יכולים לעשות בעניין?  המון - שעה אחר סיום ה Scraping, צפה למחלקת ימ"מ שלמה מחוץ לבית שלך עם נשקים שלופים וכדור בקנה.  או שלא.

 

ובנימה רצינית - אם ממש תעלה להם על העצבים - הם ישלחו תלונת Abuse לספק אינטרנט שלך, שבתורו יצור איתך קשר.  לכן כדאי לעשות את זה דרך VPN.

No worries 8)

פורסם (נערך)
לפני 21 שעות, אסטון מרטין כתב:

 

או: "

  • שלא לעקוף או לנסות לעקוף כל אמצעי טכנולוגי הקיים באתר ו/או במערכות הקשורות אליו אשר תפקידו למנוע אלו מן הפעילויות האסורות תחת תקנון השימוש.

"

יכול לכוון אותי לאתרים כאלו? (בדגש על API חינמי

 

יש חברה ישראלית בשם rapidApi - לא בטוח שלזה התכוונו.

אני מכיר מקרה על אתר חדשות ישראלי שלא אהב שעושים עליו את הפעולה. פנו לספק ודרכו הגיעו לאדם שבתורו ניסה ליצור איתם קשר בעניין ולבסוף הם אישרו לו לבצע את זה בצורה חוקית וגם עזרו בנושא (מיזם שלא צלח).

עריכה אחרונה על ידי yaniv572
פורסם

אם תעשה את זה חכם עם throttle לא יווצר שום עומס על האתר וזה לא יפריע לאף אחד. יש מאות חברות שמבצעות crawling, כולל גוגל וכשזה מתבצע על אש קטנה בקצב נמוך אף אחד לא מתעסק עם זה. קביעת הקצב הנכון היא אמנות בפני עצמה, אבל זה סיפור לפעם אחרת :-)

 

אגב, מה הגודל שאתה צריך ל-dataset?

אלף תמונות? מאה אלף? חייב להיות רק מאתר יחיד? אין שורה של אתרים שיכולים לספק לך את אותו סוג של תמונות?

אוכל את הכובע שהגיש לי avergel ומודה קבל עם ועדה שלפעמים מחשבים של אסוס מחזיקים מעמד אפילו מעל לשנה שלמה - אם נזכרים לעדכן את ה-bios.

פורסם

באתרים ישראלים גם קצב נמוך יחסית יכול לעצבן את מי שמנטר את התעבורה.

יש דרכים יעילות יותר ויעילות פחות להתמודד עם מגרדי תוכן בעלות אפסית. השאלה אם רוצים.

 

יכול לשתף שבעבר נתקלנו בנסיונות חוזרים ונשנים לבצע גירוד תוכן, הבעיה הייתה שזה היה קורה 24/7 ויצר עומס בשעות הפיק.

 

אם היינו יכולים לפנות לבן אדם ולהגיד לו שמע, קח מפתח, קח ENDPOINT, ותתשאל API נפרד, ואת הפעולות ה"כבדות" תעשה בין 12 בלילה ל5 בבוקר,

ככה שלא יעמיס לנו על השרת ולא תצטרך לפרסר טקסט ולשנות כל פעם שאנחנו מעדכנים את האתר היינו עושים את זה.

 

אבל יש לנו רק IP.

 

בסופו של דבר הטמענו אמצעים לחסימת IP אחרי X פניות ב X זמן למשך X זמן ובהתאם לתוצאות עשינו אופטימיזציה עד שהבן אדם עבר להשתמש ב VPN משתנה.

 

לאחר מכן הטמעת reCaptcha "אני לא רובוט" (גרסה 3)  עצר אותו.

 

מי שלא מעוניין בזה, יש אפשרות נוספת שהיא לזהות IP "בעייתי" ולהגיש לו תוכן במבנה תקין אך מידע אקראי לחלוטין שיגרום לו להרבה זמן שייקח לו זמן להבין שעובדים עליו.

 

 

ברמת התשתית יש גם אפשרות גם לחסום טווחי IP ממדינות שידועות כבעייתיות או ממדינות שהם לא קהל היעד לאתר.

 

בקיצור, בעל האתר הוא די מי שקובע ואם יחליט שלא מתאים לו, עם קצת רצון, יכול לגרום לזה שכל העבודה שעשית לבנות את הסקריפט, לעשות שינויים, להבין מה לא עובד שוב לתקן שוב לסדר, בסופו של דבר - יילך לפח.

  • אהבתי 1
פורסם

משום מה לא נותן לי לצטט הודעות..

אז ככה

תכלס הייתי צריך 1000 תמונות של האובייקט המסויים אבל להוציא אותם ידנית תיסכל אותי אז כתבתי סקריפט בסיסי שמוצא את האובייקט בצורה לא יעילה, על כל 6 תמונות הוצאתי crop אחד בערך, כמובן שהכל אוטומטי..

 

בקצרה אומר שהאתרים הישראלים המצליחים מוגנים בצורה טובה מאוד ולמרות שניתן לעקוף את החסימות זה פשוט לא שווה את הטרחה (מלבד האתגר שבדבר כמובן וכמובן שהצלחתי בקנה מידה קטן)

זה לא לפרוייקט של בית ספר, התחלתי ללמוד קצת "תכנות" פייתון וזה הפך להיות תחביב.

על הדרך גיליתי מה זה מולטיטרדינג ועשרת אלפים תמונות נחתו אצלי במחשב בתוך פחות מחמש דקות.

מתוכם קרוב ל2000 שמישות.

 

 

"בתור חברה מסחרית, מה הם יכולים לעשות בעניין?  המון - שעה אחר סיום ה Scraping, צפה למחלקת ימ"מ שלמה מחוץ לבית שלך עם נשקים שלופים וכדור בקנה.  או שלא."

בערך מה שעבר לי בראש :)

 

  • אהבתי 1
×
×
  • תוכן חדש...